Jag har två olika mätinstrument, A och B, båda mäter samma fysiska kvantitet men med olika måttenhet: $ u_A $ och $ u_B $.

A är ett referensinstrument.

Jag mätte en referensdel $ L $ $ n $ gånger med A och jag får $ n $ -värdena $ L_ { Ai} $ ($ i = 1 \ dots n $) uttryckt i termen för måttenheten $ u_A $.

Sedan mäter jag samma referensdel, $ L $, $ m $ gånger med B och jag får $ m $ -värdena $ L_ {Bj} $ ($ j = 1 \ dots m $) uttryckt i termen för måttenheten $ u_B $.

I framtiden kommer jag att göra min mäter med B men jag kommer att vara intresserad av måttet uttryckt i termen för måttenheten $ u_A $.

Jag antar att jag kan konvertera $ u_B $ till $ u_A $ med bara en multiplikationsomvandlingsfaktor $ k $.

Nu har jag tre frågor:

  1. Är det möjligt att bedöma giltigheten av antagandet ovan med utgångspunkt från värdena $ L_ {Ai } $ och $ L_ {Bj} $?

  2. Om antagandet är giltigt, hur kan jag beräkna omvandlingsfaktorn $ k $ för att konvertera måttet från $ u_B $ till $ u_A $, dvs $ L_A = k L_B $?

  3. Hur hanterar jag fallet där jag har mer än en del, dvs $ L_1 $, $ L_2 $ osv.

Mitt första försök är att anta antagandet som giltigt och beräkna sedan $ k $ som $ k = \ frac {m \ sum_ {i = 1} ^ n LA_i} {n \ sum_ {j = 1} ^ m LB_i} $ men det bygger mer på ” sunt förnuft ”snarare än på någon korrekt statistisk grund.

Kan du ge mig några tips om den del av statistiken som täcker denna typ av problem? Kanske linjär regression?

Kommentarer

  • Din metod (letar efter ” en multiplikativ omvandlingsfaktor ”) fungerar inte mellan Fahrenheit och Celsius.
  • @Henry Ja jag vet, det är av den anledningen som jag ställde frågan nummer 1.
  • Berättar du att du vet att samma fysiska kvantitet mäts i olika enheter men att du inte vet hur enheterna omvandlas?
  • @cbeleites Ja.
  • Men gör du känner till enheterna?

Svar

Baserat på dina kommentarer är det du vill göra kalibrering , som du också vill validera :

du har

  • referensmätningar av en temperatur ( termometer A) och
  • mätningar av instrument B som inte är en termometer ännu, eftersom du inte får svar av de fysiska kvantitetstemperaturerna men av en fysisk kvantitet som t.ex. elektroner / s.
    Kameravläsning är inte samma fysiska storlek som en temperatur.

Så i själva verket är din uppgift att hitta omvandlingen mellan elektroner / s och temperatur, dvs. kalibrera kamerans utgång till temperaturer.

Jag är kemiker, jag gör kalibreringar för att relatera instrumentavläsningen till kemiska kvantiteter. Det finns hela böcker skrivna om hur man får en bra kalibreringsmodell (din fråga 2 ) och sedan hur man validerar den här metoden (din fråga 1).

Så:

Fråga 1: hur man beräknar parametern $ k $ ?

Detta kallas att passa kalibreringsmodellen.

Och den här delen börjar faktiskt med att bestämma vilken typ av modell som är lämplig. Det är vad ditt antagande (multiplikativ) är.

I kemometri används ibland termerna mjuka och hårda modeller för att skilja:

  • hårda modeller: härleda ansatz för modellen från första (globala) principer ,
    t.ex. beskrivning g kameravläsning som funktion av temperatur (t.ex. svart kroppsstrålning, kamerans kvanteffektivitet vid olika våglängder, …) och sedan lösa temperaturen och förenkla så mycket som möjligt genom att slå samman så många parametrar som möjligt till färre parametrar som behöver bestämmas experimentellt.
  • mjuka modeller: modellerar kalibreringsfunktionen med approximationer som är oberoende av den exakta fysiska anslutningen.
    Till exempel Du kan anta att om ditt temperaturintervall är tillräckligt smalt kan du approximera det okända hårda ansatzet med en linjär modell. Om det inte är tillräckligt kan kvadratisk vara lämplig osv. Eller så kan du förvänta dig ett sigmoidbeteende etc.

Rekommendation 1: tänka lite och bestäm ungefär vilken typ av relation du förväntar dig.

Mjuk modellering är ett giltigt och allmänt använt alternativ, men du borde kunna ge resonera varför multiplikativt förhållande är förnuftigt jämfört med andra familjefunktioner som sigmoid eller exponentiell eller logaritmisk.

Fråga 3: Vad ska man göra med mer $ L $ s?

Jag är inte säker på om jag förstår rätt vad de olika $ L $ är.

  • om de är mätningar på delar med annan temperatur kommer du att behöva dem som Peter Flom och gung redan sa.
    Vanligtvis är extrapolering utanför det kalibrerade intervallet (dvs. temperaturintervallet som spänns av dina modellanpassningsdata) anses inte giltigt . Du kan argumentera för ett undantag om du validerar (se nedan) metoden för ett bredare intervall; men om du kan få ett brett spektrum av valideringsdata finns det ingen anledning till att du inte kunde få träningsdata för det intervallet också.

  • om du hänvisar till kameran med många pixlar: det beror på kamerans egenskaper om du rimligen kan anta att alla pixlar följer samma kalibrering eller om du behöver kalibrera varje pixel.

Fråga 1: Hur vet man om multiplikativt förhållande är lämpligt? Del I

I kemometri görs inte ens multiplicativ utan avlyssning i situationer där den hårda modellen antyder enbart multiplikativt förhållande (t.ex. Beer-Lambert-lag) som det finns vanligtvis många saker i konstruktionen av instrument som leder till en avlyssning.
Min erfarenhet antyder att multiplikationsförhållande utan en avlyssningsterm är knappast någonsin lämpligt för kameravläsning.
Till exempel all kameravläsning I ” har arbetat med hittills haft en förspänning eller mörk ström som skulle vara en avlyssning i modellen.

Rekommendation 2: om du bestämmer dig för en multiplikativ modell utan avlyssning, borde du kunna ge mycket goda skäl till varför ingen avlyssning kan förekomma. Detta kan vara lättare tvärtom: försök att uppfinna situationer som kan leda till en avlyssning för kameravläsningen. Om du kan komma med en avlyssning bör du inkludera en i modellen.

Den så kallade regressionsdiagnostiken för linjära modeller kommer att berätta om avlyssningen inte kan särskiljas från noll . Det skulle vara bevis som gör att du kan passa en modell utan avlyssning. På samma sätt kan du passa in i en kvadratisk modell och se om det kvadratiska ordet kan skiljas från noll.

Fråga 1: Hur vet man om multiplikationsförhållande är lämpligt? Del II

Medan du kan upptäcka vissa saker som går fel inom mätuppsättningen som används för att bygga kalibreringsmodellen, ” giltig ” betyder mer än så. Vanligtvis betyder det att visa att din kalibrering kan användas med framgång på kameravläsning av helt okända prover (eventuellt uppmätt någon tid efter att kalibreringen gjordes). Återigen finns det en hel mängd litteratur till validering , och beroende på vad ditt exakta fält är finns det också normer som du ska följa.

Kortfattat, för validering behöver du en andra uppsättning mätningar som inte var involverad på något sätt i att bygga kalibreringen. Du jämför sedan referensinstrumentets utdata med kalibreringens förutsägelser. Om du tittar på avvikelserna kan du bedöma flera aspekter av korrektheten i din kalibrering:

  • bias (dvs. din modell har en systematisk avvikelse)
  • varians (slumpmässig osäkerhet)
  • drift (dvs. $ k $ ändras över tiden; kräver lämplig planering av mätningar )

Viss litteratur

Kommentarer

  • Tack så mycket. Har du några förslag på en bra onlinehandledning eller en bok?
  • @uvts_cvs: Jag lade till några länkar till litteratur. De senare 2 är journalpapper som kan ligga bakom en betalvägg för dig. Förutom det kan jag rekommendera dig några böcker på tyska.

Svar

Om du gör det mindre restriktiva antagandet att de två mätningarna är relaterade med någon linjär ekvation, då : För fråga 1 kan du bedöma antagandet med linjär regression. Om det är giltigt bör skärningen vara 0 (eller mycket nära 0, om det finns mätfel).

För fråga 2 kommer koefficienten att berätta konstanten som ska användas

Jag är inte säker på fråga 3, men att göra flera multipla regressioner borde ge mycket liknande resultat, såvida det inte finns mycket mätfel.

t.ex. för Fahrenheit och Celsius:

set.seed(1919187321) LAbase <- c(0, 10, 20) LBbase <- LAbase*9/5 + 32 #Add error LA <- LAbase + rnorm(3) LB <- LBbase + rnorm(3) #regress m1 <- lm(LB~LA) summary(m1) 

och med detta frö åtminstone är resultaten ganska nära.

Med tanke på att du kommer att ha mer än tre mätningar med varje instrument, kan du bedöma det ursprungliga antagandet genom att rita en spridningsdiagram över de två mätningarna och sedan använda en jämn kurva som löss eller splines. Om antagandet är korrekt kommer den släta kurvan att vara nästan rak.

Kommentarer

  • Tack. Ditt kodprov är meningsfullt eftersom du använder tre olika värden för LAbase, mitt fall är mer som LAbase <- c(10, 10, 10) där L=10 och n=3 och i så fall är den beräknade modellen m1 inte meningsfull för mig.
  • Om du får samma värden hela tiden för LAbase finns det inget sätt att göra någonting.

Svar

  1. Ditt antagande att måtten bara kommer att skilja sig åt med en multiplikationskonstant tycker mig verkligen är falskt. Det faktum att detta inte skulle fungera för att konvertera från Fahrenheit till Celsius visar det.
  2. (A.k.a. # 3) Du måste bedöma mer än en del. Du har inte tillräckligt med frihetsgrader för att bestämma omvandlingen mellan de två mätningarna om du bara använder en del. Försök dessutom att få delar där de verkliga värdena för mätningarna sträcker sig så stort som möjligt och definitivt spänner över det intervall inom vilket du vill göra omvandlingen i framtiden.
  3. (A.k.a. # 2) Du kan bestämma omvandlingsekvationen med hjälp av en regressionsanalys. Med flera åtgärder kan du använda en modell på flera nivåer, men jag misstänker att detta är mer än vad som är nödvändigt. Om du gör flera mått på varje del med varje mätinstrument kan du bara använda medelvärdet, som du beskriver, för att få ett mer robust mått. Då kan du bara använda dessa två medel som dina $ x $ och $ y $ värden för den delen. Beta-uppskattningarna från regressionsekvationen ger dig den förändring som krävs.

    Observera att dessa inte kommer att vara samma värden som du kan få via andra konverteringsstrategier, eftersom proceduren skiljer sig; till exempel för att konvertera från Fahrenheit till Celsius kan du subtrahera 32 och dela med 1,8 , men för att använda en regressionsekvation, $ \ beta_0 \ approx18 $ och $ \ beta_1 \ approx.6 $. Detta spelar ingen roll, så länge du vet vilken procedur du använder.

    Ytterligare en Fördelen med regressionsmetoden är förresten omvandlingen mellan två mätinstrument som inte nödvändigtvis är linjära över hela det möjliga intervallet, vilket en regressionsanalys kan göra att du kan modellera.

Svar

Om du har flera mått på samma kvantitet flera gånger i de två enheterna, finns det i allmänhet inget sätt att uppskatta omvandlingen från en enhet till en annan.

Men om du visste att det finns ett multiplikationsförhållande mellan de två, och att bruset i de två uppsättningarna om mätningarna är noll- betyder normalt (med lika avvikelser eller olika men kända avvikelser), då kan du uppskatta multiplikationsfaktorn $ k $ med maximal sannolikhet.

Om du antar ovanstående antaganden kan du fortsätta enligt följande. Låt $ X_B $ vara det faktiska värdet av den kvantitet som du upprepade gånger mäter i enheter på $ B $. Därefter $ L_ {Ai} = k X_B + e_i $, $ i = 1, \ dots, n $ och $ L_ {Bj} = X_B + f_j $, $ j = 1, \ dots, m $.

$ e_i $ och $ f_j $ är normala i.i.d., normala slumpmässiga variabler med medelvärde 0 och varians $ \ sigma ^ 2 $. Du kan skriva loggens sannolikhet för data som

$$ L (data; k, X_B) = const – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Ai} – k X_B) ^ 2 – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Bi} – X_B) ^ 2 $$

Du borde kunna maximera denna kvantitet i termer av $ k $ och $ X_B $ för att få din transformation (och en uppskattning av kvantiteten).

Om du går igenom algebra för att ställa in delderivaten för log-sannolikhetsfunktionen med avseende på $ k $ och $ X_B $ till noll, bör du få uttrycket för $ k $ du har i din fråga.

$ X_B = \ frac {\ sum_j L_ {Bj}} {m} $ och $ k = \ frac {m \ sum_i L_ {Ai}} {n \ sum_j L_ {Bj}} $

Svar

Nyckeldokumentet du behöver är GUM (Guide to the Usecurity in Measurement) – JCGM 100: 2008 (GUM 1995 med mindre korrigeringar) Bureau International de Poids et Mesures / guides / gum som ger fullständig (internationell standard) information om hur man kan bedöma prestandan för en åtgärd mot en referens (din referens har redan en bedömbar osäkerhet). De amerikanska NIST-dokumenten baseras också direkt på detta.

GUM kan du göra ditt val om bedömningsmetod, men kräver sedan att du anger en felterm för alla antaganden, till exempel tron att de två instrument har ingen förskjutning.

Du kommer att ha både systematiska termer och slumpmässiga termer. De systematiska termerna är vanligtvis det större felet och bedöms vanligtvis (titta på de tidiga 1900-talets uppskattningar för ljusets hastighet och deras felstaplar – som inte överlappar varandra!).

Eftersom du har bara en referensdel, allt du kan göra hittills är att bedöma de relativa storleken på de två slumpmässiga mätfelen (inklusive lokal systematisk variation som temperatur, operatör, tid på dagen ..)

I slutet skulle du kunna ange ett fel och en täckningsfaktor för dina nya avläsningar över ett visst giltighetsområde.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *