Jeg har to forskjellige måleinstrumenter, A og B, begge måler den samme fysiske størrelsen, men med forskjellige måleenheter: $ u_A $ og $ u_B $.
A er et referanseinstrument.
Jeg målte en referansedel $ L $ $ n $ ganger med A og jeg får $ n $ -verdiene $ L_ { Ai} $ ($ i = 1 \ dots n $) uttrykt i løpet av måleenheten $ u_A $.
Så måler jeg den samme referansedelen, $ L $, $ m $ ganger med B og jeg får $ m $ -verdiene $ L_ {Bj} $ ($ j = 1 \ dots m $) uttrykt i løpet av måleenheten $ u_B $.
I fremtiden vil jeg lage min måler med B, men jeg vil være interessert i tiltaket uttrykt i løpet av måleenheten $ u_A $.
Jeg antar at jeg kan konvertere $ u_B $ til $ u_A $ ved hjelp av bare en multiplikasjonsomregningsfaktor $ k $.
Nå har jeg tre spørsmål:
-
Er det mulig å vurdere gyldigheten av ovennevnte antagelse med utgangspunkt i verdiene $ L_ {Ai } $ og $ L_ {Bj} $?
-
Hvis antagelsen er gyldig, hvordan kan jeg beregne konverteringsfaktoren $ k $ for å konvertere tiltaket fra $ u_B $ til $ u_A $, dvs. $ L_A = k L_B $?
-
Hvordan håndtere saken der jeg har mer enn en del, dvs. $ L_1 $, $ L_2 $ osv.
Mitt første forsøk er å anta antagelsen som gyldig og beregn deretter $ k $ som $ k = \ frac {m \ sum_ {i = 1} ^ n LA_i} {n \ sum_ {j = 1} ^ m LB_i} $, men den er mer basert på » sunn fornuft «snarere enn på noe riktig statistisk grunnlag.
Kan du gi meg noen tips om den delen av statistikken som dekker denne typen problemer? Kanskje lineær regresjon?
Kommentarer
- Metoden din (ser etter » en multiplikativ konverteringsfaktor «) ville ikke fungere mellom Fahrenheit og Celsius.
- @Henry Ja jeg vet, det er av den grunn at jeg stilte spørsmål nummer 1.
- Forteller du oss at du vet at den samme fysiske kvantiteten måles i forskjellige enheter, men at du ikke vet hvordan enhetene blir konvertert?
- @cbeleites Ja.
- Men gjør du kjenner du enhetene?
Svar
Basert på kommentarene dine, er det du vil gjøre kalibrering , som du også vil validere :
du har
- referansemålinger av en temperatur ( termometer A), og
- målinger av instrument B som ikke er et termometer ennå, da du ikke får svar av de fysiske mengdetemperaturene, men av en fysisk mengde som f.eks. elektroner / s.
Kameraavlesning er ikke den samme fysiske størrelsen som en temperatur.
Så faktisk er din oppgave å finne konverteringen mellom elektroner / s og temperatur, dvs. til kalibrer kameraets utgang til temperaturer.
Jeg er kjemiker, jeg foretar kalibreringer for å relatere instrumentavlesning til kjemiske mengder. Det er hele bøker skrevet om hvordan du får en god kalibreringsmodell (spørsmålet ditt 2 ) og deretter hvordan du validerer denne metoden (spørsmålet ditt 1).
Så:
Spørsmål 1: hvordan du beregner parameteren $ k $ ?
Dette kalles å tilpasse kalibreringsmodellen.
Og denne delen begynner faktisk med å bestemme hvilken type modell som passer. Dette er antagelsen din (multiplikativ) er.
I kjemometri brukes noen ganger begrepene myke og harde modeller for å skille mellom:
- harde modeller: å hente ansatz for modellen fra første (globale) prinsipper ,
f.eks. beskrivelse g kameraavlesning som funksjon av temperatur (f.eks. svart kroppsstråling, kameraets kvanteeffektivitet ved forskjellige bølgelengder, …) og deretter løse temperaturen og forenkle så mye som mulig ved å slå sammen så mange parametere som mulig til færre parametere som må bestemmes eksperimentelt. - soft modeller: modellering av kalibreringsfunksjonen ved tilnærminger som er uavhengige av den eksakte fysiske forbindelsen.
F.eks. Du kan anta at hvis temperaturområdet ditt er smalt nok, kan du tilnærme den ukjente harde ansatten etter en lineær modell. Hvis det ikke er nok, kan kvadratisk være hensiktsmessig osv. Eller du kan forvente en sigmoid oppførsel osv.
Anbefaling 1: tenk litt og bestem omtrent hvilken type forhold du forventer.
Soft modellering er et gyldig og mye brukt alternativ, men du bør kunne gi resonnement hvorfor multiplikasjonsforhold er fornuftig sammenlignet med andre familier av funksjoner som sigmoid eller eksponentiell eller logaritmisk.
Spørsmål 3: Hva skal jeg gjøre med mer $ L $ s?
Jeg er ikke sikker på om jeg forstår riktig hva de forskjellige $ L $ er.
-
hvis det er mål på deler med annen temperatur, trenger du dem som Peter Flom og gung allerede sa.
Vanligvis blir ikke ekstrapolering utenfor det kalibrerte området (dvs. temperaturområdet som er tilpasset modelldataene dine) ansett som gyldig . Du kan argumentere for et unntak hvis du validerer (se nedenfor) metoden for et bredere spekter; men hvis du kan få et bredt spekter av valideringsdata, er det ingen grunn til at du ikke kunne få opplæringsdata for det området også. -
hvis du henviser til kameraet har mange piksler: det vil avhenge av egenskapene til kameraet om du med rimelighet kan anta at alle piksler følger den samme kalibreringen, eller om du trenger å kalibrere hver piksel.
Spørsmål 1: Hvordan vite om multiplikativt forhold er hensiktsmessig? Del I
I kjemometri blir ikke multiplikativ uten avskjæring engang gjort i situasjoner der den harde modellen antyder bare multiplikativt forhold (f.eks. Beer-Lambert-lov) som det er vanligvis mange ting i konstruksjonen av instrumenter som fører til en avlytting.
Min erfaring antyder at multiplikasjonsforhold uten avlyttingsbetegnelse neppe er passende for kameraavlesning.
F.eks. ll kameraavlesning I » har jobbet med så langt hadde en skjevhet eller mørk strøm som ville være et skjæringspunkt i modellen.
Anbefaling 2: hvis du bestemmer deg for en multiplikativ modell uten avlytting, bør du kunne gi veldig gode grunner til at det ikke kan forekomme skjæringspunkt. Dette kan være lettere omvendt: prøv å finne på situasjoner som kan føre til et skjæringspunkt for kameraavlesningen. Hvis du kan finne på et skjæringspunkt, bør du inkludere et i modellen.
Den såkalte regresjonsdiagnostikken for lineære modeller vil fortelle deg om skjæringspunktet ikke kan skilles fra null . Det ville være bevis som lar deg passe en modell uten avlytting. På samme måte kan du tilpasse en kvadratisk modell og se om kvadratiske begrepet kan skilles fra null.
Spørsmål 1: Hvordan vite om multiplikativt forhold er passende? Del II
Mens du kan oppdage visse ting som går galt i settet med målinger som brukes til å bygge kalibreringsmodellen, er » gyldig » betyr mer enn det. Vanligvis betyr det å demonstrere at kalibreringen din kan brukes på kameraavlesning av helt ukjente prøver (muligens målt noen tid etter at kalibreringen ble gjort). Igjen er det en hel mengde litteratur til validering , og avhengig av hva ditt eksakte felt er, er det også normer som du bør følge.
Kort, for validering trenger du et andre sett med målinger som ikke var involvert på noen måte i å bygge kalibreringen. Deretter sammenligner du referanseinstrumentets utgang med kalibreringens spådommer. Ser du på avvikene, kan du vurdere flere aspekter av korrektheten til kalibreringen:
- skjevhet (dvs. at modellen din har en systematisk avvik)
- varians (tilfeldig usikkerhet)
- drift (dvs. $ k $ endres over tid; krever passende planlegging av målinger )
Litt litteratur
- IUPAC-anbefalinger: Retningslinjer for kalibrering i analytisk kjemi. Del I. Grunnleggende og kalibrering av enkeltkomponenter
Dette er som en norm. - American Laboratory har en serie kalt » Statistikk i analytisk kjemi »
mange ting her, inkludert casestudier - Richard G. Brereton: Introduksjon til multivariat kalibrering i analytisk kjemi, Analyst, 2000, 125, 2125-2154.
ser ut til å dekke univariat kalibrering også. - Esbensen, KH & Geladi, P. Prinsipper for korrekt validering: bruk og misbruk av re-sampling for validering J. Chemometrics, John Wiley & Sons, Ltd., 2010, 24 , 168-187
gir en god diskusjon hva du trenger å huske på når du velger valideringseksempler.
Kommentarer
- Tusen takk. Har du noen forslag til en god online veiledning eller en bok?
- @uvts_cvs: Jeg la til noen lenker til litteratur. De sistnevnte 2 er journalpapirer som kan ligge bak en lønnsmur for deg. I tillegg til at jeg kunne anbefale deg noen bøker på tysk.
Svar
Hvis du legger til grunn en mindre begrensende antagelse om at de to målingene er relatert av en eller annen lineær ligning, så : For spørsmål 1 kan du vurdere antagelsen ved hjelp av lineær regresjon. Hvis det er gyldig, bør skjæringspunktet være 0 (eller veldig nær 0, hvis det er målefeil).
For spørsmål 2 vil koeffisienten fortelle deg konstanten du skal bruke
Jeg er ikke sikker på spørsmål 3, men å gjøre flere flere regresjoner burde gi veldig like resultater, med mindre det er mye målefeil.
F.eks. for Fahrenheit og Celsius:
set.seed(1919187321) LAbase <- c(0, 10, 20) LBbase <- LAbase*9/5 + 32 #Add error LA <- LAbase + rnorm(3) LB <- LBbase + rnorm(3) #regress m1 <- lm(LB~LA) summary(m1)
, og i det minste med dette frøet er resultatene ganske nære.
Gitt at du vil ha mer enn tre målinger med hvert instrument, kan du vurdere den opprinnelige antagelsen ved å tegne en spredningsdiagram av de to målingene og deretter bruke en jevn kurve som løss eller splines. Hvis antagelsen er riktig, vil den glatte kurven være nesten rett.
Kommentarer
- Takk. Kodeeksemplet ditt er meningsfylt fordi du bruker tre forskjellige verdier for
LAbase
, saken min er mer somLAbase <- c(10, 10, 10)
derL=10
ogn=3
og i så fall er den beregnede modellenm1
ikke meningsfull for meg. - Hvis du får de samme verdiene hele tiden for LAbase, er det ingen måte å gjøre noe på.
Svar
- Antagelsen din om at tiltakene bare vil avvike med en multiplikasjonskonstant, synes meg absolutt falsk. Det faktum at dette ikke ville fungere for å konvertere fra Fahrenheit til Celsius, demonstrerer det.
- (A.k.a. # 3) Du må vurdere mer enn én del. Du vil ikke ha nok frihetsgrader til å bestemme konverteringen mellom de to målingene hvis du bare bruker en del. Videre, prøv å få deler der de sanne verdiene til målingene spenner over et så stort område som mulig, og absolutt spenner over området du vil ønske å gjøre konverteringen i fremtiden.
-
(A.k.a. nr. 2) Du kan bestemme konverteringsligningen ved hjelp av en regresjonsanalyse. Med flere tiltak kan du bruke en modell på flere nivåer, men jeg mistenker at dette er mer enn nødvendig. Hvis du lager flere mål for hver del med hvert måleinstrument, kan du bare bruke gjennomsnittene, som du beskriver, for å få et mer robust mål. Da kan du bare bruke disse to midlene som $ x $ og $ y $ verdier for den delen. Beta-estimatene fra regresjonsligningen vil gi deg den nødvendige skiftet.
Merk at disse ikke vil være de samme verdiene som du kan få via andre konverteringsstrategier, fordi prosedyren er forskjellig. For eksempel for å konvertere fra Fahrenheit til Celsius, kan du trekke fra 32 og dele med 1,8 , men for å bruke en regresjonsligning, $ \ beta_0 \ approx18 $ og $ \ beta_1 \ approx.6 $. Dette betyr ikke noe, så lenge du vet hvilken prosedyre du bruker.
En annen fordelen med regresjonsmetoden er for øvrig konverteringen mellom to måleinstrumenter som ikke nødvendigvis vil være lineære i det mulige området, som en regresjonsanalyse kan tillate deg å modellere.
Svar
Hvis du har flere målinger av det samme mengde flere ganger i de to enhetene, er det generelt ingen måte å estimere transformasjonen fra en enhet til den andre.
Men hvis du visste at det er et multiplikasjonsforhold mellom de to, og at støyen i de to settene hvis målingene er null- betyr normal (med like avvik eller forskjellige, men kjente avvik), så kan du estimere multiplikasjonsfaktoren $ k $ med maksimal sannsynlighet.
Hvis du antar ovennevnte forutsetninger, kan du fortsette som følger. La $ X_B $ være den faktiske verdien av mengden du gjentatte ganger måler i enheter på $ B $. Deretter $ L_ {Ai} = k X_B + e_i $, $ i = 1, \ prikker, n $ og $ L_ {Bj} = X_B + f_j $, $ j = 1, \ prikker, m $.
$ e_i $ og $ f_j $ er normale i.i.d., normale tilfeldige variabler med gjennomsnitt 0 og varians $ \ sigma ^ 2 $. Du kan skrive sannsynligheten for dataene som
$$ L (data; k, X_B) = const – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Ai} – k X_B) ^ 2 – \ frac {1} {\ sigma ^ 2} \ sum_i (L_ {Bi} – X_B) ^ 2 $$
Du bør kunne maksimere dette antallet i form av $ k $ og $ X_B $ for å oppnå transformasjonen (og et estimat på mengden).
Faktisk, hvis du går gjennom algebraen for å sette delderivatene til log-sannsynlighetsfunksjonen med hensyn til $ k $ og $ X_B $ til null, bør du få uttrykket for $ k $ du har i spørsmålet ditt.
$ X_B = \ frac {\ sum_j L_ {Bj}} {m} $ og $ k = \ frac {m \ sum_i L_ {Ai}} {n \ sum_j L_ {Bj}} $
Svar
Nøkkeldokumentet du trenger er GUM (Guide to the Usikkerhet i måling) – JCGM 100: 2008 (GUM 1995 med mindre korreksjoner) Bureau International de Poids et Mesures / guides / gum som gir fullstendig (internasjonal standard) detaljer om hvordan man kan vurdere ytelsen til ett tiltak mot et referanse (referansen din vil allerede ha en usikker usikkerhet). De amerikanske NIST-dokumentene er også basert direkte på dette.
GUM lar deg ta ditt valg om vurderingsmetode, men krever deretter at du oppgir en feilbegrep for alle antakelser, for eksempel troen på at de to instrumenter har ingen forskyvning.
Du vil ha både systematiske termer og tilfeldige termer. De systematiske begrepene er vanligvis den større feilen, og blir ofte vurdert (se på estimatene fra begynnelsen av 1900-tallet for lysets hastighet og deres feilfelt – som ikke overlappet hverandre!).
Fordi du bare ha en referansedel, alt du kan gjøre, så langt, er å vurdere de relative størrelsene på de to tilfeldige målefeilene (inkludert lokal systematisk variasjon som temperatur, operatør, tid på dagen ..)
På slutten vil du kunne oppgi en feil og en dekningsfaktor for de nye avlesningene dine over noe gyldighetsområde.