Anta at vi har en tilfeldig variabel $ X \ sim f (x | \ theta) $ . Hvis $ \ theta_0 $ var den sanne parameteren, bør sannsynlighetsfunksjonen maksimeres og derivatet er lik null. Dette er det grunnleggende prinsippet bak den maksimale sannsynlighetsestimatoren.
Slik jeg forstår det, er Fisher-informasjon definert som
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Hvis $ \ theta_0 $ er den sanne parameteren, $ I (\ theta) = 0 $ . Men hvis det $ \ theta_0 $ ikke er den sanne parameteren, vil vi ha en større mengde Fisher-informasjon.
mine spørsmål
- Måler Fisher-informasjon feilen «av en gitt MLE? Med andre ord, betyr ikke eksistensen av positiv Fisher-informasjon at min MLE ikke kan være ideell?
- Hvordan skiller denne definisjonen av «informasjon» seg fra den som brukes av Shannon? Hvorfor kaller vi det informasjon?
Kommentarer
- Hvorfor skriver du det $ E_ \ theta $? Forventningen er over verdiene på $ X $ fordelt som om de kom fra distribusjonen din med parameteren $ \ theta $.
- Også $ I (\ theta) $ er ikke null på den sanne parameteren.
- E (S) er null (dvs. forventning om poengsumfunksjonen), men som Neil G skrev – informasjon om fisker (V (S)) er ikke (vanligvis) null.
Svar
Prøver å utfylle de andre svarene … Hva slags informasjon er Fisher-informasjon? Start med loglikelihood-funksjonen $$ \ ell (\ theta) = \ log f (x; \ theta) $$ som en funksjon av $ \ theta $ for $ \ theta \ i \ Theta $, parameterområdet. Forutsatt noen regelmessighetsbetingelser vi ikke diskuterer her, har vi $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (vi skriver derivater med hensyn til parameteren som prikker som her). Variansen er Fisher-informasjonen $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ den siste formelen som viser at det er (negativ) krumning av loglikelihood-funksjonen. Man finner ofte den maksimale sannsynlighetsestimatoren (mle) på $ \ theta $ ved å løse sannsynlighetsligningen $ \ dot {\ ell} (\ theta) = 0 $ når Fisher-informasjonen som variansen til poengsummen $ \ dot {\ ell } (\ theta) $ er stor, da vil løsningen på den ligningen være veldig følsom for dataene, og gi et håp om høy presisjon av mle. Dette bekreftes i det minste asymptotisk, idet den asymptotiske variansen til mle er den omvendte av Fisher-informasjonen.
Hvordan kan vi tolke dette? $ \ ell (\ theta) $ er sannsynlighetsinformasjonen om parameteren $ \ theta $ fra eksemplet. Dette kan egentlig bare tolkes i relativ forstand, som når vi bruker det til å sammenligne sannsynlighetene for to forskjellige mulige parameterverdier via sannsynlighetsforholdet test $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Endringshastigheten for loglikelihood er poengsumfunksjonen $ \ dot {\ ell} (\ theta) $ forteller oss hvor raskt sannsynligheten endres, og dens avvik $ I (\ theta) $ hvor mye dette varierer fra prøve til prøve, til en gitt parameterværdi, si $ \ theta_0 $. Ligningen (som er veldig overraskende!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ forteller oss at det er et forhold (likhet) mellom variabiliteten i informasjonen ( sannsynlighet) for en gitt parameterverdi, $ \ theta_0 $, og krumningen til sannsynlighetsfunksjonen for den parameterverdien. Dette er et overraskende forhold mellom variabiliteten (variansen) til denne statistikken $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ og den forventede endringen i likhet når vi varierer parameteren $ \ theta $ i noen intervaller rundt $ \ theta_0 $ (for de samme dataene). Dette er egentlig både rart, overraskende og kraftig!
Så hva er sannsynlighetsfunksjonen? Vi tenker vanligvis på den statistiske modellen $ \ {f (x; \ theta), \ theta \ i \ Theta \} $ som en familie av sannsynlighetsfordelinger for data $ x $, indeksert av parameteren $ \ theta $ noe element i parameteren mellomrom $ \ Theta $. Vi ser på denne modellen som sant hvis det eksisterer en verdi $ \ theta_0 \ i \ Theta $ slik at dataene $ x $ faktisk har sannsynlighetsfordelingen $ f (x; \ theta_0) $. Så vi får en statistisk modell ved å legge inn den sanne datagenererende sannsynlighetsfordelingen $ f (x; \ theta_0) $ i en familie av sannsynlighetsfordelinger. Men det er klart at en slik innbinding kan gjøres på mange forskjellige måter, og hver slik innbinding vil være en «sann» modell, og de vil gi forskjellige sannsynlighetsfunksjoner. Og uten en slik innbinding er det ingen sannsynlighetsfunksjon. Det ser ut til at vi virkelig trenger litt hjelp, noen prinsipper for hvordan vi skal velge en forankring med omhu!
Så hva betyr dette? Det betyr at valg av sannsynlighetsfunksjon forteller oss hvordan vi forventer at dataene endres, hvis sannheten endres litt. Men dette kan ikke virkelig verifiseres av dataene, da dataene bare gir informasjon om den sanne modellfunksjonen $ f (x; \ theta_0) $ som faktisk genererte dataene, og ikke noe om alle de andre elementene i den valgte modellen. På denne måten ser vi at valg av sannsynlighetsfunksjon er lik valget av en tidligere i Bayesian-analyse, det injiserer ikke-datainformasjon i analysen. La oss se på dette i et enkelt (noe kunstig) eksempel, og se på effekten av å legge inn $ f (x; \ theta_0) $ i en modell på forskjellige måter.
La oss anta at $ X_1, \ dotsc, X_n $ er iid som $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Så det er den sanne, datagenererende distribusjonen. La oss nå legge dette inn i en modell på to forskjellige måter, modell A og modell B. $$ A \ kolon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ i \ mathbb {R} \\ B \ kolon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ kan du sjekke at dette sammenfaller med $ \ mu = 10 $.
Loglikelihood-funksjonene blir $$ \ ell_A (\ mu) = – \ frac {n} {2} \ logg (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Poengsumfunksjonene : (loglikelihood-derivater): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ og krumningene $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ så, Fisher-informasjonen avhenger egentlig av innbyggingen. Nå beregner vi Fisher-informasjonen til den sanne verdien $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ så Fisher-informasjonen om parameteren er noe større i modell B.
Dette illustrerer at i noe fornuftig, Fisher-informasjonen forteller oss hvor fort informasjonen fra dataene om parameteren ville ha endret seg hvis den styrende parameteren endret seg på den måten postulert av innblandingen i en modellfamilie . Forklaringen på høyere informasjon i modell B er at modellfamilien B postulerer at hvis forventningen ville ha økt, ville også variansen ha økt . Slik at prøvevariansen under modell B også vil ha informasjon om $ \ mu $, som den ikke vil gjøre under modell A.
Også dette eksemplet illustrerer at vi virkelig trenger noen teori for å hjelpe oss i hvordan man bygger modellfamilier.
Kommentarer
- flott forklaring. Hvorfor sier du $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? det ‘ en funksjon av $ \ theta $ – er ikke ‘ t det bare når det blir vurdert til den sanne parameteren $ \ theta_0 $?
- Ja, det du sier er sant, @idadanny Det er null når det vurderes til den sanne parameterverdien.
- Takk igjen @kjetil – så bare et spørsmål til: er det overraskende forholdet mellom variansen av poengsummen og krumningen av sannsynligheten sant for hver $ \ theta $? eller bare i nærheten av den sanne parameteren $ \ theta_0 $?
- Igjen, dette forholdet gjelder for den sanne parameterverdien. Men for at det skal være til stor hjelp, må det være kontinuitet, slik at det er omtrent sant i noen nabolag, siden vi vil bruke det til den estimerte verdien $ \ hat {\ theta} $, ikke bare til den sanne (ukjente) verdi.
- så, forholdet gjelder for den sanne parameteren $ \ theta_0 $, det holder nesten for $ \ theta_ {mle} $ siden vi antar at det ‘ s i nærheten av $ \ theta_0 $, men for en generell $ \ theta_1 $ holder det ikke, ikke sant?
Svar
La oss tenke på den negative log-sannsynlighetsfunksjonen $ \ ell $. Den negative poengsummen er gradienten sin i forhold til parameterverdien. Ved den sanne parameteren er poengsummen null. Ellers, det gir retningen mot minimum $ \ ell $ (eller i tilfelle ikke-konveks $ \ ell $, et sadelpunkt eller lokalt minimum eller maksimum).
Fisher-informasjonen måler krumningen på $ \ ell $ rundt $ \ theta $ hvis dataene følger $ \ theta $. Med andre ord, det forteller deg hvor mye vrikking parameteren vil påvirke din log-sannsynlighet.
Tenk på at du hadde en stor modell med millioner av parametere. Og du hadde en liten tommelstasjon som du kunne lagre modellen på. Hvordan skal du prioritere hvor mange biter av hver parameter som skal lagres? Det riktige svaret er å tildele biter i henhold til Fisher-informasjonen (Rissanen skrev om dette). Hvis Fisher-informasjonen til en parameter er null, betyr ikke denne parameteren noe.
Vi kaller det «informasjon» fordi Fisher-informasjonen måler hvor mye denne parameteren forteller oss om dataene.
En dagligdags måte å tenke på det er dette: Anta at parametere kjører bil, og dataene er i baksetet som korrigerer føreren. Irriteringen av dataene er Fisher-informasjonen. Hvis dataene lar føreren kjøre, er Fisher-informasjonen null; hvis dataene stadig gjør korreksjoner, er de store. I denne forstand er Fisher-informasjonen mengden informasjon som går fra dataene til parameterne.
Tenk på hva som skjer hvis du gjør rattet mer sensitiv. Dette tilsvarer en reparametrisering. I så fall vil ikke dataene være så høye av frykt for at bilen styrer. Denne typen reparametrisering reduserer Fisher-informasjonen.
Svar
Utfyllende til @NeilGs fine svar (+1) og til adresser dine spesifikke spørsmål:
- Jeg vil si det teller «presisjonen» i stedet for «feilen» i seg selv.
Husk at loggenes hessian sannsynlighet evaluert ved ML-estimater er den observerte Fisher-informasjonen. De estimerte standardfeilene er kvadratrøttene til de diagonale elementene i det inverse av den observerte Fisher-informasjonsmatrisen. Stammer fra dette er Fisher-informasjonen spor av Fisher-informasjonsmatrisen Gitt at Fisher Information-matrisen $ I $ er en hermitisk positiv-semidefinit matrisematrise, så er de diagonale oppføringene $ I_ {j, j} $ av den reelle og ikke-negative; som en direkte konsekvens sporer den $ tr (I) $ må være positiv. Dette betyr at du bare kan ha «ikke-ideelle» estimatorer i henhold til din påstand. Så nei, en positiv Fisher-informasjon er ikke relatert til hvor ideell er din MLE.
- Definisjonen er forskjellig i måten vi tolker forestillingen om informasjon i begge tilfeller. Når det er sagt, er de to målingene nært beslektede.
Det omvendte av Fisher-informasjon er minimumsavviket til en objektiv estimator ( Cramér– Rao bundet ). Sånn sett indikerer informasjonsmatrisen hvor mye informasjon om de estimerte koeffisientene som finnes i dataene. Tvert imot ble Shannon-entropien hentet fra termodynamikken. Den relaterer informasjonsinnholdet til en bestemt verdi av en variabel som $ –p · log_2 (p) $ hvor $ p $ er sannsynligheten for at variabelen tar på seg verdien. Begge er målinger av hvor «informativ» en variabel er. I det første tilfellet vurderer du denne informasjonen med tanke på presisjon mens den i andre tilfelle er i form av uorden; forskjellige sider, samme mynt! : D
For å oppsummere: Det omvendte av Fisher-informasjonsmatrisen $ I $ evaluert ved ML-estimatorverdiene er den asymptotiske eller omtrentlige kovariansmatrisen. Ettersom disse ML-estimatorverdiene er funnet i et lokalt minimum grafisk, viser Fisher-informasjonen hvor dypt er det minimumet og hvor mye wiggle-rom du har rundt det. Jeg fant denne artikkelen av Lutwak et al. på Utvidelser av Fisher-informasjon og Stams ulikhet en informativ lesning om denne saken. Wikipedia-artiklene om Fisher Information Metric og om Jensen – Shannon divergens er også gode å komme i gang.