Antag att vi har en slumpmässig variabel $ X \ sim f (x | \ theta) $ . Om $ \ theta_0 $ var den sanna parametern bör sannolikhetsfunktionen maximeras och derivatet är lika med noll. Detta är den grundläggande principen bakom den maximala sannolikhetsuppskattaren.
Såsom jag förstår det definieras Fisher-information som
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Således, om $ \ theta_0 $ är den sanna parametern, $ I (\ theta) = 0 $ . Men om det $ \ theta_0 $ inte är den sanna parametern, kommer vi att ha en större mängd Fisher-information.
mina frågor
- Mäter Fisher-information felet ”av en given MLE? Med andra ord, betyder inte förekomsten av positiv Fisher-information att min MLE inte kan vara idealisk?
- Hur skiljer sig denna definition av ”information” från den som används av Shannon? Varför kallar vi det för information?
Kommentarer
- Varför skriver du det $ E_ \ theta $? Förväntningen är över värdena på $ X $ fördelade som om de kom från din distribution med parametern $ \ theta $.
- Dessutom är $ I (\ theta) $ inte noll vid den sanna parametern.
- E (S) är noll (dvs. förväntan på poängfunktionen), men som Neil G skrev – fisher information (V (S)) är inte (vanligtvis) noll.
Svar
Försöker komplettera med de andra svaren … Vilken typ av information är Fisher-information? Börja med loglikelihood-funktionen $$ \ ell (\ theta) = \ log f (x; \ theta) $$ som en funktion av $ \ theta $ för $ \ theta \ i \ Theta $, parameterutrymmet. Om vi antar några regelbundna villkor som vi inte diskuterar här har vi $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (vi kommer att skriva derivat med avseende på parametern som punkter som här). Variansen är Fisher-informationen $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ den sista formeln som visar att det är (negativ) krökning för loglikelihood-funktionen. Man hittar ofta den maximala sannolikhetsuppskattaren (mle) på $ \ theta $ genom att lösa sannolikhetsekvationen $ \ dot {\ ell} (\ theta) = 0 $ när Fisher-informationen som variansen för poängen $ \ dot {\ ell } (\ theta) $ är stort, då kommer lösningen på den ekvationen att vara mycket känslig för data, vilket ger ett hopp om hög precision av mle. Detta bekräftas åtminstone asymptotiskt, den asymptotiska variansen av mle är den inversa av Fisher-informationen.
Hur kan vi tolka detta? $ \ ell (\ theta) $ är sannolikhetsinformationen om parametern $ \ theta $ från exemplet. Detta kan egentligen bara tolkas i relativ mening, som när vi använder det för att jämföra troligheten för två distinkta möjliga parametervärden via sannolikhetsförhållandetest $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Ändringshastigheten för loglikelihood är poängfunktionen $ \ dot {\ ell} (\ theta) $ berättar hur snabbt sannolikheten förändras, och dess varians $ I (\ theta) $ hur mycket detta varierar från prov till prov, till ett givet parametervärde, säg $ \ theta_0 $. Ekvationen (vilket är riktigt överraskande!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ berättar att det finns en relation (jämlikhet) mellan variabiliteten i informationen ( sannolikhet) för ett givet parametervärde, $ \ theta_0 $, och krökningen av sannolikhetsfunktionen för det parametervärdet. Detta är ett överraskande samband mellan variabiliteten (variansen) för denna statistik $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ och den förväntade förändringen i likhet när vi varierar parametern $ \ theta $ i något intervall runt $ \ theta_0 $ (för samma data). Detta är verkligen både konstigt, överraskande och kraftfullt!
Så vad är sannolikhetsfunktionen? Vi tänker vanligtvis på den statistiska modellen $ \ {f (x; \ theta), \ theta \ i \ Theta \} $ som en familj av sannolikhetsfördelningar för data $ x $, indexerad av parametern $ \ theta $ något element i parametern $ \ Theta $. Vi ser på den här modellen som sant om det finns något värde $ \ theta_0 \ i \ Theta $ så att data $ x $ faktiskt har sannolikhetsfördelningen $ f (x; \ theta_0) $. Så vi får en statistisk modell genom att bädda in den sanna datagenererande sannolikhetsfördelningen $ f (x; \ theta_0) $ i en familj av sannolikhetsfördelningar. Men det är uppenbart att en sådan inbäddning kan göras på många olika sätt, och varje sådan inbäddning kommer att vara en ”sann” modell, och de kommer att ge olika sannolikhetsfunktioner. Och utan en sådan inbäddning finns det ingen sannolikhetsfunktion. Det verkar som om vi verkligen behöver lite hjälp, några principer för hur man väljer en inbäddning klokt!
Så vad betyder detta? Det betyder att valet av sannolikhetsfunktion berättar för oss hur vi kan förvänta oss att uppgifterna ändras om sanningen förändras lite. Men detta kan inte riktigt verifieras av data, eftersom data bara ger information om den sanna modellfunktionen $ f (x; \ theta_0) $ som faktiskt genererade data, och inte något om alla andra element i den valda modellen. På detta sätt ser vi att valet av sannolikhetsfunktion liknar valet av en tidigare i Bayesian-analys, det injicerar icke-datainformation i analysen. Låt oss titta på detta i ett enkelt (något artificiellt) exempel och titta på effekten av att bädda in $ f (x; \ theta_0) $ i en modell på olika sätt.
Låt oss anta att $ X_1, \ dotsc, X_n $ är iid som $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Så det är den sanna datagenererande distributionen. Låt oss nu bädda in detta i en modell på två olika sätt, modell A och modell B. $$ A \ kolon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ i \ mathbb {R} \\ B \ kolon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ kan du kontrollera att detta sammanfaller med $ \ mu = 10 $.
Loglikelihood-funktionerna blir $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Poängfunktionerna : (loglikelihoodderivat): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ och krökningarna $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ så, Fisher-informationen beror verkligen på inbäddningen. Nu beräknar vi Fisher-informationen till det sanna värdet $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ så Fisher-informationen om parametern är något större i modell B.
Detta illustrerar att i viss mening berättar Fisher-informationen hur snabbt informationen från data om parametern skulle ha ändrats om den styrande parametern ändrades på det sätt som postuleras av inbäddningen i en modellfamilj . Förklaringen till högre information i modell B är att vår modellfamilj B postulerar att om förväntningarna skulle ha ökat, skulle också variansen ha ökat . Så att, under modell B, kommer provvariansen också att innehålla information om $ \ mu $, vilket den inte kommer att göra under modell A.
Dessutom illustrerar detta exempel att vi verkligen behöver lite teori för att hjälpa oss i hur man bygger modellfamiljer.
Kommentarer
- bra förklaring. Varför säger du $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? det ’ en funktion av $ \ theta $ – är inte ’ t 0 bara när den utvärderas med den sanna parametern $ \ theta_0 $?
- Ja, vad du säger är sant, @idadanny Det är noll när det utvärderas till det sanna parametervärdet.
- Tack igen @kjetil – så bara en fråga till: är det överraskande förhållandet mellan variansen av poängen och sannolikhetens krökning är sann för varje $ \ theta $? eller bara i närheten av den sanna parametern $ \ theta_0 $?
- Återigen är detta förhållande sant för det sanna parametervärdet. Men för att det ska vara till stor hjälp måste det finnas kontinuitet, så att det är ungefär sant i vissa grannskap, eftersom vi kommer att använda det till det uppskattade värdet $ \ hat {\ theta} $, inte bara till det sanna (okända) värde.
- så, förhållandet gäller för den sanna parametern $ \ theta_0 $, det håller nästan för $ \ theta_ {mle} $ eftersom vi antar att det ’ s i närheten av $ \ theta_0 $, men för en allmän $ \ theta_1 $ håller det inte, eller hur?
Svar
Låt oss tänka i termer av den negativa log-sannolikhetsfunktionen $ \ ell $. Den negativa poängen är dess gradient med avseende på parametervärdet. Vid den sanna parametern är poängen noll. Annars, det ger riktningen mot lägsta $ \ ell $ (eller i fallet med icke-konvex $ \ ell $, en sadelpunkt eller lokalt minimum eller maximum).
Fisher-informationen mäter krökningen på $ \ ell $ runt $ \ theta $ om data följer $ \ theta $. Med andra ord, det berättar hur mycket vickning parametern skulle påverka din log-sannolikhet.
Tänk på att du hade en stor modell med miljontals parametrar. Och du hade en liten tummenhet där du kunde lagra din modell. Hur ska du prioritera hur många bitar av varje parameter som ska lagras? Rätt svar är att fördela bitar enligt Fisher-informationen (Rissanen skrev om detta). Om Fisher-informationen för en parameter är noll spelar den parametern ingen roll.
Vi kallar det ”information” eftersom Fisher-informationen mäter hur mycket den här parametern berättar om data.
Ett allmänt sätt att tänka på det är detta: Antag att parametrar kör bil, och data finns på baksätet som korrigerar föraren. Uppgifternas irritation är Fisher-informationen. Om data låter föraren köra är Fisher-informationen noll. om data ständigt gör korrigeringar är det stort. I den meningen är Fisher-informationen mängden information som går från data till parametrarna.
Tänk på vad som händer om du gör ratten mer känslig. Detta motsvarar en reparametrization. I så fall vill inte uppgifterna vara så höga av rädsla för att bilen överstyrs. Denna typ av reparametriering minskar Fisher-informationen.
Svar
Kompletterande med @NeilGs fina svar (+1) och till ta itu med dina specifika frågor:
- Jag skulle säga att det räknar ”precisionen” snarare än ”felet” i sig själv.
Kom ihåg att loggarnas hessian -sannolikhet utvärderad vid ML-uppskattningarna är den observerade Fisher-informationen. De uppskattade standardfelen är kvadratrötterna till de diagonala elementen i det inversa av den observerade Fisher-informationsmatrisen. Som härrör från är Fisher-informationen spår av Fisher-informationsmatrisen. Med tanke på att Fisher Information-matrisen $ I $ är en hermitisk positiv halv-bestämd matrismatris, så är de diagonala posterna $ I_ {j, j} $ av den verkliga och icke-negativa; som en direkt följd spårar den $ tr (I) $ måste vara positivt. Detta innebär att du bara kan ha ”icke-ideala” uppskattare enligt ditt påstående. Så nej, en positiv Fisher-information är inte relaterad till hur idealisk är din MLE.
- Definitionen skiljer sig åt i hur vi tolkar begreppet information i båda fallen. Med detta sagt är de två mätningarna nära besläktade.
Det omvända av Fisher-informationen är minimivariansen hos en opartisk uppskattare ( Cramér– Rao bunden ). I den meningen anger informationsmatrisen hur mycket information om de uppskattade koefficienterna som finns i data. Tvärtom togs Shannon-entropin från termodynamiken. Det relaterar informationsinnehållet för ett visst värde för en variabel som $ –p · log_2 (p) $ där $ p $ är sannolikheten för att variabeln tar på sig värdet. Båda är mätningar av hur ”informativ” en variabel är. I det första fallet bedömer du dock denna information i termer av precision medan i det andra fallet i termer av oordning; olika sidor, samma mynt! : D
För att sammanfatta: Det inversa av Fisher-informationsmatrisen $ I $ utvärderad vid ML-uppskattningsvärdena är den asymptotiska eller ungefärliga kovariansmatrisen. Eftersom dessa ML-uppskattningsvärden hittas i ett lokalt minimum grafiskt visar Fisher-informationen hur djupt det lägsta är och vem som har lite vickrum du har runt det. Jag hittade denna uppsats av Lutwak et al. på Förlängningar av Fisher-information och Stams ojämlikhet en informativ läsning om denna fråga. Wikipedia-artiklarna om Fisher Information Metric och om Jensen – Shannon-avvikelser är också bra för komma igång.