Stel dat we een willekeurige variabele hebben $ X \ sim f (x | \ theta) $ . Als $ \ theta_0 $ de ware parameter was, zou de waarschijnlijkheidsfunctie moeten worden gemaximaliseerd en de afgeleide gelijk aan nul. Dit is het basisprincipe achter de maximale waarschijnlijkheidsschatter.
Zoals ik het begrijp, wordt Fisher-informatie gedefinieerd als
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partiële} {\ partiële \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Dus als $ \ theta_0 $ is de echte parameter, $ I (\ theta) = 0 $ . Maar als het $ \ theta_0 $ niet de echte parameter is, dan hebben we een grotere hoeveelheid Fisher-informatie.
mijn vragen
- Meet Fisher-informatie de “fout “van een bepaalde MLE? Met andere woorden, impliceert het bestaan van positieve Fisher-informatie niet dat mijn MLE niet ideaal kan zijn?
- Hoe verschilt deze definitie van “informatie” van die gebruikt door Shannon? Waarom noemen we het informatie?
Reacties
- Waarom schrijf je het $ E_ \ theta $? De verwachting is hoger dan waarden van $ X $ verdeeld alsof ze afkomstig zijn van uw distributie met parameter $ \ theta $.
- Ook $ I (\ theta) $ is niet nul bij de ware parameter.
- De E (S) is nul (dat wil zeggen: verwachting van de scorefunctie), maar zoals Neil G schreef – informatie over de visser (V (S)) is (meestal) niet nul.
Antwoord
Proberen aan te vullen op de andere antwoorden … Wat voor soort informatie is Fisher-informatie? Begin met de loglikelihood-functie $$ \ ell (\ theta) = \ log f (x; \ theta) $$ als een functie van $ \ theta $ voor $ \ theta \ in \ Theta $, de parameterruimte. Ervan uitgaande dat sommige regelmaatvoorwaarden die we hier niet bespreken, hebben we $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partiële} {\ partiële \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (we zullen afgeleiden schrijven met betrekking tot de parameter als punten zoals hier). De variantie is de Fisher-informatie $$ I (\ theta) = \ E_ \ theta (\ punt {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ de laatste formule laat zien dat het de (negatieve) kromming is van de loglikelihood-functie. Men vindt vaak de maximale waarschijnlijkheidsschatter (mle) van $ \ theta $ door de waarschijnlijkheidsvergelijking $ \ punt {\ ell} (\ theta) = 0 $ op te lossen wanneer de Fisher-informatie de variantie van de score $ \ punt {\ ell } (\ theta) $ groot is, dan zal de oplossing voor die vergelijking erg gevoelig zijn voor de gegevens, wat hoop geeft op een hoge nauwkeurigheid van de mle. Dat wordt op zijn minst asymptotisch bevestigd, aangezien de asymptotische variantie van de mle het omgekeerde is van Fisher-informatie.
Hoe kunnen we dit interpreteren? $ \ ell (\ theta) $ is de waarschijnlijkheidsinformatie over de parameter $ \ theta $ uit de steekproef. Dit kan eigenlijk alleen in relatieve zin worden geïnterpreteerd, zoals wanneer we het gebruiken om de plausibiliteit van twee verschillende mogelijke parameterwaarden te vergelijken via de likelihood ratio-test $ \ ell (\ theta_0) – \ ell (\ theta_1) $. De mate van verandering van de logwaarschijnlijkheid is de scorefunctie $ \ punt {\ ell} (\ theta) $ vertelt ons hoe snel de waarschijnlijkheid verandert, en zijn variantie $ I (\ theta) $ hoeveel dit varieert van steekproef tot steekproef, bij een bepaalde parameterwaarde, zeg $ \ theta_0 $. De vergelijking (wat echt verrassend is!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ vertelt ons dat er een relatie (gelijkheid) is tussen de variabiliteit in de informatie ( waarschijnlijkheid) voor een gegeven parameterwaarde, $ \ theta_0 $, en de kromming van de waarschijnlijkheidsfunctie voor die parameterwaarde. Dit is een verrassende relatie tussen de variabiliteit (variantie) van deze statistiek $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ en de verwachte verandering in likehood wanneer we de parameter $ \ theta $ variëren in een bepaald interval rond $ \ theta_0 $ (voor dezelfde gegevens). Dit is echt zowel vreemd, verrassend als krachtig!
Dus wat is de waarschijnlijkheidsfunctie? We beschouwen het statistische model $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ gewoonlijk als een familie van kansverdelingen voor gegevens $ x $, geïndexeerd door de parameter $ \ theta $ een element in de parameterruimte $ \ Theta $. We denken dat dit model waar is als er een waarde $ \ theta_0 \ in \ Theta $ bestaat, zodat de gegevens $ x $ feitelijk de kansverdeling $ f (x; \ theta_0) $ hebben. We krijgen dus een statistisch model door de werkelijke datagenererende kansverdeling $ f (x; \ theta_0) $ in te bedden in een familie van kansverdelingen. Maar het is duidelijk dat een dergelijke inbedding op veel verschillende manieren kan worden gedaan, en elke dergelijke inbedding zal een “echt” model zijn, en ze zullen verschillende waarschijnlijkheidsfuncties geven. En zonder een dergelijke inbedding is er geen waarschijnlijkheidsfunctie. Het lijkt erop dat we echt wat hulp nodig hebben, enkele principes om verstandig een inbedding te kiezen!
Dus, wat betekent dit? Het betekent dat de keuze van de waarschijnlijkheidsfunctie ons vertelt hoe we zouden verwachten dat de gegevens zouden veranderen als de waarheid een beetje zou veranderen. Maar dit kan niet echt worden geverifieerd door de gegevens, omdat de gegevens alleen informatie geven over de echte modelfunctie $ f (x; \ theta_0) $ die de gegevens daadwerkelijk heeft gegenereerd, en niet niets over alle andere elementen in het gekozen model. Op deze manier zien we dat de keuze van de waarschijnlijkheidsfunctie vergelijkbaar is met de keuze van een prior in Bayesiaanse analyse, het injecteert niet-gegevensinformatie in de analyse. Laten we dit in een eenvoudig (enigszins kunstmatig) voorbeeld bekijken, en kijken naar het effect van het op verschillende manieren inbedden van $ f (x; \ theta_0) $ in een model.
Laten we aannemen dat $ X_1, \ dotsc, X_n $ iid zijn als $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Dat is dus de ware, gegevensgenererende distributie. Laten we dit nu op twee verschillende manieren in een model insluiten, model A en model B. $$ A \ dubbele punt X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ dubbele punt X_1, \ puntsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ kunt u controleren of dit samenvalt voor $ \ mu = 10 $.
De loglikelihood-functies worden $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
De scorefuncties : (logwaarschijnlijkheidsafgeleiden): $$ \ dot {\ ell} _A (\ mu) = n (\ balk {x} – \ mu) \\ \ punt {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ en de krommingen $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ dus de Fisher-informatie is echt afhankelijk van de inbedding. Nu berekenen we de Fisher-informatie met de werkelijke waarde $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ dus de Fisher-informatie over de parameter is iets groter in model B.
Dit illustreert dat, in enigszins logisch, de Fisher-informatie vertelt ons hoe snel de informatie van de gegevens over de parameter zou zijn veranderd als de betreffende parameter zou zijn gewijzigd op de manier die wordt gepostuleerd door de inbedding in een modelfamilie . De verklaring van hogere informatie in model B is dat onze modelfamilie B stelt dat als de verwachting zou zijn toegenomen, de variantie ook zou zijn toegenomen . Zodat, onder model B, de steekproefvariantie ook informatie zal bevatten over $ \ mu $, wat het niet zal doen onder model A.
Dit voorbeeld illustreert ook dat we echt wat theorie nodig hebben om te helpen ons bij het construeren van modelfamilies.
Reacties
- geweldige uitleg. Waarom zeg je $ \ E_ \ theta \ punt {\ ell} (\ theta) = 0 $? het ‘ is een functie van $ \ theta $ – isn ‘ t het alleen 0 wanneer geëvalueerd op de ware parameter $ \ theta_0 $?
- Ja, wat je zegt is waar, @idadanny Het is nul wanneer geëvalueerd op basis van de ware parameterwaarde.
- Nogmaals bedankt @kjetil – dus nog een vraag: is de verrassende relatie tussen de variantie van de score en de kromming van de waarschijnlijkheid waar voor elke $ \ theta $? of alleen in de buurt van de echte parameter $ \ theta_0 $?
- Nogmaals, die relatie is waar voor de echte parameterwaarde. Maar om dat veel te helpen, moet er continuïteit zijn, zodat het ongeveer waar is in een bepaalde buurt, aangezien we het zullen gebruiken voor de geschatte waarde $ \ hat {\ theta} $, niet alleen voor het ware (onbekende) waarde.
- dus, de relatie geldt voor de echte parameter $ \ theta_0 $, het geldt bijna voor $ \ theta_ {mle} $ aangezien we aannemen dat het ‘ is in de buurt van $ \ theta_0 $, maar voor een algemene $ \ theta_1 $ geldt het niet, toch?
Antwoord
Laten we denken in termen van de negatieve log-likelihood-functie $ \ ell $. De negatieve score is het verloop met betrekking tot de parameterwaarde. Bij de ware parameter is de score nul. Anders is het geeft de richting aan naar het minimum $ \ ell $ (of in het geval van niet-convex $ \ ell $, een zadelpunt of lokaal minimum of maximum).
De Fisher-informatie meet de kromming van $ \ ell $ rond $ \ theta $ als de gegevens $ \ theta $ volgen. Met andere woorden, het vertelt u hoeveel wiebelen de parameter zou uw log-waarschijnlijkheid beïnvloeden.
Bedenk dat u een groot model had met miljoenen parameters. En je had een kleine USB-stick om je model op te bergen. Hoe moet u prioriteit geven aan hoeveel bits van elke parameter u wilt opslaan? Het juiste antwoord is om bits toe te wijzen volgens de informatie van Fisher (Rissanen schreef hierover). Als de Fisher-informatie van een parameter nul is, doet die parameter er niet toe.
We noemen het “informatie” omdat de Fisher-informatie meet hoeveel deze parameter ons vertelt over de gegevens.
Een informele manier om erover na te denken is deze: stel dat de parameters rijden een auto, en de gegevens bevinden zich op de achterbank en corrigeren de bestuurder. Het vervelende van de gegevens is de Fisher-informatie. Als de gegevens de bestuurder laten rijden, is de Fisher-informatie nul; als de gegevens voortdurend correcties aanbrengen, is het groot. In die zin is de Fisher-informatie de hoeveelheid informatie die van de gegevens naar de parameters gaat.
Bedenk wat er gebeurt als je het stuur meer gevoelig. Dit komt overeen met een herprogrammering. In dat geval willen de gegevens niet zo luid zijn uit angst voor overstuur van de auto. Dit soort reparametrisatie verlaagt de Fisher-informatie.
Antwoord
Complementair aan @NeilGs mooie antwoord (+1) en aan beantwoord uw specifieke vragen:
- Ik zou zeggen dat het de “precisie” telt in plaats van de “fout” zelf.
Onthoud dat de Hessiaan van het logboek – waarschijnlijkheid geëvalueerd op basis van de ML-schattingen is de waargenomen Fisher-informatie. De geschatte standaardfouten zijn de vierkantswortels van de diagonale elementen van de inverse van de waargenomen Fisher-informatiematrix. Hieruit voortkomend is de Fisher-informatie het spoor van de Fisher-informatiematrix. Aangezien de Fisher-informatiematrix $ I $ een Hermitische positief-semidefinietmatrixmatrix is, zijn de diagonale ingangen $ I_ {j, j} $ ervan reëel en niet-negatief; als direct gevolg volgt het $ tr (I) $ moet positief zijn. Dit betekent dat u alleen “niet-ideale” schatters kunt hebben volgens uw bewering. Dus nee, positieve Fisher-informatie is niet gerelateerd aan hoe ideaal is uw MLE.
- De definitie verschilt in de manier waarop we het begrip informatie in beide gevallen interpreteren. Dat gezegd hebbende, de twee metingen zijn nauw verwant.
De inverse van Fisher-informatie is de minimale variantie van een zuivere schatter ( Cramér– Rao gebonden ). In die zin geeft de informatiematrix aan hoeveel informatie over de geschatte coëfficiënten in de data zit. Integendeel, de Shannon-entropie werd ontleend aan de thermodynamica. Het relateert de informatie-inhoud van een bepaalde waarde van een variabele als $ –p · log_2 (p) $ waarbij $ p $ de waarschijnlijkheid is dat de variabele de waarde aanneemt. Beide zijn metingen van hoe “informatief” een variabele is. In het eerste geval beoordeelt u deze informatie echter in termen van precisie en in het tweede geval in termen van wanorde; verschillende kanten, dezelfde medaille! : D
Samenvattend: de inverse van de Fisher-informatiematrix $ I $ geëvalueerd op basis van de ML-schatterwaarden is de asymptotische of benaderde covariantiematrix. Omdat deze ML-schatterwaarden grafisch in een lokaal minimum worden gevonden, laat de Fisher-informatie zien hoe diep dat minimum is en hoeveel bewegingsruimte je eromheen hebt. Ik vond dit artikel van Lutwak et al. op Uitbreidingen van Fisher-informatie en de ongelijkheid van Stam een informatief artikel over deze kwestie. De Wikipedia-artikelen over de Fisher Information Metric en over Jensen-Shannon-divergentie zijn ook goed om help je op weg.