Předpokládejme, že máme náhodnou proměnnou $ X \ sim f (x | \ theta) $ . Pokud $ \ theta_0 $ byly skutečným parametrem, měla by být funkce pravděpodobnosti maximalizována a derivace rovna nule. Toto je základní princip za odhadem maximální pravděpodobnosti.

Pokud tomu rozumím, informace o Fisherovi jsou definovány jako

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ částečné} {\ částečné \ theta} f (X | \ theta) \ pravé) ^ 2 \ Bigg] $$

Tedy pokud $ \ theta_0 $ je skutečný parametr, $ I (\ theta) = 0 $ . Pokud ale $ \ theta_0 $ není skutečným parametrem, budeme mít větší množství Fisherových informací.

moje otázky

  1. Měří Fisherova chyba chybu „dané MLE? Jinými slovy, neznamená „existence pozitivních Fisherových informací, že moje MLE nemůže být ideální?
  2. Jak se tato definice „informace“ liší od definice používané Shannonem? Proč tomu říkáme informace?

Komentáře

  • Proč to píšete $ E_ \ theta $? Očekávání je nad hodnotami distribuovaných $ X $, jako by pocházely z vaší distribuce s parametrem $ \ theta $.
  • Také $ I (\ theta) $ není u skutečného parametru nula.
  • E (S) je nula (tj. očekávání funkce skóre), ale jak napsal Neil G – informace o rybáři (V (S)) nejsou (obvykle) nula.

Odpověď

Pokoušíme se doplnit ostatní odpovědi … Co je to Fisherova informace? Začněte s funkcí loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ jako funkce $ \ theta $ pro $ \ theta \ v \ Theta $, prostor parametrů. Za předpokladu, že zde nebudeme diskutovat o podmínkách pravidelnosti, máme $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ částečné} {\ částečné \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (derivace s ohledem na parametr napíšeme jako tečky zde). Rozptyl je Fisherova informace $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ poslední vzorec ukazující, že se jedná o (záporné) zakřivení funkce loglikelihood. Jeden často najde odhad maximální pravděpodobnosti (mle) $ \ theta $ řešením rovnice pravděpodobnosti $ \ dot {\ ell} (\ theta) = 0 $, když Fisherova informace jako rozptyl skóre $ \ dot {\ ell } (\ theta) $ je velký, pak řešení této rovnice bude velmi citlivé na data, což dává naději na vysokou přesnost mle. To je potvrzeno přinejmenším asymptoticky, přičemž asymptotická varianta mle je inverzní k Fisherovým informacím.

Jak to můžeme interpretovat? $ \ ell (\ theta) $ je informace o pravděpodobnosti parametru $ \ theta $ ze vzorku. To lze skutečně interpretovat pouze v relativním smyslu, jako když to použijeme k porovnání věrohodností dvou odlišných možných hodnot parametrů pomocí testu poměru pravděpodobnosti $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Rychlost změny loglikelihood je skóre funkce $ \ dot {\ ell} (\ theta) $ nám říká, jak rychle se pravděpodobnost mění, a její rozptyl $ I (\ theta) $ jak moc se to liší od vzorku k vzorku, při dané hodnotě parametru řekněme $ \ theta_0 $. Rovnice (což je opravdu překvapivé!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ nám říká, že mezi variabilitou informací existuje vztah (rovnost) ( pravděpodobnost) pro danou hodnotu parametru, $ \ theta_0 $ a zakřivení funkce pravděpodobnosti pro tuto hodnotu parametru. Jedná se o překvapivý vztah mezi variabilitou (rozptylem) této statistiky $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ a očekávanou změnou podobnosti, když změníme parametr $ \ theta $ v nějakém intervalu kolem $ \ theta_0 $ (pro stejná data). To je opravdu podivné, překvapivé a silné!

Jaká je tedy funkce pravděpodobnosti? Statistický model $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ obvykle považujeme za rodinu pravděpodobnostních distribucí dat $ x $, indexovaných parametrem $ \ theta $ nějaký prvek v prostor parametrů $ \ Theta $. Myslíme si, že tento model je pravdivý, pokud existuje nějaká hodnota $ \ theta_0 \ v \ Theta $ taková, že data $ x $ mají ve skutečnosti rozdělení pravděpodobnosti $ f (x; \ theta_0) $. Takže získáme statistický model vložením skutečného datového generování rozdělení pravděpodobnosti $ f (x; \ theta_0) $ do rodiny rozdělení pravděpodobnosti. Je však jasné, že takovéto vnoření může být provedeno mnoha různými způsoby a každé takové vnoření bude „opravdovým“ modelem a bude mít různé funkce pravděpodobnosti. A bez takového vnoření neexistuje funkce pravděpodobnosti. Zdá se, že opravdu potřebujeme nějakou pomoc, několik zásad, jak moudře vybrat vnoření!

Takže, co to znamená? To znamená, že volba funkce pravděpodobnosti nám říká, jak bychom očekávali změnu dat, pokud by se pravda trochu změnila. To ale data opravdu nelze ověřit, protože data poskytují pouze informace o skutečné modelové funkci $ f (x; \ theta_0) $, která data skutečně vygenerovala, a ne o všech ostatních prvcích zvoleného modelu. Tímto způsobem vidíme, že volba funkce pravděpodobnosti je podobná volbě předchozí v Bayesiánské analýze, do analýzy vkládá informace, které neobsahují údaje. Pojďme se na to podívat v jednoduchém (poněkud umělém) příkladu a podívejme se na účinek vnoření $ f (x; \ theta_0) $ do modelu různými způsoby.

Předpokládejme, že $ X_1, \ dotsc, X_n $ jsou iid jako $ N (\ mu = 10, \ sigma ^ 2 = 1) $. To je tedy pravá distribuce generující data. Nyní to vložíme do modelu dvěma různými způsoby, model A a model B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ dvojtečka X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ můžete zkontrolovat, že se to shoduje s $ \ mu = 10 $.

Funkce loglikelihood se stanou $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$

Funkce skóre : (deriváty logikelihood): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ a křivky $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$, takže informace o Fisherovi skutečně závisí na vložení. Nyní vypočítáme informace o Fisherovi na skutečné hodnotě $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$, takže informace o parametru Fishera v modelu B jsou o něco větší.

To ilustruje, že v z nějakého smyslu nám Fisherova informace říká, jak rychle by se informace z dat o parametru změnily , kdyby se změnil řídící parametr způsobem předpokládaným vložením do modelové rodiny . Vysvětlení vyšších informací v modelu B spočívá v tom, že naše modelová rodina B postuluje , že pokud by se očekávání zvýšilo, pak by se zvýšila i variance . Takže v rámci modelu B bude varianta vzorku nést také informace o $ \ mu $, což nebude dělat v modelu A.

Také tento příklad ukazuje, že opravdu potřebujeme nějakou teorii, abychom pomohli nás v tom, jak konstruovat modelové rodiny.

Komentáře

  • skvělé vysvětlení. Proč říkáte $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? it ‚ sa funkce $ \ theta $ – není ‚ t 0 pouze při vyhodnocení na skutečný parametr $ \ theta_0 $?
  • Ano, to, co říkáte, je pravda, @idadanny Při vyhodnocení na skutečnou hodnotu parametru je nula.
  • Ještě jednou děkuji @kjetil – takže ještě jedna otázka: je překvapivý vztah odchylka skóre a zakřivení pravděpodobnosti platí pro každý $ \ theta $? nebo pouze v sousedství skutečného parametru $ \ theta_0 $?
  • Opět platí, že trelační vztah platí pro hodnotu skutečného parametru. Ale aby to hodně pomohlo, musí existovat kontinuita, aby to v některých sousedstvích přibližně platilo, protože to použijeme v odhadované hodnotě $ \ hat {\ theta} $, nejen v pravé (neznámé) value.
  • ano, vztah platí pro skutečný parametr $ \ theta_0 $, téměř platí pro $ \ theta_ {mle} $, protože předpokládáme, že ‚ je v sousedství $ \ theta_0 $, ale pro obecný $ \ theta_1 $ to neplatí, že?

Odpovědět

Pojďme uvažovat ve smyslu záporné funkce log-pravděpodobnosti $ \ ell $. Negativní skóre je jeho gradient vzhledem k hodnotě parametru. U skutečného parametru je skóre nulové. Jinak udává směr k minimu $ \ ell $ (nebo v případě nekonvexních $ \ ell $, bodu sedla nebo lokálního minima nebo maxima).

Informace Fishera měří zakřivení $ \ ell $ kolem $ \ theta $, pokud data následují $ \ theta $. Jinými slovy, řekne vám, jak moc se kroutí parametr by ovlivnil vaši pravděpodobnost logování.

Vezměte v úvahu, že jste měli velký model s miliony parametrů. A měli jste malý palec, na který jste uložili model. Jak byste měli upřednostnit, kolik bitů každého parametru se má uložit? Správná odpověď je alokovat bity podle Fisherových informací (o tom napsal Rissanen). Pokud je Fisherova informace o parametru nulová, nezáleží na tomto parametru.

Říkáme tomu „informace“, protože informace Fishera měří, kolik nám tento parametr říká o datech.


Hovorový způsob, jak o tom přemýšlet, je toto: Předpokládejme parametry řídí auto a data opravují řidiče na zadním sedadle. Otravnost dat je Fisherova informace. Pokud data umožňují řidiči řídit, jsou Fisherovy informace nulové; pokud data neustále provádějí opravy, jsou velká. V tomto smyslu jsou informace o Fisherovi množství informací, které přecházejí od dat k parametrům.

Zvažte, co se stane, když volant vylepšíte citlivé. To se rovná reparametrizaci. V takovém případě data nechtějí být tak hlasitá ze strachu z přetáčivosti vozu. Tento druh reparametrizace snižuje Fisherovy informace.

Odpověď

Doplněk k hezké odpovědi (+1) @NeilG a věnujte se konkrétním otázkám:

  1. Řekl bych, že se počítá spíše než „přesnost“ než samotná „chyba“.

Nezapomeňte, že hesensko logu – pravděpodobnost vyhodnocená na základě odhadů ML je pozorovaná Fisherova informace. Odhadované standardní chyby jsou druhé odmocniny diagonálních prvků inverzní hodnoty pozorované Fisherovy informační matice. Z toho vychází Fisherova informace stopou Fisherovy matice informací. Vzhledem k tomu, že Fisherova informační matice $ I $ je hermitovská pozitivně semidefinitní maticová matice, pak jsou její diagonální položky $ I_ {j, j} $ skutečné a nezáporné; jako přímý důsledek sleduje $ tr (I) $ musí být pozitivní. To znamená, že podle tvrzení můžete mít pouze „neideální“ odhady. Takže ne, pozitivní Fisherova informace nesouvisí s jak ideální je vaše MLE.

  1. Definice se liší v tom, jak interpretujeme pojem informace v obou případech. Obě měření spolu úzce souvisejí.

Inverzní Fisherova informace je minimální odchylkou nezaujatého odhadce ( Cramér– Rao vázán ). V tomto smyslu informační matice naznačuje, kolik informací o odhadovaných koeficientech je obsaženo v datech. Naopak Shannonova entropie byla převzata z termodynamiky. Vztahuje informační obsah konkrétní hodnoty proměnné jako $ –p · log_2 (p) $, kde $ p $ je pravděpodobnost, že proměnná převezme tuto hodnotu. Obě jsou měřítkem toho, jak „informativní“ je proměnná. V prvním případě však tyto informace posuzujete z hlediska přesnosti, zatímco v druhém případě z hlediska poruchy; různé strany, stejná mince! : D

Shrnutí: Inverzní Fisherova informační matice $ I $ vyhodnocená na hodnotách ML odhadu je asymptotická nebo přibližná kovarianční matice. Protože se tyto hodnoty odhadu ML nacházejí v místním minimu graficky, informace o Fisherovi ukazují, jak hluboké je toto minimum a kdo kolem něj třese místnost. Našel jsem tento příspěvek od Lutwaka a kol. v Rozšíření Fisherových informací a Stamovy nerovnosti v informativním čtení o této záležitosti. Články na Wikipedii o Fisher Information Metric a o Jensen – Shannon divergence jsou také dobré začněte.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *