Załóżmy, że mamy zmienną losową $ X \ sim f (x | \ theta) $ . Jeśli $ \ theta_0 $ był prawdziwym parametrem, funkcja wiarygodności powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada estymatora największej wiarygodności.
Jak rozumiem, informacje Fishera są zdefiniowane jako
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ części} {\ części \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Zatem jeśli $ \ theta_0 $ to prawdziwy parametr, $ I (\ theta) = 0 $ . Ale jeśli $ \ theta_0 $ nie jest prawdziwym parametrem, to będziemy mieć większą ilość informacji Fishera.
moje pytania
- Czy informacje Fishera mierzą „błąd „danego MLE? Innymi słowy, czy istnienie pozytywnych informacji Fishera nie oznacza, że mój MLE nie może być idealny?
- Czym ta definicja „informacji” różni się od definicji używanej przez Shannon? Dlaczego nazywamy to informacją?
Komentarze
- Dlaczego to piszesz $ E_ \ theta $? Oczekiwanie przewyższa wartości $ X $ rozłożone tak, jakby pochodziły z twojej dystrybucji z parametrem $ \ theta $.
- Również $ I (\ theta) $ nie jest równe zeru w punkcie prawdziwym. >
- E (S) wynosi zero (tj. oczekiwanie funkcji score), ale jak napisał Neil G – informacja o rybaku (V (S)) nie jest (zwykle) zerem.
Odpowiedź
Próba uzupełnienia innych odpowiedzi … Jakim rodzajem informacji są informacje Fishera? Zacznij od funkcji loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ jako funkcji $ \ theta $ dla $ \ theta \ in \ Theta $, czyli przestrzeni parametrów. Zakładając pewne warunki regularności, których tutaj nie omawiamy, mamy $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ części} {\ części \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (będziemy zapisywać pochodne w odniesieniu do parametru jako kropki, jak tutaj). Wariancja to informacja Fishera $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ ostatnia formuła pokazująca, że jest to (ujemna) krzywizna funkcji prawdopodobieństwa logicznego. Często można znaleźć estymator maksymalnego prawdopodobieństwa (mle) $ \ theta $, rozwiązując równanie prawdopodobieństwa $ \ dot {\ ell} (\ theta) = 0 $, gdy informacja Fishera jako wariancja wyniku $ \ dot {\ ell } (\ theta) $ jest duże, to rozwiązanie tego równania będzie bardzo wrażliwe na dane, dając nadzieję na wysoką precyzję mle. Potwierdza się to przynajmniej asymptotycznie, asymptotyczna wariancja mle jest odwrotnością informacji Fishera.
Jak możemy to zinterpretować? $ \ ell (\ theta) $ to informacja o prawdopodobieństwie parametru $ \ theta $ z próbki. Tak naprawdę można to interpretować tylko w sensie względnym, na przykład gdy używamy go do porównania prawdopodobieństw dwóch różnych możliwych wartości parametrów za pomocą testu współczynnika wiarygodności $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Szybkość zmiany prawdopodobieństwa logicznego to funkcja punktacji $ \ dot {\ ell} (\ theta) $ mówi nam, jak szybko zmienia się prawdopodobieństwo, a jego wariancja $ I (\ theta) $ o ile różni się od próbki do próbki, przy danej wartości parametru powiedz $ \ theta_0 $. Równanie (co jest naprawdę zaskakujące!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ mówi nam, że istnieje zależność (równość) między zmiennością informacji ( prawdopodobieństwo) dla danej wartości parametru, $ \ theta_0 $, oraz krzywizny funkcji wiarygodności dla wartości tego parametru. Jest to zaskakująca zależność między zmiennością (wariancją) tej statystyki $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ a oczekiwaną zmianą prawdopodobieństwa, gdy zmienimy parametr $ \ theta $ w pewnym przedziale około $ \ theta_0 $ (dla tych samych danych). To jest naprawdę dziwne, zaskakujące i potężne!
Jaka jest więc funkcja prawdopodobieństwa? Zwykle myślimy o modelu statystycznym $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ jako o rodzinie rozkładów prawdopodobieństwa dla danych $ x $, indeksowanych przez parametr $ \ theta $ jakiś element w przestrzeń parametrów $ \ Theta $. Myślimy o tym modelu jako o prawdzie, jeśli istnieje pewna wartość $ \ theta_0 \ in \ Theta $ taka, że dane $ x $ faktycznie mają rozkład prawdopodobieństwa $ f (x; \ theta_0) $. Tak więc otrzymujemy model statystyczny, osadzając prawdziwy rozkład prawdopodobieństwa generowania danych $ f (x; \ theta_0) $ w rodzinie rozkładów prawdopodobieństwa. Ale jest jasne, że takie osadzanie można przeprowadzić na wiele różnych sposobów, a każde takie osadzenie będzie „prawdziwym” modelem i będzie dawało różne funkcje prawdopodobieństwa. Bez takiego osadzenia nie ma funkcji prawdopodobieństwa. Wygląda na to, że naprawdę potrzebujemy pomocy, pewnych zasad, jak mądrze wybrać osadzanie!
Więc co to oznacza? Oznacza to, że wybór funkcji prawdopodobieństwa mówi nam, jak spodziewalibyśmy się zmiany danych, gdyby prawda trochę się zmieniła. Ale tak naprawdę nie można tego zweryfikować na podstawie danych, ponieważ dane dostarczają jedynie informacji o prawdziwej funkcji modelu $ f (x; \ theta_0) $, która faktycznie wygenerowała dane, a nie nic o wszystkich innych elementach w wybranym modelu. W ten sposób widzimy, że wybór funkcji prawdopodobieństwa jest podobny do wyboru wcześniejszego w analizie bayesowskiej, wprowadza do analizy informacje niezwiązane z danymi. Spójrzmy na to na prostym (nieco sztucznym) przykładzie i przyjrzyjmy się efektowi osadzenia $ f (x; \ theta_0) $ w modelu na różne sposoby.
Załóżmy, że $ X_1, \ dotsc, X_n $ są równe $ N (\ mu = 10, \ sigma ^ 2 = 1) $. To jest prawdziwa dystrybucja generująca dane. Teraz umieśćmy to w modelu na dwa różne sposoby, model A i model B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ możesz sprawdzić, czy to pokrywa się dla $ \ mu = 10 $.
Funkcje loglikelihood to $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Funkcje punktacji : (pochodne loglikelihood): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ i krzywizny $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$, więc informacje Fishera tak naprawdę zależą od osadzenia. Teraz obliczamy informacje Fishera na prawdziwej wartości $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$, więc informacje Fishera o parametrze są nieco większe w modelu B.
To ilustruje, że w w pewnym sensie informacje Fishera mówią nam, jak szybko informacje z danych o parametrze zmieniłyby się , gdyby zmienił się parametr zarządzający w sposób postulowany przez osadzenie w rodzinie modeli . Wyjaśnieniem wyższych informacji w modelu B jest to, że nasza rodzina modeli B postuluje , że gdyby oczekiwanie wzrosło, zwiększyłaby się również wariancja . Tak więc w modelu B wariancja próbki będzie również zawierała informacje o $ \ mu $, czego nie będzie w modelu A.
Ponadto ten przykład pokazuje, że naprawdę potrzebujemy trochę teorii, aby pomóc nas w tworzeniu rodzin modeli.
Komentarze
- świetne wyjaśnienie. Dlaczego mówisz, że $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? it ' jest funkcją $ \ theta $ – isn ' t 0 tylko wtedy, gdy jest obliczana na podstawie prawdziwego parametru $ \ theta_0 $?
- Tak, to, co mówisz, jest prawdą, @idadanny. Wartość parametru wynosi zero.
- Jeszcze raz dziękuję @kjetil – więc jeszcze jedno pytanie: czy zaskakujący związek między wariancja wyniku i krzywizna prawdopodobieństwa jest prawdziwa dla każdego $ \ theta $? lub tylko w sąsiedztwie prawdziwego parametru $ \ theta_0 $?
- Znowu, ta trójkrotność jest prawdziwa dla prawdziwej wartości parametru. Ale żeby było to bardzo pomocne, musi istnieć ciągłość, tak aby była w przybliżeniu prawdziwa w jakimś sąsiedztwie, ponieważ użyjemy jej według szacunkowej wartości $ \ hat {\ theta} $, a nie tylko prawdziwej (nieznanej) wartość.
- więc relacja zachowuje się dla prawdziwego parametru $ \ theta_0 $, prawie zachowuje się dla $ \ theta_ {mle} $, ponieważ zakładamy, że ' znajduje się w sąsiedztwie $ \ theta_0 $, ale dla ogólnego $ \ theta_1 $ to nie wystarcza, prawda?
Odpowiedź
Pomyślmy w kategoriach ujemnej funkcji logarytmicznej wiarygodności $ \ ell $. Ujemny wynik to jej gradient w stosunku do wartości parametru. Przy prawdziwym parametrze wynik wynosi zero. W przeciwnym razie daje kierunek w kierunku minimum $ \ ell $ (lub w przypadku nie wypukłego $ \ ell $, punktu siodełka lub lokalnego minimum lub maksimum).
Informacje Fishera mierzą krzywiznę $ \ ell $ około $ \ theta $, jeśli dane następują po $ \ theta $. Innymi słowy, mówi ci, ile się porusza parametr wpłynąłby na prawdopodobieństwo logowania.
Weź pod uwagę, że masz duży model z milionami parametrów. I miałeś mały pendrive, na którym mógłbyś przechowywać swój model. Jak należy ustalić priorytety, ile bitów każdego parametru ma być przechowywanych? Prawidłowa odpowiedź to przydzielanie bitów zgodnie z informacjami Fishera (pisał o tym Rissanen). Jeśli informacja Fishera o parametrze wynosi zero, parametr ten nie ma znaczenia.
Nazywamy to „informacją”, ponieważ informacje Fishera mierzą, ile ten parametr mówi nam o danych.
Potoczny sposób myślenia o tym jest następujący: Załóżmy, że parametry kierują samochodem, a dane są na tylnym siedzeniu korygujące kierowcę. Irytującymi danymi są informacje Fishera. Jeśli dane pozwalają kierowcy prowadzić, informacja Fishera wynosi zero; jeśli dane są ciągle poprawiane, są duże. W tym sensie informacje Fishera to ilość informacji przechodzących z danych do parametrów.
Zastanów się, co się stanie, jeśli zmienisz kierownicę bardziej wrażliwy. Jest to równoważne z reparametryzacją. W takim przypadku dane nie chcą być tak głośne z obawy przed nadsterownością samochodu. Ten rodzaj reparametryzacji zmniejsza informacje Fishera.
Odpowiedź
Uzupełnienie ładnej odpowiedzi @NeilG „(+1) i odpowiedz na konkretne pytania:
- Powiedziałbym, że liczy „dokładność”, a nie sam „błąd”.
Pamiętaj, że Hesjan w dzienniku -prawdopodobieństwo oszacowane na podstawie oszacowań ML jest obserwowaną informacją Fishera Oszacowane błędy standardowe to pierwiastki kwadratowe przekątnych elementów odwrotności obserwowanej macierzy informacyjnej Fishera. Biorąc pod uwagę, że macierz informacji Fishera $ I $ jest hermitowską macierzą macierzową dodatnią-półskończoną, to jej ukośne wpisy $ I_ {j, j} $ są rzeczywiste i nieujemne; w bezpośredniej konsekwencji ślad $ tr (I) $ musi być dodatnia. Oznacza to, że zgodnie ze swoim stwierdzeniem możesz mieć tylko „nieidealne” estymatory. Zatem nie, dodatnia informacja Fishera nie jest związana z jak idealny jest Twój MLE.
- Definicja różni się w sposobie, w jaki interpretujemy pojęcie informacji w obu przypadkach. Mimo to oba pomiary są ze sobą ściśle powiązane.
Odwrotnością informacji Fishera jest minimalna wariancja nieobciążonego estymatora ( Cramér– Rao związany ). W tym sensie macierz informacji wskazuje, ile informacji o oszacowanych współczynnikach jest zawartych w danych. Wręcz przeciwnie, entropia Shannona została zaczerpnięta z termodynamiki. Wiąże zawartość informacyjną określonej wartości zmiennej jako $ –p · log_2 (p) $, gdzie $ p $ to prawdopodobieństwo, że zmienna przyjmie wartość. Oba są miarami tego, jak „informacyjna” jest zmienna. W pierwszym przypadku jednak oceniasz te informacje w kategoriach dokładności, aw drugim przypadku w kategoriach zaburzenia; różne strony, ta sama moneta! : D
Podsumowując: Odwrotnością macierzy informacyjnej Fishera $ I $ oszacowanej przy wartościach estymatora ML jest asymptotyczna lub przybliżona macierz kowariancji. Ponieważ wartości tego estymatora ML znajdują się graficznie w lokalnym minimum, informacje Fishera pokazują, jak głębokie jest to minimum i kto dużo kręci się wokół niego. Znalazłem ten artykuł Lutwaka i in. na Rozszerzenia informacji Fishera i nierówności Stama pouczające przeczytanie na ten temat. Artykuły z Wikipedii dotyczące Fisher Information Metric i Jensen – Shannon rozbieżności również są dobre dla zacząć.