Jestem początkującym, próbującym zapoznać się z estymacją maksymalnego prawdopodobieństwa (MLE) i potrafię pojąć kilka materiału, np. szukanie pików w funkcjach prawdopodobieństwa, zbliżanie się do granicy Cramera-Rao i odwracanie macierzy informacji Fishera w celu uzyskania macierzy kowariancji i oszacowań wariancji. Jak na ironię, mam więcej problemów z ustaleniem dokładnie co kolumny, wiersze i wpisy w Matrycy Fishera powinny przedstawiać i definiować jej strukturę. W ciągu ostatniego roku przejrzałem jeden lub dwa tuziny odniesień (plus wyszukiwanie w CrossValidated) i nie widziałem jeszcze żadnych przykładów z rzeczywistymi wartościami włączonymi do formuł, chociaż ich omówienie innych aspektów macierzy jest zwykle dokładne.
Spróbuję szczegółowo wyjaśnić, aby uniknąć nakładania się na bardziej zaawansowane tematy w innych wątkach. Wydaje się, że większość mojego zamieszania wynika z tego: całka w równaniu macierzowym ma pochodną drugiego rzędu i funkcję wiarygodności wynik na dzielniku i dwie pochodne dla pojedynczego parametru na dywidendzie, zwykle z dwoma indeksami, takimi jak i i j. (Przykłady można znaleźć w tym wpisie w Wikipedii i tym ). Zawsze wydaje się, że są dokładnie dwa indeksy dolne, co implikuje dwuwymiarową macierz i sprawia, że zadaję poniższe pytania:
-
Gdybym miał tylko jedno leczenie i jeden parametr, wydaje się implikować jednowymiarową macierz. Jeśli tak, do czego odnosiłyby się indeksy i i j macierzy? Czy musiałbym zrobić dla siebie iloczyn poprzeczny pojedynczego wymiaru, aby otrzymać dywidendę w równaniu Fishera Matrix?
-
Jak zmieniłyby się struktury kolumn i wierszy, gdybym miał dwa zabiegi i potrzebne do oszacowania pojedynczego parametru? Czy oznaczałoby to macierz 2D?
-
Czy sytuacja odwrotna, w której jest jeden zabieg i dwa parametry (powiedzmy skala i kształt), miałaby wpływ na pytanie nr 2? Wyobrażam sobie, że nie byłoby to praktyczne dla niektórych rozkładów, jeśli jeden z parametrów był potrzebny do wyprowadzenia drugiego w funkcji wiarygodności.
-
Jak zmienić strukturę macierzy i obliczyć wpisy, jeśli mam dwa lub więcej zabiegów plus dwa lub więcej parametrów? Wydaje się, że sugeruje to macierz 3D lub wyższą, w którym to przypadku potrzebowalibyśmy więcej indeksów niż tylko i i j. Nie widziałem jeszcze żadnych formuł na ten efekt w tekstach, artykułach w czasopismach i samouczkach, które przejrzałem do tej pory (Mam listę referencji, jeśli to konieczne). Czy jest to często wykonywane w rzeczywistych MLE?
-
Czy możemy rozszerzyć macierz, aby obejmowała oddzielne rozkłady lub nawet rodziny dystrybucji wraz z ich parametrami? Jak wpłynęłoby to na strukturę macierzy?
-
Czy wpisy macierzy mogą składać się z kombinacji obliczeń dotyczących zarówno prawdopodobieństwa, jak i obserwowanych wartości, jeśli te ostatnie są dostępne? Wydaje się, że wzór Fisher Metric w https://en.wikipedia.org/wiki/Fisher_information_metric#Definition zastępuje prawdopodobieństwa plikami PDF. Czy oznaczałoby to mieszanie zaobserwowanych informacji z informacjami Fishera? Ta część pytania może prowadzić do innych tematów, takich jak subtelne różnice między informacjami obserwowanymi i Fishera, które prawdopodobnie są lepiej omówione gdzie indziej. Zastanawiam się tylko, czy te dwa typy wpisów są kiedykolwiek mieszane w tej samej macierzy. Zakładam, że prawie zawsze byłyby oddzielone.
Zdaję sobie sprawę że odpowiedzi, których szukam, są prawdopodobnie zrozumiałe; Najwyraźniej źle rozumiem prostą, podstawową koncepcję. Gdy przejdę przez tę przeszkodę, powinienem być w stanie szybko podłączyć niektóre funkcje prawdopodobieństwa do formuł Fishera, zwrócić niektóre macierze kowariancji i poćwiczyć wybieranie niektórych MLE; zwykle byłoby to trudne część, ale utknąłem na tym podstawowym zadaniu. Obraz jest wart tysiąca słów, że tak powiem: odpowiedzi na powyższe pytania prawdopodobnie byłyby od razu jasne, gdybym zobaczył przykłady z podłączonymi rzeczywistymi wartościami. Pozostałoby wtedy tylko wyjaśnić, jak wypełnić macierz ze zwykłego wzoru za pomocą tylko dwa indeksy dolne lub na przemian wszelkie zmiany w formule w celu uwzględnienia wielu zabiegów i parametrów. Pomocne byłyby również linki do takich przykładów lub ćwiczeń. Z góry dziękuję 🙂
Komentarze
- +1, ponieważ naprawdę próbowałeś odpowiedzieć samodzielnie, ale jako przyjazna rada: Śmiało, edytuj to na mniejsze pytanie. W tym zakresie, czy nie możesz numerycznie oszacować funkcji kosztu logarytmiczno-prawdopodobieństwa, uzyskać jej hesjan i przekonać się, jak wyglądają pochodne cząstkowe? (Mogę to dla ciebie zrobić, jeśli chcesz.) Zacznij od zmiennej ciągłej, a nie dyskretnej. (Myślę, że również mylisz, co robią inne parametry; dodają one tylko kolumny do macierzy projektu, a nie pełne wymiary.)
- Dziękuję za radę – ' spróbuję edytować go kilka razy dziś wieczorem i jutro, aby go skrócić. ' chciałbym zobaczyć proces wyprowadzania macierzy z jednym parametrem w porównaniu z dwoma w porównaniu z wieloma parametrami i zabiegami. To ' jest dla mnie prawdziwym punktem spornym; Mogę ' wyobrazić sobie, jak inaczej obsłużyć te trzy scenariusze, biorąc pod uwagę wersję formuły Fishera z dwoma indeksami dolnymi. Dzięki 🙂
- Najbardziej zwięzłą odpowiedzią byłyby zrzuty ekranu / linki rzeczywistych macierzy Fishera z 1) jednym parametrem 2) dwoma parametrami & 3) wieloma parametry z wieloma zabiegami, o ile ilości w każdej kolumnie / wierszu są wyraźnie oznaczone. Lub prostym ” Z wieloma parametrami & zabiegami będziemy mieć X # kolumn i Y # wierszy. Z jednym parametrem, wartości trafiłyby tutaj; X. etc ” Formuły / instrukcje są niepotrzebne, chyba że potrzebne są zmiany w celu uwzględnienia dodatkowych parametrów & zabiegów. Mogę & powinienem to zrobić samodzielnie; Potrzebuję tylko gotowych przykładów, aby porównać moją strukturę.
- Odpowiedź wydaje się raczej zniechęcająca. Myślę, że łatwiej byłoby podać przykład & pokazujący, gdzie ' utkniesz w procesie wyprowadzania lub masz wątpliwości co do interpretacji. Ale na początek, co ' jest ” leczenie „? Obserwacja? Leczenie eksperymentalne?
- @Scortchi Odpowiedź ' jest prawdopodobnie niezwykle prosta. Użycie dokładnie 2 indeksów dolnych i & j we wzorze to jedyny punkt, w którym utknąłem w wyprowadzeniu. ' Nie potrafię ' pojąć, w jaki sposób można uwzględnić pojedyncze parametry lub wiele parametrów / zabiegów. Wyświetlenie gotowych macierzy informacyjnych Fishera z wyraźnie oznaczonymi kolumnami & wierszami dałoby odpowiedź; w literaturze nie ma tylko ' zbyt wielu. I ' d, a następnie mówię, ” Aha, to dlatego 2 indeksy mogą obsługiwać 3 parametry lub tylko 1 itd. zostanie umieszczony w macierzy. ” To ' to tylko struktura gotowego produktu I ' m after, nic więcej.
Odpowiedź
Informacje Fishera to symetryczna macierz kwadratowa z liczbą wierszy / kolumn równych liczbie parametrów, które „szacujesz”. Przypomnij sobie, że jest to macierz kowariancji wyników, & istnieje „wynik dla każdego parametru lub oczekiwanie wartość ujemna Hesjan, z gradientem dla każdego parametru. Jeśli chcesz rozważyć różne zabiegi eksperymentalne, reprezentujesz ich efekty, dodając więcej parametrów do modelu, tj. więcej wierszy / kolumn (zamiast większej liczby wymiarów — macierz ma z definicji dwa wymiary) .Podczas ponownej oceny g tylko z jednym parametrem, informacja Fishera jest po prostu matrycą pojedynczą (skalarną) — wariancją lub oczekiwaną wartością ujemną drugiej pochodnej , wynik.
Dla prostego modelu regresji liniowej $ Y $ na $ x $ z obserwacjami $ n $
$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $
gdzie $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, są trzy parametry do oszacowania, punkt przecięcia z osią $ \ beta_0 $, nachylenie $ \ beta_1 $, & odchylenie błędu $ \ sigma ^ 2 $; informacja Fishera to
$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_0} \ right) ^ 2 & \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_0} \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_1} & \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_0} \ tfrac { \ częściowe \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ sigma ^ 2} \\ \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ częściowe \ beta_1} \ tfrac {\ part \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ part \ beta_0} & \ left (\ tfrac {\ part \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_1} \ right) ^ 2 & \ tfrac {\ part \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ części \ beta_1} \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ sigma ^ 2} \\ \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ części \ sigma ^ 2} \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_0} & \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ sigma ^ 2} \ tfrac {\ części \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ części \ beta_1} & \ left (\ tfrac {\ part \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ part \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ part ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ części \ beta_0) ^ 2} & \ tfrac {\ Partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ części \ beta_0 \ części \ beta_1} & \ tfrac {\ części ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_0 \ części \ sigma ^ 2} \\ \ tfrac {\ części ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_1 \ części \ beta_0} & \ tfrac {\ części ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ części \ beta_1) ^ 2} & \ tfrac {\ części ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ części \ beta_1 \ części \ sigma ^ 2} \\ \ tfrac {\ części ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ części \ sigma ^ 2 \ Partial \ beta_0} & \ tfrac {\ part ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ Partial \ sigma ^ 2 \ części \ beta_1} & \ tfrac {\ Partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ part \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $
gdzie $ \ ell (\ cdot) $ jest funkcją logiczną prawdopodobieństwa parametrów. (Zwróć uwagę, że $ x $ może być zmienną fikcyjną wskazującą na konkretne leczenie.)
Komentarze
- Idealnie – to ' jest dokładnie tym, czego potrzebowałem. ' zastanowię się nad tym w nocy i zobaczę, czy potrzebuję wyjaśnień – nie mogę ' znaleźć teraz żadnego – ale ta odpowiedź już dotyczy wszystkie z różnych scenariuszy, o których wspomniałem powyżej, za jednym zamachem. Dzięki
- Struktura przykładu @Scortchi ' jasno pokazuje, że formuła Fishera, z którą się łączyłem, wymaga tylko dwóch indeksów macierzy – i i j – aby pomieścić dowolną liczbę parametrów i wartości. Każda nieprzekątna w górnej macierzy ma dokładnie dwa człony dywidendy; zamiast dodawać lub odejmować terminy od każdej dywidendy, każda unikalna kombinacja parametrów dodaje lub odejmuje wiersze i kolumny z macierzy. Większość opublikowanej literatury nie ' nie wyjaśnia tego ważnego rozróżnienia, co doprowadziło do mojego zamieszania.