Základní otázka k definování dimenzí a záznamů Fisherovy informační matice

Jsem začátečník, který se pokouší představit se na odhad maximální pravděpodobnosti (MLE) a dokáže některé uchopit materiálu adekvátně, jako je hledání vrcholů funkcí pravděpodobnosti, přiblížení k Cramer-Rao Bound a převrácení Fisher Information Matrix, aby se odvodily kovarianční matice a odhady rozptylu. Je ironií, že mám větší potíže se snahou zjistit přesně co by měly sloupce, řádky a položky Fisher Matrix představovat a definovat jeho strukturu. Během uplynulého roku jsem prohledal jednu nebo dvě desítky odkazů (plus vyhledávání na CrossValidated) a ještě jsem neviděl žádné příklady se skutečnými hodnotami zapojenými do vzorců, i když jejich diskuse o dalších aspektech matice je obvykle důkladná.

Pokusím se podrobně vysvětlit, aby nedocházelo k překrývání pokročilejších témat s jinými vlákny. Zdá se, že většina mého zmatku pramení z toho: integrál v maticové rovnici má výsledek derivace a pravděpodobnosti funkce druhého řádu na děliteli a dva deriváty pro jeden parametr dividendy, obvykle se dvěma indexy jako i a j. (Příklady najdete v této položce Wikipedie a této ). Vždy se zdá, že existují přesně dva dolní indexy, což implikuje dvourozměrnou matici a nutí mě klást související otázky níže:

Kdybych měl pouze jednu léčbu a jeden parametr, zdá se implikovat jednorozměrnou matici. Pokud ano, na co by odkazovaly maticové indexy i a j? Musel bych udělat křížový součin jediné dimenze, abych mohl odvodit dividendu v rovnici Fisher Matrix?
Jak by se změnily struktury sloupců a řádků, kdybych měl dva ošetření a potřebujete odhadnout jediný parametr? Znamenalo by to 2D matici?
Byla by obrácená situace, kdy by jedna léčba a dva parametry (řekněme měřítko a tvar), změnily otázku č. 2? Představuji si, že by to nebylo praktické u některých distribucí, pokud byl jeden z parametrů potřebný k odvození druhého ve funkci pravděpodobnosti.
Jak bych změnil strukturu matice a vypočítal položky, pokud mám dvě nebo více ošetření plus dva nebo více parametrů? Zdá se, že z toho vyplývá 3D nebo vyšší matice, v takovém případě „potřebujeme více dolních indexů než jen i a j. V textech, článcích v časopisech a tutoriálech, které jsem doposud skryl, jsem zatím neviděl žádné vzorce v tomto smyslu (V případě potřeby mám seznam referencí). Děje se to běžně v reálných světových MLE?
Můžeme rozšířit matici tak, aby zahrnovala samostatné distribuce nebo dokonce distribuční rodiny spolu s jejich parametry? Jak by to ovlivnilo strukturu matice?
Mohou položky matice sestávat ze směsi výpočtů pravděpodobnosti i pozorovaných hodnot, pokud jsou tyto k dispozici? Zdá se, že Fisherův metrický vzorec na https://en.wikipedia.org/wiki/Fisher_information_metric#Definition pravděpodobně nahrazuje soubory PDF. Znamenalo by to smíchání pozorovaných informací s Fisherovými informacemi? Tato část otázky může vést k dalším tématům, jako jsou jemné rozdíly mezi pozorovanými a Fisherovými informacemi, které jsou pravděpodobně lépe pokryty jinde. Zajímalo by mě, jestli jsou tyto dva typy záznamů někdy smíchány ve stejné matici. Předpokládám, že by téměř vždy byly oddělené.

Uvědomuji si že odpovědi, které hledám, pravděpodobně neberou v úvahu; Zjevně mýlím nějaký jednoduchý základní koncept. Jakmile překonám tento kámen úrazu, měl bych být schopen rychle zapojit některé pravděpodobnostní funkce do Fisherových vzorců, vrátit některé kovarianční matice a procvičit výběr některých MLE; obvykle by to bylo těžké část, ale držím se tohoto základního úkolu. Obrázek má takříkajíc tisíc slov: odpovědi na výše uvedené otázky by byly pravděpodobně okamžitě jasné, kdybych viděl příklady s připojenými skutečnými hodnotami. Zůstalo by jen vysvětlit, jak naplnit matici z obvyklého vzorce pomocí pouze dva dolní indexy nebo střídavě jakékoli změny vzorce, aby vyhovovaly více úpravám a parametrům. Užitečné by byly také odkazy na jakékoli takové příklady nebo cvičení. Díky předem 🙂

Komentáře

+1, protože jste se opravdu pokusili odpovědět sami, ale jako přátelskou radu: Pokračujte a upravte to na menší otázku. Do té míry, nemůžete numericky vyhodnotit logaritmickou pravděpodobnostní nákladovou funkci, získáte její Hessian a uvidíte sami, jak vypadají částečné derivace? (Pokud to chcete, mohu to udělat za vás.) Začněte nejprve spojitou proměnnou, nikoli diskrétní. (Myslím, že také zaměňujete, co dělá více parametrů; do vaší návrhové matice přidávají pouze sloupce, nikoli úplné rozměry.)
Děkuji za radu – ‚ zkusím to dnes večer několikrát upravit a zítra to rozřezat. ‚ Zajímám se o proces odvození matice s jedním parametrem vs. dvěma vs. více parametry a úpravami. To je pro mě ‚ skutečný problém; Nedokážu si ‚ představit, jak s těmito třemi scénáři zacházet odlišně, vzhledem k verzi Fisherova vzorce se dvěma dolními indexy. Díky 🙂
Nejstručnějším způsobem, jak na to odpovědět, by byly screenshoty / odkazy skutečných Fisherových matic s 1) jedním parametrem 2) dvěma parametry & 3) více parametry s více ošetřeními, pokud jsou množství v každém sloupci / řádku jasně označena. Nebo jednoduché “ S více parametry & ošetření bychom měli X # sloupců a Y # řádků. S jedním parametrem, hodnoty by šly sem; X. atd. “ Vzorce / návody jsou zbytečné, pokud nejsou nutné změny, aby bylo možné přizpůsobit další parametry & ošetření. Mohu & to udělat sám; Potřebuji jen hotové příklady, abych mohl srovnat svou strukturu.
Vypadá to docela skličující, abych odpověděl. Myslím, že by mohlo být snazší uvést příklad &, kde jste ‚ zasekli v derivaci nebo zmateni výkladem. Ale pro začátek, co ‚ s “ léčba “ znamená? Postřeh? Experimentální léčba?
@Scortchi Odpověď ‚ je pravděpodobně neobvykle jednoduchá. Použití přesně 2 dolních indexů i & j ve vzorci je jediným bodem, kde jsem ‚ m uvízl v derivaci; Nemohu ‚ pochopit, jak to může vyhovovat jednotlivým parametrům nebo více parametrům / léčbě. Prohlížení skutečných hotových Fisherových informačních matic s jasně označenými sloupci & řádky by to odpovědělo; v literatuře jich ‚ není mnoho. ‚ d pak řeknu: “ Aha, proto mohou 2 dolní indexy zpracovat 3 parametry nebo pouze 1 atd. Zde jsou by se umístil do matice. “ Je to ‚ pouze struktura hotového produktu I ‚ m after, nic víc.

Odpověď

Fisherova informace je symetrická čtvercová matice s číslem řádků / sloupců rovných počtu parametrů, které odhadujete. Připomeňme, že je to kovarianční matice skóre, & pro každý parametr skóre nebo očekávání negativ hesenska s gradientem pro každý parametr. Pokud chcete uvažovat o různých experimentálních úpravách, reprezentujete jejich účinky přidáním dalších parametrů do modelu, tj. více řádků / sloupců (spíše než více dimenzí — matice má podle definice dvě dimenze). Když znovu odhadujete g pouze jeden parametr, informace Fishera je pouze matice jedna po druhé (skalární) — rozptyl nebo očekávaná hodnota negativu druhé derivace , skóre.

Pro jednoduchý lineární regresní model $ Y $ na $ x $ s pozorováním $ n $

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

kde $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, lze odhadnout tři parametry, intercept $ \ beta_0 $, sklon $ \ beta_1 $, & odchylka chyby $ \ sigma ^ 2 $; informace o Fisherovi jsou

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0} \ pravé) ^ 2 & \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0} \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_1} & \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0} \ tfrac { \ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2} \\ \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_1} \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0} & \ left (\ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_1} \ pravé) ^ 2 & \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ částečné \ beta_1} \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2} \\ \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ částečné \ sigma ^ 2} \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0} & \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2} \ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ částečné \ beta_1} & \ levé (\ tfrac {\ částečné \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2} \ pravé ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ částečné \ beta_0) ^ 2} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0 \ částečné \ beta_1} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_0 \ částečné \ sigma ^ 2} \\ \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {{částečné \ beta_1 \ částečné \ beta_0} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ částečné \ beta_1) ^ 2} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ částečné \ beta_1 \ částečné \ sigma ^ 2} \\ \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2 \ částečné \ beta_0} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ částečné \ sigma ^ 2 \ částečné \ beta_1} & \ tfrac {\ částečné ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ částečné \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

kde $ \ ell (\ cdot) $ je funkce logaritmické pravděpodobnosti parametrů. (Všimněte si, že $ x $ může být fiktivní proměnná označující konkrétní léčbu.)

Komentáře

Perfektní – to ‚ přesně to, co jsem potřeboval. I ‚ to přes noc uvážím a uvidím, jestli potřebuji nějaké vysvětlení – nemohu ‚ hned žádné najít – ale tato odpověď již řeší všechny různé scénáře, které jsem zmínil výše, v jednom rázu. Díky
Struktura příkladu @Scortchi ‚ jasně ukazuje, jak Fisherův vzorec, na který jsem navázal, potřebuje pouze dva maticové indexy – i a j – k umístění libovolného počtu parametrů a hodnot. Každá ne-úhlopříčka v horní matici má v dividendě přesně dva termíny; namísto přidávání nebo odečítání termínů z každé dividendy každá jedinečná kombinace parametrů přidává nebo odečítá řádky a sloupce z matice. Většina publikované literatury nedělá ‚ tento důležitý rozdíl jasný, což vedlo k mému zmatku.

Komentáře

Odpověď

Komentáře

Napsat komentář Zrušit odpověď na komentář