Peruskysymys Fisher-tietomatriisin ulottuvuuksien ja merkintöjen määrittämisestä

Olen aloittelija, joka yrittää esitellä itseni suurimman todennäköisyyden estimointiin (MLE) ja osaa ymmärtää joitain materiaalista riittävästi, kuten todennäköisyystoimintojen piikkien etsiminen, lähestyminen Cramer-Rao Boundiin ja kääntäminen Fisher Information Matrix -käännökseen kovarianssimatriisin ja varianssiarvioiden johtamiseksi. Ironista kyllä, minulla on enemmän vaikeuksia yrittää selvittää tarkalleen mitä Fisher Matrix -sarakkeen sarakkeiden, rivien ja merkintöjen tulisi edustaa ja määritellä sen rakenne. Olen ohittanut yhden tai kaksi tusinaa viittausta viimeisen vuoden aikana (plus haku CrossValidatedissa), enkä ole vielä nähnyt esimerkkejä kaavoihin liitetyistä todellisista arvoista, vaikka niiden keskustelu matriisin muista näkökohdista on yleensä perusteellinen.

Yritän selittää yksityiskohtaisesti, jotta vältetään edistyneempien aiheiden päällekkäisyys muissa ketjuissa. Suurin osa hämmennyksestäni näyttää johtuvan tästä: matriisiyhtälön integraalilla on toisen asteen derivaatti- ja todennäköisyysfunktiotulos jakajalla ja kaksi johdannaista yhdelle osingon parametrille, yleensä kahdella alaindeksillä, kuten i ja j. (Katso esimerkkejä tästä Wikipedia-merkinnästä ja tästä ). Alaotsikoita näyttää aina olevan täsmälleen kaksi, mikä merkitsee kaksiulotteista matriisia ja saa minut esittämään alla olevat kysymykset:

Jos minulla olisi vain yksi käsittely ja yksi parametri, se näyttää tarkoittaa yksiulotteista matriisia. Jos näin on, mihin matriisitilaukset i ja j viittaavat? Pitäisikö minun tehdä yhden ulottuvuuden ristitulo itselleen saadaksesi osingon Fisher Matrix -yhtälöstä?
Kuinka sarake- ja rivirakenteet muuttuisivat, jos minulla olisi kaksi hoidot ja tarvitaanko yhden parametrin arvioimiseksi? Tarkoittaako tämä 2D-matriisia?
Olisiko päinvastaisessa tilanteessa, jossa on yksi käsittely ja kaksi parametria (eli mittakaava ja muoto), ero kysymykseen 2? Luulen, että tämä ei olisi käytännöllistä joillekin jakaumille, jos yhtä parametreista tarvitaan toisen johtamiseksi todennäköisyysfunktiossa.
Kuinka muuttaisin matriisirakennetta ja laskisin merkinnät, jos minulla on kaksi tai useampia käsittelyjä plus kaksi tai useampia parametreja? Tämä näyttää merkitsevän 3D: tä tai korkeamman matriisin, jolloin tarvitsemme enemmän tilaajia kuin vain minä ja j. En ole vielä nähnyt mitään vastaavia kaavoja teksteissä, lehtiartikkeleissa ja oppaissa, jotka olen tähän mennessä luonut (Minulla on tarvittaessa luettelo viitteistä). Tehdäänkö tätä yleisesti reaalimaailman MLE: ssä?
Voimmeko laajentaa matriisia sisällyttämällä siihen erilliset jakaumat tai jopa jakeluperheet parametrien ohella? Kuinka tämä vaikuttaisi matriisin rakenteeseen?
Voivatko matriisimerkinnät koostua sekä todennäköisyyden että havaittujen arvojen laskelmista, jos jälkimmäiset ovat käytettävissä? Fisher-metriikan kaava kohdassa https://en.wikipedia.org/wiki/Fisher_information_metric#Definition näyttää korvaavan todennäköisyydet PDF-tiedostoilla. Tarkoittaako tämä havaittujen tietojen sekoittamista Fisher Informationiin? Tämä kysymyksen osa voi johtaa muihin aiheisiin, kuten havaittujen ja Fisher-tietojen välisiin hienovaraisiin eroihin, jotka todennäköisesti käsitellään paremmin muualla. Mietin vain, jos nämä kahden tyyppiset merkinnät ovat koskaan sekoittuneet samaan matriisiin. Oletan, että ne olisi melkein aina pidetty erillään.

Ymmärrän että etsimäni vastaukset eivät todennäköisesti ole järkeviä; Olen ilmeisesti saamassa yksinkertaisen taustalla olevan käsitteen väärin. Kun olen ohittanut tämän kompastuskiven, minun pitäisi pystyä kytkemään jotkut todennäköisyysfunktiot Fisherin kaavoihin, palauttamaan kovarianssimatriisit ja harjoittamaan joidenkin MLE-arvojen valitsemista; tavallisesti se olisi vaikeaa osa, mutta olen jumissa tämän perustehtävän kanssa. Kuva on niin sanotun tuhannen sanan arvoinen: vastaukset yllä oleviin kysymyksiin olisivat todennäköisesti heti selkeät, jos näen esimerkkejä todellisista arvoista kytkettynä. Silloin jäljellä on vain selittää, miten matriisi täytetään tavallisesta kaavasta käyttämällä vain kaksi tilausta tai vuorotellen muutokset kaavaan useiden hoitojen ja parametrien mukauttamiseksi. Linkit tällaisiin esimerkkeihin tai harjoituksiin olisivat myös hyödyllisiä. Kiitos etukäteen 🙂

Kommentit

+1, koska olet todellakin yrittänyt vastata itse, mutta ystävällisenä neuvona: Mene eteenpäin ja muokkaa tämä pienemmäksi kysymykseksi. Etkö siinä määrin voi arvioida numeerisesti log-likelihood-kustannusfunktiota, saa sen Hessian-arvon ja nähdä itse, miltä osittaiset johdannaiset näyttävät? (Voin tehdä sen sinulle, jos haluat.) Aloita jatkuva muuttuja ensin ei erillinen. (Luulen, että sekoitat myös muut parametrit; ne lisäävät vain sarakkeita suunnittelumatriisiin, ei täysimittaisiksi.)
Kiitos neuvosta – Yritän muokata sitä muutama kerta tänä iltana ja huomenna leikkaamaan sen ’. Olen ’ kiinnostunut näkemään prosessin, jolla matriisi johdetaan yhdellä parametrilla verrattuna kahteen verrattuna useisiin parametreihin ja hoitoihin. Se ’ on minulle todellinen kiinnityskohta; En osaa ’ kuvitella, kuinka käsitellä näitä kolmea skenaariota eri tavalla, kun otetaan huomioon Fisher-kaavan versio, jossa on kaksi alaindeksiä. Kiitos 🙂
Tiivisin tapa vastata tähän olisi kuvakaappaukset / linkit todellisista Fisher-matriiseista, joissa on 1) yksi parametri 2) kaksi parametria & 3) useita parametreja useilla käsittelyillä, kunhan kunkin sarakkeen / rivin määrät on selvästi merkitty. Tai yksinkertainen ” Useilla parametreilla & käsittelemällä X # saraketta ja Y # riviä. Yhdellä parametrilla, arvot menisivät tänne; X. jne. ” Kaavat / läpikäynnit ovat tarpeettomia, ellei muutoksia tarvitse tehdä ylimääräisten parametrien & mukauttamiseksi. Voin & tehdä niin itse; Tarvitsen vain valmiita esimerkkejä verratakseni rakennettani.
Tämä näyttää melko pelottavalta vastata. Mielestäni saattaa olla helpompaa antaa esimerkki & näyttää, missä ’ olet juuttunut johdantoon tai hämmentynyt tulkinnasta. Mutta aluksi mitä ’ s tarkoittaa ” hoito ”? Havainto? Kokeellinen hoito?
@Scortchi Vastaus ’ on todennäköisesti epätavallisen yksinkertainen. Tasan kahden tilauksen i & j käyttö kaavassa on ainoa kohta, jossa I ’ m on juuttunut johdokseen; En osaa ’ ymmärtää, miten siihen mahtuu yksittäisiä parametreja tai useita parametreja / hoitoja. Todellisten valmiiden Fisher-informaatiomatriisien tarkasteleminen selkeästi merkittyillä sarakkeilla & vastaisi siihen; kirjallisuudessa ei vain ole ’ t monia. Minä ’ d sanon sitten, ” Aha, siksi kaksi tilaajaa pystyy käsittelemään 3 parametria tai vain yhtä jne. sijoitettaisiin matriisiin. ” Se ’ on vain lopputuotteen rakenne I ’ m jälkeen, ei mitään muuta.

Vastaus

Fisher-tieto on symmetrinen neliömatriisi, jossa on luku rivien / sarakkeiden lukumäärä, joka on sama kuin arvioimiesi parametrien lukumäärä. Muistakaa, että se on pisteiden kovarianssimatriisi, & siellä ”sa pisteet jokaiselle parametrille, tai odotukset Hessiläisen negatiivi, jossa jokaisella parametrilla on gradientti. Kun haluat harkita erilaisia kokeellisia käsittelyjä, edustat niiden vaikutuksia lisäämällä malliin enemmän parametreja, ts. enemmän rivejä / sarakkeita (eikä useampia ulottuvuuksia matriisilla on määritelmän mukaan kaksi ulottuvuutta.) Kun olet estimatinoinut Jos vain yksi parametri on, Fisher-informaatio on vain yksi kerrallaan matriisi (skalaari) — toisen johdannaisen varianssi tai negatiivisen odotettu arvo , tulos.

Yksinkertaiselle lineaariselle regressiomallille $ Y $ hintaan $ x $ ja $ n $ havaintoja

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

Missä $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, on arvioitavissa kolme parametria, leikkaus $ \ beta_0 $, kaltevuus $ \ beta_1 $, & virhevaihtelu $ \ sigma ^ 2 $; Fisher-tiedot ovat

$$ \ begin {tasaus} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operaattorin nimi {E} \ vasen [\ begin {matriisi} \ left (\ tfrac {\ partituali \ (beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_0} \ oikea) ^ 2 & \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_0} \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_1} & \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen beta_0} \ tfrac { \ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ sigma ^ 2} \\ \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_1} \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partituali \ beta_0} & \ vasen (\ tfrac {\ osallinen \ ell (\ beta_0, \ beeta_1, \ sigma ^ 2)} {\ osittainen \ beta_1} \ oikea) ^ 2 & \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ osittainen \ beta_1} \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ sigma ^ 2} \\ \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ osittainen \ sigma ^ 2} \ tfrac {\ osittainen \ ell (\ beta_0, \ beeta_1, \ sigma ^ 2)} {\ osittainen \ beta_0} & \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ sigma ^ 2} \ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partiolainen \ beta_1} & \ vasen (\ tfrac {\ osittainen \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ sigma ^ 2} \ oikea ) ^ 2 \\ \ end {matriisi} \ right] \\ \\ = & – \ operaattorin nimi {E} \ vasen [\ begin {matrix} \ tfrac {\ osittainen ^ 2 \ ell (\ beta_0, \ beeta_1, \ sigma ^ 2)} {(\ osittainen beta_0) ^ 2} & \ tfrac {\ osittain ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_0 \ osittainen \ beta_1} & \ tfrac {\ osaa ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_0 \ osittainen \ sigma ^ 2} \\ \ tfrac {\ osittainen ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_1 \ osallinen \ beta_0} & \ tfrac {\ osittainen ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ osittainen beta_1) ^ 2} & \ tfrac {\ osittainen ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ beta_1 \ osittainen \ sigma ^ 2} \\ \ tfrac {\ osittainen ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen \ sigma ^ 2 \ osittainen \ beta_0} & \ tfrac {\ osittainen ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ osittainen sigma ^ 2 \ osittainen \ beta_1} & \ tfrac {\ osallinen ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ osittainen \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matriisi} \ right] \ end {tasaus} $ $

missä $ \ ell (\ cdot) $ on parametrien lok-likelihood-funktio. (Huomaa, että $ x $ voi olla nuken muuttuja, joka osoittaa tietyn käsittelyn.)

Kommentit

Täydellinen – se ’ tarkalleen mitä tarvitsin.

Mietin tätä yön yli ja katson, tarvitsenko selvennyksiä – en voi ’ huomata mitään juuri nyt – mutta tämä vastaus jo osoittaa kaikki edellä mainitut vaihtelevat skenaariot yhdellä iskulla. Kiitos

@Scortchi ’ -esimerkin rakenne osoittaa selvästi, kuinka Fisherin kaava, johon linkitin, tarvitsee vain kaksi matriisitilausta – i ja j – mihin tahansa numeroon. parametrien ja arvojen. Jokaisella ylämatriisin ei-diagonaalisella osingolla on tarkalleen kaksi termiä; sen sijaan, että lisätään tai vähennetään termejä kustakin osingosta, kukin ainutlaatuinen parametriyhdistelmä lisää tai vähentää matriisista rivejä ja sarakkeita. Suurin osa julkaistusta kirjallisuudesta ei tee ’ tälle tärkeälle erolle selkeää, mikä aiheutti sekaannusta.

Kommentit

Vastaus

Kommentit

Vastaa Peruuta vastaus