Oletetaan, että meillä on satunnaismuuttuja $ X \ sim f (x | \ theta) $ . Jos $ \ theta_0 $ olisi oikea parametri, todennäköisyysfunktio tulisi maksimoida ja johdannainen olla nolla. Tämä on perusperiaate suurimman todennäköisyyden estimaattorin takana.

Kuten ymmärrän, Fisher-tiedot määritellään seuraavasti:

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ osal} {\ osittainen \ theta} f (X | \ theta) \ oikea) ^ 2 \ Bigg] $$

Jos siis $ \ theta_0 $ on todellinen parametri, $ I (\ theta) = 0 $ . Mutta jos se $ \ theta_0 $ ei ole oikea parametri, meillä on enemmän Fisher-tietoja.

kysymykseni

  1. mittaako Fisher-tiedot virheen ”tietyn MLE: n? Toisin sanoen, eikö positiivisten Fisher-tietojen olemassaolo tarkoita sitä, että MLE ei voi olla ihanteellinen?
  2. Miten tämä ”tiedon” määritelmä eroaa Shannonin käyttämästä määritelmästä? Miksi kutsumme sitä tiedoksi?

kommentit

  • Miksi kirjoitat sille $ E_ \ theta $? Odotus ylittää $ X $: n arvot, jotka jakautuvat ikään kuin ne olisivat peräisin jakelustasi parametrilla $ \ theta $.
  • Myös $ I (\ theta) $ ei ole nolla todellisessa parametrissa.
  • E (S) on nolla (eli pistefunktion odotus), mutta kuten Neil G kirjoitti – kalastajatietoja (V (S)) ei ole (yleensä) nolla.

vastaus

Yritetään täydentää muita vastauksia … Millaisia tietoja Fisher-tiedot ovat? Aloita loglikelihood-funktiolla $$ \ ell (\ theta) = \ log f (x; \ theta) $$ funktion $ \ theta $ funktiolla $ \ theta \ parametrissa \ Theta $. Olettaen, että säännöllisyysedellytyksiä ei käsitellä tässä, meillä on $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partituali {\ osittainen \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (kirjoitamme parametrin suhteen johdannaiset pisteinä kuten tässä). Varianssi on Fisherin tiedot $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ viimeinen kaava osoittaa, että se on loglikelihood-funktion (negatiivinen) kaarevuus. Usein löydetään $ \ theta $: n suurin todennäköisyyden estimaattori (mle) ratkaisemalla todennäköisyysyhtälö $ \ dot {\ ell} (\ theta) = 0 $, kun Fisher-informaatio on pisteen varianssi $ \ dot {\ ell } (\ theta) $ on suuri, niin ratkaisu yhtälöön on erittäin herkkä tiedoille, mikä antaa toivoa mle: n suuresta tarkkuudesta. Tämä vahvistetaan ainakin asymptoottisesti, mle: n asymptoottinen varianssi on käänteinen Fisher-informaatio.

Kuinka voimme tulkita tämän? $ \ ell (\ theta) $ on todennäköisyystiedot parametrista $ \ theta $ näytteestä. Tätä voidaan todella tulkita vain suhteellisessa mielessä, kuten silloin, kun käytämme sitä vertaamaan kahden erillisen mahdollisen parametriarvon todennäköisyyksiä todennäköisyyssuhdetestin $ \ ell (\ theta_0) – \ ell (\ theta_1) $ avulla. Loglikelihoodin muutosnopeus on pistefunktio $ \ dot {\ ell} (\ theta) $ kertoo kuinka nopeasti todennäköisyys muuttuu, ja sen varianssi $ I (\ theta) $ kuinka paljon tämä vaihtelee näytteittäin, tietyllä parametriarvolla, sano $ \ theta_0 $. Yhtälö (mikä on todella yllättävää!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ kertoo meille, että tietojen vaihtelevuuden välillä on suhde (tasa-arvo) ( todennäköisyys) tietylle parametriarvolle, $ \ theta_0 $, ja kyseisen parametrin arvon todennäköisyysfunktion kaarevuus. Tämä on yllättävä suhde tilastotiedon $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ vaihtelun (varianssin) ja odotetun muutoksen välillä, kun muutamme parametria $ \ theta $ jossain välein noin $ \ theta_0 $ (samoille tiedoille). Tämä on todella kummallista, yllättävää ja tehokasta!

Mikä on todennäköisyysfunktio? Ajattelemme yleensä tilastomallia $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ datan todennäköisyysjakaumien perheenä $ x $, joka indeksoidaan parametrilla $ \ theta $ jokin elementti parametritila $ \ Theta $. Uskomme tämän mallin olevan totta, jos \ Theta $: ssa on jonkin verran arvoa $ \ theta_0 \ niin, että datalla $ x $ on tosiasiallisesti todennäköisyysjakauma $ f (x; \ theta_0) $. Joten saamme tilastomallin upottamalla todellisen datageneroivan todennäköisyysjakauman $ f (x; \ theta_0) $ todennäköisyysjakauman perheeseen. Mutta on selvää, että tällainen upottaminen voidaan tehdä monella eri tavalla, ja jokainen tällainen upottaminen on ”todellinen” malli, ja ne antavat erilaisia todennäköisyystoimintoja. Ilman tällaista upottamista ei ole todennäköisyysfunktiota. Näyttää siltä, että tarvitsemme todella apua, joitain periaatteita siitä, kuinka valita upottaminen viisaasti!

Mitä tämä tarkoittaa? Se tarkoittaa, että todennäköisyysfunktion valinta kertoo meille, kuinka odotamme datan muuttuvan, jos totuus muuttuu hieman. Tätä ei kuitenkaan voida todentaa datalla, koska tiedot antavat tietoja vain todellisesta mallifunktiosta $ f (x; \ theta_0) $, joka tosiasiallisesti tuotti tiedot, eikä mitään muista valitun mallin muista elementeistä. Tällä tavoin näemme, että todennäköisyystoiminnon valinta on samanlainen kuin priorin valinta Bayesin analyysissä, se injektoi analyysiin muita tietoja. Tarkastellaan tätä yksinkertaisessa (hieman keinotekoisessa) esimerkissä ja tarkastellaan vaikutusta, joka aiheutuu mallin $ f (x; \ theta_0) $ upottamisesta eri tavoin.

Oletetaan, että $ X_1, \ dotsc, X_n $ ovat iid kuten $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Joten, se on todellinen, dataa tuottava jakelu. Upotetaan nyt tämä malliin kahdella eri tavalla, malli A ja malli B. $$ A \ kaksoispiste X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ sisään \ mathbb {R} \\ B \ kaksoispiste X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ voit tarkistaa, että tämä on sama kuin $ \ mu = 10 $.

Loglikelihood-funktioista tulee $$ \ ell_A (\ mu) = – \ frac {n} {2} \ loki (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$

Pistetoiminnot : (loglikelihood-johdannaiset): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ ja kaarevuudet $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$, niin Fisher-tiedot riippuvat todella upottamisesta. Lasketaan nyt Fisher-tiedot todellisella arvolla $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$, joten Fisherin tiedot parametrista ovat hieman suuremmat mallissa B.

Tämä osoittaa, että jossain mielessä Fisher-tieto kertoo meille, kuinka nopeasti parametrin tiedot ovat muuttuneet , jos hallitseva parametri olisi muuttunut malliperheeseen upottamisen oletetulla tavalla . Mallin B korkeamman tiedon selitys on, että malliperheemme B olettaa , että jos odotukset olisivat kasvaneet, myös varianssi olisi kasvanut . Joten mallin B alla näytevarianssi sisältää myös tietoa $ \ mu $: sta, mitä se ei tee mallissa A.

Tämä esimerkki osoittaa myös, että tarvitsemme todella teoriaa auttaaksemme meille kuinka rakentaa malliperheitä.

Kommentit

  • hyvä selitys. Miksi sanot $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? se ’ safunktio $ \ theta $ – ei ole ’ t se 0 vain, kun se arvioidaan tosi parametrilla $ \ theta_0 $?
  • Kyllä, mitä sanot, on totta, @idadanny Se on nolla, kun arvioidaan todellisella parametriarvolla.
  • Kiitos vielä kerran @kjetil – joten vielä yksi kysymys: onko yllättävä suhde pisteiden varianssi ja todennäköisyyden kaarevuus totta jokaiselle $ \ theta $: lle? tai vain todellisen parametrin $ \ theta_0 $ naapurustossa?
  • Jälleen tämä trelaatio on totta todellisen parametrin arvon suhteen. Mutta siitä, että siitä on paljon apua, on oltava jatkuvuutta, jotta se on suunnilleen totta jossakin naapurustossa, koska käytämme sitä arvioidulla arvolla $ \ hat {\ theta} $, ei vain tosi (tuntematon) arvo.
  • niin, suhde pätee tosi parametrille $ \ theta_0 $, se on melkein sama kuin $ \ theta_ {mle} $, koska oletamme, että se ’ s lähellä $ \ theta_0 $, mutta yleisen $ \ theta_1 $: n kohdalla se ei pidä paikkaansa, eikö?

Vastaa

Ajattelkaamme negatiivisen log-likelihood-funktion $ \ ell $ suhteen. Negatiivinen pisteet ovat sen kaltevuudet parametrin arvoon nähden. Todellisessa parametrissa pisteet ovat nolla. Muussa tapauksessa se antaa suunnan kohti minimiarvoa $ \ ell $ (tai jos kyseessä ei ole kupera $ \ ell $, satulapiste tai paikallinen minimi tai maksimi).

Fisher-tiedot mittaavat dollarin kaarevuutta \ ell $ noin $ \ theta $, jos tiedot seuraavat $ \ theta $. Toisin sanoen, se kertoo kuinka paljon heiluttaa parametri vaikuttaisi lokitodennäköisyyteen.

Ajattele, että sinulla oli iso malli, jossa oli miljoonia parametreja. Ja sinulla oli pieni peukalo, johon voit tallentaa mallisi. Kuinka sinun pitäisi priorisoida, kuinka monta bittiä jokaisesta parametrista tallennetaan? Oikea vastaus on jakaa bitit Fisher-tietojen mukaan (Rissanen kirjoitti tästä). Jos parametrin Fisher-tieto on nolla, sillä ei ole merkitystä.

Kutsumme sitä ”informaatioksi”, koska Fisher-informaatio mittaa kuinka paljon tämä parametri kertoo meille tiedoista.


Puhekielen tapa ajatella sitä on tämä: Oletetaan, että parametrit ajavat autoa, ja data on takaistuimella ja korjaa kuljettajaa. Tietojen ärsyttävyys on Fisher-tieto. Jos data antaa kuljettajan ajaa, Fisher-tieto on nolla; jos tiedot korjaavat jatkuvasti, ne ovat suuria. Tässä mielessä Fisher-tiedot ovat tiedoista parametreihin menevän tiedon määrää.

Mieti, mitä tapahtuu, jos teet ohjauspyörästä enemmän Tämä vastaa uudelleenparametrointia. Tällöin tiedot eivät halua olla niin kovia pelätessään, että auto ylittää ohjauksen. Tällainen uudelleenparametrointi vähentää Fisher-tietoja.

Vastaus

Täydentää @NeilG: n mukavaa vastausta (+1) ja vastaamaan kysymyksiisi:

  1. Sanoisin, että se laskee ”tarkkuuden” eikä itse ”virheen”.

Muista, että lokin hessiläinen – ML-estimaateilla arvioitu todennäköisyys on havaittu Fisher-informaatio. Arvioidut standardivirheet ovat havaitun Fisher-informaatiomatriisin käänteisen diagonaalielementtien neliöjuuret. Tästä johtuen Fisher-informaatio on Fisher-informaatiomatriisin jälki. Ottaen huomioon, että Fisher-informaatiomatriisi $ I $ on hermitiittinen positiivinen-semifiniittinen matriisimatriisi, niin sen diagonaalimerkinnät $ I_ {j, j} $ ovat todellisia ja ei-negatiivisia; suorana seurauksena se jäljittää $ tr (I) $ täytyy olla positiivinen. Tämä tarkoittaa, että väitteesi mukaan sinulla voi olla vain ”ei-ihanteellisia” arvioita. Joten ei, positiiviset Fisher-tiedot eivät liity kuinka ihanteellinen MLE on.

  1. Määritelmä eroaa siinä, miten tulkitsemme tiedon käsitteen molemmissa tapauksissa. Tämän jälkeen nämä kaksi mittausta liittyvät läheisesti toisiinsa.

Käänteinen Fisher-tieto on puolueettoman estimaattorin vähimmäisvarianssi ( Cramér– Rao sidottu ). Tässä mielessä informaatiomatriisi osoittaa, kuinka paljon tietoa arvioiduista kertoimista on tiedoissa. Päinvastoin, Shannon-entropia otettiin termodynamiikasta. Se kertoo muuttujan tietyn arvon tietosisällön muodossa $ –p · log_2 (p) $, jossa $ p $ on todennäköisyys, että muuttuja ottaa arvon. Molemmat ovat mittauksia siitä, kuinka muuttuja on ”informatiivinen”. Ensimmäisessä tapauksessa arvioit näitä tietoja tarkkuuden ja toisessa tapauksessa häiriöiden perusteella; eri puolet, sama kolikko! : D

Yhteenvetona: Fisher-informaatiomatriisin $ I $ käänteinen arvo, joka on arvioitu ML-estimaattoriarvoilla, on asymptoottinen tai likimääräinen kovarianssimatriisi. Koska nämä ML-estimaattoriarvot löytyvät graafisesti paikallisesta minimistä, Fisher-tiedot osoittavat, kuinka syvä tämä minimi on ja kuinka paljon heiluttaa huonetta sinulla on sen ympärillä. Löysin tämän Lutwak et ai. Fisher-tietojen laajentaminen ja Stamin eriarvoisuus on asiaa käsittelevä informaatio. Wikipedian artikkelit Fisher Information Metricistä ja Jensen – Shannon -erot ovat myös hyviä pääset alkuun.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *