Tegyük fel, hogy van egy véletlen változónk $ X \ sim f (x | \ theta) $ . Ha a $ \ theta_0 $ lenne az igazi paraméter, akkor a likelihood függvényt maximalizálni kell, és a származtatott értéket nullával megegyezni. Ez az alapelv a maximális valószínűség becslés mögött.

Amint megértem, a Fisher-információ a következő:

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ részleges} {\ részleges \ theta} f (X | \ theta) \ jobbra) ^ 2 \ Bigg] $$

Így ha $ \ theta_0 $ az igazi paraméter, $ I (\ theta) = 0 $ . De ha a $ \ theta_0 $ nem az igazi paraméter, akkor nagyobb mennyiségű Fisher-információval rendelkezünk.

kérdéseim

  1. Méri-e a Fisher információ a “hibát” “egy adott MLE-ről? Más szavakkal, a pozitív Fisher-információk megléte nem jelenti azt, hogy az MLE-m nem lehet ideális?
  2. Miben különbözik az “információ” meghatározása a Shannon által használtaktól? Miért hívjuk információnak?

Megjegyzések

  • Miért írod $ E_ \ theta $? Az elvárás meghaladja a $ X $ értékeket, amelyek úgy oszlanak meg, mintha a disztribúcióból származnának a $ \ theta $ paraméterrel.
  • Az $ I (\ theta) $ értéke sem nulla az igaz paraméternél.
  • Az E (S) nulla (azaz: a pontszámfüggvény várakozása), de ahogy Neil G írta – a halászinformáció (V (S)) nem (általában) nulla.

Válasz

Megpróbálja kiegészíteni a többi választ … Milyen információ a Fisher információ? Kezdje a $$ \ ell (\ theta) = \ log f (x; \ theta) $$ loglikelihood függvénnyel a $ \ theta $ függvényében a $ \ theta \ számára a \ Theta $ mezőben, a paramétertérben. Ha feltételezünk néhány szabályszerűségi feltételt, amelyet itt nem tárgyalunk, akkor megvan a $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ részleges} {\ részleges \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (derivatívákat írunk a paraméter vonatkozásában pontokként, mint itt). A variancia a Fisher információ $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ az utolsó képlet, amely megmutatja, hogy ez a loglikelihood függvény (negatív) görbülete. Az egyik gyakran megtalálja a $ \ theta $ maximális valószínűség-becslőjét (mle) azáltal, hogy megoldja a $ \ dot {\ ell} (\ theta) = 0 $ valószínűségi egyenletet, amikor a Fisher a $ \ dot {\ ell pontszám varianciája } (\ theta) $ nagy, akkor az egyenlet megoldása nagyon érzékeny lesz az adatokra, reményt adva a mle nagy pontosságára. Ezt legalább aszimptotikusan megerősítik, az aszimptotikus variancia a Fisher-információ inverze.

Hogyan értelmezhetjük ezt? Az $ \ ell (\ theta) $ a minta $ \ theta $ paraméter valószínűségi információja. Ez valójában csak relatív értelemben értelmezhető, például amikor két különböző lehetséges paraméterérték valószínűségének összehasonlítására használjuk a $ \ ell (\ theta_0) – \ ell (\ theta_1) $ valószínűségi arányteszt segítségével. A loglikelihood változásának sebessége a $ \ dot {\ ell} (\ theta) $ pontszámfüggvény megmondja, hogy a valószínűség milyen gyorsan változik, és $ I (\ theta) $ szórása mennyit változik ez mintánként, adott paramiter értéknél mondjuk $ \ theta_0 $. Az egyenlet (ami igazán meglepő!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ azt mondja nekünk, hogy van kapcsolat (egyenlőség) az információk változékonysága között ( likelihood) egy adott paraméterértéknél, $ \ theta_0 $, és az adott paraméterérték valószínűségi függvényének görbülete. Ez meglepő összefüggést mutat a $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ statisztika változékonysága (varianciája) és a várható alkalmi változás között, amikor változtatjuk a $ \ theta $ paramétert bizonyos időközönként a $ \ theta_0 $ körül (ugyanazokra az adatokra). Ez valóban furcsa, meglepő és erőteljes!

Tehát mi a valószínőségi függvény? Általában a $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ statisztikai modellre gondolunk, mint az $ x $ adatok valószínűségi eloszlásainak családjára, amelyet a $ \ theta $ paraméter indexel valamilyen elemben a $ \ Theta $ paraméterteret. Úgy gondoljuk, hogy ez a modell igaz, ha létezik valamilyen $ \ theta_0 \ érték a \ Theta $ értékben, így a $ x $ adatok valószın˝uségi eloszlása $ f (x; \ theta_0) $. Tehát statisztikai modellt kapunk azáltal, hogy a valódi adatgeneráló valószínűségi eloszlást beágyazjuk a $ f (x; \ theta_0) $ értékbe a valószínűségeloszlások családjában. De nyilvánvaló, hogy egy ilyen beágyazás sokféle módon elvégezhető, és minden ilyen beágyazás “igaz” modell lesz, és különböző valószínűségi funkciókat fognak adni. És ilyen beágyazódás nélkül nincs valószínûségi függvény. Úgy tűnik, hogy valóban szükségünk van némi segítségre, néhány alapelvre, hogy miként válasszuk ki a beágyazást okosan!

Szóval, mit jelent ez? Ez azt jelenti, hogy a valószínűség függvény megválasztása megmondja nekünk, hogyan várhatnánk az adatokat, ha az igazság kissé megváltozik. De ezt az adatok nem igazán tudják ellenőrizni, mivel az adatok csak a valódi $ f (x; \ theta_0) $ modellfüggvényről adnak információt, amely ténylegesen létrehozta az adatokat, és semmit sem a választott modell összes többi eleméről. Így látjuk, hogy a valószínûség függvény megválasztása hasonló a prior választásához Bayes-analízisben, és nem adatból álló információt juttat az elemzésbe. Nézzük meg ezt egy egyszerű (kissé mesterséges) példában, és vizsgáljuk meg a $ f (x; \ theta_0) $ különböző módokon történő modellbe ágyazásának hatását.

Tegyük fel, hogy $ X_1, \ dotsc, X_n $ azonosítója $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Tehát ez az igazi, adatokat generáló elosztás. Most ágyazzuk be ezt egy modellbe kétféle módon: A és B modell. $$ A \ kettőspont X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ kettőspont X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ ellenőrizheti, hogy ez egybeesik-e $ \ mu = 10 $ értékkel.

A loglikelihood függvények $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$

A pontszámfüggvények : (loglikelihood származékok): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ és a görbületek $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$, tehát a Fisher-információk valóban a beágyazástól függenek. Most kiszámoljuk a Fisher-információt a valós értéken: $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$, így a paraméterrel kapcsolatos Fisher-információk valamivel nagyobbak a B modellben.

Ez azt mutatja, hogy bizonyos értelemben a Fisher-információ megmondja, hogy a paraméter adatai milyen gyorsan változtak volna a paraméterről, ha az irányító paraméter megváltozott a beágyazás által feltételezett módon egy modellcsaládban . A B modell magasabb információinak magyarázata az, hogy B modellcsaládunk feltételezi, hogy ha az elvárás növekedett volna, akkor a variancia is növekedett volna . Tehát a B modellben a minta variancia a $ \ mu $ -ról is információt hordoz, amit az A modellnél nem fog megtenni.

Ez a példa azt is szemlélteti, hogy valóban szükségünk van némi elméletre a segítségért a modellcsaládok felépítésében.

Megjegyzések

  • nagyszerű magyarázat. Miért mondod, hogy $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? a

sa $ \ theta $ függvény – nem ‘ t csak akkor van 0, ha a $ \ theta_0 $ igaz paraméterrel értékelik? / li>

  • Igen, amit mondasz, az igaz, @idadanny Nulla, ha a valós paraméterértéken értékelik.
  • Még egyszer köszönöm @kjetil – tehát még csak egy kérdés: meglepő kapcsolat van-e a a pontszám szórása és a valószínűség görbülete igaz minden $ \ theta $ esetében? vagy csak a valós \ \ theta_0 $ paraméter szomszédságában található?
  • Ismételten ez a treláció igaz a valódi paraméter értékére. De ahhoz, hogy ez nagy segítséget nyújtson, folytonosságnak kell lennie, hogy ez megközelítőleg igaz legyen valamilyen környéken, mivel a becsült $ \ hat {\ theta} $ értéken fogjuk használni, nem csak az igaz (ismeretlen) értéken. érték.
  • tehát, a kapcsolat érvényes a $ \ theta_0 $ igaz paraméterre, majdnem érvényes a $ \ theta_ {mle} $ értékre, mivel feltételezzük, hogy ‘ s a $ \ theta_0 $ szomszédságában, de egy általános $ \ theta_1 $ esetében ez nem áll fenn, igaz?
  • Válasz

    Gondoljunk a negatív log-likelihood függvényre $ \ ell $. A negatív pontszám a gradiens a paraméter értékéhez képest. Az igaz paraméternél a pontszám nulla. Egyébként megadja az irányt a minimális $ \ ell $ felé (vagy nem domború $ \ ell $ esetén egy nyeregpontot vagy helyi minimumot vagy maximumot).

    A Fisher információ a $ görbületét méri. \ ell $ a $ \ theta $ körül, ha az adatok követik a $ \ theta $ értéket. Más szavakkal, megmondja, hogy mennyi A paraméter hatással lehet a napló valószínűségére.

    Fontolja meg, hogy nagy modellje volt, több millió paraméterrel. És volt egy kis hüvelykujj-meghajtója, amelyen tárolhatta a modelljét. Hogyan kell rangsorolni, hogy az egyes paraméterek közül hány bitet kell tárolni? A helyes válasz az, ha biteket osztunk ki a Fisher-információk alapján (erről Rissanen írt). Ha egy paraméter Fisher-információja nulla, akkor ez a paraméter nem számít.

    Azért hívjuk “információnak”, mert a Fisher információ azt méri, hogy ez a paraméter mennyit árul el az adatokról.


    Köznyelvi módon gondolkodhatunk el erről: Tegyük fel, hogy A paraméterek vezetnek egy autót, az adatok pedig a hátsó ülésen javítják a sofőrt. Az adatok bosszantása a Fisher-információ. Ha az adatok lehetővé teszik a vezető számára, hogy a Fisher információ nulla; ha az adatok folyamatosan javítanak, akkor nagyok. Ebben az értelemben a Fisher-információ az adatoktól a paraméterekig terjedő információmennyiség.

    Fontolja meg, mi történik, ha a kormánykereket jobban teszi érzékeny. Ez egyenértékű az átparaméterezéssel. Ebben az esetben az adatok nem akarnak olyan hangosak lenni, mert félnek az autó túlkormányzásától. Ez a fajta újraparamizálás csökkenti a Fisher információkat.

    Válasz

    Kiegészíti a @NeilG kedves válaszát (+1) és válaszoljon a konkrét kérdéseire:

    1. azt mondanám, hogy a “pontosság” számít, nem pedig maga a “hiba”.

    Ne feledje, hogy a napló hessianja Az ML becslésnél értékelt valószínűség a megfigyelt Fisher információ. A becsült standard hibák a megfigyelt Fisher információs mátrix inverzének átlós elemeinek négyzetgyökei. Ebből fakadva a Fisher információ a Fisher információs mátrix nyoma. Tekintettel arra, hogy a $ I $ Fisher információs mátrix egy hermita pozitív-félidős véges mátrix, akkor a $ I_ {j, j} $ átlós bejegyzések valósak és nem negatívak; ennek közvetlen következménye a $ tr (I) $ pozitívnak kell lennie. Ez azt jelenti, hogy állításod szerint csak “nem ideális” becslők lehetnek. Tehát nem, a pozitív Fisher-információk nem kapcsolódnak mennyire ideális az Ön MLE-je.

    1. A meghatározás abban különbözik, hogy mindkét esetben értelmezzük-e az információ fogalmát. Ennek ellenére a két mérés szorosan összefügg.

    A Fisher-információ inverze az elfogulatlan becslő minimális szórása ( Cramér– Rao kötött ). Ebben az értelemben az információs mátrix jelzi, hogy a becsült együtthatókról mennyi információt tartalmaz az adat. Ellenkezőleg, a Shannon-entrópiát a termodinamikából vették át. A változó egy adott értékének információtartalmát $ –p · log_2 (p) $ -ként kapcsolja össze, ahol $ p $ annak valószínűsége, hogy a változó átveszi az értéket. Mindkettő annak mérése, hogy egy változó mennyire “informatív”. Az első esetben bár pontosság, míg a második esetben a rendellenesség szempontjából ítéled meg ezeket az információkat; különböző oldalak, ugyanaz az érme! : D

    Összefoglalva: Az ML becslő értékeknél értékelt $ I $ Fisher információs mátrix inverze az aszimptotikus vagy hozzávetőleges kovariancia mátrix. Mivel ez az ML becslő érték grafikusan megtalálható egy helyi minimumban, a Fisher információ megmutatja, hogy ez a minimum milyen mély, és ki mennyi csobogási helyiség van körülötte. Megtaláltam ezt a cikket Lutwak et al. a Fisher-információ kiterjesztéséről és Stam egyenlőtlenségéről egy informatív olvasmány ebben az ügyben. A Wikipedia cikkei a Fisher Information Metrikáról és a Jensen – Shannon divergenciáról szintén jóak kezdd el.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük