Să presupunem că avem o variabilă aleatorie $ X \ sim f (x | \ theta) $ . Dacă $ \ theta_0 $ au fost parametrul adevărat, funcția de probabilitate ar trebui să fie maximizată și derivata egală cu zero. Acesta este principiul de bază din spatele estimatorului de maximă probabilitate.
După cum înțeleg, informațiile Fisher sunt definite ca
$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f (X | \ theta) \ right) ^ 2 \ Bigg] $$
Astfel, dacă $ \ theta_0 $ este parametrul adevărat, $ I (\ theta) = 0 $ . Dar dacă $ \ theta_0 $ nu este parametrul adevărat, atunci vom avea o cantitate mai mare de informații Fisher.
întrebările mele
- Informațiile Fisher măsoară „eroarea” „al unui MLE dat? Cu alte cuvinte, existența informațiilor Fisher pozitive nu înseamnă că MLE-ul meu nu poate fi ideal?
- Cum diferă această definiție a „informației” de cea utilizată de Shannon? De ce îi numim informații?
Comentarii
- De ce îl scrieți $ E_ \ theta $? Așteptarea depășește valorile de $ X $ distribuite ca și cum ar proveni din distribuția dvs. cu parametrul $ \ theta $.
- De asemenea, $ I (\ theta) $ nu este zero la parametrul adevărat.
- E (S) este zero (adică: așteptarea funcției de scor), dar așa cum a scris Neil G – informațiile despre pescuit (V (S)) nu sunt (de obicei) zero.
Răspuns
Încercarea de a completa pe celelalte răspunsuri … Ce fel de informații sunt informațiile Fisher? Începeți cu funcția loglikelihood $$ \ ell (\ theta) = \ log f (x; \ theta) $$ în funcție de $ \ theta $ pentru $ \ theta \ în \ Theta $, spațiul parametrilor. Presupunând unele condiții de regularitate pe care nu le discutăm aici, avem $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell (\ theta) = \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $ (vom scrie derivate cu privire la parametru ca puncte ca aici). Varianța este informația Fisher $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ ultima formulă care arată că este curbura (negativă) a funcției loglikelihood. Se găsește adesea estimatorul de probabilitate maximă (mle) de $ \ theta $ rezolvând ecuația de probabilitate $ \ dot {\ ell} (\ theta) = 0 $ când informația Fisher este varianța scorului $ \ dot {\ ell } (\ theta) $ este mare, atunci soluția la acea ecuație va fi foarte sensibilă la date, oferind o speranță pentru o precizie ridicată a mle. Acest lucru este confirmat cel puțin asimptotic, varianța asimptotică a mle fiind inversul informațiilor Fisher.
Cum putem interpreta acest lucru? $ \ ell (\ theta) $ este informația de probabilitate despre parametrul $ \ theta $ din eșantion. Acest lucru poate fi interpretat într-adevăr numai într-un sens relativ, ca atunci când îl folosim pentru a compara plauzibilitățile a două valori posibile ale parametrilor prin testul raportului de probabilitate $ \ ell (\ theta_0) – \ ell (\ theta_1) $. Rata de modificare a probabilității logice este funcția de scor $ \ dot {\ ell} (\ theta) $ ne spune cât de repede se schimbă probabilitatea și varianța sa $ I (\ theta) $ cât de mult variază de la eșantion la eșantion, la o anumită valoare a parametrului, să spunem $ \ theta_0 $. Ecuația (ceea ce este cu adevărat surprinzător!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ ne spune că există o relație (egalitate) între variabilitatea informațiilor ( probabilitate) pentru o valoare de parametru dată, $ \ theta_0 $ și curbura funcției de probabilitate pentru valoarea parametrului respectiv. Aceasta este o relație surprinzătoare între variabilitatea (varianța) statisticii $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ și schimbarea așteptată a egalității atunci când modificăm parametrul $ \ theta $ într-un anumit interval în jurul valorii de $ \ theta_0 $ (pentru aceleași date). Acest lucru este deopotrivă straniu, surprinzător și puternic!
Deci, care este funcția de probabilitate? De obicei, ne gândim la modelul statistic $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ ca o familie de distribuții de probabilitate pentru datele $ x $, indexate de parametrul $ \ theta $ un element în spațiul parametrilor $ \ Theta $. Credem că acest model este adevărat dacă există o valoare $ \ theta_0 \ în \ Theta $ astfel încât datele $ x $ să aibă de fapt distribuția de probabilitate $ f (x; \ theta_0) $. Deci, obținem un model statistic prin încorporarea adevăratei date care generează distribuția probabilității $ f (x; \ theta_0) $ într-o familie de distribuții de probabilitate. Dar, este clar că o astfel de încastrare poate fi făcută în multe moduri diferite, și fiecare astfel de încastrare va fi un model „adevărat” și vor da funcții de probabilitate diferite. Și, fără o astfel de încorporare, nu există o funcție de probabilitate. Se pare că într-adevăr avem nevoie de ajutor, de câteva principii pentru alegerea înțelepciunii!
Deci, ce înseamnă asta? Înseamnă că alegerea funcției de probabilitate ne spune cum ne-am aștepta ca datele să se schimbe, dacă adevărul s-ar schimba puțin. Dar acest lucru nu poate fi verificat cu adevărat de date, deoarece datele oferă doar informații despre adevărata funcție de model $ f (x; \ theta_0) $ care a generat de fapt datele și nu nimic despre toate celelalte elemente din modelul ales. Astfel vedem că alegerea funcției de probabilitate este similară cu alegerea unui precedent în analiza bayesiană, injectează informații care nu sunt date în analiză. Să vedem acest lucru într-un exemplu simplu (oarecum artificial) și să vedem efectul de a încorpora $ f (x; \ theta_0) $ într-un model în moduri diferite.
Să presupunem că $ X_1, \ dotsc, X_n $ sunt denumite $ N (\ mu = 10, \ sigma ^ 2 = 1) $. Deci, aceasta este adevărata distribuție generatoare de date. Acum, să încorporăm acest lucru într-un model în două moduri diferite, modelul A și modelul B. $$ A \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ colon X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ puteți verifica dacă acest lucru coincide pentru $ \ mu = 10 $.
Funcțiile loglikelihood devin $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$
Funcțiile de scor : (derivate de loglikelihood): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ și curburile $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ deci, informațiile Fisher depind într-adevăr de încorporare. Acum, calculăm informațiile Fisher la valoarea adevărată $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$ deci informațiile Fisher despre parametru sunt ceva mai mari în modelul B.
Acest lucru ilustrează faptul că, în într-un anumit sens, informațiile Fisher ne arată cât de repede s-ar fi schimbat informațiile din datele despre parametrul dacă parametrul de guvernare s-a schimbat în modul postulat de încorporarea într-o familie de modele . Explicația informațiilor mai mari din modelul B este că familia modelului nostru B postulează că, dacă așteptarea ar fi crescut, atunci și varianța ar fi crescut . Astfel, în cadrul modelului B, varianța eșantionului va conține, de asemenea, informații despre $ \ mu $, ceea ce nu va face sub modelul A.
De asemenea, acest exemplu ilustrează faptul că avem nevoie de teorie pentru a ajuta noi în modul de construire a familiilor model.
Comentarii
- explicație excelentă. De ce spui $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? ‘ este o funcție de $ \ theta $ – nu este ‘ este 0 numai atunci când este evaluat la parametrul adevărat $ \ theta_0 $?
- Da, ceea ce spuneți este adevărat, @idadanny Este zero atunci când este evaluat la valoarea parametrului adevărat.
- Vă mulțumim din nou @kjetil – deci încă o întrebare: este relația surprinzătoare dintre varianța scorului și curbura probabilității adevărate pentru fiecare $ \ theta $? sau numai în apropierea parametrului adevărat $ \ theta_0 $?
- Din nou, relația respectivă este adevărată pentru valoarea parametrului adevărat. Dar pentru ca acest lucru să fie de mare ajutor, trebuie să existe continuitate, astfel încât să fie aproximativ adevărat în unele vecinătăți, deoarece îl vom folosi la valoarea estimată $ \ hat {\ theta} $, nu numai la adevărat (necunoscut) valoare.
- deci, relația este valabilă pentru parametrul adevărat $ \ theta_0 $, este aproape valabilă pentru $ \ theta_ {mle} $, deoarece presupunem că ‘ se află în vecinătatea $ \ theta_0 $, dar pentru un $ \ theta_1 $ general nu este valabil, nu?
Răspunde
Să ne gândim la termenii funcției de probabilitate a jurnalului negativ $ \ ell $. Scorul negativ este gradientul său față de valoarea parametrului. La parametrul adevărat, scorul este zero. În caz contrar, oferă direcția către $ \ ell $ minim (sau în cazul $ \ ell $ neconvex, un punct de șa sau minim sau maxim local).
Informațiile Fisher măsoară curbura de $ \ ell $ în jurul valorii de $ \ theta $ dacă datele urmează $ \ theta $. Cu alte cuvinte, vă arată cât de mult se mișcă parametrul ar afecta probabilitatea jurnalului dvs.
Luați în considerare faptul că ați avut un model mare cu milioane de parametri. Și aveați o unitate mică de stocare pe care să vă stocați modelul. Cum ar trebui să acordați prioritate câtor biți din fiecare parametru să stocați? Răspunsul corect este să alocați biți conform informațiilor Fisher (Rissanen a scris despre acest lucru). Dacă informațiile Fisher ale unui parametru sunt zero, acel parametru nu contează.
Îi spunem „informații” deoarece informațiile Fisher măsoară cât de mult ne spune acest parametru despre date.
O modalitate colocvială de a ne gândi la aceasta este următoarea: Să presupunem că parametrii conduc o mașină, iar datele se află pe bancheta din spate, corectând șoferul. Enervantul datelor este informația Fisher. Dacă datele permit șoferului să conducă, informațiile Fisher sunt zero; dacă datele efectuează în mod constant corecții, este „mare”. În acest sens, informația Fisher este cantitatea de informații care merge de la date la parametri.
Luați în considerare ce se întâmplă dacă faceți volanul mai mult sensibil. Acest lucru este echivalent cu o reparametrizare. În acest caz, datele nu vor să fie atât de puternice, de teama suprasolicitării mașinii. Acest tip de reparametrizare scade informațiile Fisher.
Răspuns
Complementar la răspunsul frumos al lui @NeilG (+1) și la adresează-ți întrebările specifice:
- Aș spune că contează „precizia” mai degrabă decât „eroarea” în sine.
Amintește-ți că Hessianul jurnalului -probabilitatea evaluată la estimările ML este informația Fisher observată. Erorile standard estimate sunt rădăcinile pătrate ale elementelor diagonale ale inversului matricei de informații Fisher observate. Din aceasta rezultă că informația Fisher este urma matricei de informații Fisher. Având în vedere că matricea de informații Fisher $ I $ este o matrice hermitică pozitivă-semidefinită, atunci intrările diagonale $ I_ {j, j} $ sunt reale și non-negative; ca o consecință directă, urmărește $ tr (I) $ trebuie să fie pozitiv. Acest lucru înseamnă că puteți avea numai estimatori „non-ideali” conform afirmației dvs. Deci nu, o informație Fisher pozitivă nu este legată de cât de ideal este MLE-ul dvs.
- Definiția diferă în modul în care interpretăm noțiunea de informație în ambele cazuri. Acestea fiind spuse, cele două măsurători sunt strâns legate.
Inversa informațiilor Fisher este varianța minimă a unui estimator imparțial ( Cramér– Rao legat ). În acest sens, matricea informațională indică cât de multe informații despre coeficienții estimate sunt conținute în date. Dimpotrivă, entropia Shannon a fost preluată din termodinamică. Raportează conținutul informațional al unei anumite valori a unei variabile ca $ –p · log_2 (p) $ unde $ p $ este probabilitatea ca variabila să ia valoarea. Ambele sunt măsurători ale cât de „informativă” este o variabilă. În primul caz, deși judecați aceste informații în termeni de precizie, în timp ce în al doilea caz în termeni de tulburare; fețe diferite, aceeași monedă! : D
Pentru a recapitula: inversul matricei de informații Fisher $ I $ evaluat la valorile estimatorului ML este matricea de covarianță asimptotică sau aproximativă. Deoarece valorile acestui estimator ML se găsesc într-un minim local, grafic, informațiile despre Fisher arată cât de adânc este acel minim și care este spațiul pe care îl aveți în jurul acestuia. Am găsit această lucrare de Lutwak și colab. pe Extensii ale informațiilor despre Fisher și inegalitatea lui Stam o lectură informativă despre această chestiune. Articolele de pe Wikipedia despre Metrica informațiilor Fisher și despre divergența Jensen – Shannon sunt, de asemenea, bune pentru începeți.