Sunt un începător care încearcă să mă prezinte la Estimarea maximă a probabilității (MLE) și pot înțelege unele a materialului în mod adecvat, cum ar fi căutarea vârfurilor în funcțiile de probabilitate, abordarea Cramer-Rao Bound și inversarea Matricei de informații Fisher pentru a obține matricea de covarianță și estimările varianței. În mod ironic, am mai multe probleme încercând să identific exact ceea ce ar trebui să reprezinte coloanele, rândurile și intrările din Matricea Fisher și definirea structurii sale. Am analizat una sau două duzini de referințe în ultimul an aproximativ (plus o căutare la CrossValidated) și încă nu am văzut exemple cu valori reale conectate la formule, deși discuția lor despre alte aspecte ale matricei este de obicei amănunțită.
Voi încerca să explic în detaliu pentru a evita suprapunerea subiectelor mai avansate pe alte fire. Cea mai mare parte a confuziei mele pare să provină din aceasta: integralul din ecuația matricei are o derivată de ordinul doi și rezultatul funcției de probabilitate pe divizor și două derivate pentru un singur parametru pe dividend, de obicei cu doi indici precum i și j. (A se vedea această intrare Wikipedia și aceasta pentru exemple). Întotdeauna par să existe exact două subindice, ceea ce implică o matrice bidimensională și mă face să pun întrebările aferente de mai jos:
-
Dacă aș avea un singur tratament și un singur parametru, asta pare pentru a implica o matrice unidimensională. Dacă da, la ce s-ar referi indexurile matrice i și j? Ar trebui să fac un produs încrucișat al dimensiunii unice pentru a obține dividendul în ecuația Fisher Matrix?
-
Cum s-ar schimba structurile de coloane și rânduri dacă aș avea două tratamente și necesare pentru a estima un singur parametru? Ar implica aceasta o matrice 2D?
-
Situația inversă, în care există un singur tratament și doi parametri (să zicem scala și forma), ar face diferența față de întrebarea nr. 2? Îmi imaginez că acest lucru nu ar fi practic pentru unele distribuții, dacă unul dintre parametri a fost necesar pentru a obține celălalt în funcția de probabilitate.
-
Cum aș modifica structura matricei și calculez intrările dacă am două sau mai multe tratamente plus doi sau mai mulți parametri? Acest lucru pare să implice o matrice 3D sau mai mare, caz în care ar fi nevoie de mai multe subscripturi decât doar i și j. Încă nu am văzut nicio formulă în acest sens în textele, articolele din jurnale și tutorialele pe care le-am analizat până în prezent (Am o listă de referințe, dacă este necesar). Se face acest lucru în mod obișnuit în MLE-urile din lumea reală?
-
Putem extinde matricea pentru a include distribuții separate sau chiar familii de distribuție, împreună cu parametrii lor? Cum ar afecta acest lucru structura matricei?
-
Pot intrările matricei să constea dintr-un amestec de calcule atât pentru probabilitate cât și pentru valorile observate, dacă acestea din urmă sunt disponibile? Formula Fisher Metric de la https://en.wikipedia.org/wiki/Fisher_information_metric#Definition pare să înlocuiască PDF-urile cu probabilități. Ar constitui acest lucru amestecul informațiilor observate cu informațiile Fisher? Această parte a întrebării poate duce la alte subiecte, cum ar fi diferențele subtile dintre informațiile observate și cele despre Fisher, care sunt probabil tratate mai bine în altă parte. Mă întreb doar dacă cele două tipuri de intrări sunt amestecate vreodată în aceeași matrice. Presupun că aproape întotdeauna ar fi păstrate separate.
Îmi dau seama că răspunsurile pe care le caut sunt, probabil, nerestricționate; Evident că greșesc un concept simplu de bază. Odată ce am trecut de acest obstacol, ar trebui să pot conecta rapid unele funcții de probabilitate la formulele Fisher, să returnez câteva matrice de covarianță și să exersez selectarea unor MLE; de obicei, asta ar fi greu parte, dar sunt blocat pe această sarcină de bază. O imagine valorează o mie de cuvinte ca să spunem așa: răspunsurile la întrebările de mai sus ar fi probabil instantanee clare, dacă aș vedea exemple cu valori reale conectate. Tot ceea ce ar rămâne atunci este să explic cum să populezi matricea din formula obișnuită numai două indice, sau alternativ, orice modificare a formulei pentru a se potrivi mai multor tratamente și parametri. Link-uri către astfel de exemple sau exerciții ar fi, de asemenea, utile. Mulțumesc anticipat 🙂
Comentarii
- +1 pentru că într-adevăr ați încercat să răspundeți singur, dar ca un sfat prietenos: Continuați și editați aceasta într-o întrebare mai mică. În această măsură, nu puteți evalua numeric o funcție de cost de probabilitate a jurnalului, obțineți Hessian și vedeți singur cum arată derivatele parțiale? (Pot să fac asta pentru dvs. dacă doriți.) Începeți mai întâi cu o variabilă continuă, nu cu o discretă. (Cred că confundați și ce fac mai mulți parametri; ei adaugă doar coloane la matricea dvs. de proiectare, nu dimensiuni complete.)
- Vă mulțumim pentru sfaturi – ‘ voi încerca să îl editez de câteva ori în seara asta și mâine pentru a-l tăia. Aș fi ‘ interesat să văd procesul de derivare a matricei cu un parametru față de doi versus parametri multipli și tratamente. Acesta este ‘ punctul real de lipire pentru mine; Nu pot ‘ să prevăd cum să gestionez aceste trei scenarii în mod diferit, având în vedere versiunea formulei Fisher cu doi indici. Mulțumesc 🙂
- Cel mai succint mod de a răspunde la acest lucru ar fi capturi de ecran / linkuri ale matricilor Fisher reale cu 1) un parametru 2) doi parametri & 3) multiple parametrii cu tratamente multiple, atâta timp cât cantitățile din fiecare coloană / rând sunt clar etichetate. Sau un simplu, ” Cu mai mulți parametri & tratamente, am avea X # de coloane și Y # de rânduri. Cu un parametru, valorile ar merge aici; X. etc ” Formulele / pasajele nu sunt necesare, cu excepția cazului în care sunt necesare modificări pentru a se potrivi parametrii suplimentari & tratamente. Pot & ar trebui să fac asta singur; Am nevoie doar de exemple terminate pentru a compara structura mea.
- Acest lucru pare destul de descurajator pentru a răspunde. Cred că ar putea fi mai ușor să oferiți un exemplu & în care sunteți ‘ blocat în derivare sau confuz cu privire la interpretare. Dar, pentru început, ce înseamnă ‘ un ” tratament „? O observație? Un tratament experimental?
- @Scortchi Răspunsul ‘ este probabil neobișnuit de simplu. Utilizarea exact a 2 indici i & j în formulă este singurul punct în care I ‘ m blocat în derivare; Nu pot ‘ să înțeleg modul în care acesta poate găzdui parametri unici sau parametri / tratamente multiple. Vizualizarea matricilor de informații Fisher terminate cu coloane etichetate clar & rânduri ar răspunde; doar nu sunt ‘ mulți în literatură. ‘ apoi spun: ” Aha, acesta este motivul pentru care 2 indici pot gestiona 3 parametri sau doar 1, etc. Aici se află ar fi plasat în matrice. ” Este ‘ doar structura produsului finit I ‘ m după, nimic mai mult.
Răspuns
Informația Fisher este o matrice pătrată simetrică cu un număr de rânduri / coloane egal cu numărul de parametri pe care îl estimați. Amintiți-vă că este o matrice de covarianță a scorurilor, & există un scor pentru fiecare parametru; sau așteptarea de negativul unui Hessian, cu un gradient pentru fiecare parametru. Când doriți să luați în considerare diferite tratamente experimentale, reprezentați efectele acestora adăugând mai mulți parametri la model; adică mai multe rânduri / coloane (mai degrabă decât mai multe dimensiuni — o matrice are două dimensiuni prin definiție). Când sunteți estimat g doar un singur parametru, informația Fisher este doar o matrice una câte una (un scalar) — varianța sau valoarea așteptată a negativului celei de-a doua derivate a , scorul.
Pentru un model de regresie liniar simplu de $ Y $ pe $ x $ cu $ n $ observații
$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $
unde $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, există trei parametri de estimat, interceptarea $ \ beta_0 $, panta $ \ beta_1 $, & varianța erorii $ \ sigma ^ 2 $; informația Fisher este
$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $
unde $ \ ell (\ cdot) $ este funcția de log-probabilitate a parametrilor. (Rețineți că $ x $ ar putea fi o variabilă falsă care indică un anumit tratament.)
Comentarii
- Perfect – it ‘ este exact ceea ce aveam nevoie. ‘ voi rezolva asta peste noapte și voi vedea dacă am nevoie de clarificări – nu pot ‘ să văd chiar acum – dar acest răspuns se adresează deja toate scenariile variate pe care le-am menționat mai sus, dintr-o dată. Mulțumim
- Structura exemplului @Scortchi ‘ arată clar modul în care formula Fisher la care am legat are nevoie doar de doi indici matriciali – i și j – pentru a găzdui orice număr de parametri și valori. Fiecare non-diagonală din matricea superioară are exact doi termeni în dividend; în loc să adauge sau să scadă termeni din fiecare dividend, fiecare combinație unică de parametri adaugă sau scade rânduri și coloane din matrice. Majoritatea literaturii publicate nu ‘ nu clarifică această importantă distincție, ceea ce a dus la confuzia mea.