Jeg er en begynder, der prøver at introducere mig til Maksimal sandsynlighed (MLE) og kan forstå nogle af materialet tilstrækkeligt, såsom at lede efter toppe i sandsynlighedsfunktioner, nærme sig Cramer-Rao Bound og invertere Fisher Information Matrix for at udlede kovariansmatrixen og variansestimaterne. Ironisk nok har jeg flere problemer med at forsøge at fastgøre præcist hvad kolonnerne, rækkerne og posterne i Fisher Matrix skal repræsentere og definere dens struktur. Jeg har skummet et eller to dusin referencer i løbet af det sidste år eller deromkring (plus en søgning på CrossValidated) og har endnu ikke set nogen eksempler med faktiske værdier tilsluttet formlerne, selvom deres diskussion af andre aspekter af matrixen normalt er grundig.
Jeg vil prøve at forklare i detaljer for at undgå at overlappe mere avancerede emner på andre tråde. Det meste af min forvirring ser ud til at stamme fra dette: integralet i matrixligningen har et andet ordens derivat og sandsynlighedsfunktionsresultat på divisoren og to derivater til en enkelt parameter på udbyttet, normalt med to abonnementer som jeg og j. (Se denne Wikipedia-post og denne for eksempler). Der ser altid ud til at være nøjagtigt to abonnementer, hvilket indebærer en todimensionel matrix og får mig til at stille de relaterede spørgsmål nedenfor:
-
Hvis jeg kun havde en behandling og en parameter, ser det ud til at antyde en endimensionel matrix. Hvis ja, hvad ville matrixabonnementerne i og j henvise til? Ville jeg være nødt til at lave et krydsprodukt af den enkelte dimension for sig selv for at udlede udbyttet i Fisher Matrix-ligningen?
-
Hvordan ville søjle- og række strukturer ændre sig, hvis jeg havde to behandlinger og behov for at estimere en enkelt parameter? Ville dette antyde en 2D-matrix?
-
Ville den omvendte situation, hvor der er en behandling og to parametre (siger skala og form) gøre en forskel for spørgsmål nr. 2? Jeg forestiller mig, at dette ikke ville være praktisk for nogle distributioner, hvis en af parametrene var nødvendig for at udlede den anden i sandsynlighedsfunktionen.
-
Hvordan ændrer jeg matrixstrukturen og beregner indgangene, hvis jeg har to eller flere behandlinger plus to eller flere parametre? Dette ser ud til at antyde en 3D-matrix eller højere matrix, i hvilket tilfælde vi har brug for flere abonnementer end bare i og j. Jeg har endnu ikke set nogen formler derom i tekster, tidsskriftartikler og tutorials, jeg har skummet til dato dog (Jeg har en liste med referencer, hvis det er nødvendigt). Er dette almindeligt gjort i virkelige MLEer?
-
Kan vi udvide matrixen til at omfatte separate distributioner eller endda distributionsfamilier sammen med deres parametre? Hvordan ville dette påvirke matrixens struktur?
-
Kan matrixindgangene bestå af en blanding af beregninger på både sandsynlighed og observerede værdier, hvis sidstnævnte er tilgængelige? Fisher-metrisk formel ved https://en.wikipedia.org/wiki/Fisher_information_metric#Definition ser ud til at erstatte PDF-filer med sandsynligheder. Ville dette udgøre en blanding af observerede oplysninger med Fisher Information? Denne del af spørgsmålet kan føre til andre emner som de subtile forskelle mellem observeret og Fisher-info, der sandsynligvis dækkes bedre andre steder. Jeg spekulerer bare her på, om de to typer poster nogensinde blandes i den samme matrix. Jeg antager, at de næsten altid holdes adskilt.
Jeg er klar over at de svar, jeg leder efter, sandsynligvis ikke er hjernerne; Jeg får naturligvis noget simpelt underliggende koncept forkert. Når jeg kommer forbi denne snublesten, skulle jeg være i stand til hurtigt at tilslutte nogle sandsynlighedsfunktioner til Fisher-formlerne, returnere nogle kovariansmatricer og øve på at vælge nogle MLEer; normalt ville det være svært del, men jeg sidder fast ved denne grundlæggende opgave. Et billede er så at sige værd tusind ord: svarene på ovenstående spørgsmål ville sandsynligvis være klare med det samme, hvis jeg så eksempler med faktiske værdier tilsluttet. Alt, der ville være tilbage, er at forklare, hvordan man udfylder matrixen fra den sædvanlige formel ved hjælp af kun to abonnementer eller skiftevis ændringer i formlen for at imødekomme flere behandlinger og parametre. Links til sådanne eksempler eller øvelser vil også være nyttige. På forhånd tak 🙂
Kommentarer
- +1 fordi du virkelig har forsøgt at besvare det selv, men som et venligt råd: Gå videre og rediger dette til et mindre spørgsmål. I det omfang kan du ikke numerisk evaluere en log-sandsynlighedsomkostningsfunktion, få sin hessiske og selv se, hvordan de delvise derivater ser ud? (Jeg kan gøre det for dig, hvis du vil.) Start med en kontinuerlig variabel først ikke en diskret. (Jeg tror, du forvirrer også, hvad flere parametre gør; de føjer kun kolonner til din designmatrix, ikke fulde dimensioner.)
- Tak for rådet – Jeg ‘ Jeg prøver at redigere det et par gange i aften og i morgen for at hugge det ned. Jeg ‘ ville være interesseret i at se processen til udledning af matrixen med en parameter versus to versus flere parametre og behandlinger. At ‘ er det rigtige stikkepunkt for mig; Jeg kan ‘ ikke forestille mig, hvordan man håndterer disse tre scenarier forskelligt, givet versionen af Fisher-formlen med to abonnementer. Tak 🙂
- Den mest kortfattede måde at besvare dette på ville være skærmbilleder / links til aktuelle Fisher-matricer med 1) en parameter 2) to parametre & 3) multiple parametre med flere behandlinger, så længe mængderne i hver kolonne / række er tydeligt mærket. Eller en simpel ” Med flere parametre & behandlinger ville vi have X # af kolonner og Y # af rækker. Med en parameter, værdierne ville gå her; X. osv. ” Formler / gennemgange er unødvendige, medmindre ændringer er nødvendige for at rumme ekstra parametre & behandlinger. Jeg kan & burde gøre det selv; Jeg har bare brug for færdige eksempler for at sammenligne min struktur med.
- Dette ser ret skræmmende ud at svare. Jeg tror, det kan være lettere at give et eksempel &, hvor du ‘ sidder fast i afledningen eller er forvirret over fortolkningen. Men hvad betyder ‘ til en start ” behandling “? En observation? En eksperimentel behandling?
- @Scortchi Svaret ‘ er sandsynligvis usædvanligt simpelt. Brug af nøjagtigt 2 abonnementer i & j i formlen er det eneste punkt, hvor jeg ‘ m sidder fast i afledningen; Jeg kan ‘ ikke forstå, hvordan det kan rumme enkelte parametre eller flere parametre / behandlinger. Visning af faktiske færdige Fisher-informationsmatricer med tydeligt mærkede kolonner & rækker ville svare på det; der er bare ‘ t mange i litteraturen. Jeg ‘ siger derefter ” Aha, det er derfor, 2 abonnementer kan håndtere 3 parametre eller bare 1 osv. Her er hvor de placeres i matrixen. ” Det ‘ er bare det færdige produkts struktur I ‘ m efter, intet mere.
Svar
Fisher-informationen er en symmetrisk firkantmatrix med et tal af rækker / kolonner svarende til antallet af parametre, du estimerer. Husk at det er en kovariansmatrix for score, & der “er en score for hver parameter, eller forventningen om negativet af en Hessian med en gradient for hver parameter. Når du vil overveje forskellige eksperimentelle behandlinger, repræsenterer du deres effekter ved at tilføje flere parametre til modellen, dvs. flere rækker / kolonner (i stedet for flere dimensioner — en matrix har to dimensioner pr. definition). Når du estimerer g kun en enkelt parameter, Fisher-informationen er kun en en-for-en matrix (en skalar) — variansen af eller den forventede værdi af det negative af det andet derivat af , scoren.
For en simpel lineær regressionsmodel på $ Y $ på $ x $ med $ n $ observationer
$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $
hvor $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, er der tre parametre at estimere, skæringspunktet $ \ beta_0 $, hældningen $ \ beta_1 $, & fejlvariansen $ \ sigma ^ 2 $; Fisher-oplysningerne er
$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ højre] \ end {align} $ $
hvor $ \ ell (\ cdot) $ er log-sandsynlighedsfunktionen for parametrene. (Bemærk, at $ x $ kan være en dummy-variabel, der angiver en bestemt behandling.)
Kommentarer
- Perfekt – det ‘ er præcis, hvad jeg havde brug for. Jeg ‘ Jeg overvejer dette natten over og se om jeg har brug for nogen præciseringer – jeg kan ‘ ikke få øje på noget lige nu – men dette svar adresserer allerede alle de forskellige scenarier, jeg nævnte ovenfor, i et øjeblik. Tak
- Strukturen i @Scortchi ‘ s eksempel viser tydeligt, hvordan Fisher-formlen jeg linkede til kun har brug for to matrixabonnementer – i og j – for at rumme et hvilket som helst tal af parametre og værdier. Hver ikke-diagonal i den øverste matrix har nøjagtigt to udtryk i udbyttet; i stedet for at tilføje eller trække vilkår fra hvert udbytte, tilføjer eller trækker hver unikke kombination af parametre rækker og kolonner fra matrixen. Den mest offentliggjorte litteratur gør ‘ ikke den vigtige skelnen klar, hvilket førte til min forvirring.