Jeg er en nybegynner som prøver å introdusere meg for Maksimal sannsynlighet (MLE) og kan forstå noen av materialet tilstrekkelig, for eksempel å lete etter topper i sannsynlighetsfunksjoner, nærme seg Cramer-Rao Bound og invertere Fisher Information Matrix for å utlede kovariansmatrisen og variansestimatene. Ironisk nok har jeg flere problemer med å prøve å finne ut nøyaktig hva kolonnene, radene og oppføringene i Fisher Matrix skal representere og definere dens struktur. Jeg har skummet ett eller to dusin referanser i løpet av det siste året eller så (pluss et søk på CrossValidated) og har ennå ikke sett noen eksempler med faktiske verdier koblet til formlene, selv om deres diskusjon om andre aspekter av matrisen vanligvis er grundig.

Jeg prøver å forklare i detalj for å unngå å overlappe mer avanserte emner i andre tråder. Det meste av min forvirring ser ut til å stamme fra dette: integralet i matriksligningen har et andreordens derivat og sannsynlighetsfunksjonsresultat på divisoren og to derivater for en enkelt parameter på utbyttet, vanligvis med to abonnementer som i og j. (Se denne Wikipedia-oppføringen og denne for eksempler). Det ser alltid ut til å være nøyaktig to abonnementer, som innebærer en todimensjonal matrise og får meg til å stille de relaterte spørsmålene nedenfor:

  1. Hvis jeg bare hadde en behandling og en parameter, virker det å antyde en endimensjonal matrise. I så fall hva ville matriseavskriftene i og j referere til? Ville jeg trenge å gjøre et kryssprodukt av den eneste dimensjonen til seg selv for å utlede utbyttet i Fisher Matrix-ligningen?

  2. Hvordan ville kolonne- og radstrukturene endret seg hvis jeg hadde to behandlinger og behov for å estimere en enkelt parameter? Ville dette innebære en 2D-matrise?

  3. Ville den omvendte situasjonen, der det er en behandling og to parametere (si skala og form) utgjøre en forskjell i spørsmål nr. 2? Jeg forestiller meg at dette ikke ville være praktisk for noen distribusjoner, hvis en av parametrene var nødvendig for å utlede den andre i sannsynlighetsfunksjonen.

  4. Hvordan ville jeg endre matrisestrukturen og beregne oppføringene hvis jeg har to eller flere behandlinger pluss to eller flere parametere? Dette ser ut til å antyde en 3D eller høyere matrise, i så fall trenger vi flere abonnementer enn bare i og j. Jeg har ennå ikke sett noen formler om det i tekstene, tidsskriftartiklene og veiledningene jeg har skummet til dags dato skjønt (Jeg har en referanseliste om nødvendig). Er dette ofte gjort i virkelige MLE-er?

  5. Kan vi utvide matrisen til å omfatte separate distribusjoner eller til og med distribusjonsfamilier, sammen med parametrene deres? Hvordan ville dette påvirke strukturen til matrisen?

  6. Kan matriseoppføringene bestå av en blanding av beregninger på både sannsynlighet og observerte verdier, hvis sistnevnte er tilgjengelige? Fisher Metric-formelen på https://en.wikipedia.org/wiki/Fisher_information_metric#Definition ser ut til å erstatte PDF-filer for sannsynligheten. Ville dette utgjøre blanding av observert informasjon med Fisher Information? Denne delen av spørsmålet kan føre til andre emner som de subtile forskjellene mellom observerte og Fisher-info som sannsynligvis blir dekket bedre andre steder. Jeg lurer bare på om de to typene oppføringer noen gang blir blandet i samme matrise. Jeg antar at de nesten alltid vil holdes atskilt.

Jeg skjønner at svarene jeg leter etter, sannsynligvis ikke hjerner; Jeg får åpenbart feil i et enkelt, underliggende konsept. Når jeg kommer forbi denne snublesteinen, burde jeg raskt kunne koble noen sannsynlighetsfunksjoner til Fisher-formlene, returnere noen kovariansmatriser og øve meg på å velge noen MLE-er; vanligvis ville det være vanskelig del, men jeg er fast på denne grunnleggende oppgaven. Et bilde er verdt tusen ord for å si det sånn: svarene på spørsmålene ovenfor ville sannsynligvis være umiddelbart klare, hvis jeg så eksempler med faktiske verdier plugget inn. Alt som ville være igjen, er å forklare hvordan man fyller matrisen fra den vanlige formelen ved å bruke bare to abonnementer, eller vekselvis, eventuelle endringer i formelen for å imøtekomme flere behandlinger og parametere. Koblinger til slike eksempler eller øvelser vil også være nyttige. På forhånd takk 🙂

Kommentarer

  • +1 fordi du virkelig har prøvd å svare på det selv, men som et vennlig råd: Gå videre og rediger dette inn i et mindre spørsmål. I den grad kan du ikke numerisk evaluere en log-sannsynlighets-kostnadsfunksjon, få sin Hessian og se selv hvordan partielle derivater ser ut? (Jeg kan gjøre det for deg hvis du vil.) Start med en kontinuerlig variabel først ikke en diskret. (Jeg tror du også forvirrer hva flere parametere gjør; de legger bare til kolonner i designmatrisen din, ikke i full dimensjoner.)
  • Takk for rådet – Jeg ‘ Prøv å redigere det noen ganger i kveld og i morgen for å hugge det ned. Jeg ‘ ville være interessert i å se prosessen for å utlede matrisen med en parameter versus to versus flere parametere og behandlinger. At ‘ er det virkelige stikkpunktet for meg; Jeg kan ‘ ikke se for meg hvordan jeg skal håndtere disse tre scenariene på en annen måte, gitt versjonen av Fisher-formelen med to abonnementer. Takk 🙂
  • Den korteste måten å svare på dette ville være skjermbilder / lenker av faktiske Fisher-matriser med 1) en parameter 2) to parametere & 3) flere parametere med flere behandlinger, så lenge mengdene i hver kolonne / rad er tydelig merket. Eller en enkel » Med flere parametere & behandlinger, ville vi ha X # av kolonner og Y # av rader. Med en parameter, verdiene ville gå her; X. etc » Formler / gjennomganger er unødvendige, med mindre endringer er nødvendig for å imøtekomme ekstra parametere & behandlinger. Jeg kan & burde gjøre det selv; Jeg trenger bare ferdige eksempler for å sammenligne strukturen min med.
  • Dette ser ganske skremmende ut å svare på. Jeg tror det kan være lettere å gi et eksempel & viser hvor du ‘ sitter fast i avledningen eller forvirret om tolkningen. Men til å begynne med, hva ‘ s en » behandling «? En observasjon? En eksperimentell behandling?
  • @Scortchi Svaret ‘ er sannsynligvis uvanlig enkelt. Bruk av nøyaktig to abonnementer i & j i formelen er det eneste punktet der jeg ‘ m sitter fast i avledningen; Jeg kan ikke ‘ ikke forstå hvordan det kan imøtekomme enkeltparametere, eller flere parametere / behandlinger. Å vise faktiske ferdige Fisher-informasjonsmatriser med tydelig merkede kolonner & rader ville svare på det; det er bare ‘ t mange i litteraturen. Jeg sier ‘, » Aha, det er derfor to abonnementer kan håndtere 3 parametere eller bare 1 osv. Her er hvor de ville plassert i matrisen. » Det ‘ er bare strukturen til det ferdige produktet I ‘ m etter, ingenting mer.

Svar

Fisher-informasjonen er en symmetrisk firkantmatrise med et tall av rader / kolonner som tilsvarer antall parametere du anslår. Husk at det er en kovariansmatrise av poengene, & det er en poengsum for hver parameter, eller forventningen om det negative av en Hessian, med en gradient for hver parameter. Når du vil vurdere forskjellige eksperimentelle behandlinger, representerer du effekten av dem ved å legge til flere parametere i modellen, dvs. flere rader / kolonner (i stedet for flere dimensjoner — en matrise har to dimensjoner per definisjon.) Når du estimerer g bare en enkelt parameter, er Fisher-informasjonen bare en en-for-en matrise (en skalar) — variansen til eller den forventede verdien av negativet til det andre derivatet av , stillingen.

For en enkel lineær regresjonsmodell på $ Y $ på $ x $ med $ n $ observasjoner

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

hvor $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, er det tre parametere å estimere, avskjæringen $ \ beta_0 $, stigningen $ \ beta_1 $, & feilavviket $ \ sigma ^ 2 $; Fisher-informasjonen er

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

hvor $ \ ell (\ cdot) $ er log-sannsynlighetsfunksjonen til parameterne. (Merk at $ x $ kan være en dummyvariabel som indikerer en bestemt behandling.)

Kommentarer

  • Perfekt – det ‘ er akkurat det jeg trengte. Jeg ‘ Lurer på dette over natten og ser om jeg trenger noen avklaringer – jeg kan ‘ ikke oppdage noe akkurat nå – men dette svaret adresserer allerede alle de varierte scenariene jeg nevnte ovenfor, i ett slag. Takk
  • Strukturen til @Scortchi ‘ s eksempel viser tydelig hvordan Fisher-formelen jeg koblet til bare trenger to matriseavskrifter – i og j – for å imøtekomme et hvilket som helst tall av parametere og verdier. Hver ikke-diagonal i toppmatrisen har nøyaktig to termer i utbyttet; i stedet for å legge til eller trekke vilkår fra hvert utbytte, legger hver unike kombinasjon av parametere til eller trekker fra rader og kolonner fra matrisen. Mest publiserte litteratur gjør ikke ‘ det viktige skillet klart, noe som førte til min forvirring.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *