Grundläggande fråga om hur man definierar dimensionerna och posterna i Fisher Information Matrix

Jag är en nybörjare som försöker introducera mig till Maximum Likelihood Estimation (MLE) och kan förstå lite av materialet tillräckligt, som att leta efter toppar i sannolikhetsfunktioner, närma sig Cramer-Rao Bound och invertera Fisher Information Matrix för att härleda kovariansmatrisen och variansberäkningarna. Ironiskt nog har jag mer problem med att försöka fastställa exakt vad kolumnerna, raderna och posterna i Fisher Matrix ska representera och definiera dess struktur. Jag har skummat ett eller två dussin referenser under det senaste året eller så (plus en sökning på CrossValidated) och har ännu inte sett några exempel med verkliga värden anslutna till formlerna, även om deras diskussion om andra aspekter av matrisen vanligtvis är grundlig.

Jag ska försöka förklara i detalj för att undvika att överlappa mer avancerade ämnen i andra trådar. Det mesta av min förvirring verkar härstamma från detta: integralen i matrisekvationen har ett andra ordningens derivat och sannolikhetsfunktionsresultat på delaren och två derivat för en enda parameter på utdelningen, vanligtvis med två prenumerationer som jag och j. (Se denna Wikipedia-post och den här för exempel). Det verkar alltid finnas exakt två prenumerationer, vilket innebär en tvådimensionell matris och får mig att ställa de relaterade frågorna nedan:

Om jag bara hade en behandling och en parameter, verkar det att antyda en endimensionell matris. Om så är fallet, vad skulle matrisprenumerationerna i och j hänvisa till? Skulle jag behöva göra en korsprodukt av den enda dimensionen för sig själv för att få utdelningen i Fisher Matrix-ekvationen?
Hur skulle kolumn- och radstrukturerna förändras om jag hade två behandlingar och behövs för att uppskatta en enda parameter? Skulle detta innebära en 2D-matris?
Skulle den omvända situationen, där det finns en behandling och två parametrar (säg skala och form) göra skillnad på fråga 2? Jag antar att detta inte skulle vara praktiskt för vissa distributioner, om en av parametrarna behövdes för att härleda den andra i sannolikhetsfunktionen.
Hur skulle jag ändra matrisstrukturen och beräkna posterna om jag har två eller flera behandlingar plus två eller flera parametrar? Detta verkar antyda en 3D-matris eller högre matris, i vilket fall vi skulle behöva fler prenumerationer än bara jag och j. Jag har ännu inte sett några formler för detta i texterna, tidskriftsartiklarna och självstudierna jag har skummat hittills men (Jag har en referenslista om det behövs). Gör detta vanligtvis i verkliga MLE: er?
Kan vi utöka matrisen till att omfatta separata distributioner eller till och med distributionsfamiljer, tillsammans med deras parametrar? Hur skulle detta påverka matrisens struktur?
Kan matrisposterna bestå av en blandning av beräkningar på både sannolikhet och observerade värden, om de senare är tillgängliga? Fishers metriska formel vid https://en.wikipedia.org/wiki/Fisher_information_metric#Definition verkar ersätta sannolikheter för PDF-filer. Skulle detta utgöra en blandning av observerad information med Fisher Information? Denna del av frågan kan leda till andra ämnen som de subtila skillnaderna mellan observerad och Fisher-information som troligen täcks bättre någon annanstans. Jag undrar bara här om de två typerna av poster någonsin blandas i samma matris. Jag antar att de nästan alltid skulle hållas åtskilda.

Jag inser att svaren jag letar efter är troligen ingen hjärna; Jag får uppenbarligen fel på ett enkelt underliggande koncept. När jag har kommit förbi detta snubblar, skulle jag snabbt kunna koppla in några sannolikhetsfunktioner i Fisher-formlerna, returnera några kovariansmatriser och öva mig på att välja några MLE: ar, vanligtvis skulle det vara svårt del, men jag håller fast vid den här grundläggande uppgiften. En bild är värt tusen ord så att säga: svaren på ovanstående frågor skulle troligen vara direkt tydliga, om jag såg exempel med verkliga värden inkopplade. Allt som skulle återstå är att förklara hur man fyller i matrisen från den vanliga formeln med endast två prenumerationer, eller omväxlande, alla ändringar av formeln för att tillgodose flera behandlingar och parametrar. Länkar till sådana exempel eller övningar skulle också vara till hjälp. Tack på förhand 🙂

Kommentarer

+1 eftersom du verkligen har försökt svara på det själv men som ett vänligt råd: Fortsätt och redigera detta till en mindre fråga. Kan du i den utsträckningen inte numeriskt utvärdera en log-sannolikhetskostnadsfunktion, få sin Hessian och själv se hur partiella derivat ser ut? (Jag kan göra det åt dig om du vill.) Börja med en kontinuerlig variabel först inte en diskret. (Jag tror att du också förvirrar vad fler parametrar gör; de lägger bara till kolumner i din designmatris, inte fulla dimensioner.)
Tack för rådet – Jag ’ Försöker redigera det några gånger ikväll och imorgon för att hugga ner det. Jag ’ Jag är intresserad av att se processen för att härleda matrisen med en parameter mot två mot flera parametrar och behandlingar. Att ’ är den verkliga fastpunkten för mig; Jag kan ’ inte föreställa mig hur man hanterar dessa tre scenarier på olika sätt, med tanke på versionen av Fisher-formeln med två prenumerationer. Tack 🙂
Det kortaste sättet att svara på detta skulle vara skärmdumpar / länkar till faktiska Fisher-matriser med 1) en parameter 2) två parametrar & 3) multipel parametrar med flera behandlingar, så länge som kvantiteterna i varje kolumn / rad är tydligt märkta. Eller en enkel ” Med flera parametrar & behandlingar skulle vi ha X # av kolumner och Y # av rader. Med en parameter, värdena skulle gå hit; X. etc ” Formler / genomgångar är onödiga, om inte ändringar behövs för att tillgodose extra parametrar & behandlingar. Jag kan & borde göra det själv; Jag behöver bara färdiga exempel för att jämföra min struktur med.
Det ser ganska skrämmande ut att svara. Jag tror att det kan vara lättare att ge ett exempel & visar var du ’ sitter fast i härledningen eller är förvirrad över tolkningen. Men till en början, vad ’ är en ” behandling ”? En observation? En experimentell behandling?
@Scortchi Svaret ’ är förmodligen ovanligt enkelt. Användningen av exakt 2 prenumerationer i & j i formeln är den enda punkten där jag ’ sitter fast i härledningen; Jag kan ’ inte förstå hur det kan rymma enstaka parametrar eller flera parametrar / behandlingar. Att visa faktiska färdiga Fisher-informationsmatriser med tydligt märkta kolumner & rader skulle svara på det; det finns bara ’ t många i litteraturen. Jag ’ säger då, ” Aha, det är därför två prenumerationer kan hantera 3 parametrar eller bara 1 osv. Här är där de skulle placeras i matrisen. ” Det ’ är bara den färdiga produktens struktur I ’ m efter, inget mer.

Svar

Fisher-informationen är en symmetrisk kvadratmatris med ett tal av rader / kolumner lika med antalet parametrar som du uppskattar. Kom ihåg att det är en kovariansmatris för poängen, & där ”en poäng för varje parameter, eller förväntningen på det negativa av en Hessian, med en lutning för varje parameter. När du vill överväga olika experimentella behandlingar representerar du deras effekter genom att lägga till fler parametrar i modellen, dvs fler rader / kolumner (snarare än fler dimensioner — en matris har två dimensioner per definition). När du beräknar g bara en enda parameter, Fisher-informationen är bara en en-för-en-matris (en skalär) — variansen eller det förväntade värdet av det negativa av det andra derivatet av , poängen.

För en enkel linjär regressionsmodell på $ Y $ på $ x $ med $ n $ observationer

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

där $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, det finns tre parametrar att uppskatta, avlyssningen $ \ beta_0 $, lutningen $ \ beta_1 $, & felvariansen $ \ sigma ^ 2 $; Fisher-informationen är

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1} \ right) ^ 2 & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partial \ beta_1} & \ left (\ tfrac {\ partial \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2} \ höger ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_0) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ beta_1) ^ 2} & \ tfrac {\ partial ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partial \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

där $ \ ell (\ cdot) $ är log-sannolikhetsfunktionen för parametrarna. (Observera att $ x $ kan vara en dummyvariabel som indikerar en viss behandling.)

Kommentarer

Perfekt – det ’ är precis vad jag behövde. Jag ’ Jag funderar över det här över natten och ser om jag behöver några förtydliganden – jag kan ’ inte upptäcka något just nu – men det här svaret adresserar redan alla de olika scenarierna jag nämnde ovan, i ett ögonblick. Tack
Strukturen i @Scortchi ’ s exempel visar tydligt hur Fisher-formeln jag länkade till behöver bara två matrisprenumerationer – i och j – för att rymma valfritt antal av parametrar och värden. Varje icke-diagonal i den översta matrisen har exakt två termer i utdelningen; i stället för att lägga till eller subtrahera termer från varje utdelning lägger till eller subtraherar varje unik kombination av parametrar rader och kolumner från matrisen. Den mest publicerade litteraturen gör inte ’ den viktiga skillnaden tydlig, vilket ledde till min förvirring.

Kommentarer

Svar

Kommentarer

Lämna ett svar Avbryt svar