Ik ben een beginner die mezelf wil voorstellen aan de Maximum Likelihood Estimation (MLE) en kan enkele van het materiaal, zoals het zoeken naar pieken in waarschijnlijkheidsfuncties, het benaderen van de Cramer-Rao Bound en het omkeren van de Fisher Information Matrix om de covariantiematrix en variantie-schattingen af te leiden. Ironisch genoeg heb ik meer moeite om precies wat de kolommen, rijen en ingangen van de Fisher Matrix moeten vertegenwoordigen en de structuur ervan moeten definiëren. Ik heb het afgelopen jaar een of twee dozijn referenties doorgenomen (plus een zoekopdracht bij CrossValidated) en heb nog geen voorbeelden gezien met werkelijke waarden die in de formules zijn ingeplugd, hoewel hun bespreking van andere aspecten van de matrix meestal grondig is.

Ik zal proberen het in detail uit te leggen om overlapping van meer geavanceerde onderwerpen op andere threads te voorkomen. De meeste van mijn verwarring lijkt hieruit voort te komen: de integraal in de matrixvergelijking heeft een afgeleide van de tweede orde en een waarschijnlijkheidsfunctieresultaat op de deler en twee afgeleiden voor een enkele parameter op het dividend, meestal met twee subscripts zoals i en j. (Zie dit Wikipedia-artikel en dit voor voorbeelden). Er lijken altijd precies twee subscripts te zijn, wat een tweedimensionale matrix impliceert en me de onderstaande gerelateerde vragen doet stellen:

  1. Als ik maar één behandeling en één parameter had, lijkt dat om een eendimensionale matrix te impliceren. Zo ja, waar zouden de matrixabonnementen i en j naar verwijzen? Zou ik een kruisproduct van de enkele dimensie met zichzelf moeten doen om het dividend in de Fisher Matrix-vergelijking af te leiden?

  2. Hoe zouden de kolom- en rijstructuren veranderen als ik er twee had behandelingen en nodig om een enkele parameter te schatten? Zou dit een 2D-matrix betekenen?

  3. Zou de omgekeerde situatie, waarbij er één behandeling en twee parameters (zeg schaal en vorm) zijn, een verschil maken voor vraag 2? Ik kan me voorstellen dat dit niet praktisch zou zijn voor sommige distributies, als een van de parameters nodig was om de andere af te leiden in de waarschijnlijkheidsfunctie.

  4. Hoe zou ik de matrixstructuur veranderen en de gegevens berekenen als ik twee of meer behandelingen plus twee of meer parameters heb? Dit lijkt een 3D of hogere matrix te impliceren, in welk geval we “meer subscripts nodig zouden hebben dan alleen i en j. Ik moet nog formules in die zin zien in de teksten, tijdschriftartikelen en tutorials die ik tot nu toe heb geskimd. (Ik heb indien nodig een lijst met referenties). Wordt dit gewoonlijk gedaan in echte MLEs?

  5. Kunnen we de matrix uitbreiden met afzonderlijke distributies of zelfs distributiefamilies, samen met hun parameters? Hoe zou dit de structuur van de matrix beïnvloeden?

  6. Kunnen de matrixinvoeringen bestaan uit een combinatie van berekeningen van zowel waarschijnlijkheid als waargenomen waarden, als deze laatste beschikbaar zijn? De Fisher Metric-formule op https://en.wikipedia.org/wiki/Fisher_information_metric#Definition lijkt waarschijnlijkheden te vervangen door PDFs. Zou dit neerkomen op een vermenging van waargenomen informatie met Fisher Information? Dit deel van de vraag kan leiden tot andere onderwerpen, zoals de subtiele verschillen tussen waargenomen en Fisher-informatie, die waarschijnlijk elders beter worden behandeld. Ik vraag me hier gewoon af of de twee typen items ooit in dezelfde matrix zijn gemengd. Ik neem aan dat ze bijna altijd gescheiden worden gehouden.

Ik realiseer me dat de antwoorden die ik zoek waarschijnlijk geen hersenkrakers zijn; Ik begrijp duidelijk een eenvoudig onderliggend concept verkeerd. Als ik eenmaal voorbij dit struikelblok ben, zou ik snel enkele waarschijnlijkheidsfuncties in de Fisher-formules moeten kunnen inpluggen, wat covariantiematrices kunnen retourneren en oefenen met het selecteren van enkele MLEs; normaal zou dat het moeilijk zijn deel, maar ik zit vast aan deze basistaak. Een plaatje zegt zogezegd meer dan duizend woorden: de antwoorden op bovenstaande vragen zouden waarschijnlijk meteen duidelijk zijn als ik voorbeelden zou zien met werkelijke waarden ingeplugd. Het enige dat overblijft is uitleggen hoe je de matrix kunt vullen met de gebruikelijke formule met slechts twee abonnementen, of afwisselend wijzigingen in de formule om meerdere behandelingen en parameters mogelijk te maken. Links naar dergelijke voorbeelden of oefeningen zouden ook nuttig zijn. Bij voorbaat dank 🙂

Reacties

  • +1 omdat je echt geprobeerd hebt het zelf te beantwoorden, maar als een vriendelijk advies: ga je gang en bewerk dit in een kleinere vraag. Kunt u in zoverre niet numeriek een log-likelihood-kostenfunctie evalueren, zijn Hessiaan ophalen en zelf zien hoe de partiële afgeleiden eruit zien? (Ik kan dat voor je doen als je wilt.) Begin met een continue variabele eerst niet een discrete. (Ik denk dat je ook door elkaar haalt wat meer parameters doen; ze voegen alleen kolommen toe aan je ontwerpmatrix, geen volledige afmetingen.)
  • Bedankt voor het advies – ik ‘ zal het vanavond een paar keer proberen te bewerken en morgen om het te verkleinen. Ik ‘ zou geïnteresseerd zijn in het proces voor het afleiden van de matrix met één parameter versus twee versus meerdere parameters en behandelingen. Dat ‘ is het echte knelpunt voor mij; Ik kan ‘ me niet voorstellen hoe ik deze drie scenarios anders moet aanpakken, gezien de versie van de Fisher-formule met twee subscripts. Bedankt 🙂
  • De meest beknopte manier om dit te beantwoorden zijn screenshots / links van werkelijke Fisher-matrices met 1) één parameter 2) twee parameters & 3) meerdere parameters met meerdere behandelingen, zolang de hoeveelheden in elke kolom / rij duidelijk zijn gelabeld. Of een simpele ” Met meerdere parameters & behandelingen, zouden we X # kolommen en Y # rijen hebben. Met één parameter, de waarden zouden hier komen; X. etc ” Formules / walkthroughs zijn niet nodig, tenzij er wijzigingen nodig zijn om extra parameters & behandelingen mogelijk te maken. Ik kan & dat zelf moeten doen; Ik heb alleen afgewerkte voorbeelden nodig om mijn structuur mee te vergelijken.
  • Dit lijkt nogal ontmoedigend om te beantwoorden. Ik denk dat het misschien gemakkelijker is om een voorbeeld te geven van & laten zien waar je ‘ vastzit in de afleiding of verward bent over de interpretatie. Maar om te beginnen, wat betekent ‘ s een ” behandeling “? Een observatie? Een experimentele behandeling?
  • @Scortchi Het antwoord ‘ is waarschijnlijk buitengewoon eenvoudig. Het gebruik van precies 2 subscripts i & j in de formule is het enige punt waar I ‘ m vastzit in de afleiding; Ik kan ‘ t begrijpen hoe dat geschikt is voor enkele parameters of meerdere parameters / behandelingen. Het bekijken van werkelijk voltooide Fisher Information Matrices met duidelijk gelabelde kolommen & rijen zou het beantwoorden; er zijn slechts ‘ t veel in de literatuur. Ik ‘ d zeg dan, ” Aha, dit is de reden waarom 2 subscripts 3 parameters kunnen verwerken of slechts 1, enz. Hier is waar ze zou in de matrix worden geplaatst. ” Het ‘ is alleen de structuur van het eindproduct I ‘ m na, niets meer.

Answer

De Fisher-informatie is een symmetrische vierkante matrix met een nummer rijen / kolommen gelijk aan het aantal parameters dat u schat. Bedenk dat het een covariantiematrix van de scores is, & er is een score voor elke parameter, of de verwachting van het negatief van een Hessiaan, met een verloop voor elke parameter. Als u verschillende experimentele behandelingen wilt overwegen, geeft u hun effecten weer door meer parameters aan het model toe te voegen, dwz meer rijen / kolommen (in plaats van meer dimensies — een matrix heeft per definitie twee dimensies). Wanneer u “opnieuw schat g slechts een enkele parameter, de Fisher-informatie is slechts een een-voor-een matrix (een scalair) — de variantie van, of de verwachte waarde van het negatief van de tweede afgeleide van , de score.

Voor een eenvoudig lineair regressiemodel van $ Y $ op $ x $ met $ n $ waarnemingen

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

waar $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $, er drie parameters zijn om te schatten, het snijpunt $ \ beta_0 $, de helling $ \ beta_1 $, & de foutvariantie $ \ sigma ^ 2 $; de Fisher-informatie is

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0} \ right) ^ 2 & \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0} \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_1} & \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0} \ tfrac { \ partieel \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ sigma ^ 2} \\ \ tfrac {\ partieel \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ beta_1} \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0} & \ left (\ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_1} \ right) ^ 2 & \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partieel \ beta_1} \ tfrac {\ partieel \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ sigma ^ 2} \\ \ tfrac {\ partieel \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partiële \ sigma ^ 2} \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0} & \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ sigma ^ 2} \ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partiële \ beta_1} & \ left (\ tfrac {\ partiële \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiële \ sigma ^ 2} \ right ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatornaam {E} \ left [\ begin {matrix} \ tfrac {\ gedeeltelijke ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partiële \ beta_0) ^ 2} & \ tfrac {\ partiële ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partiële \ beta_0 \ partiële \ beta_1} & \ tfrac {\ partiële ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ beta_0 \ partieel \ sigma ^ 2} \\ \ tfrac {\ partieel ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ beta_1 \ partieel \ beta_0} & \ tfrac {\ partiële ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partiële \ beta_1) ^ 2} & \ tfrac {\ gedeeltelijke ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partieel \ beta_1 \ partieel \ sigma ^ 2} \\ \ tfrac {\ partieel ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ sigma ^ 2 \ partieel \ beta_0} & \ tfrac {\ partieel ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partieel \ sigma ^ 2 \ partiële \ beta_1} & \ tfrac {\ partiële ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partiële \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

waar $ \ ell (\ cdot) $ de log-waarschijnlijkheidsfunctie van de parameters is. (Merk op dat $ x $ een dummy-variabele kan zijn die een bepaalde behandeling aangeeft.)

Opmerkingen

  • Perfect – het is ‘ is precies wat ik nodig had. Ik ‘ zal hier van de ene op de andere dag over nadenken en kijken of ik opheldering nodig heb – ik kan ‘ er nu geen vinden – maar dit antwoord beantwoordt al alle verschillende scenarios die ik hierboven noemde, in één klap. Bedankt
  • De structuur van het voorbeeld van @Scortchi ‘ laat duidelijk zien dat de Fisher-formule waarnaar ik heb gelinkt slechts twee matrix-subscripts nodig heeft – i en j – om elk getal te accommoderen van parameters en waarden. Elke niet-diagonaal in de bovenste matrix heeft precies twee termen in het dividend; in plaats van termen toe te voegen aan of af te trekken van elk dividend, voegt elke unieke combinatie van parameters rijen en kolommen toe aan of af van de matrix. De meeste gepubliceerde literatuur ‘ maakt dat belangrijke onderscheid niet duidelijk, wat tot mijn verwarring leidde.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *