Grundlegende Frage zum Definieren der Dimensionen und Einträge der Fisher-Informationsmatrix

Ich bin ein Anfänger, der versucht, sich in die Maximum Likelihood Estimation (MLE) einzuführen, und kann einige verstehen des Materials angemessen, z. B. nach Spitzen in Wahrscheinlichkeitsfunktionen suchen, sich der Cramer-Rao-Grenze nähern und die Fisher-Informationsmatrix invertieren, um die Kovarianzmatrix und Varianzschätzungen abzuleiten. Ironischerweise habe ich mehr Probleme, zu bestimmen genau was die Spalten, Zeilen und Einträge der Fisher Matrix darstellen und ihre Struktur definieren sollen. Ich habe im letzten Jahr ein oder zwei Dutzend Referenzen überflogen (plus eine Suche bei CrossValidated) und habe noch keine Beispiele mit tatsächlichen Werten in den Formeln gesehen, obwohl ihre Diskussion anderer Aspekte der Matrix normalerweise gründlich ist.

Ich werde versuchen, dies ausführlich zu erläutern, um zu vermeiden, dass sich fortgeschrittenere Themen in anderen Threads überschneiden. Der größte Teil meiner Verwirrung scheint darauf zurückzuführen zu sein: Das Integral in der Matrixgleichung hat eine Ableitung zweiter Ordnung und ein Ergebnis der Wahrscheinlichkeitsfunktion für den Divisor und zwei Ableitungen für einen einzelnen Parameter für die Dividende, normalerweise mit zwei Indizes wie i und j. (Siehe diesen Wikipedia-Eintrag und diesen für Beispiele). Es scheint immer genau zwei Indizes zu geben, was eine zweidimensionale Matrix impliziert und mich dazu bringt, die folgenden Fragen zu stellen:

Wenn ich nur eine Behandlung und einen Parameter hätte, scheint das eine eindimensionale Matrix implizieren. Wenn ja, worauf würden sich die Matrix-Indizes i und j beziehen? Müsste ich ein Kreuzprodukt der einzelnen Dimension für sich selbst erstellen, um die Dividende in der Fisher-Matrix-Gleichung abzuleiten?
Wie würden sich die Spalten- und Zeilenstrukturen ändern, wenn ich zwei hätte? Behandlungen und benötigt, um einen einzelnen Parameter abzuschätzen? Würde dies eine 2D-Matrix bedeuten?
Würde die umgekehrte Situation, in der es eine Behandlung und zwei Parameter (z. B. Skala und Form) gibt, einen Unterschied zu Frage 2 bewirken? Ich stelle mir vor, dass dies nicht praktikabel wäre für einige Verteilungen, wenn einer der Parameter benötigt wurde, um den anderen in der Wahrscheinlichkeitsfunktion abzuleiten.
Wie würde ich die Matrixstruktur ändern und die Einträge berechnen, wenn ich zwei oder mehr Behandlungen plus zwei oder mehr Parameter hätte? Dies scheint eine 3D- oder höhere Matrix zu implizieren. In diesem Fall würden wir „mehr Indizes als nur i und j benötigen. Ich habe noch keine entsprechenden Formeln in den Texten, Zeitschriftenartikeln und Tutorials gesehen, die ich bisher überflogen habe (Ich habe eine Referenzliste, falls erforderlich). Wird dies häufig in realen MLEs durchgeführt?
Können wir die Matrix erweitern, um separate Verteilungen oder sogar Verteilungsfamilien zusammen mit ihren Parametern einzuschließen? Wie würde sich dies auf die Struktur der Matrix auswirken?
Können die Matrixeinträge aus einer Mischung von Berechnungen sowohl für die Wahrscheinlichkeit als auch für die beobachteten Werte bestehen, sofern letztere verfügbar sind? Die Fisher Metric-Formel unter https://en.wikipedia.org/wiki/Fisher_information_metric#Definition scheint die Wahrscheinlichkeit durch PDFs zu ersetzen. Würde dies bedeuten, beobachtete Informationen mit Fisher Information zu mischen? Dieser Teil der Frage kann zu anderen Themen führen, wie zum Beispiel den subtilen Unterschieden zwischen beobachteten und Fisher-Informationen, die an anderer Stelle wahrscheinlich besser behandelt werden. Ich frage mich hier nur, ob die beiden Arten von Einträgen jemals in derselben Matrix gemischt werden. Ich gehe davon aus, dass sie fast immer getrennt bleiben.

Mir ist klar dass die Antworten, nach denen ich suche, wahrscheinlich No-Brainers sind; Ich verstehe offensichtlich ein einfaches Grundkonzept falsch. Sobald ich diesen Stolperstein überwunden habe, sollte ich in der Lage sein, schnell einige Wahrscheinlichkeitsfunktionen in die Fisher-Formeln einzufügen, einige Kovarianzmatrizen zurückzugeben und einige MLEs auszuwählen. Normalerweise wäre das schwierig Teil, aber ich bin bei dieser grundlegenden Aufgabe stecken. Ein Bild sagt sozusagen mehr als tausend Worte: Die Antworten auf die obigen Fragen wären wahrscheinlich sofort klar, wenn ich Beispiele mit eingesteckten tatsächlichen Werten sehen würde. Dann müsste nur noch erklärt werden, wie die Matrix mit der üblichen Formel ausgefüllt wird nur zwei Indizes oder alternativ Änderungen an der Formel, um mehrere Behandlungen und Parameter zu berücksichtigen. Links zu solchen Beispielen oder Übungen wären ebenfalls hilfreich. Vielen Dank im Voraus 🙂

Kommentare

+1, weil Sie wirklich versucht haben, es selbst zu beantworten, aber als freundlicher Rat: Fahren Sie fort und bearbeiten Sie dies in eine kleinere Frage. Können Sie insofern eine Log-Likelihood-Kostenfunktion nicht numerisch bewerten, ihr Hessisches erhalten und selbst sehen, wie die partiellen Ableitungen aussehen? (Ich kann das für Sie tun, wenn Sie möchten.) Beginnen Sie zuerst mit einer stetigen Variablen, nicht mit einer diskreten. (Ich denke, Sie verwirren auch, was mehr Parameter bewirken. Sie fügen Ihrer Entwurfsmatrix nur Spalten hinzu, nicht vollständige Dimensionen.)
Danke für den Rat – ich ‚ werde heute Abend und morgen ein paar Mal versuchen, es zu bearbeiten, um es zu zerhacken. Ich ‚ wäre daran interessiert, den Prozess zum Ableiten der Matrix mit einem Parameter gegen zwei gegen mehrere Parameter und Behandlungen zu sehen. Das ‚ ist der eigentliche Knackpunkt für mich; Ich kann mir ‚ nicht vorstellen, wie diese drei Szenarien angesichts der Version der Fisher-Formel mit zwei Indizes unterschiedlich behandelt werden sollen. Danke 🙂
Der prägnanteste Weg, dies zu beantworten, wären Screenshots / Links von tatsächlichen Fisher-Matrizen mit 1) einem Parameter 2) zwei Parametern & 3) mehreren Parameter mit mehreren Behandlungen, solange die Mengen in jeder Spalte / Zeile eindeutig gekennzeichnet sind. Oder eine einfache “ Mit mehreren Parametern & Behandlungen hätten wir X # Spalten und Y # Zeilen. Mit einem Parameter, die Werte würden hier gehen; X. etc “ Formeln / exemplarische Vorgehensweisen sind nicht erforderlich, es sei denn, Änderungen sind erforderlich, um zusätzliche Parameter & -Behandlungen zu berücksichtigen. Ich kann & das selbst tun; Ich brauche nur fertige Beispiele, um meine Struktur mit zu vergleichen.
Die Antwort scheint ziemlich entmutigend. Ich denke, es könnte einfacher sein, ein Beispiel & zu geben, um zu zeigen, wo Sie ‚ in der Ableitung stecken bleiben oder über die Interpretation verwirrt sind. Aber was bedeutet zunächst ‚ eine “ Behandlung „? Eine Beobachtung? Eine experimentelle Behandlung?
@Scortchi Die Antwort ‚ ist wahrscheinlich ungewöhnlich einfach. Die Verwendung von genau 2 Indizes i & j in der Formel ist der einzige Punkt, an dem ich ‚ in der Ableitung stecke; Ich kann ‚ nicht verstehen, wie dies einzelne Parameter oder mehrere Parameter / Behandlungen aufnehmen kann. Das Anzeigen der tatsächlich fertigen Fisher-Informationsmatrizen mit klar gekennzeichneten Spalten & würde darauf antworten. Es gibt nur nicht ‚ viele in der Literatur. Ich ‚ würde dann sagen: “ Aha, deshalb können 2 Indizes 3 Parameter oder nur 1 usw. verarbeiten. Hier sind sie würde in die Matrix eingefügt. “ ‚ ist nur die Struktur des fertigen Produkts I ‚ m danach nichts mehr.

Antwort

Die Fisher-Information ist eine symmetrische quadratische Matrix mit einer Zahl von Zeilen / Spalten, die der Anzahl der Parameter entsprechen, die Sie „schätzen“. Denken Sie daran, dass es sich um eine Kovarianzmatrix der Bewertungen handelt, & gibt es eine Bewertung für jeden Parameter oder die Erwartung von Das Negativ eines Hessischen mit einem Gradienten für jeden Parameter. Wenn Sie verschiedene experimentelle Behandlungen berücksichtigen möchten, stellen Sie deren Auswirkungen dar, indem Sie dem Modell mehr Parameter hinzufügen, dh mehr Zeilen / Spalten (anstatt mehr Dimensionen eine Matrix hat per Definition zwei Dimensionen). Wenn Sie neu schätzen Wenn nur ein einziger Parameter vorliegt, ist die Fisher-Information nur eine Eins-zu-Eins-Matrix (ein Skalar) — der Varianz oder des erwarteten Werts des Negativs der zweiten Ableitung von , Die Punktzahl.

Für ein einfaches lineares Regressionsmodell von $ Y $ auf $ x $ mit $ n $ Beobachtungen

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

wobei $ \ varepsilon \ sim \ mathrm {N} (0, \ sigma ^ 2) $ drei Parameter zu schätzen sind, der Achsenabschnitt $ \ beta_0 $, die Steigung $ \ beta_1 $, & die Fehlervarianz $ \ sigma ^ 2 $; Die Fisher-Informationen lauten

$$ \ begin {align} \ mathcal {I} (\ beta_0, \ beta_1, \ sigma ^ 2) = & \ operatorname {E} \ left [\ begin {matrix} \ left (\ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ beta_0} \ rechts) ^ 2 & \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ beta_0} \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ teilweise \ beta_1} & \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ beta_0} \ tfrac { \ partiell \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ sigma ^ 2} \\ \ tfrac {\ partiell \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ beta_1} \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ beta_0} & \ left (\ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ teilweise \ beta_1} \ rechts) ^ 2 & \ tfrac {\ teilweise \ ell (\ beta_0, \ beta_1 , \ sigma ^ 2)} {\ partielle \ beta_1} \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ sigma ^ 2} \\ \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ si gma ^ 2)} {\ partielles \ Sigma ^ 2} \ tfrac {\ partielles \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielles \ beta_0} & \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ sigma ^ 2} \ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} { \ partielle \ beta_1} & \ left (\ tfrac {\ partielle \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partielle \ sigma ^ 2} \ rechts ) ^ 2 \\ \ end {matrix} \ right] \\ \\ = & – \ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partiell ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ teilweise \ beta_0) ^ 2} & \ tfrac {\ teilweise ^ 2 \ ell (\ beta_0 , \ beta_1, \ sigma ^ 2)} {\ partiell \ beta_0 \ partiell \ beta_1} & \ tfrac {\ partiell ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ beta_0 \ partiell \ sigma ^ 2} \\ \ tfrac {\ partiell ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ beta_1 \ partiell \ beta_0} & \ tfrac {\ partielle ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partielle \ beta_1) ^ 2} & \ tfrac {\ teilweise ^ 2 \ ell (\ beta_ 0, \ beta_1, \ sigma ^ 2)} {\ partiell \ beta_1 \ partiell \ sigma ^ 2} \\ \ tfrac {\ partiell ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ sigma ^ 2 \ partiell \ beta_0} & \ tfrac {\ partiell ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {\ partiell \ sigma ^ 2 \ partielle \ beta_1} & \ tfrac {\ partielle ^ 2 \ ell (\ beta_0, \ beta_1, \ sigma ^ 2)} {(\ partielle \ sigma ^ 2) ^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

wobei $ \ ell (\ cdot) $ die Log-Likelihood-Funktion der Parameter ist. (Beachten Sie, dass $ x $ eine Dummy-Variable sein kann, die eine bestimmte Behandlung angibt.)

Kommentare

Perfekt – es ‚ ist genau das, was ich brauchte. Ich ‚ werde über Nacht darüber nachdenken und prüfen, ob ich Klarstellungen benötige – ich kann ‚ derzeit keine erkennen – aber diese Antwort ist bereits adressiert all die verschiedenen Szenarien, die ich oben erwähnt habe, auf einen Schlag. Danke
Die Struktur des Beispiels von @Scortchi ‚ zeigt deutlich, dass die Fisher-Formel, mit der ich verknüpft bin, nur zwei Matrix-Indizes – i und j – benötigt, um eine beliebige Zahl aufzunehmen von Parametern und Werten. Jede Nichtdiagonale in der oberen Matrix hat genau zwei Terme in der Dividende; Anstatt Terme von jeder Dividende zu addieren oder zu subtrahieren, addiert oder subtrahiert jede eindeutige Kombination von Parametern Zeilen und Spalten zur Matrix. Die meisten veröffentlichten Literaturstellen ‚ machen diese wichtige Unterscheidung nicht klar, was zu meiner Verwirrung führte.

Kommentare

Antwort

Kommentare

Schreibe einen Kommentar Antworten abbrechen