Angenommen, wir haben eine Zufallsvariable $ X \ sim f (x | \ theta) $ . Wenn $ \ theta_0 $ der wahre Parameter wäre, sollte die Wahrscheinlichkeitsfunktion maximiert und die Ableitung gleich Null sein. Dies ist das Grundprinzip des Maximum-Likelihood-Schätzers.

Nach meinem Verständnis sind Fisher-Informationen definiert als

$$ I (\ theta) = \ Bbb E \ Bigg [\ left (\ frac {\ partiell} {\ partiell \ theta} f (X | \ theta) \ rechts) ^ 2 \ Bigg] $$

Wenn also $ \ theta_0 $ ist der wahre Parameter, $ I (\ theta) = 0 $ . Aber wenn es $ \ theta_0 $ nicht der wahre Parameter ist, haben wir eine größere Menge an Fisher-Informationen.

meine Fragen

  1. Misst Fisher-Informationen den „Fehler“? „einer bestimmten MLE? Mit anderen Worten, bedeutet das Vorhandensein positiver Fisher-Informationen nicht, dass mein MLE nicht ideal sein kann?
  2. Wie unterscheidet sich diese Definition von „Information“ von der von Shannon verwendeten? Warum nennen wir es Information?

Kommentare

  • Warum schreibst du es $ E_ \ theta $? Die Erwartung liegt über den Werten von $ X $, die so verteilt sind, als ob sie aus Ihrer Verteilung mit dem Parameter $ \ theta $ stammen.
  • Auch $ I (\ theta) $ ist beim wahren Parameter nicht Null.
  • Das E (S) ist Null (dh: Erwartung der Bewertungsfunktion), aber wie Neil G schrieb – Fischerinformation (V (S)) ist nicht (normalerweise) Null.

Antwort

Versucht, die anderen Antworten zu ergänzen … Welche Art von Informationen sind Fisher-Informationen? Beginnen Sie mit der Loglikelihood-Funktion $$ \ ell (\ theta) = \ log f (x; \ theta) $$ als Funktion von $ \ theta $ für $ \ theta \ in \ Theta $, dem Parameterraum. Unter der Annahme einiger Regelmäßigkeitsbedingungen, die wir hier nicht diskutieren, haben wir $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partiell} {\ partiell \ theta} \ ell (\ theta) = \ E_ \ Theta \ dot {\ ell} (\ theta) = 0 $ (wir werden Ableitungen in Bezug auf den Parameter als Punkte wie hier schreiben). Die Varianz ist die Fisher-Information $$ I (\ theta) = \ E_ \ theta (\ dot {\ ell} (\ theta)) ^ 2 = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ Die letzte Formel zeigt, dass es sich um die (negative) Krümmung der Loglikelihood-Funktion handelt. Man findet oft den Maximum Likelihood Estimator (mle) von $ \ theta $ durch Lösen der Likelihood-Gleichung $ \ dot {\ ell} (\ theta) = 0 $, wenn die Fisher-Information als Varianz der Punktzahl $ \ dot {\ ell gilt } (\ theta) $ ist groß, dann ist die Lösung dieser Gleichung sehr empfindlich gegenüber den Daten, was Hoffnung auf eine hohe Präzision der mle gibt. Dies wird zumindest asymptotisch bestätigt, wobei die asymptotische Varianz der mle die Umkehrung der Fisher-Information ist.

Wie können wir das interpretieren? $ \ ell (\ theta) $ ist die Wahrscheinlichkeitsinformation über den Parameter $ \ theta $ aus der Stichprobe. Dies kann wirklich nur in einem relativen Sinne interpretiert werden, beispielsweise wenn wir damit die Plausibilitäten zweier unterschiedlicher möglicher Parameterwerte über den Likelihood-Ratio-Test $ \ ell (\ theta_0) – \ ell (\ theta_1) $ vergleichen. Die Änderungsrate der Loglikelihood ist die Bewertungsfunktion $ \ dot {\ ell} (\ theta) $, die angibt, wie schnell sich die Wahrscheinlichkeit ändert, und ihre Varianz $ I (\ theta) $, wie stark diese von Probe zu Probe variiert. Sagen Sie bei einem bestimmten Parameterwert $ \ theta_0 $. Die Gleichung (was wirklich überraschend ist!) $$ I (\ theta) = – \ E_ \ theta \ ddot {\ ell} (\ theta) $$ sagt uns, dass es eine Beziehung (Gleichheit) zwischen der Variabilität der Informationen gibt ( Wahrscheinlichkeit) für einen gegebenen Parameterwert $ \ theta_0 $ und die Krümmung der Wahrscheinlichkeitsfunktion für diesen Parameterwert. Dies ist eine überraschende Beziehung zwischen der Variabilität (Varianz) dieser Statistik $ \ dot {\ ell} (\ theta) \ mid _ {\ theta = \ theta_0} $ und der erwarteten Änderung der Ähnlichkeit, wenn wir den Parameter $ \ theta $ variieren in einem Intervall um $ \ theta_0 $ (für die gleichen Daten). Das ist wirklich seltsam, überraschend und mächtig!

Wie lautet also die Wahrscheinlichkeitsfunktion? Wir stellen uns das statistische Modell $ \ {f (x; \ theta), \ theta \ in \ Theta \} $ normalerweise als eine Familie von Wahrscheinlichkeitsverteilungen für Daten $ x $ vor, die durch den Parameter $ \ theta $ some element in indiziert sind der Parameterraum $ \ Theta $. Wir denken, dass dieses Modell wahr ist, wenn es einen Wert $ \ theta_0 \ in \ Theta $ gibt, so dass die Daten $ x $ tatsächlich die Wahrscheinlichkeitsverteilung $ f (x; \ theta_0) $ haben. Wir erhalten also ein statistisches Modell, indem wir die wahre datengenerierende Wahrscheinlichkeitsverteilung $ f (x; \ theta_0) $ in eine Familie von Wahrscheinlichkeitsverteilungen einbetten. Es ist jedoch klar, dass eine solche Einbettung auf viele verschiedene Arten erfolgen kann, und jede solche Einbettung wird ein „wahres“ Modell sein, und sie werden unterschiedliche Wahrscheinlichkeitsfunktionen ergeben. Und ohne eine solche Einbettung gibt es keine Wahrscheinlichkeitsfunktion. Es scheint, dass wir wirklich Hilfe brauchen, einige Prinzipien, wie man eine Einbettung mit Bedacht wählt!

Was bedeutet das? Dies bedeutet, dass die Wahl der Wahrscheinlichkeitsfunktion uns sagt, wie wir erwarten würden, dass sich die Daten ändern, wenn sich die Wahrheit ein wenig ändert. Dies kann jedoch nicht wirklich durch die Daten überprüft werden, da die Daten nur Informationen über die wahre Modellfunktion $ f (x; \ theta_0) $ liefern, die die Daten tatsächlich generiert hat, und nicht über alle anderen Elemente im ausgewählten Modell. Auf diese Weise sehen wir, dass die Wahl der Wahrscheinlichkeitsfunktion der Wahl eines Prior in der Bayesschen Analyse ähnlich ist und Nicht-Dateninformationen in die Analyse einfügt. Betrachten wir dies in einem einfachen (etwas künstlichen) Beispiel und betrachten wir den Effekt der Einbettung von $ f (x; \ theta_0) $ in ein Modell auf unterschiedliche Weise.

Nehmen wir an, dass $ X_1, \ dotsc, X_n $ als $ N (\ mu = 10, \ sigma ^ 2 = 1) $ angegeben sind. Das ist also die wahre, datengenerierende Verteilung. Lassen Sie uns dies nun auf zwei verschiedene Arten in ein Modell einbetten: Modell A und Modell B. $$ A \ Doppelpunkt X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ sigma ^ 2 = 1) , \ mu \ in \ mathbb {R} \\ B \ Doppelpunkt X_1, \ dotsc, X_n ~ \ text {iid} ~ N (\ mu, \ mu / 10), \ mu > 0 $$ Sie können überprüfen, ob dies für $ \ mu = 10 $ übereinstimmt.

Die Loglikelihood-Funktionen werden zu $$ \ ell_A (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac12 \ sum_i (x_i- \ mu) ^ 2 \\ \ ell_B (\ mu) = – \ frac {n} {2} \ log (2 \ pi) – \ frac {n} {2} \ log (\ mu / 10) – \ frac {10} {2} \ sum_i \ frac {(x_i- \ mu) ^ 2} {\ mu} $$

Die Score-Funktionen : (Loglikelihood-Derivate): $$ \ dot {\ ell} _A (\ mu) = n (\ bar {x} – \ mu) \\ \ dot {\ ell} _B (\ mu) = – \ frac {n } {2 \ mu} – \ frac {10} {2} \ sum_i (\ frac {x_i} {\ mu}) ^ 2 – 15 n $$ und die Krümmungen $$ \ ddot {\ ell} _A (\ mu ) = -n \\ \ ddot {\ ell} _B (\ mu) = \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$ Die Fisher-Informationen hängen also wirklich von der Einbettung ab. Nun berechnen wir die Fisher-Informationen mit dem wahren Wert $ \ mu = 10 $, $$ I_A (\ mu = 10) = n, \\ I_B (\ mu = 10) = n \ cdot (\ frac1 {200} + \ frac {2020} {2000}) > n $$, sodass die Fisher-Informationen zu dem Parameter in Modell B etwas größer sind.

Dies zeigt, dass in In gewissem Sinne sagt uns die Fisher-Information, wie schnell sich die Informationen aus den Daten über den Parameter geändert hätten, wenn sich der maßgebliche Parameter geändert hätte in der Weise, die durch das Einbetten in eine Modellfamilie postuliert wird. Die Erklärung für höhere Informationen in Modell B ist, dass unsere Modellfamilie B postuliert, dass, wenn die Erwartung gestiegen wäre, auch die Varianz zugenommen hätte . Damit unter Modell B die Stichprobenvarianz auch Informationen über $ \ mu $ enthält, was unter Modell A nicht der Fall ist.

Auch dieses Beispiel zeigt, dass wir wirklich eine Theorie brauchen, um zu helfen uns bei der Konstruktion von Modellfamilien.

Kommentare

  • gute Erklärung. Warum sagst du $ \ E_ \ theta \ dot {\ ell} (\ theta) = 0 $? es ‚ ist eine Funktion von $ \ theta $ – ist nicht ‚ t 0 nur, wenn es mit dem wahren Parameter $ \ theta_0 $?
  • Ja, was Sie sagen, ist wahr, @idadanny. Es ist Null, wenn es mit dem wahren Parameterwert ausgewertet wird.
  • Nochmals vielen Dank @kjetil – also nur noch eine Frage: Ist die überraschende Beziehung zwischen die Varianz der Punktzahl und die Krümmung der Wahrscheinlichkeit wahr für jedes $ \ theta $? oder nur in der Nähe des wahren Parameters $ \ theta_0 $?
  • Wiederum gilt diese Beziehung für den wahren Parameterwert. Damit dies jedoch sehr hilfreich ist, muss es Kontinuität geben, damit es in einigen Stadtteilen ungefähr wahr ist, da wir es zum geschätzten Wert $ \ hat {\ theta} $ verwenden, nicht nur zum wahren (unbekannten) Wert. Wert.
  • Die Beziehung gilt also für den wahren Parameter $ \ theta_0 $, fast für $ \ theta_ {mle} $, da wir davon ausgehen, dass es ‚ s in der Nähe von $ \ theta_0 $, aber für ein allgemeines $ \ theta_1 $ gilt es nicht, oder?

Antwort

Denken wir an die negative Log-Likelihood-Funktion $ \ ell $. Die negative Bewertung ist ihr Gradient in Bezug auf den Parameterwert. Bei dem wahren Parameter ist die Bewertung Null. Andernfalls ist es gibt die Richtung zum Minimum $ \ ell $ an (oder im Fall von nicht konvexem $ \ ell $ einen Sattelpunkt oder ein lokales Minimum oder Maximum).

Die Fisher-Information misst die Krümmung von $ \ ell $ um $ \ theta $, wenn die Daten $ \ theta $ folgen. Mit anderen Worten, es sagt Ihnen, wie viel Wackeln Der Parameter würde sich auf Ihre Protokollwahrscheinlichkeit auswirken.

Stellen Sie sich vor, Sie hätten ein großes Modell mit Millionen von Parametern. Und Sie hatten einen kleinen USB-Stick, auf dem Sie Ihr Modell aufbewahren konnten. Wie sollten Sie priorisieren, wie viele Bits jedes Parameters gespeichert werden sollen? Die richtige Antwort ist, Bits gemäß den Fisher-Informationen zuzuweisen (Rissanen schrieb darüber). Wenn die Fisher-Information eines Parameters Null ist, spielt dieser Parameter keine Rolle.

Wir nennen es „Information“, weil die Fisher-Information misst, wie viel dieser Parameter über die Daten aussagt.


Eine umgangssprachliche Art, darüber nachzudenken, ist folgende: Angenommen, die Parameter fahren ein Auto, und die Daten befinden sich auf dem Rücksitz und korrigieren den Fahrer. Die Belästigung der Daten ist die Fisher-Information. Wenn die Daten den Fahrer fahren lassen, sind die Fisher-Informationen Null. Wenn die Daten ständig korrigiert werden, ist sie groß. In diesem Sinne ist die Fisher-Information die Informationsmenge, die von den Daten zu den Parametern gelangt.

Überlegen Sie, was passiert, wenn Sie das Lenkrad stärker machen Dies entspricht einer Reparametrisierung. In diesem Fall möchten die Daten aus Angst vor einem Übersteuern des Autos nicht so laut sein. Diese Art der Reparametrisierung verringert die Fisher-Informationen.

Antwort

Ergänzt die nette Antwort von @NeilG (+1) und auf Beantworten Sie Ihre spezifischen Fragen:

  1. Ich würde sagen, es zählt eher die „Genauigkeit“ als den „Fehler“ selbst.

Denken Sie daran, dass der Hessische des Protokolls -Wahrscheinlichkeit, die bei den ML-Schätzungen bewertet wird, ist die beobachtete Fisher-Information. Die geschätzten Standardfehler sind die Quadratwurzeln der diagonalen Elemente der Umkehrung der beobachteten Fisher-Informationsmatrix. Daraus ergibt sich, dass die Fisher-Information die Spur der Fisher-Informationsmatrix ist. Da die Fisher-Informationsmatrix $ I $ eine hermitische positiv-semidefinite Matrixmatrix ist, sind die diagonalen Einträge $ I_ {j, j} $ davon real und nicht negativ, und als direkte Folge verfolgt sie $ tr (I) $ muss positiv sein. Dies bedeutet, dass Sie gemäß Ihrer Behauptung nur „nicht ideale“ Schätzer haben können. Also nein, eine positive Fisher-Information bezieht sich nicht auf Wie ideal ist Ihr MLE?

  1. Die Definition unterscheidet sich in der Art und Weise, wie wir den Begriff der Information in beiden Fällen interpretieren. Allerdings sind die beiden Messungen eng miteinander verbunden.

Die Umkehrung der Fisher-Informationen ist die minimale Varianz eines unverzerrten Schätzers ( Cramér– Rao gebunden ). In diesem Sinne gibt die Informationsmatrix an, wie viele Informationen über die geschätzten Koeffizienten in den Daten enthalten sind. Im Gegenteil, die Shannon-Entropie wurde der Thermodynamik entnommen. Es bezieht den Informationsgehalt eines bestimmten Werts einer Variablen auf $ –p · log_2 (p) $, wobei $ p $ die Wahrscheinlichkeit ist, mit der die Variable den Wert annimmt. Beides sind Messungen, wie „informativ“ eine Variable ist. Im ersten Fall beurteilen Sie diese Informationen jedoch in Bezug auf die Genauigkeit, im zweiten Fall in Bezug auf die Störung. verschiedene Seiten, gleiche Münze! : D

Um es noch einmal zusammenzufassen: Die Umkehrung der Fisher-Informationsmatrix $ I $, die bei den ML-Schätzwerten ausgewertet wird, ist die asymptotische oder ungefähre Kovarianzmatrix. Da diese ML-Schätzwerte grafisch in einem lokalen Minimum gefunden werden, zeigen die Fisher-Informationen, wie tief dieses Minimum ist und wie viel Spielraum Sie um es herum haben. Ich fand dieses Papier von Lutwak et al. on Erweiterungen der Fisher-Informationen und Stams Ungleichung eine informative Lektüre zu diesem Thema. Die Wikipedia-Artikel zur Fisher Information Metric und zur Jensen-Shannon-Divergenz sind ebenfalls gut zu Erste Schritte.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.