Was ist eine intuitive Erklärung dafür, warum wir Homoskedastizität in einer Regression wollen?

Ich habe gelesen, dass Homoskedastizität bedeutet, dass die Standardabweichung der Fehlerterme konsistent ist und nicht vom x-Wert abhängt.

Frage 1: Kann jemand intuitiv erklären, warum dies notwendig ist? (Ein angewandtes Beispiel wäre großartig!)

Frage 2: Ich kann mich nie erinnern, ob es hetero- oder homo- ist, das ideal ist. Kann jemand erklären, welche Logik ideal ist?

Frage 3: Heteroskedastizität bedeutet, dass x mit den Fehlern korreliert. Kann jemand erklären, warum dies schlecht ist?

Diagramm von * Homo- * vs. * Heteroskedastizität *

Kommentare

“ Heteroskedastizität bedeutet, dass x mit den Fehlern korreliert “ – was veranlasst Sie dazu, dies zu sagen?
Hinweis: Homoskedastizität ist einfach zu beschreiben: Sie benötigt nur einen Parameter (für die gemeinsame Varianz). Wie würden Sie ein heteroskedastisches Modell beschreiben?

Antwort

Homoskedastizität bedeutet, dass die Varianzen aller Beobachtungen miteinander identisch sind, Heteroskedastizität bedeutet, dass sie unterschiedlich sind. Es ist möglich, dass die Größe der Varianzen einen Trend relativ zu x zeigt, aber dies ist nicht unbedingt erforderlich. Wie im beigefügten Diagramm gezeigt, sind Varianzen, die von Punkt zu Punkt auf zufällige Weise unterschiedlich groß sind, genauso gut geeignet. Homoskedastische vs. heteroskedastische Daten

Die Aufgabe der Regression besteht darin, eine optimale Kurve zu schätzen, die so nahe wie möglich an so vielen Datenpunkten verläuft. Bei heteroskedastischen Daten sind per Definition einige Punkte naturgemäß viel weiter verbreitet als andere. Wenn die Regression einfach alle Datenpunkte gleich behandelt, haben diejenigen mit der größten Varianz tendenziell einen unangemessenen Einfluss auf die Auswahl der optimalen Regressionskurve, indem sie die Regressionskurve zu sich selbst „ziehen“, um das Ziel der Minimierung der Datenpunkte zu erreichen Gesamtstreuung der Datenpunkte um die endgültige Regressionskurve.

Dieses Problem kann leicht überwunden werden, indem einfach jeder Datenpunkt umgekehrt proportional zu seiner Varianz gewichtet wird. Dies setzt jedoch voraus, dass man die Varianz kennt, die jedem einzelnen Punkt zugeordnet ist. Oft ist dies nicht der Fall. Daher werden homoskedastische Daten bevorzugt, weil sie einfacher und leichter zu handhaben sind. Sie können die „richtige“ Antwort für die Regressionskurve erhalten, ohne die zugrunde liegenden Varianzen der einzelnen Punkte zu kennen , weil sich die relativen Gewichte zwischen den Punkten in gewissem Sinne „aufheben“, wenn sie sowieso alle gleich sind.

BEARBEITEN:

Ein Kommentator bittet mich, die Idee dieser Person zu erklären Punkte können ihre eigenen, einzigartigen, unterschiedlichen Varianzen haben. Ich mache dies mit einem Gedankenexperiment. Angenommen, ich bitte Sie, das Gewicht gegen die Länge einer Gruppe verschiedener Tiere zu messen, von der Größe einer Mücke bis zur Größe Sie zeichnen die Länge auf der x-Achse und das Gewicht auf der y-Achse auf. Lassen Sie uns jedoch einen Moment innehalten, um die Dinge etwas genauer zu betrachten. Schauen wir uns die Gewichtswerte genauer an – wie haben Sie sie tatsächlich erhalten? Sie können möglicherweise nicht dasselbe physikalische Messgerät zum Wiegen einer Mücke verwenden, wie Sie ein Haustier wiegen würden, und Sie können auch nicht dasselbe Gerät zum Wiegen verwenden Wiegen Sie ein Haustier wie einen Elefanten. Für die Mücke müssen Sie wahrscheinlich so etwas wie eine Waage für analytische Chemie verwenden, die auf 0,0001 g genau ist, während Sie für das Haustier „d Verwenden Sie eine Personenwaage, die auf ungefähr ein halbes Pfund (ungefähr 200 g) genau sein kann, während Sie für den Elefanten möglicherweise einen LKW verwenden Skala , die möglicherweise nur auf +/- 10 kg genau ist. Der Punkt ist, dass alle diese Geräte unterschiedliche inhärente Genauigkeiten aufweisen – sie geben nur das Gewicht bis zu einer bestimmten Anzahl von signifikanten Stellen und danach an dass Sie nicht wirklich sicher wissen können. Die unterschiedlichen Größen der Fehlerbalken in der obigen heteroskedastischen Darstellung, die wir mit den unterschiedlichen Varianzen der einzelnen Punkte assoziieren, spiegeln unterschiedliche Sicherheitsgrade hinsichtlich der zugrunde liegenden Messungen wider. Kurz gesagt, verschiedene Punkte können unterschiedliche Abweichungen aufweisen, da wir manchmal nicht alle Punkte gleich gut messen können – Sie werden das Gewicht eines Elefanten nie bis auf +/- 0,0001 g kennen, weil Sie es nicht bekommen können diese Art von Genauigkeit aus einer LKW-Waage. Aber Sie können das Gewicht einer Mücke auf +/- 0,0001 g kennen, weil Sie diese Genauigkeit auf einer Waage für analytische Chemie erhalten können.(Technisch gesehen tritt in diesem speziellen Gedankenexperiment die gleiche Art von Problem auch für die Längenmessung auf, aber alles, was wirklich bedeutet, ist, dass wenn wir uns entschließen, horizontale Fehlerbalken zu zeichnen, die auch Unsicherheiten in den x-Achsenwerten darstellen, diese auftreten würden haben auch unterschiedliche Größen für unterschiedliche Punkte.)

Kommentare

Es wäre schön, wenn Sie gründlich erklären würden, was Varianz eines Punktes / einer Beobachtung „. Ohne sie kann sich ein Leser nicht zufrieden fühlen und Einwände erheben: Wie kann eine einzelne Beobachtung einer Probe ein eigenes Variationsmaß haben?

Antwort

Warum wollen wir Homoskedastizität in der Regression?

Ist es nicht dass wir Homoskedastizität oder Heteroskedastizität in der Regression wollen; wir wollen, dass das Modell die tatsächlichen Eigenschaften der Daten widerspiegelt. Regressionsmodelle können entweder mit der Annahme von formuliert werden Homoskedastizität oder unter der Annahme einer Heteroskedastizität in einer bestimmten Form. Wir möchten ein Regressionsmodell formulieren, das mit den tatsächlichen Eigenschaften der Daten übereinstimmt und somit eine vernünftige Spezifikation des Verhaltens von Daten widerspiegelt, die aus dem beobachteten Prozess stammen.

Wenn also die Varianz der Abweichung der Antwort von ihrer Erwartung (der Fehlerterm) fest ist (dh homoskedastisch ist), wollen wir ein Modell, das dies widerspiegelt. Und wenn t Die Varianz der Abweichung der Antwort von ihrer Erwartung (dem Fehlerterm) hängt von der erklärenden Variablen ab (d. h. ist heteroskedastisch), dann wollen wir ein Modell, das dies widerspiegelt. Wenn wir das Modell falsch spezifizieren (z. B. indem wir ein homoskedastisches Modell für heteroskedastische Daten verwenden), bedeutet dies, dass wir die Varianz des Fehlerterms falsch spezifizieren. Das Ergebnis ist, dass unsere Schätzung der Regressionsfunktion einige Fehler unter- und andere Fehler überbestraft und tendenziell schlechter abschneidet, als wenn wir das Modell korrekt angeben.

Antwort

Zusätzlich zu den anderen hervorragenden Antworten:

Kann jemand intuitiv erklären, warum dies notwendig ist ? (Ein angewandtes Beispiel wäre großartig!)

Konstante Varianz ist nicht erforderlich, aber wenn sie Modellierung und Analyse enthält, ist dies der Fall Einfacher. Ein Teil davon muss historisch sein. Die Analyse, wenn die Varianz nicht konstant ist, ist komplizierter und erfordert mehr Berechnung. Daher entwickelte man Methoden (Transformationen), um zu einer Situation zu gelangen, in der konstante Varianz gilt und die einfacheren / schnelleren Methoden verwendet werden könnten. Heute Es gibt mehr alternative Methoden, und eine schnelle Berechnung ist nicht so wichtig wie sie war. Aber Einfachheit ist immer noch von Wert! Teil ist technisch / mathematisch. Modelle mit nicht konstanter Varianz haben keine exakten Hilfsmittel (siehe hier .) Daher ist nur eine ungefähre Inferenz möglich. Nicht konstante Varianz im Zwei-Gruppen-Problem ist das berühmte Behrens-Fisher-Problem .

Aber es ist noch tiefer. Schauen wir uns das einfachste Beispiel an und vergleichen Sie die Mittelwerte zweier Gruppen mit einem (einer Variante von) t-Test. Die Nullhypothese lautet, dass die Gruppen gleich sind. Angenommen, dies ist ein randomisiertes Experiment mit einer Behandlungs- und Kontrollgruppe. Wenn die Gruppengrößen angemessen sind, sollte die Randomisierung die Gruppen (vor der Behandlung) gleich machen. Die Annahme einer konstanten Varianz besagt, dass die Behandlung (wenn sie überhaupt funktioniert) nur den Mittelwert und nicht die Varianz beeinflusst. Aber wie könnte es die Varianz beeinflussen? Wenn die Behandlung wirklich bei allen Mitgliedern der Behandlungsgruppe gleich funktioniert, sollte sie für alle mehr oder weniger den gleichen Effekt haben, die Gruppe wird nur verschoben. Eine ungleiche Varianz könnte bedeuten, dass die Behandlung für einige Mitglieder der Behandlungsgruppe eine andere Wirkung hat als für andere. Sagen wir, wenn es einen Effekt für die Hälfte der Gruppe und einen viel stärkeren Effekt für die andere Hälfte hat, erhöht sich die Varianz zusammen mit dem Mittelwert! Die Annahme einer konstanten Varianz ist also tatsächlich eine Annahme über die Homogenität einzelner Behandlungseffekte . Wenn dies nicht zutrifft, sollte man erwarten, dass die Analyse komplizierter wird. Siehe hier . Bei ungleichen Varianzen könnte es dann auch interessant sein, nach Gründen dafür zu fragen, insbesondere, ob die Behandlung etwas damit zu tun haben könnte. Wenn ja, könnte dieser Beitrag von Interesse sein .

Frage 2: Ich kann Erinnere dich nie daran, ob es hetero- oder homo- ideal ist. Kann jemand erklären, welche Logik ideal ist?

Niemand ist ideal , Sie müssen die Situation modellieren, die Sie haben! Wenn es jedoch darum geht, sich an die Bedeutung dieser beiden lustigen Wörter zu erinnern, stellen Sie sie einfach sex voran und du wirst dich erinnern.

Frage 3: Heteroskedastizität bedeutet, dass x mit den Fehlern korreliert. Kann jemand erklären, warum dies schlecht ist?

Dies bedeutet, dass die bedingte Verteilung der Fehler $ x $ ist , variiert mit $ x $ . Das ist nicht „schlecht“, es macht das Leben nur kompliziert. Aber es könnte das Leben nur interessant machen, es könnte ein Signal für etwas Interessantes sein.

Antwort

Eine der Annahmen der OLS-Regression ist:

Die Varianz des Fehlerterms / Residuums ist konstant. Diese Annahme ist bekannt als Homoskedastizität .

Diese Annahme stellt sicher, dass mit der Änderung der Beobachtungen die Variationen in der Fehlerterm sollte sich nicht ändern

Wenn diese Bedingung verletzt wird, werden die gewöhnlichen Schätzer der kleinsten Quadrate Diese Schätzer wären jedoch immer noch linear, unvoreingenommen und konsistent. wäre nicht mehr effizient .

Außerdem würden die Schätzungen des Standardfehlers voreingenommen und unzuverlässig

bei Vorhandensein von Heteroskedastizität, was zu einem Problem beim Testen von Hypothesen über Schätzer führt .

Zusammenfassend haben wir in Abwesenheit von Homoskedastizität lineare und unverzerrte Schätzer, aber nicht BLAU (beste lineare unverzerrte Schätzer)

[Gauß-Markov-Theorem lesen]

Ich hoffe jetzt ist klar, dass wir im Idealfall Homoskedastizität in unserem Modell benötigen.
Wenn der Fehlerterm mit y oder korreliert y vorhergesagt oder eines der xi; Dies weist darauf hin, dass unsere Prädiktoren die Variation von „y“ nicht korrekt erklärt haben.

Irgendwie ist die Modellspezifikation nicht korrekt oder es gibt einige andere Probleme.

Hoffe, es hilft! Ich werde versuchen, bald ein intuitives Beispiel zu schreiben.

Kommentare

Antwort

Kommentare

Antwort

Antwort

Antwort

Schreibe einen Kommentar Antworten abbrechen