Was bedeutet die Aussage „X und Y haben einen größeren Anteil der Varianz in Z erklärt als X allein“

Was bedeutet es im Allgemeinen, wenn das Modell „mehr Variation erklärt“ in der abhängigen Variablen – sicherlich ist dies nicht gleichbedeutend mit „dies erklärt die Variable“ mehr?

Vielen Dank für den Einblick in diese Grundlagen Frage.

Kommentare

  • “ Erklären der Varianz “ ist genauso vage wie „, das mir eine Variable “ erklärt, also würde ich ‚ t schließt die Möglichkeit aus, dass sie ‚ (semantisch) verwandt sind. Ich bevorzuge diese Art der Interpretation der ANOVA / Regressionsausgabe nicht, da sie ‚ irreführend und “ unbrauchbar “ Informationen. Angenommen, ich sagte “ Übung erklärt die Varianz des Blutdrucks “ .. bedeutet das, wenn ich trainiere, wird mein Blutdruck weniger variabel? Tatsächlich wird mein Blutdruck variabler , da Anfälle meinen Blutdruck erhöhen und mein Ruhedruck dazu neigt, normotensiv zu wirken, was wünschenswert ist. Es gibt bessere Möglichkeiten, Ergebnisse zu beschreiben.
  • Ich habe das Tag des generalisierten linearen Modells (glm) durch multiple Regression ersetzt. Es ist denkbar, dass die Frage durch Bezugnahme auf Abweichungen, eher Abweichungen und Quadratsummen, auf glms verallgemeinert wird, aber dies scheint nicht die Absicht des OP ‚ zu sein.

Antwort

In wenigen Worten (je kürzer, desto besser!), wenn Sie einem Modell eine Variable hinzufügen, wenn die hinzugefügte Variable hinzugefügt wird eine gewisse Erklärungskraft, dann erhöht die Addition die Modellanpassung (dh die Fähigkeit des Modells als Ganzes, die abhängige Variable in der Stichprobe vorherzusagen, in der das Modell geschätzt wird). Beachten Sie jedoch, dass das Hinzufügen weiterer Variablen auch ein höheres Risiko einer Überanpassung mit sich bringt (d. H. Das Erstellen eines Modells mit einer hohen Anpassung innerhalb der Stichprobe, über die es geschätzt wird, und einer verschlechterten Vorhersageleistung, wenn es für andere Stichproben verwendet wird). Im Laufe der Zeit wurden einige Spezifikationskriterien eingeführt, die die Anzahl der zu schätzenden Parameter gegen die Modellanpassung abwägen, so dass das Hinzufügen von Variablen (und damit zu schätzenden Parametern) von der resultierenden Erhöhung der Modenanpassung abgeraten werden kann ist im Vergleich zur Parameterbestrafung nicht hoch genug.

In Bezug auf Ihre Frage „Allgemeiner, was bedeutet es, wenn das Modell“ mehr Variation „in der abhängigen Variablen erklärt – dies ist sicherlich nicht gleichbedeutend mit „das erklärt die Variable“ mehr? “ In Grundmodellen wie der Regression ist das Modell umso besser, je mehr Varianz der abhängigen Variablen durch das Modell erklärt wird. Je weniger durch Residuen erklärt wird, desto besser ist (um Ihre Worte zu verwenden) „es erklärt die abhängige Variable mehr“

Antwort

Wir müssen über ein Modell nachdenken, um Ihre Frage zu beantworten. Nehmen wir also ein lineares Modell an. Der Einfachheit halber werden wir “ Verwenden Sie Summen quadratischer Abweichungen anstelle von Abweichungen. Um Abweichungen zu übersetzen, teilen Sie die Quadratsummen durch $ N – 1 $ .

Lassen Sie $ Z = (z_1, …, z_N) $ sind Ihre Daten; es hat die Summe der quadratischen Abweichungen $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Wenn Sie $ Z $ als $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + schätzen \ varepsilon $ , dann erhalten Sie Schätzungen $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ für $ Z $ ; Der Mittelwert entspricht dem Mittelwert von $ Z $ .

Es ist eine Tatsache, dass die Stichprobenvarianz von $ \ hat {Z} $ ist kleiner als der von $ Z $ , intuitiv, weil wir ihn auf eine Zeile beschränkt haben Die Varianz ist nur dann gleich, wenn die Daten genau linear sind. Daher besteht die Idee darin, dass Sie versuchen, die m zu erfassen, indem Sie versuchen, $ Z $ mit dieser Schätzung zu erfassen > Variation von $ Z $ . Je mehr Varianz $ \ hat {Z} $ erfasst, je näher die Daten an der exakten Linearität liegen.

Die folgende Identität gilt (als ANOVA-Zerlegung bezeichnet):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Die Gesamtsumme der Quadrate (TSS) von $ Z $ zerfällt also in die erklärte Summe der Quadrate (ESS), die die (nicht normalisierte) Varianz der angepassten Daten darstellt . Dies ist die „erklärte Varianz“. Die verbleibende Quadratsumme (RSS) gibt an, um wie viel sich die realen Daten noch von Ihren angepassten Daten unterscheiden – die „ungeklärte Varianz“. Um einen Anteil der erklärten oder ungeklärten Varianz zu erhalten, können Sie entweder durch TSS dividieren. Der Anteil der erklärten Varianz $ ESS / TSS $ wird als $ R ^ 2 $ -Wert und -Maßnahmen bezeichnet die Qualität der Anpassung.

Die Sprache der erklärten / ungeklärten Varianz ist nicht immer nützlich; ich sehe sie wirklich nur mit linearer Regression und PCA. Außerdem ist es nicht die beste Idee, so viel Varianz wie möglich zu erklären wenn Sie Vorhersagen machen wollen, da dies überpasst. Wenn Sie so etwas wie eine Gratregression durchführen, erhalten Sie eine voreingenommene Schätzung, die „weniger Varianz erklären“ würde – der $ R ^ 2 $ für die Daten ist schlechter – – aber der Grund, warum Sie eine Gratregression durchführen, ist, dass der Testfehler normalerweise besser ist.

(Für die Vorhersage ist die Bias-Varianz-Zerlegung wichtiger als die ANOVA-Zerlegung.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.