Ce înseamnă prin afirmația „X și Y au explicat o proporție mai mare de varianță în Z decât X în monoterapie”

Mai general, la ce se referă atunci când modelul „explică mai multe variații” în variabila dependentă – cu siguranță acest lucru nu este echivalent cu „aceasta explică variabila„ mai mult?

Vă mulțumim pentru înțelegerea acestui element de bază întrebare.

Comentarii

  • ” Explicarea varianței ” este la fel de vag ca ” explicându-mi o variabilă „, așa că nu aș ‘ nu exclude posibilitatea ca acestea ‘ să fie legate (semantic). Nu prefer acest mod de interpretare a rezultatului ANOVA / regresie, deoarece ‘ este înșelător și ” nefolositor ” informații. Să presupunem că am spus că ” exercițiul explică varianța tensiunii arteriale ” .. înseamnă că dacă îmi exercit tensiunea arterială va deveni mai puțin variabilă? De fapt, TA mea devine mai variabilă, deoarece atacurile mă cresc TA și presiunea mea de repaus va tinde la normotensiune, ceea ce este de dorit. Există modalități mai bune de a descrie rezultatele.
  • Am înlocuit eticheta general-linear-model (glm) cu regresie multiplă. Întrebarea ar putea fi generalizată la glms prin referire la devianțe, mai degrabă varianțe și sume de pătrate, dar aceasta nu pare a fi intenția OP ‘.

Răspuns

În câteva cuvinte (cu cât este mai scurt, cu atât mai bine!) când adăugați o variabilă la un model, dacă variabila adăugată adaugă o oarecare putere explicativă, apoi adăugarea mărește potrivirea modelului (adică capacitatea modelului ca întreg pentru a prezice variabila dependentă în eșantionul în care este estimat modelul). Cu toate acestea, rețineți că adăugarea mai multor variabile implică, de asemenea, un risc mai mare de supra-montare (adică construirea unui model cu o potrivire ridicată în cadrul eșantionului peste care este estimată și o performanță de predicție degradată atunci când este utilizată pe alte eșantioane). Deci, de-a lungul timpului, au fost introduse unele criterii de specificație, astfel încât să echilibreze numărul de parametri care urmează să fie estimat în raport cu potrivirea modelului, astfel încât adăugarea variabilelor (și, prin urmare, parametrii de estimat) poate fi descurajată atunci când creșterea rezultată a ajustării modului nu este suficient de mare în comparație cu penalizarea parametrului.

În ceea ce privește întrebarea dvs. „Mai general, la ce se referă atunci când modelul„ explică mai multe variații ”în variabila dependentă – cu siguranță acest lucru nu este echivalent cu „acest lucru explică variabila” mai mult? ” în modele de bază, cum ar fi regresia, cu cât variația variabilei dependente este explicată de model, cu atât este mai puțin explicată de reziduuri, cu atât modelul este mai bun deoarece (pentru a folosi cuvintele tale) „explică variabila dependentă mai mult”

Răspuns

Trebuie să ne gândim la un model pentru a răspunde la întrebarea dvs., astfel încât să presupunem un model liniar. Pentru comoditate, vom folosiți sume de deviații pătrate în loc de varianțe; pentru a traduce diferențele, împărțiți prin sumele pătratelor la $ N – 1 $ .

$ Z = (z_1, …, z_N) $ fii datele tale; are suma abaterilor pătrate $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Dacă decideți să estimați $ Z $ ca $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , apoi obțineți estimări $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ pentru $ Z $ ; media sa este aceeași cu media $ Z $ „.

Este un fapt că varianța eșantionului $ \ hat {Z} $ este mai mic decât cel al $ Z $ , intuitiv, deoarece l-am limitat să fie pe o linie. varianța este aceeași doar dacă datele sunt exact liniare; prin urmare, ideea este că încercând să capturați $ Z $ cu această estimare, încercați să capturați variație a $ Z $ . Deci, cu cât este mai mare varianța $ \ hat {Z} $ capturi, cu atât datele sunt mai aproape de a fi exact liniare.

Următoarea identitate se menține (numită descompunerea ANOVA):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Deci suma totală a pătratelor (TSS) din $ Z $ se împarte în suma explicată a pătratelor (ESS), care este varianța (neormalizată) a datelor ajustate . Aceasta este „varianța explicată”. Suma reziduală de pătrate (RSS) este cât de mult diferă datele reale de datele potrivite – „varianța inexplicabilă”. Pentru a obține o proporție de varianță explicată sau inexplicabilă, puteți împărți fie la TSS. Proporția varianței explicate, $ ESS / TSS $ se numește $ R ^ 2 $ valoare și măsuri calitatea potrivirii.

Limbajul varianței explicate / inexplicabile nu este întotdeauna util; chiar îl văd doar cu regresie liniară și PCA. De asemenea, explicând cât mai multă varianță posibil nu este cea mai bună idee dacă doriți să faceți predicții, deoarece acest lucru este prea potrivit. Când faceți ceva de genul regresiei crestei, veți obține o estimare părtinitoare care ar „explica o varianță mai mică” — $ R ^ 2 $ pe date va fi mai rău- –dar motivul pentru care faceți regresia crestei este că eroarea de testare va fi de obicei mai bună.

(Pentru predicție, mai importantă decât descompunerea ANOVA este descompunerea bias-varianță.)

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *