Hvad betyder det med udsagnet “X og Y forklarede en større andel af varians i Z end X alene”
Mere generelt, hvad menes det, når modellen “forklarer mere variation” i den afhængige variabel – dette svarer bestemt ikke til “dette forklarer variablen” mere?
Tak for indsigt i denne grundlæggende spørgsmål.
Kommentarer
- " Forklaring af varians " er lige så vagt som ", der forklarer en variabel " for mig, så jeg ville ikke ' t udelukker muligheden for, at de ' er (semantisk) relaterede. Jeg foretrækker ikke denne måde at fortolke ANOVA / regressionsoutput på, fordi det ' er vildledende og " ubrugeligt " oplysninger. Antag at jeg sagde " træning forklarer varians i blodtryk " .. betyder det, hvis jeg udøver mit blodtryk, bliver mindre variabelt? Faktisk bliver min BP mere variabel, da anfald øger min BP, og mit hviletryk har tendens til at være normotensive, hvilket er ønskeligt. Der er bedre måder at beskrive resultater på.
- Jeg har erstattet tagget generaliseret-lineær model (glm) med multipel regression. Spørgsmålet kunne tænkes at blive generaliseret til glms ved henvisning til afvigelser snarere afvigelser og sum af kvadrater, men det ser ikke ud til at være OP ' s hensigt.
Svar
I et par ord (jo kortere jo bedre!) når du tilføjer en variabel til en model, hvis den tilføjede variabel tilføjes noget forklarende magt, så øger tilføjelsen modeltilpasningen (dvs. modelens kapacitet som helhed til at forudsige den afhængige variabel i prøven, hvor modellen estimeres). Husk dog, at tilføjelse af flere variabler også medfører en højere risiko for overmontering (dvs. opbygning af en model med en høj pasform inden for den prøve, hvori den estimeres, og en forringet forudsigelsesydelse, når den bruges på andre prøver). Så med tiden er der introduceret nogle specifikationskriterier, således at de afbalancerer antallet af parametre, der skal estimeres mod modeltilpasningen, så tilføjelsen af variabler (og derfor parametre, der skal estimeres) kan frarådes, når den resulterende stigning i tilstandstilpasningen er ikke høj nok sammenlignet med parameteren penalisering.
Med hensyn til dit spørgsmål “Mere generelt, hvad menes det, når modellen” forklarer mere variation “i den afhængige variabel – bestemt svarer det ikke til “dette forklarer variablen” mere? ” i grundlæggende modeller som regression, jo mere varians af den afhængige variabel forklares af modellen, jo mindre forklares med rester, jo bedre er modellen fordi (for at bruge dine ord) “det forklarer den afhængige variabel mere”
Svar
Vi skal tænke på en model for at besvare dit spørgsmål, så lad os antage en lineær model. For nemheds skyld vil vi bruge summer af kvadratiske afvigelser i stedet for afvigelser for at oversætte for afvigelser dividerer du med summen af firkanter med $ N – 1 $ .
Lad $ Z = (z_1, …, z_N) $ være dine data; det har summen af kvadratiske afvigelser $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Hvis du beslutter at estimere $ Z $ som $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , så får du estimater $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ for $ Z $ ; dets gennemsnit er det samme som $ Z $ “s middelværdi.
Det er en kendsgerning, at prøvevariansen af $ \ hat {Z} $ er mindre end $ Z $ , intuitivt, fordi vi har begrænset det til at være på en linje. Deres varians er kun den samme, hvis dataene er nøjagtige lineære; derfor er ideen, at ved at prøve at fange $ Z $ med dette skøn, prøver du at fange variation af $ Z $ . Jo mere variation $ \ hat {Z} $ optager, jo tættere data er på at være nøjagtig lineær.
Følgende identitet gælder (kaldet ANOVA-nedbrydning):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ understivelse {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underligger {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Så den samlede sum af kvadrater (TSS) for $ Z $ bryder op i den forklarede sum af kvadrater (ESS), som er (unormaliseret) variansen af de monterede data . Dette er den “forklarede varians”. Den resterende sum af firkanter (RSS) er, hvor meget de reelle data stadig adskiller sig fra dine tilpassede data — den “uforklarlige varians”. For at få en andel af forklaret eller uforklarlig varians kan du dele enten efter TSS. Andelen af den forklarede varians $ ESS / TSS $ kaldes $ R ^ 2 $ værdi og måler kvaliteten af pasform.
Sprogets forklarede / uforklarlige varians er ikke altid nyttigt. Jeg ser det kun kun med lineær regression og PCA. At forklare så meget varians som muligt er ikke den bedste idé hvis du vil forudsige, da dette er overmontering. Når du gør noget i retning af ryggregression, får du et forudindtaget skøn, der ville “forklare mindre varians” — $ R ^ 2 $ på dataene vil være værre- – men grunden til, at du ryger tilbage, er, at testfejlen normalt vil være bedre.
(For forudsigelse er vigtigere end ANOVA-nedbrydningen bias-variansnedbrydning.)