Vad betyder det med uttalandet ”X och Y förklarade en större andel av varians i Z än X ensam”
Mer allmänt, vad menas det när modellen ”förklarar mer variation” i den beroende variabeln – det är säkerligen inte motsvarande ”detta förklarar variabeln” mer?
Tack för insikten i denna grundläggande fråga.
Kommentarer
- " Förklara varians " är lika vagt som " förklarar en variabel " för mig, så jag skulle inte ' t utesluter möjligheten att de ' är (semantiskt) relaterade. Jag föredrar inte detta sätt att tolka ANOVA / regressionsoutput eftersom det ' är vilseledande och " oanvändbart " information. Antag att jag sa " träning förklarar varians i blodtryck " .. betyder det om jag tränar mitt blodtryck blir mindre varierande? Faktum är att min BP blir mer variabel eftersom anfall ökar min BP och mitt vilotryck tenderar att vara normotensivt vilket är önskvärt. Det finns bättre sätt att beskriva resultat.
- Jag har ersatt taggen generalized-linear-model (glm) med multipel-regression. Frågan kan tänkbart generaliseras till glms med hänvisning till avvikelser snarare avvikelser och summor av kvadrater, men det verkar inte vara OP ' s avsikt.
Svar
I ett par ord (ju kortare desto bättre!) när du lägger till en variabel i en modell, om den tillagda variabeln läggs till en del förklarande kraft, då ökar tillägget modellpassningen (dvs. modellens kapacitet som helhet för att förutsäga den beroende variabeln i urvalet där modellen uppskattas). Men kom ihåg att lägga till fler variabler också innebär en högre risk för överanpassning (dvs. bygga en modell med hög passform inom det prov över vilken den uppskattas och en försämrad prestationsprestanda när den används på andra prover). Så med tiden har vissa specifikationskriterier införts så att de balanserar antalet parametrar som ska uppskattas mot modellpassningen, så att tillägget av variabler (och därför parametrar som ska uppskattas) kan avskräcks när den resulterande ökningen av läget passar är inte tillräckligt högt jämfört med parameterstraffningen.
När det gäller din fråga ”Mer allmänt, vad menas det när modellen” förklarar mer variation ”i den beroende variabeln – det motsvarar verkligen inte ”detta förklarar variabeln” mer? ” i grundläggande modeller som regression, desto mer varians hos den beroende variabeln förklaras av modellen, desto mindre förklaras av rester, desto bättre är modellen eftersom (för att använda dina ord) ”det förklarar den beroende variabeln mer”
Svar
Vi måste tänka på en modell för att svara på din fråga så låt oss anta en linjär modell. För enkelhets skull kommer vi använda summor av kvadratiska avvikelser istället för avvikelser; för att översätta för avvikelser, dela genom kvadratsummorna med $ N – 1 $ .
Låt $ Z = (z_1, …, z_N) $ var dina data; den har summan av kvadratiska avvikelser $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Om du bestämmer dig för att uppskatta $ Z $ som $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , då får du uppskattningar $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ för $ Z $ ; dess medelvärde är detsamma som $ Z $ ”s medelvärde.
Det är ett faktum att provvariansen för $ \ hat {Z} $ är mindre än för $ Z $ , intuitivt för att vi har begränsat den till att vara på en linje. Deras variansen är bara densamma om data är exakt linjära, därför är tanken att du försöker fånga $ Z $ med denna uppskattning, så att du försöker fånga dem > variation av $ Z $ . Så ju mer varians $ \ hat {Z} $ fångar, ju närmare data är att vara exakt linjär.
Följande identitet gäller (kallas ANOVA-sönderdelning):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ understöd {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Så den totala summan av kvadrater (TSS) för $ Z $ bryts upp i den förklarade summan av kvadrater (ESS), vilket är den (onormaliserade) variansen av de monterade data . Detta är den ”förklarade variansen”. Den återstående summan av kvadrater (RSS) är hur mycket den verkliga datan fortfarande skiljer sig från dina anpassade data — den ”oförklarliga variansen”. För att få en andel av förklarad eller oförklarlig varians kan du dela antingen med TSS. Andelen förklarad varians $ ESS / TSS $ kallas $ R ^ 2 $ värde och mått kvaliteten på passformen.
Språket för förklarad / oförklarlig varians är inte alltid användbart. Jag ser det egentligen bara med linjär regression och PCA. Att förklara så mycket varians som möjligt är inte den bästa idén om du vill göra förutsägelser, eftersom det här är överanpassat. När du gör något som ryggregression får du en partisk uppskattning som skulle ”förklara mindre varians” — $ R ^ 2 $ på data kommer att bli sämre- – men anledningen till att du gör ryggregression är att testfelet vanligtvis blir bättre.
(För förutsägelse är viktigare än ANOVA-sönderdelningen bias-variansnedbrytning.)