Hva betyr det med utsagnet «X og Y forklarte en større andel av varians i Z enn X alene»
Mer generelt, hva menes det når modellen «forklarer mer variasjon» i den avhengige variabelen – absolutt tilsvarer dette ikke «dette forklarer variabelen» mer?
Takk for innsikten i denne grunnleggende spørsmål.
Kommentarer
- " Forklaring av varians " er like vag som " som forklarer en variabel " for meg, så jeg ville ikke ' t ekskluderer muligheten for at de ' er (semantisk) relatert. Jeg foretrekker ikke denne måten å tolke ANOVA / regresjonsoutput fordi det ' er villedende og " ubrukelig " informasjon. Anta at jeg sa " trening forklarer varians i blodtrykk " .. betyr det at hvis jeg trener blodtrykket mitt blir mindre variabelt? Faktisk blir mitt BP mer variabelt siden anfall øker BP og hviletrykket mitt vil ha en tendens til normotensive som er ønskelig. Det er bedre måter å beskrive resultatene på.
- Jeg har erstattet taggen generalized-linear-model (glm) med multippel regresjon. Spørsmålet kan tenkes å bli generalisert til glms med henvisning til avvik snarere avvik og sum av kvadrater, men det ser ikke ut til å være OP ' s intensjon.
Svar
I et par ord (jo kortere jo bedre!) når du legger til en variabel i en modell, hvis den tilføyde variabelen legger til noe forklaringskraft, da øker tillegget modelltilpasningen (dvs. kapasiteten til modellen som helhet for å forutsi den avhengige variabelen i utvalget der modellen estimeres). Vær imidlertid oppmerksom på at det å legge til flere variabler også innebærer en høyere risiko for overmontering (dvs. å bygge en modell med høy passform i prøven som den er estimert i og en svekket prediksjon når den brukes på andre prøver). Så over tid har noen spesifikasjonskriterier blitt introdusert slik at de balanserer antall parametere som skal estimeres mot modelltilpasningen, slik at tillegg av variabler (og derfor parametere som skal estimeres) kan motvirkes når den resulterende økningen i moduspassformen er ikke høy nok i forhold til parameteren penalisering.
Når det gjelder spørsmålet ditt «Mer generelt, hva menes det når modellen» forklarer mer variasjon «i den avhengige variabelen – absolutt tilsvarer dette ikke «dette forklarer variabelen» mer? » i grunnleggende modeller som regresjon, jo mer varians av den avhengige variabelen blir forklart av modellen, desto mindre forklares det med rester, jo bedre er modellen fordi (for å bruke ordene dine) “det forklarer den avhengige variabelen mer”
Svar
Vi må tenke på en modell for å svare på spørsmålet ditt, så la oss anta en lineær modell. For enkelhets skyld vil vi bruk summer av kvadratiske avvik i stedet for avvik; for å oversette for avvik, divider med summen av kvadrater med $ N – 1 $ .
La $ Z = (z_1, …, z_N) $ være dine data; den har sum av kvadratiske avvik $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Hvis du bestemmer deg for å estimere $ Z $ som $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , så får du estimater $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ for $ Z $ ; gjennomsnittet er det samme som $ Z $ «s middel.
Det er et faktum at prøven avvik på $ \ hat {Z} $ er mindre enn for $ Z $ , intuitivt fordi vi har begrenset den til å være på linje. Deres variansen er bare den samme hvis dataene er nøyaktig lineære. Derfor er ideen at du prøver å fange $ Z $ med dette estimatet, og prøver å fange variant av $ Z $ . Jo mer avvik $ \ hat {Z} $ fanger, jo nærmere dataene er å være nøyaktig lineære.
Følgende identitet gjelder (kalt ANOVA-dekomponering):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underligger {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underligger {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Så den totale summen av kvadrater (TSS) på $ Z $ bryter opp i den forklarte summen av kvadrater (ESS), som er (unormalisert) varians av de monterte dataene . Dette er den «forklarte variansen». Den gjenværende summen av kvadrater (RSS) er hvor mye de virkelige dataene fortsatt skiller seg fra dine tilpassede data — den «uforklarlige variansen». For å få en andel av forklart eller uforklarlig varians, kan du dele enten etter TSS. Andelen forklart varians $ ESS / TSS $ kalles $ R ^ 2 $ verdi og måler kvaliteten på passformen.
Språket til forklart / uforklarlig varians er ikke alltid nyttig. Jeg ser det egentlig bare med lineær regresjon og PCA. Å forklare så mye varians som mulig er ikke den beste ideen hvis du vil gjøre spådommer, siden dette er overmontering. Når du gjør noe som ryggregresjon, får du et partisk estimat som vil «forklare mindre avvik» — $ R ^ 2 $ på dataene vil være verre- – men grunnen til at du gjør ryggregresjon er at testfeilen vanligvis vil være bedre.
(For prediksjon er viktigere enn ANOVA-spaltning bias-varians-spaltning.)