Cosa significa laffermazione “X e Y hanno spiegato una maggiore proporzione di varianza in Z rispetto alla sola X”
Più in generale, cosa si intende quando il modello “spiega più variazioni” nella variabile dipendente – certamente questo non è equivalente a “questo spiega la variabile” più?
Grazie per la comprensione di questa base domanda.
Commenti
- ” Spiegazione della varianza ” è tanto vago quanto ” spiegare una variabile ” per me, quindi non ‘ Non escludo la possibilità che ‘ siano (semanticamente) correlati. Non preferisco questo modo di interpretare loutput di ANOVA / regressione perché ‘ è fuorviante e ” inutile ” informazioni. Supponiamo che io abbia detto ” lesercizio spiega la variazione della pressione sanguigna ” .. questo significa che se faccio esercizio la mia pressione sanguigna diventerà meno variabile? In effetti, la mia PA diventa più variabile poiché gli attacchi aumentano la mia PA e la mia pressione a riposo tenderà a normotensiva, il che è desiderabile. Esistono modi migliori per descrivere i risultati.
- Ho sostituito il tag del modello lineare generalizzato (glm) con la regressione multipla. La domanda potrebbe plausibilmente essere generalizzata a glm facendo riferimento a deviazioni piuttosto varianze e somme di quadrati, ma questa non sembra essere lintenzione dellOP ‘.
Risposta
In un paio di parole (più breve è, meglio è!) quando aggiungi una variabile a un modello, se la variabile aggiunta aggiunge un po di potere esplicativo, quindi laggiunta aumenta ladattamento del modello (cioè la capacità del modello nel suo complesso di prevedere la variabile dipendente nel campione in cui il modello è stimato). Tuttavia, tieni presente che laggiunta di più variabili comporta anche un rischio maggiore di overfitting (ovvero la costruzione di un modello con un adattamento elevato allinterno del campione su cui è stimato e una prestazione di previsione degradata se utilizzato su altri campioni). Quindi nel tempo sono stati introdotti alcuni criteri di specifica tali da bilanciare il numero di parametri da stimare con ladattamento del modello, in modo che laggiunta di variabili (e quindi di parametri da stimare) possa essere scoraggiata quando il conseguente aumento del modo di adattamento non è abbastanza alto rispetto alla penalizzazione del parametro.
Per quanto riguarda la tua domanda “Più in generale, cosa si intende quando il modello” spiega più variazione “nella variabile dipendente – certamente questo non è equivalente a “questo spiega la variabile” più? ” nei modelli di base come la regressione, maggiore è la varianza della variabile dipendente spiegata dal modello, meno è spiegata dai residui, migliore è il modello perché (per usare le tue parole) “spiega di più la variabile dipendente”
Risposta
Dobbiamo pensare a un modello per rispondere alla tua domanda, quindi supponiamo un modello lineare. Per comodità, utilizzare somme di deviazioni al quadrato invece di varianze; per tradurre per le varianze, dividi per la somma dei quadrati per $ N – 1 $ .
Sia $ Z = (z_1, …, z_N) $ essere i tuoi dati; ha la somma delle deviazioni al quadrato $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Se decidi di stimare $ Z $ come $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , quindi ottieni le stime $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ per $ Z $ ; la sua media è la stessa di $ Z $ “.
È un dato di fatto che la varianza campione di $ \ hat {Z} $ è inferiore a quello di $ Z $ , intuitivamente perché lo abbiamo vincolato a essere su una riga. la varianza è la stessa solo se i dati sono esattamente lineari; quindi lidea è che provando a catturare $ Z $ con questa stima, stai cercando di catturare il variante di $ Z $ . Quindi maggiore è la varianza $ \ hat {Z} $ acquisisce, più i dati si avvicinano a essere esattamente lineari.
La seguente identità contiene (chiamata decomposizione ANOVA):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Quindi la somma totale dei quadrati (TSS) di $ Z $ si suddivide nella somma dei quadrati spiegata (ESS), che è la varianza (non normalizzata) dei dati adattati . Questa è la “varianza spiegata”. La somma residua dei quadrati (RSS) è quanto i dati reali differiscono ancora dai dati adattati — la “varianza inspiegabile”. Per ottenere una proporzione della varianza spiegata o non spiegata, puoi dividere per TSS. La proporzione della varianza spiegata, $ ESS / TSS $ è chiamata valore e misure di $ R ^ 2 $ la qualità delladattamento.
Il linguaggio della varianza spiegata / inspiegabile non è sempre utile; in realtà lo vedo solo con regressione lineare e PCA. Inoltre, spiegare quanta più varianza possibile non è la migliore idea se vuoi fare previsioni, poiché questo è overfitting. Quando esegui qualcosa come la regressione della cresta, ottieni una stima distorta che “spiegherebbe una varianza minore” — il $ R ^ 2 $ sui dati sarà peggiore- – ma il motivo per cui esegui la regressione della cresta è perché lerrore del test sarà solitamente migliore.
(Per la previsione, più importante della scomposizione ANOVA è la scomposizione bias-varianza.)