Que signifie la déclaration « X et Y expliquent une plus grande proportion de variance dans Z que X seul »

Plus généralement, quest-ce que cela signifie quand le modèle « explique plus de variation » dans la variable dépendante – ce nest certainement pas équivalent à « ceci explique la variable » davantage?

Merci pour la perspicacité dans cette base question.

Commentaires

  •  » Explication de la variance  » est tout aussi vague que  » mexpliquant une variable « , donc je ne ‘ t excluent la possibilité quils ‘ soient liés (sémantiquement). Je ne préfère pas cette façon dinterpréter la sortie de lANOVA / régression car elle ‘ est trompeuse et  » inutile  » informations. Supposons que jai dit que  » lexercice explique la variance de la tension artérielle  » .. cela signifie-t-il que si jexerce ma tension artérielle deviendra moins variable? En fait, ma TA devient plus variable car les accès augmentent ma TA et ma pression au repos aura tendance à être normotensive, ce qui est souhaitable. Il existe de meilleures façons de décrire les résultats.
  • Jai remplacé la balise generalized-linear-model (glm) par la régression multiple. La question pourrait éventuellement être généralisée à glms par référence aux écarts plutôt aux variances et aux sommes de carrés, mais cela ne semble pas être lintention de OP ‘.

Réponse

En quelques mots (le plus court sera le mieux!) lorsque vous ajoutez une variable à un modèle, si la variable ajoutée ajoute un certain pouvoir explicatif, puis laddition augmente lajustement du modèle (cest-à-dire la capacité du modèle dans son ensemble à prédire la variable dépendante dans léchantillon où le modèle est estimé). Cependant, gardez à lesprit que lajout de variables supplémentaires entraîne également un risque plus élevé de surajustement (cest-à-dire la construction dun modèle avec un ajustement élevé dans léchantillon sur lequel il est estimé et une performance de prédiction dégradée lorsquil est utilisé sur dautres échantillons). Ainsi, au fil du temps, certains critères de spécification ont été introduits de sorte quils équilibrent le nombre de paramètres à estimer par rapport à lajustement du modèle, de sorte que lajout de variables (et donc de paramètres à estimer) peut être découragé lorsque laugmentation résultante de lajustement de mode nest pas assez élevé par rapport à la pénalisation du paramètre.

En ce qui concerne votre question « Plus généralement, quest-ce que cela signifie quand le modèle » explique plus de variation « dans la variable dépendante – ce nest certainement pas équivalent à « cela explique la variable » plus?  » dans les modèles de base comme la régression, plus la variance de la variable dépendante est expliquée par le modèle, moins les résidus sont expliqués, meilleur est le modèle car (pour reprendre vos mots) «il explique davantage la variable dépendante»

Réponse

Nous devons penser à un modèle pour répondre à votre question alors supposons un modèle linéaire. Pour plus de commodité, nous « ll utiliser des sommes des écarts au carré au lieu des variances; pour traduire les variances, divisez les sommes des carrés par $ N – 1 $ .

Soit $ Z = (z_1, …, z_N) $ soit vos données; il a la somme des carrés des écarts $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Si vous décidez destimer $ Z $ comme $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , alors vous obtenez des estimations $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ pour $ Z $ ; sa moyenne est la même que celle de $ Z $ « .

Cest un fait que la variance de léchantillon de $ \ hat {Z} $ est inférieur à celui de $ Z $ , intuitivement parce que nous lavons contraint à être sur une ligne. Leur la variance nest la même que si les données sont exactement linéaires; par conséquent, lidée est quen essayant de capturer $ Z $ avec cette estimation, vous essayez de capturer le variation de $ Z $ . Donc plus il y a de variance $ \ hat {Z} $ capture, plus les données sont proches dêtre exactement linéaires.

Lidentité suivante tient (appelée la décomposition ANOVA):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Ainsi, la somme totale des carrés (TSS) de $ Z $ se décompose en la somme expliquée des carrés (ESS), qui est la variance (non normalisée) des données ajustées . Cest la «variance expliquée». La somme résiduelle des carrés (RSS) est de combien les données réelles diffèrent encore de vos données ajustées – la «variance inexpliquée». Pour obtenir une proportion de variance expliquée ou inexpliquée, vous pouvez diviser soit par TSS. La proportion de la variance expliquée, $ ESS / TSS $ est appelée la valeur et les mesures de $ R ^ 2 $ la qualité de lajustement.

Le langage de la variance expliquée / inexpliquée nest pas toujours utile; je ne le vois vraiment quavec la régression linéaire et lACP. De plus, expliquer autant de variance que possible nest pas la meilleure idée si vous voulez faire de la prédiction, car cest un surajustement. Lorsque vous faites quelque chose comme la régression de crête, vous obtenez une estimation biaisée qui « expliquerait moins de variance » — le $ R ^ 2 $ sur les données sera pire- – mais la raison pour laquelle vous effectuez une régression de crête est que lerreur de test sera généralement meilleure.

(Pour la prédiction, la décomposition biais-variance est plus importante que la décomposition ANOVA.)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *