O que significa a afirmação “X e Y explicaram uma proporção maior de variância em Z do que X sozinho”

De forma mais geral, o que significa quando o modelo “explica mais variação” na variável dependente – certamente isso não é equivalente a “isso explica a variável” mais?

Obrigado pela compreensão deste básico pergunta.

Comentários

  • ” Explicando a variação ” é tão vago quanto ” explicar uma variável ” para mim, então eu não ‘ exclui a possibilidade de que eles ‘ sejam (semanticamente) relacionados. Não prefiro essa maneira de interpretar a saída ANOVA / regressão porque ‘ é enganosa e ” inutil ” informações. Suponha que eu dissesse que ” exercício explica a variação na pressão arterial ” .. isso significa que se eu exercitar minha pressão arterial ficará menos variável? Na verdade, minha PA torna-se mais variável, já que os episódios aumentam minha PA e minha pressão em repouso tende a ficar normotensa, o que é desejável. Existem maneiras melhores de descrever os resultados.
  • Substituí a tag generalized-linear-model (glm) por regressão múltipla. A questão poderia ser generalizada para glms por referência a desvios, em vez de variâncias e somas de quadrados, mas essa não parece ser a intenção do OP ‘.

Resposta

Em algumas palavras (quanto mais curto, melhor!) quando você adiciona uma variável a um modelo, se a variável adicionada adicionar algum poder explicativo, então a adição aumenta o ajuste do modelo (ou seja, a capacidade do modelo como um todo de prever a variável dependente na amostra onde o modelo é estimado). No entanto, tenha em mente que adicionar mais variáveis também acarreta um maior risco de sobreajuste (ou seja, construir um modelo com um alto ajuste dentro da amostra sobre a qual é estimado e um desempenho de predição degradado quando usado em outras amostras). Assim, ao longo do tempo, alguns critérios de especificação foram introduzidos de modo que equilibrem o número de parâmetros a serem estimados em relação ao ajuste do modelo, de modo que a adição de variáveis (e, portanto, parâmetros a serem estimados) pode ser desencorajada quando o aumento resultante no ajuste de modo não é alto o suficiente em comparação com a penalização do parâmetro.

Com relação à sua pergunta “De modo mais geral, o que significa quando o modelo” explica mais variação “na variável dependente – certamente isso não é equivalente a “isso explica a variável” mais? ” em modelos básicos como regressão, quanto mais variância da variável dependente é explicada pelo modelo, quanto menos é explicada pelos resíduos, melhor é o modelo porque (para usar suas palavras) “explica mais a variável dependente”

Resposta

Temos que pensar em um modelo para responder à sua pergunta, então vamos supor um modelo linear. Por conveniência, vamos use somas de desvios quadrados em vez de variâncias; para traduzir as variações, divida pelas somas dos quadrados por $ N – 1 $ .

Vamos $ Z = (z_1, …, z_N) $ sejam seus dados; tem a soma dos desvios quadrados $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Se você decidir estimar $ Z $ como $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varejpsilon $ , então você obtém estimativas $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ para $ Z $ ; sua média é a mesma que a média de $ Z $ “.

É um fato que a variação da amostra de $ \ hat {Z} $ é menor que $ Z $ , intuitivamente porque o restringimos em uma linha. a variância é apenas a mesma se os dados forem exatamente lineares; portanto, a ideia é que ao tentar capturar $ Z $ com esta estimativa, você está tentando capturar o variação de $ Z $ . Portanto, quanto maior a variação $ \ hat {Z} $ captura, mais perto os dados estão de serem exatamente lineares.

A seguinte identidade é mantida (chamada de decomposição ANOVA):

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$

Portanto, a soma total dos quadrados (TSS) de $ Z $ se divide na soma explicada dos quadrados (ESS), que é a variância (não normalizada) dos dados ajustados . Esta é a “variação explicada”. A soma dos quadrados residual (RSS) é o quanto os dados reais ainda diferem de seus dados ajustados — a “variação inexplicada”. Para obter uma proporção da variância explicada ou inexplicada, você pode dividir por TSS. A proporção da variação explicada, $ ESS / TSS $ é chamada de $ R ^ 2 $ valor e medidas a qualidade do ajuste.

A linguagem da variância explicada / inexplicada nem sempre é útil; na verdade, só a vejo com regressão linear e PCA. Além disso, explicar o máximo possível de variância não é a melhor ideia se você quiser fazer previsão, já que isso é overfitting. Quando você faz algo como a regressão de crista, obtém uma estimativa tendenciosa que “explica menos variância” — o $ R ^ 2 $ nos dados será pior- –mas a razão pela qual você faz a regressão de crista é porque o erro de teste geralmente será melhor.

(Para a previsão, mais importante do que a decomposição ANOVA é a decomposição de polarização-variância.)

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *