Digamos que exista alguma relação “verdadeira” entre $ y $ e $ x $ such aquele $ y = ax + b + \ epsilon $, onde $ a $ e $ b $ são constantes e $ \ epsilon $ é um ruído normal iid. Quando eu gerar dados aleatoriamente a partir desse código R: x <- 1:100; y <- ax + b + rnorm(length(x)) e, em seguida, ajustar um modelo como y ~ x, obviamente obtenho estimativas razoavelmente boas para $ a $ e $ b $.

Se eu mudar a função das variáveis como em (x ~ y), no entanto, e então reescrever o resultado para $ y $ para ser uma função de $ x $, a inclinação resultante é sempre mais acentuada (mais negativa ou mais positivo) do que o estimado pela y ~ x regressão. Estou tentando entender exatamente por que isso acontece e agradeceria se alguém pudesse me dar uma intuição sobre o que está acontecendo lá .

Comentários

  • Que ‘ não verdade em geral. Talvez você ‘ esteja apenas vendo isso em seus dados. Cole este código: y = rnorm (10); x = norma (10); lm (y ~ x); lm (x ~ y); em R várias vezes e você ‘ descobrirá que funciona nos dois sentidos.
  • Isso ‘ é um pouco diferente do que Eu estava descrevendo. Em seu exemplo, y não era ‘ uma função de x, então ‘ não realmente qualquer ” declive ” (o ‘ a ‘ no meu exemplo).
  • lm (y ~ x) se ajusta ao modelo $ y = \ beta_ {0} + \ beta_ {1} x + \ varejpsilon $ por mínimos quadrados (equivalente à estimativa de ML quando os erros são iid normais). Há uma inclinação.
  • Sua pergunta é feita e respondida (mais ou menos) em stats.stackexchange.com/questions/13126 e stats.stackexchange.com/questions/18434 . No entanto, acredito que ninguém ainda contribuiu com uma explicação simples e clara das relações entre (a) regressão de $ Y $ vs $ X $, (b) regressão de $ X $ vs $ Y $, (c) análise da correlação de $ X $ e $ Y $, (d) regressão de erros em variáveis de $ X $ e $ Y $, e (e) ajuste de uma distribuição Normal bivariada a $ (X, Y) $. Este seria um bom lugar para tal exposição :-).
  • Claro que Macro está correto: porque xey desempenham papéis equivalentes na questão, qual inclinação é mais extrema é uma questão de sorte. No entanto, a geometria sugere (incorretamente) que quando invertemos xey na regressão, devemos obter a recipocal da inclinação original. Isso nunca acontece, exceto quando x e y são linearmente dependentes. Esta pergunta pode ser interpretada como uma pergunta por quê.

Resposta

Dados $ n $ pontos de dados $ (x_i, y_i), i = 1,2, \ ldots n $, no plano, vamos desenhar uma linha reta $ y = ax + b $. Se prevermos $ ax_i + b $ como o valor $ \ hat {y} _i $ de $ y_i $, então o erro é $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, o erro quadrático é $ (y_i-ax_i-b) ^ 2 $, e o erro quadrático total $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Perguntamos

Que escolha de $ a $ e $ b $ minimiza $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Visto que $ (y_i-ax_i-b) $ é a distância vertical de $ (x_i, y_i) $ do reta, estamos pedindo a linha de forma que a soma dos quadrados das distâncias verticais dos pontos da linha seja a menor possível. Agora $ S $ é uma função quadrática de $ a $ e $ b $ e atinge seu valor mínimo quando $ a $ e $ b $ são tais que $$ \ begin {align *} \ frac {\ partial S} {\ parcial a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ Da segunda equação, obtemos $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ onde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ são os valores da média aritmética de $ y_i $ “se $ x_i $” s respectivamente. Substituindo na primeira equação, obtemos $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ direita) – \ mu_x ^ 2}. $$ Assim, a linha que minimiza $ S $ pode ser expressa como $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ e o valor mínimo de $ S $ é $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ direita) – \ mu_x ^ 2}.$$

Se trocarmos os papéis de $ x $ e $ y $, desenhe uma linha $ x = \ hat {a} y + \ hat {b} $, e peça os valores de $ \ hat {a} $ e $ \ hat {b} $ que minimizam $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ ou seja, queremos a linha de forma que a soma dos quadrados das distâncias horizontais dos pontos da linha seja a menor possível, então obtemos

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ e o valor mínimo de $ T $ é $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ direita] \ esquerda [\ esquerda (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ direita) – \ mu_x ^ 2 \ direita] – \ esquerda [\ esquerda (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Observe que ambas as linhas passam pelo ponto $ (\ mu_x, \ mu_y) $ mas as inclinações são $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ são diferentes em geral. De fato, como @whuber aponta em um comentário, as inclinações são as mesmas quando todos os pontos $ (x_i, y_i) $ estão na mesma linha reta. Para ver isso, observe que $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Comentários

  • Obrigado! abs (correlação) < 1 explica por que a inclinação era sistematicamente mais acentuada no caso inverso.
  • (+1) mas acrescentei uma resposta com apenas uma ilustração do que você acabou de dizer, visto que tenho uma mente geométrica 🙂
  • Resposta da classe (+1)

Resposta

Apenas para ilustrar a resposta de Dilip: nas seguintes imagens,

  • os pontos pretos são pontos de dados;
  • à esquerda, a linha preta é a linha de regressão obtida por y ~ x, que minimiza os quadrados do comprimento dos segmentos vermelhos;
  • à direita, a linha preta é a linha de regressão obtida por x ~ y, que minimiza os quadrados do comprimento dos segmentos vermelhos.

linhas de regressão

Editar (regressão de menos retângulos)

Se não houver uma maneira natural de escolher uma “resposta” e uma “covariável”, mas as duas variáveis forem interdependentes, você pode desejar conservar uma função simétrica para $ y $ e $ x $ ; neste caso, você pode usar “regressão de retângulos mínimos”.

  • escreva $ Y = aX + b + \ epsilon $, como de costume;
  • denote $ \ hat y_i = a x_i + b $ e $ \ hat x_i = {1 \ over a} (y_i – b) $ as estimativas de $ Y_i $ condicional a $ X = x_i $ e de $ X_i $ condicional a $ Y = y_i $;
  • minimizar $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, que leva a $$ \ hat y = \ mathrm {sinal} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

Aqui está uma ilustração com os mesmos pontos de dados, para cada ponto, um “retângulo” é calculado como o produto do comprimento de dois segmentos vermelhos e a soma dos retângulos é minimizado. Não sei muito sobre as propriedades desta regressão e não encontro muito com o google.

menos retângulos

Comentários

  • Algumas notas: ( 1 ) A menos que eu esteja enganado, parece que o ” regressão de mínimos retângulos ” é equivalente à solução obtida tomando o primeiro componente principal na matriz $ \ mathbf X = (\ mathbf y, \ mathbf x) $ após centralizar e redimensionar para tem variância de unidade e depois a substituição. (cont.)
  • (cont.) ( 2 ) Visto desta forma, é fácil ver que estes ” mínimos retângulos regressão ” é equivalente a uma forma de mínimos quadrados ortogonais (ou totais) e, portanto, ( 3 ) Um caso especial de regressão de Deming nos vetores centralizados e redimensionados tomando $ \ delta = 1 $. Mínimos quadrados ortogonais podem ser considerados como ” regressão de mínimos círculos “.
  • @cardinal Comentários muito interessantes! (+1) Acredito que o eixo principal (minimizando distâncias perpendiculares entre reglinha e todos os pontos, à la PCA) ou regressão do eixo principal reduzida ou regressão do tipo II como exemplificado em o pacote lmodel2 R de P Legendre, também são relevantes aqui, uma vez que essas técnicas são usadas quando ‘ é difícil diga qual papel (resposta ou preditor) desempenha cada variável ou quando queremos contabilizar os erros de medição.
  • @chl: (+1) Sim, eu acredito que você está certo e a página da Wikipedia sobre os mínimos quadrados lista vários outros nomes para o mesmo procedimento, nem todos com os quais estou familiarizado. Parece remontar a pelo menos R. Frisch, Análise estatística de confluência por meio de sistemas de regressão completos , Universitetets Ø konomiske Instituut, 1934 onde foi chamado de regressão diagonal .
  • @cardinal Eu deveria ter sido mais cuidadoso ao ler a entrada da Wikipedia … Para referência futura, aqui está uma foto tirada de Projeto bioestatístico e análise usando R , por M. Logan (Wiley, 2010; Fig. 8.4, p. 174), que resume as diferentes abordagens, muito parecido com as belas ilustrações de Elvis ‘.

Resposta

Apenas uma breve observação sobre por que você vê a inclinação menor para uma regressão. Ambas as inclinações dependem de três números: desvios padrão de $ x $ e $ y $ ($ s_ {x} $ e $ s_ {y} $), e correlação entre $ x $ e $ y $ ($ r $). A regressão com $ y $ como resposta tem inclinação $ r \ frac {s_ {y}} {s_ {x}} $ e a regressão com $ x $ como resposta tem inclinação $ r \ frac {s_ {x}} {s_ {y}} $, portanto, a razão da primeira inclinação para o recíproco da segunda é igual a $ r ^ 2 \ leq 1 $.

Portanto, quanto maior a proporção da variância explicada, mais próximo o inclinações obtidas em cada caso. Observe que a proporção da variância explicada é simétrica e igual à correlação quadrada na regressão linear simples.

Resposta

A linha de regressão é não (sempre) o mesmo que relacionamento verdadeiro

Você pode ter algum relacionamento causal “verdadeiro” como

$$ y = a + bx + \ epsilon $$

mas as linhas de regressão ajustadas y ~ x ou x ~ y não significam o mesmo como essa relação causal (mesmo quando na prática a expressão para uma das linhas de regressão pode coincidir com a expressão para a relação causal “verdadeira”)


Relação mais precisa entre inclinações

Para duas regressões lineares simples comutadas:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

você pode relacionar as inclinações da seguinte maneira:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Então, as encostas são não entre si.


Intuição

A razão é que

  • Linhas de regressão e correlações sim não necessariamente corresponde um a um a uma relação causal.
  • As linhas de regressão se relacionam mais diretamente a uma probabilidade condicional ou melhor previsão.

Você pode imaginar que a probabilidade condicional se relaciona com a força do relacionamento. As linhas de regressão refletem isso e as inclinações das linhas podem ser rasas quando a força da relação é pequena ou ambas íngremes quando a força da relação é forte. As inclinações não são simplesmente inversas.

Exemplo

Se duas variáveis $ X $ e $ Y $ se relacionam uns com os outros por alguma relação linear (causal) $$ Y = \ text {um pouco de $ X + $ muito de erro} $$ Então você pode imaginar que não seria bom reverter totalmente essa relação no caso de desejar expressar $ X $ com base em um determinado valor de $ Y $ .

Em vez de

$$ X = \ text {muito $ Y + $ um pouco de erro} $$

seria melhor usar também

$$ X = \ text {um pouco de $ Y + $ um monte de erro} $$

Veja as seguintes distribuições de exemplo com seus respectivas linhas de regressão.As distribuições são multivariadas normais com $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ e $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

exemplo

Os valores condicionais esperados (o que você obteria em uma regressão linear) são

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

e neste caso com $ X, Y $ uma distribuição normal multivariada, então as distribuições marginais são

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Então você pode veja a variável Y como sendo um par t $ \ rho X $ e um ruído parcial com variação $ 1- \ rho ^ 2 $ . O mesmo é verdadeiro ao contrário.

Quanto maior o coeficiente de correlação $ \ rho $ , mais próximas estarão as duas linhas. Mas quanto mais baixa a correlação, menos forte é a relação e menos íngremes as linhas serão (isso é verdade para ambas as linhas Y ~ X e X ~ Y)

Comentários

  • Essa é uma explicação excelente. Simples e intuitivo

Resposta

Uma maneira simples de olhar para isso é observar que, se for verdadeiro modelo $ y = \ alpha + \ beta x + \ epsilon $ , você executa duas regressões:

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Então temos, usando $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Portanto, se você obtém uma inclinação mais íngreme ou não depende apenas da proporção $ \ frac {var (y)} { var (x)} $ . Esta proporção é igual a, com base no modelo verdadeiro assumido:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Link para outras respostas

Você pode conectar este resultado com as respostas de outros, que disseram que quando $ R ^ 2 = 1 $ , deveria ser o recíproco. Na verdade, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , e também, $ b_ {y \ sim x} = \ beta $ (sem erro de estimativa), portanto:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Portanto, $ b_ {x \ sim y} = 1 / \ beta $

Resposta

Torna-se interessante quando também há ruído em suas entradas (o que poderíamos argumentar que é sempre o caso, nenhum comando ou observação é perfeito).

I construíram algumas simulações para observar o fenômeno, com base em uma relação linear simples $ x = y $, com ruído gaussiano em x e y. Eu gerei as observações da seguinte maneira (código python):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

Veja os diferentes resultados (odr aqui é ortogonal regressão de distância, ou seja, o mesmo que regressão de retângulos mínimos):

insira a descrição da imagem aqui

Todo o código está lá:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Resposta

A resposta curta

O objetivo de uma regressão linear simples é chegar às melhores previsões do y variável, dados os valores da variável x. Este é um objetivo diferente de tentar chegar à melhor previsão da variável x, dados os valores da variável y.

A regressão linear simples de y ~ x oferece o “melhor” modelo possível para prever y dado x. Portanto, se você ajustar um modelo para x ~ y e invertê-lo algebricamente, esse modelo poderia, da melhor maneira, funcionar tão bem quanto o modelo para y ~ x. Mas inverter um modelo adequado para x ~ y geralmente terá um desempenho pior na previsão y dado x em comparação com o modelo “ideal” y ~ x, porque o modelo “invertido x ~ y” foi criado para cumprir um objetivo diferente.

Ilustração

Imagine que você tenha o seguinte conjunto de dados:

digite descrição da imagem aqui

Quando você executa uma regressão OLS de y ~ x, você chega com o seguinte modelo

y = 0.167 + 1.5*x 

Isso otimiza as previsões de y fazendo as seguintes previsões, que têm erros associados:

insira a descrição da imagem aqui

As previsões da regressão OLS são ideais no sentido de que o soma dos valores na coluna mais à direita (ou seja, a soma dos quadrados) é o menor possível.

Quando você executa uma regressão OLS de x ~ y, você venha com um modelo diferente:

x = -0.07 + 0.64*y 

Isso otimiza as previsões de x fazendo as seguintes previsões, com erros associados.

insira a descrição da imagem íon aqui

Novamente, isso é ótimo no sentido de que a soma dos valores da coluna mais à direita é a menor possível (igual a 0.071).

Agora, imagine que você tentou apenas inverter o primeiro modelo, y = 0.167 + 1.5*x, usando álgebra, fornecendo o modelo x = -0.11 + 0.67*x.

Isso forneceria as seguintes previsões e erros associados:

insira a descrição da imagem aqui

A soma dos valores na coluna mais à direita é 0.074, que é maior que a soma correspondente do modelo que você obtém ao regredir x em y, ou seja, o modelo x ~ y Em outras palavras, o “modelo y ~ x invertido” está fazendo um trabalho pior na previsão de x do que o modelo OLS de x ~ y.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *