Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple

Question

Digamos que existe una relación «verdadera» entre $ y $ y $ x $ tales que $ y = ax + b + \ epsilon $, donde $ a $ y $ b $ son constantes y $ \ epsilon $ es ruido normal de iid. Cuando genero datos al azar a partir de ese código R: x <- 1:100; y <- ax + b + rnorm(length(x)) y luego ajustar un modelo como y ~ x, obviamente obtengo estimaciones razonablemente buenas para $ a $ y $ b $.

Si cambio el rol de las variables como en (x ~ y), sin embargo, y luego reescribir el resultado para que $ y $ sea una función de $ x $, la pendiente resultante es siempre más pronunciada (ya sea más negativa o más positivo) que el estimado por la regresión y ~ x. Estoy tratando de entender exactamente por qué es así y agradecería que alguien me diera una idea de lo que está sucediendo allí. .

Comentarios

Que ‘ no cierto en general. Quizás ‘ solo está viendo eso en sus datos. Pegue este código: y = rnorm (10); x = normal (10); lm (y ~ x); lm (x ~ y); en R varias veces y ‘ encontrará que funciona en ambos sentidos.
Eso ‘ es un poco diferente de lo que Estaba describiendo. En su ejemplo, y no era ‘ una función de x en absoluto, por lo que ‘ no es realmente ninguna » pendiente » (el ‘ a ‘ en mi ejemplo).
lm (y ~ x) se ajusta al modelo $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.
Su pregunta se formula y responde (más o menos) en stats.stackexchange.com/questions/13126 y stats.stackexchange.com/questions/18434 . Sin embargo, creo que nadie ha contribuido todavía con una explicación simple y clara de las relaciones entre (a) regresión de $ Y $ vs $ X $, (b) regresión de $ X $ vs $ Y $, (c) análisis de la correlación de $ X $ y $ Y $, (d) regresión de errores en variables de $ X $ y $ Y $, y (e) ajustar una distribución normal bivariada a $ (X, Y) $. Este sería un buen lugar para tal exposición :-).
Por supuesto, Macro tiene razón: debido a que xey juegan roles equivalentes en la pregunta, qué pendiente es más extrema es una cuestión de azar. Sin embargo, la geometría sugiere (incorrectamente) que cuando invertimos xey en la regresión, deberíamos obtener el recipocal de la pendiente original. Eso nunca sucede excepto cuando xey son linealmente dependientes. Esta pregunta se puede interpretar como preguntando por qué.

Answer 1

Dados $ n $ puntos de datos $ (x_i, y_i), i = 1,2, \ ldots n $, en el plano, dibujemos una línea recta $ y = ax + b $. Si predecimos $ ax_i + b $ como el valor $ \ hat {y} _i $ de $ y_i $, entonces el error es $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, el error al cuadrado es $ (y_i-ax_i-b) ^ 2 $, y el error al cuadrado total $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Preguntamos

¿Qué elección de $ a $ y $ b $ minimiza $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

Dado que $ (y_i-ax_i-b) $ es la distancia vertical de $ (x_i, y_i) $ desde línea recta, estamos pidiendo la línea tal que la suma de los cuadrados de las distancias verticales de los puntos desde la línea sea lo más pequeña posible. Ahora $ S $ es una función cuadrática tanto de $ a $ como de $ b $ y alcanza su valor mínimo cuando $ a $ y $ b $ son tales que $$ \ begin {align *} \ frac {\ partial S} {\ parcial a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ De la segunda ecuación, obtenemos $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ donde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ son los valores promedio aritméticos de los $ y_i $ «sy los $ x_i $» s respectivamente. Sustituyendo en la primera ecuación, obtenemos $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Por lo tanto, la línea que minimiza $ S $ se puede expresar como $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ y el valor mínimo de $ S $ es $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$

Si intercambiamos los roles de $ x $ y $ y $, dibuje una línea $ x = \ hat {a} y + \ hat {b} $, y pregunte por los valores de $ \ hat {a} $ y $ \ hat {b} $ que minimizan $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ es decir, queremos la recta tal que la suma de los cuadrados de las distancias horizontales de los puntos desde la recta sea lo más pequeña posible, entonces obtenemos

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ y el valor mínimo de $ T $ es $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$

Note que ambas líneas pasan por el punto $ (\ mu_x, \ mu_y) $ pero las pendientes son $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ son diferentes en general. De hecho, como @whuber señala en un comentario, las pendientes son las mismas cuando todos los puntos $ (x_i, y_i) $ se encuentran en la misma línea recta. Para ver esto, tenga en cuenta que $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

Comentarios

¡Gracias! abs (correlación) < 1 explica por qué la pendiente era sistemáticamente más pronunciada en el caso inverso.
(+1) pero agregué una respuesta con solo una ilustración de lo que acaba de decir, ya que tengo una mente geométrica 🙂
Respuesta de la clase (+1)

Answer 2

Solo una breve nota sobre por qué ve la pendiente más pequeña para una regresión. Ambas pendientes dependen de tres números: desviaciones estándar de $ x $ y $ y $ ($ s_ {x} $ y $ s_ {y} $), y correlación entre $ x $ y $ y $ ($ r $). La regresión con $ y $ como respuesta tiene pendiente $ r \ frac {s_ {y}} {s_ {x}} $ y la regresión con $ x $ como respuesta tiene pendiente $ r \ frac {s_ {x}} {s_ {y}} $, por lo tanto, la razón de la primera pendiente al recíproco de la segunda es igual a $ r ^ 2 \ leq 1 $.

Entonces, cuanto mayor sea la proporción de varianza explicada, más cerca estará pendientes obtenidas en cada caso. Tenga en cuenta que la proporción de varianza explicada es simétrica e igual a la correlación al cuadrado en la regresión lineal simple.

Answer 3

La línea de regresión es no (siempre) igual que la relación verdadera

Puede tener alguna relación causal «verdadera» como

$$ y = a + bx + \ epsilon $$

pero las líneas de regresión ajustadas y ~ x o x ~ y no significan lo mismo como esa relación causal (incluso cuando en la práctica la expresión de una de las líneas de regresión puede coincidir con la expresión de la relación causal «verdadera»)

Relación más precisa entre pendientes

Para dos regresiones lineales simples conmutadas:

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

puede relacionar las pendientes de la siguiente manera:

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

Entonces las pistas son no inversa entre sí.

Intuición

La razón es que

Las líneas de regresión y las correlaciones no no corresponde necesariamente uno a uno a una relación causal.
Las líneas de regresión se relacionan más directamente con una probabilidad condicional o la mejor predicción.

Puede imaginar que la probabilidad condicional se relaciona con la fuerza de la relación. Las líneas de regresión reflejan esto y las pendientes de las líneas pueden ser superficiales cuando la fuerza de la relación es pequeña o ambas empinadas cuando la fuerza de la relación es fuerte. Las pendientes no son simplemente inversas entre sí.

Ejemplo

Si dos variables $ X $ y $ Y $ se relacionan entre sí por alguna relación lineal (causal) $$ Y = \ text {un poco de $ X + $ mucho of error} $$ Entonces puede imaginar que no sería bueno revertir por completo esa relación en caso de que desee expresar $ X $ basado en un valor dado de $ Y $ .

En lugar de

$$ X = \ text {mucho $ Y + $ un poco de error} $$

sería mejor usar también

$$ X = \ text {un poco de $ Y + $ mucho error} $$

Vea las siguientes distribuciones de ejemplo con sus respectivas líneas de regresión.Las distribuciones son normales multivariadas con $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ y $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $

Los valores esperados condicionales (lo que obtendría en una regresión lineal) son

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

y en este caso con $ X, Y $ una distribución normal multivariante, luego las distribuciones marginales son

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

Para que pueda ver la variable Y como un par t $ \ rho X $ y un ruido parcial con varianza $ 1- \ rho ^ 2 $ . Lo mismo es cierto al revés.

Cuanto mayor sea el coeficiente de correlación $ \ rho $ , más cercanas estarán las dos líneas. Pero cuanto menor sea la correlación, menos fuerte será la relación, menos pronunciadas serán las líneas (esto es cierto para ambas líneas Y ~ X y X ~ Y)

Comentarios

Esa es una excelente explicación. Simple e intuitivo

Answer 4

Una forma simple de ver esto es notar que, si es verdad modelo $ y = \ alpha + \ beta x + \ epsilon $ , ejecuta dos regresiones:

$ y = a_ {y \ sim x} + b_ {y \ sim x} x $
$ x = a_ {x \ sim y} + b_ {x \ sim y} y $

Entonces tenemos, usando $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

Entonces, si obtienes una pendiente más pronunciada o no, solo depende de la proporción $ \ frac {var (y)} { var (x)} $ . Esta proporción es igual a, según el modelo verdadero supuesto:

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

Vincular con otras respuestas

Puede conectar este resultado con las respuestas de otros, quienes dijeron que cuando $ R ^ 2 = 1 $ , debería ser el recíproco. De hecho, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , y también, $ b_ {y \ sim x} = \ beta $ (sin error de estimación), por lo tanto:

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

Entonces $ b_ {x \ sim y} = 1 / \ beta $

Answer 5

Se vuelve interesante cuando también hay ruido en sus entradas (lo que podríamos argumentar es siempre el caso, ningún comando u observación es perfecto).

I han construido algunas simulaciones para observar el fenómeno, basadas en una relación lineal simple $ x = y $, con ruido gaussiano tanto en x como en y. Generé las observaciones de la siguiente manera (código Python):

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)

Vea los diferentes resultados (odr aquí es una regresión de distancia ortogonal , es decir lo mismo que la regresión de rectángulos mínimos):

Todo el código está ahí:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Answer 6

La respuesta corta

El objetivo de una regresión lineal simple es llegar a las mejores predicciones del y variable, dados los valores de la variable x. Este es un objetivo diferente al de intentar obtener la mejor predicción de la variable x, dados los valores de la variable y.

La regresión lineal simple de y ~ x le brinda el «mejor» modelo posible para predecir y dado x. Por lo tanto, si ajusta un modelo para x ~ y y lo invierte algebraicamente, ese modelo, en su mejor momento, podría funcionar tan bien como el modelo para y ~ x. Pero invertir un ajuste de modelo para x ~ y normalmente funcionará peor en la predicción de y dado x, en comparación con el modelo «óptimo» y ~ x, porque el «modelo x ~ y invertido» se creó para cumplir un objetivo diferente.

Ilustración

Imagine que tiene el siguiente conjunto de datos:

Cuando ejecuta una regresión OLS de y ~ x, obtiene el siguiente modelo

y = 0.167 + 1.5*x

Esto optimiza las predicciones de y al realizar las siguientes predicciones, que tienen errores asociados:

Las predicciones de la regresión OLS son óptimas en el sentido de que La suma de los valores en la columna de la derecha (es decir, la suma de los cuadrados) es tan pequeña como puede ser.

Cuando ejecuta una regresión OLS de x ~ y, crea un modelo diferente:

x = -0.07 + 0.64*y

Esto optimiza las predicciones de x haciendo las siguientes predicciones, con errores asociados.

De nuevo, esto es óptimo en el sentido de que la suma de los valores de la columna más a la derecha es lo más pequeña posible (igual a 0.071).

Ahora, imagina que intentaste invertir el primer modelo, y = 0.167 + 1.5*x, usando álgebra, dándote el modelo x = -0.11 + 0.67*x.

Esto le daría las siguientes predicciones y errores asociados:

La suma de los valores en la columna más a la derecha es 0.074, que es mayor que la suma correspondiente del modelo que se obtiene al hacer una regresión de x sobre y, es decir, el modelo x ~ y. En otras palabras, el «modelo y ~ x invertido» está haciendo un peor trabajo en la predicción de x que el modelo OLS de x ~ y.

Efecto de cambiar la respuesta y la variable explicativa en la regresión lineal simple

Comentarios

Responder

Comentarios

Respuesta

Comentarios

Respuesta

Respuesta

La línea de regresión es no (siempre) igual que la relación verdadera

Relación más precisa entre pendientes

Intuición

Ejemplo

Comentarios

Respuesta

Vincular con otras respuestas

Respuesta

Respuesta

La respuesta corta

Ilustración

Deja una respuesta Cancelar la respuesta