Digamos que existe una relación «verdadera» entre $ y $ y $ x $ tales que $ y = ax + b + \ epsilon $, donde $ a $ y $ b $ son constantes y $ \ epsilon $ es ruido normal de iid. Cuando genero datos al azar a partir de ese código R: x <- 1:100; y <- ax + b + rnorm(length(x))
y luego ajustar un modelo como y ~ x
, obviamente obtengo estimaciones razonablemente buenas para $ a $ y $ b $.
Si cambio el rol de las variables como en (x ~ y)
, sin embargo, y luego reescribir el resultado para que $ y $ sea una función de $ x $, la pendiente resultante es siempre más pronunciada (ya sea más negativa o más positivo) que el estimado por la regresión y ~ x
. Estoy tratando de entender exactamente por qué es así y agradecería que alguien me diera una idea de lo que está sucediendo allí. .
Comentarios
- Que ‘ no cierto en general. Quizás ‘ solo está viendo eso en sus datos. Pegue este código: y = rnorm (10); x = normal (10); lm (y ~ x); lm (x ~ y); en R varias veces y ‘ encontrará que funciona en ambos sentidos.
- Eso ‘ es un poco diferente de lo que Estaba describiendo. En su ejemplo, y no era ‘ una función de x en absoluto, por lo que ‘ no es realmente ninguna » pendiente » (el ‘ a ‘ en mi ejemplo).
- lm (y ~ x) se ajusta al modelo $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $ por mínimos cuadrados (equivalente a la estimación ML cuando los errores son iid normales). Hay una pendiente.
- Su pregunta se formula y responde (más o menos) en stats.stackexchange.com/questions/13126 y stats.stackexchange.com/questions/18434 . Sin embargo, creo que nadie ha contribuido todavía con una explicación simple y clara de las relaciones entre (a) regresión de $ Y $ vs $ X $, (b) regresión de $ X $ vs $ Y $, (c) análisis de la correlación de $ X $ y $ Y $, (d) regresión de errores en variables de $ X $ y $ Y $, y (e) ajustar una distribución normal bivariada a $ (X, Y) $. Este sería un buen lugar para tal exposición :-).
- Por supuesto, Macro tiene razón: debido a que xey juegan roles equivalentes en la pregunta, qué pendiente es más extrema es una cuestión de azar. Sin embargo, la geometría sugiere (incorrectamente) que cuando invertimos xey en la regresión, deberíamos obtener el recipocal de la pendiente original. Eso nunca sucede excepto cuando xey son linealmente dependientes. Esta pregunta se puede interpretar como preguntando por qué.
Responder
Dados $ n $ puntos de datos $ (x_i, y_i), i = 1,2, \ ldots n $, en el plano, dibujemos una línea recta $ y = ax + b $. Si predecimos $ ax_i + b $ como el valor $ \ hat {y} _i $ de $ y_i $, entonces el error es $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, el error al cuadrado es $ (y_i-ax_i-b) ^ 2 $, y el error al cuadrado total $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. Preguntamos
¿Qué elección de $ a $ y $ b $ minimiza $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?
Dado que $ (y_i-ax_i-b) $ es la distancia vertical de $ (x_i, y_i) $ desde línea recta, estamos pidiendo la línea tal que la suma de los cuadrados de las distancias verticales de los puntos desde la línea sea lo más pequeña posible. Ahora $ S $ es una función cuadrática tanto de $ a $ como de $ b $ y alcanza su valor mínimo cuando $ a $ y $ b $ son tales que $$ \ begin {align *} \ frac {\ partial S} {\ parcial a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (- 1) & = 0 \ end {align *} $$ De la segunda ecuación, obtenemos $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i – ax_i) = \ mu_y – a \ mu_x $$ donde $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $ son los valores promedio aritméticos de los $ y_i $ «sy los $ x_i $» s respectivamente. Sustituyendo en la primera ecuación, obtenemos $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}. $$ Por lo tanto, la línea que minimiza $ S $ se puede expresar como $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2} \ right) (x – \ mu_x), $$ y el valor mínimo de $ S $ es $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right ] – \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}.$$
Si intercambiamos los roles de $ x $ y $ y $, dibuje una línea $ x = \ hat {a} y + \ hat {b} $, y pregunte por los valores de $ \ hat {a} $ y $ \ hat {b} $ que minimizan $$ T = \ sum_ {i = 1} ^ n (x_i – \ hat {a} y_i – \ hat {b}) ^ 2, $$ es decir, queremos la recta tal que la suma de los cuadrados de las distancias horizontales de los puntos desde la recta sea lo más pequeña posible, entonces obtenemos
$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} \ right) (y – \ mu_y) $$ y el valor mínimo de $ T $ es $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2 \ right] – \ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2}. $$
Note que ambas líneas pasan por el punto $ (\ mu_x, \ mu_y) $ pero las pendientes son $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right) – \ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) – \ mu_x ^ 2}, ~~ \ hat {a } ^ {- 1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right) – \ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} $$ son diferentes en general. De hecho, como @whuber señala en un comentario, las pendientes son las mismas cuando todos los puntos $ (x_i, y_i) $ se encuentran en la misma línea recta. Para ver esto, tenga en cuenta que $$ \ hat {a} ^ {- 1} – a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right) – \ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$
Comentarios
- ¡Gracias! abs (correlación) < 1 explica por qué la pendiente era sistemáticamente más pronunciada en el caso inverso.
- (+1) pero agregué una respuesta con solo una ilustración de lo que acaba de decir, ya que tengo una mente geométrica 🙂
- Respuesta de la clase (+1)
Respuesta
Solo para ilustrar la respuesta de Dilip: en las siguientes imágenes,
- los puntos negros son puntos de datos;
- a la izquierda, la línea negra es la línea de regresión obtenida por
y ~ x
, que minimiza los cuadrados de la longitud de los segmentos rojos; - a la derecha, la línea negra es la línea de regresión obtenida por
x ~ y
, que minimiza los cuadrados de la longitud de los segmentos rojos.
Editar (regresión de mínimos rectángulos)
Si no hay una forma natural de elegir una «respuesta» y una «covariable», sino que las dos variables son interdependientes, es posible que desee conservar un rol simétrico para $ y $ y $ x $ ; en este caso puedes usar «regresión de mínimos rectángulos».
- escribe $ Y = aX + b + \ epsilon $, como de costumbre;
- denota $ \ hat y_i = a x_i + b $ y $ \ hat x_i = {1 \ over a} (y_i – b) $ las estimaciones de $ Y_i $ condicional a $ X = x_i $ y de $ X_i $ condicional a $ Y = y_i $;
- minimizar $ \ sum_i | x_i – \ hat x_i | \ cdot | y_i – \ hat y_i | $, que conduce a $$ \ hat y = \ mathrm {signo} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$
Aquí hay una ilustración con los mismos puntos de datos, para cada punto, un «rectángulo» se calcula como el producto de la longitud de dos segmentos rojos y la suma de rectángulos es minimizado. No sé mucho sobre las propiedades de esta regresión y no encuentro mucho con Google.
Comentarios
- Algunas notas: ( 1 ) A menos que me equivoque, parece que el » La regresión de mínimos rectángulos » es equivalente a la solución obtenida al tomar el primer componente principal de la matriz $ \ mathbf X = (\ mathbf y, \ mathbf x) $ después de centrar y reescalar a tienen varianza unitaria y luego se sustituyen por retroceso. (cont.)
- (cont.) ( 2 ) Visto de esta manera, es fácil ver que este » rectángulos mínimos regresión » es equivalente a una forma de mínimos cuadrados ortogonales (o totales) y, por lo tanto, ( 3 ) Un caso especial de regresión de Deming en los vectores reescalados y centrados que toman $ \ delta = 1 $. Los mínimos cuadrados ortogonales pueden considerarse como » regresión de círculos mínimos «.
- @cardinal ¡Comentarios muy interesantes! (+1) Creo que el eje mayor (minimizando las distancias perpendiculares entre reg.línea y todos los puntos, à la PCA) o regresión reducida del eje mayor , o regresión tipo II como se ejemplifica en el paquete lmodel2 R de P Legendre, también son relevantes aquí, ya que esas técnicas se utilizan cuando ‘ es difícil de decir qué papel (respuesta o predictor) juega cada variable o cuándo queremos dar cuenta de los errores de medición.
- @chl: (+1) Sí, creo que tiene razón y la página de Wikipedia sobre mínimos cuadrados totales enumera varios otros nombres para el mismo procedimiento, no todos con los que estoy familiarizado. Parece remontarse al menos a R. Frisch, Análisis de confluencia estadística mediante sistemas de regresión completos , Universitetets Ø konomiske Instituut, 1934 donde se llamó regresión diagonal .
- @cardinal Debería haber tenido más cuidado al leer la entrada de Wikipedia … Por referencia futura, aquí hay una imagen tomada de Análisis y diseño bioestadístico con R , de M. Logan (Wiley, 2010; Fig. 8.4, p. 174), que resume los diferentes enfoques, al igual que las bonitas ilustraciones de Elvis ‘.
Respuesta
Solo una breve nota sobre por qué ve la pendiente más pequeña para una regresión. Ambas pendientes dependen de tres números: desviaciones estándar de $ x $ y $ y $ ($ s_ {x} $ y $ s_ {y} $), y correlación entre $ x $ y $ y $ ($ r $). La regresión con $ y $ como respuesta tiene pendiente $ r \ frac {s_ {y}} {s_ {x}} $ y la regresión con $ x $ como respuesta tiene pendiente $ r \ frac {s_ {x}} {s_ {y}} $, por lo tanto, la razón de la primera pendiente al recíproco de la segunda es igual a $ r ^ 2 \ leq 1 $.
Entonces, cuanto mayor sea la proporción de varianza explicada, más cerca estará pendientes obtenidas en cada caso. Tenga en cuenta que la proporción de varianza explicada es simétrica e igual a la correlación al cuadrado en la regresión lineal simple.
Respuesta
La línea de regresión es no (siempre) igual que la relación verdadera
Puede tener alguna relación causal «verdadera» como
$$ y = a + bx + \ epsilon $$
pero las líneas de regresión ajustadas y ~ x
o x ~ y
no significan lo mismo como esa relación causal (incluso cuando en la práctica la expresión de una de las líneas de regresión puede coincidir con la expresión de la relación causal «verdadera»)
Relación más precisa entre pendientes
Para dos regresiones lineales simples conmutadas:
$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$
puede relacionar las pendientes de la siguiente manera:
$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$
Entonces las pistas son no inversa entre sí.
Intuición
La razón es que
- Las líneas de regresión y las correlaciones no no corresponde necesariamente uno a uno a una relación causal.
- Las líneas de regresión se relacionan más directamente con una probabilidad condicional o la mejor predicción.
Puede imaginar que la probabilidad condicional se relaciona con la fuerza de la relación. Las líneas de regresión reflejan esto y las pendientes de las líneas pueden ser superficiales cuando la fuerza de la relación es pequeña o ambas empinadas cuando la fuerza de la relación es fuerte. Las pendientes no son simplemente inversas entre sí.
Ejemplo
Si dos variables $ X $ y $ Y $ se relacionan entre sí por alguna relación lineal (causal) $$ Y = \ text {un poco de $ X + $ mucho of error} $$ Entonces puede imaginar que no sería bueno revertir por completo esa relación en caso de que desee expresar $ X $ basado en un valor dado de $ Y $ .
En lugar de
$$ X = \ text {mucho $ Y + $ un poco de error} $$
sería mejor usar también
$$ X = \ text {un poco de $ Y + $ mucho error} $$
Vea las siguientes distribuciones de ejemplo con sus respectivas líneas de regresión.Las distribuciones son normales multivariadas con $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ y $ \ Sigma_ {12 } = \ Sigma_ {21} = \ rho $
Los valores esperados condicionales (lo que obtendría en una regresión lineal) son
$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$
y en este caso con $ X, Y $ una distribución normal multivariante, luego las distribuciones marginales son
$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$
Para que pueda ver la variable Y como un par t $ \ rho X $ y un ruido parcial con varianza $ 1- \ rho ^ 2 $ . Lo mismo es cierto al revés.
Cuanto mayor sea el coeficiente de correlación $ \ rho $ , más cercanas estarán las dos líneas. Pero cuanto menor sea la correlación, menos fuerte será la relación, menos pronunciadas serán las líneas (esto es cierto para ambas líneas Y ~ X
y X ~ Y
)
Comentarios
- Esa es una excelente explicación. Simple e intuitivo
Respuesta
Una forma simple de ver esto es notar que, si es verdad modelo $ y = \ alpha + \ beta x + \ epsilon $ , ejecuta dos regresiones:
- $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
- $ x = a_ {x \ sim y} + b_ {x \ sim y} y $
Entonces tenemos, usando $ b_ {y \ sim x } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :
$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$
Entonces, si obtienes una pendiente más pronunciada o no, solo depende de la proporción $ \ frac {var (y)} { var (x)} $ . Esta proporción es igual a, según el modelo verdadero supuesto:
$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$
Vincular con otras respuestas
Puede conectar este resultado con las respuestas de otros, quienes dijeron que cuando $ R ^ 2 = 1 $ , debería ser el recíproco. De hecho, $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ , y también, $ b_ {y \ sim x} = \ beta $ (sin error de estimación), por lo tanto:
$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$
Entonces $ b_ {x \ sim y} = 1 / \ beta $
Respuesta
Se vuelve interesante cuando también hay ruido en sus entradas (lo que podríamos argumentar es siempre el caso, ningún comando u observación es perfecto).
I han construido algunas simulaciones para observar el fenómeno, basadas en una relación lineal simple $ x = y $, con ruido gaussiano tanto en x como en y. Generé las observaciones de la siguiente manera (código Python):
x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)
Vea los diferentes resultados (odr aquí es una regresión de distancia ortogonal , es decir lo mismo que la regresión de rectángulos mínimos):
Todo el código está ahí:
https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd
Respuesta
La respuesta corta
El objetivo de una regresión lineal simple es llegar a las mejores predicciones del y
variable, dados los valores de la variable x
. Este es un objetivo diferente al de intentar obtener la mejor predicción de la variable x
, dados los valores de la variable y
.
La regresión lineal simple de y ~ x
le brinda el «mejor» modelo posible para predecir y
dado x
. Por lo tanto, si ajusta un modelo para x ~ y
y lo invierte algebraicamente, ese modelo, en su mejor momento, podría funcionar tan bien como el modelo para y ~ x
. Pero invertir un ajuste de modelo para x ~ y
normalmente funcionará peor en la predicción de y
dado x
, en comparación con el modelo «óptimo» y ~ x
, porque el «modelo x ~ y
invertido» se creó para cumplir un objetivo diferente.
Ilustración
Imagine que tiene el siguiente conjunto de datos:
Cuando ejecuta una regresión OLS de y ~ x
, obtiene el siguiente modelo
y = 0.167 + 1.5*x
Esto optimiza las predicciones de y
al realizar las siguientes predicciones, que tienen errores asociados:
Las predicciones de la regresión OLS son óptimas en el sentido de que La suma de los valores en la columna de la derecha (es decir, la suma de los cuadrados) es tan pequeña como puede ser.
Cuando ejecuta una regresión OLS de x ~ y
, crea un modelo diferente:
x = -0.07 + 0.64*y
Esto optimiza las predicciones de x haciendo las siguientes predicciones, con errores asociados.
De nuevo, esto es óptimo en el sentido de que la suma de los valores de la columna más a la derecha es lo más pequeña posible (igual a 0.071
).
Ahora, imagina que intentaste invertir el primer modelo, y = 0.167 + 1.5*x
, usando álgebra, dándote el modelo x = -0.11 + 0.67*x
.
Esto le daría las siguientes predicciones y errores asociados:
La suma de los valores en la columna más a la derecha es 0.074
, que es mayor que la suma correspondiente del modelo que se obtiene al hacer una regresión de x sobre y, es decir, el modelo x ~ y
. En otras palabras, el «modelo y ~ x
invertido» está haciendo un peor trabajo en la predicción de x que el modelo OLS de x ~ y
.