단순 선형 회귀에서 응답 및 설명 변수 전환의 효과

Question

$ y $와 $ x $ 사이에 “진정한”관계가 있다고 가정하겠습니다. $ y = ax + b + \ epsilon $, 여기서 $ a $ 및 $ b $는 상수이고 $ \ epsilon $은 iid 일반 노이즈입니다. 해당 R 코드에서 무작위로 데이터를 생성 할 때 : x <- 1:100; y <- ax + b + rnorm(length(x)) 그런 다음 y ~ x와 같은 모델에 적합하면 분명히 $ a $ 및 $ b $에 대해 상당히 좋은 추정치를 얻습니다.

역할을 바꾸면 그러나 (x ~ y)에서와 같이 변수 중 $ y $에 대한 결과를 $ x $의 함수로 다시 작성하면 결과 기울기는 항상 더 가파 릅니다 (더 음수 또는 긍정) y ~ x 회귀 분석에 의해 추정 된 것보다. 나는 그 이유를 정확히 이해하려고 노력하고 있으며 누군가가 거기에서 무슨 일이 일어나고 있는지에 대한 직관을 줄 수 있다면 감사 할 것입니다. .

그 ‘ 일반적으로 사실입니다. 아마도 ‘ 데이터에서이를보고있을 것입니다. 이 코드를 붙여 넣으십시오. y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R에 여러 번 입력하면 ‘ 두 가지 방식으로 작동한다는 것을 알 수 있습니다.
그 ‘ 나는 설명하고 있었다. 귀하의 예에서 y는 ‘ x의 함수가 전혀 아니 었으므로 ‘ 실제로는 ” slope ” (이 예에서는 ‘ a ‘).
lm (y ~ x)는 모델 $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $에 최소 제곱으로 적합합니다 (오류가 정상일 때 ML 추정과 동일). 슬로프가 있습니다.
stats.stackexchange.com/questions/13126 및 stats.stackexchange.com/questions/18434 . 그러나 나는 아직 아무도 (a) $ Y $ 대 $ X $의 회귀, (b) $ X $ 대 $ Y $의 회귀, (c) 상관 관계 분석 사이의 관계에 대해 간단하고 명확한 설명을 제공하지 않았다고 생각합니다. $ X $ 및 $ Y $의 (d) $ X $ 및 $ Y $의 변수 내 오류 회귀, (e) $ (X, Y) $에 이변 량 정규 분포 피팅. 이것은 그러한 설명을하기에 좋은 장소입니다 :-).
물론 매크로가 맞습니다. x와 y가 질문에서 동등한 역할을하기 때문에 어느 기울기가 더 극단적 인 것은 우연의 문제입니다. 그러나 기하학은 회귀에서 x와 y를 반대로 할 때 원래 기울기의 recipocal 을 얻어야한다고 (잘못) 제안합니다. x와 y가 선형 의존적 일 때를 제외하고는 결코 발생하지 않습니다. 이 질문은 이유를 묻는 것으로 해석 될 수 있습니다.

Answer 1

$ n $ 데이터 포인트 $ (x_i, y_i), i = 1,2, \ ldots n $, 평면에 직선 $ y = ax + b $를 그립니다. $ ax_i + b $를 $ y_i $의 $ \ hat {y} _i $ 값으로 예측하면 오류 는 $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, 제곱 오차 는 $ (y_i-ax_i-b) ^ 2 $, 총 제곱 오차 $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. 우리는

$ a $와 $ b $의 어떤 선택이 $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

$ (y_i-ax_i-b) $는 $ (x_i, y_i) $의 수직 거리이므로 직선에서 점의 수직 거리 제곱의 합이 가능한 한 작도록 선을 요청합니다. 이제 $ S $는 $ a $ 및 $ b $의 2 차 함수이며 $ a $ 및 $ b $가 $$ \ begin {align *} \ frac {\ partial S} {\와 같을 때 최소값을 얻습니다. 부분 a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (-x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (-1) & = 0 \ end {align *} $$ 두 번째 방정식에서 $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i-ax_i) = \ mu_y-a \ mu_x $$ 여기서 $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $는 각각 $ y_i $ “s 및 $ x_i $”s의 산술 평균 값입니다. 첫 번째 방정식에 대입하면 $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}. $$ 따라서 $ S $를 최소화하는 선은 $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2} \ right) (x -\ mu_x), $$ 및 $ S $의 최소값은 $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right ]-\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}.$$

$ x $와 $ y $의 역할을 바꾸면 $ x = \ hat {a} y + \ hat {b} $ 선을 그리고 $의 값을 요청합니다. $$ T = \ sum_ {i = 1} ^ n (x_i-\ hat {a} y_i-\ hat {b}) ^ 2, $$을 최소화하는 \ hat {a} $ 및 $ \ hat {b} $ 즉, 선에서 점의 수평 거리의 제곱의 합이 가능한 한 작은 선을 원합니다.

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} \ right) (y-\ mu_y) $$ 및 최소값 $ T $ 중 $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right]-\ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2}. $$

두 선 모두 $ (\ mu_x, \ mu_y) $ 지점을 통과하지만 기울기는 $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}, ~~ \ hat {a } ^ {-1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} $$는 일반적으로 다릅니다. 실제로 @whuber가 주석에서 지적했듯이 모든 포인트 $ (x_i, y_i) $가 동일한 직선에있을 때 기울기는 동일합니다. 이를 보려면 $$ \ hat {a} ^ {-1}-a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

검은 점은 데이터 포인트입니다.
왼쪽의 검은 색 선은 y ~ x에서 얻은 회귀선으로, 빨간색 세그먼트 길이의 제곱을 최소화합니다.
오른쪽에있는 검은 색 선은 x ~ y에서 얻은 회귀선으로, 빨간색 세그먼트 길이의 제곱을 최소화합니다.

회귀선

편집 (최소 직사각형 회귀)

“응답”과 “공변량”을 선택하는 자연스러운 방법이 없지만 두 변수가 상호 의존적이라면 $ y $ 및 $ x $에 대한 대칭 역할을 보존 할 수 있습니다. ; 이 경우 “최소 사각형 회귀”를 사용할 수 있습니다.

평상시처럼 $ Y = aX + b + \ epsilon $을 작성합니다.
$ \ hat y_i = a x_i + b $ and $ \ hat x_i = {1 \ over a} (y_i-b) $ $ Y_i $에 대한 조건부 추정치에서 $ X = x_i $ 및 $ X_i $에 대한 조건부 $ Y = y_i $;
$ \ sum_i 최소화 | x_i-\ hat x_i | \ cdot | y_i-\ hat y_i | $, $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

다음은 동일한 데이터 포인트가있는 그림입니다. 각 포인트에 대해 “직사각형”은 두 개의 빨간색 세그먼트 길이의 곱으로 계산되고 직사각형의 합은 다음과 같습니다. 최소화. 이 회귀의 속성에 대해 많이 알지 못하며 Google에서 많이 찾을 수 없습니다.

최소 직사각형

일부 참고 : ( 1 ) 제가 착각하지 않는 한 ” 최소 직사각형 회귀 분석 “은 중앙에 배치하고 크기를 다시 조정 한 후 행렬 $ \ mathbf X = (\ mathbf y, \ mathbf x) $에서 첫 번째 주성분을 취하여 얻은 해와 같습니다. 단위 차이가 있고 역 대체. (계속)
(계속) ( 2 ) 이렇게 보면이 ” 가장 작은 직사각형이라는 것을 쉽게 알 수 있습니다. 회귀 “는 직교 (또는 총) 최소 제곱 형식과 동일하므로 ( 3 ) $ \ delta = 1 $를 사용하는 중앙에 재조정 된 벡터에 대한 데밍 회귀 의 특별한 경우. 직교 최소 제곱은 ” 최소 원 회귀 “로 간주 할 수 있습니다.
@cardinal 매우 흥미로운 댓글입니다! (+1) 나는 장축을 믿습니다 (reg 사이의 수직 거리를 최소화합니다.선 및 모든 점, à la PCA) 또는 축소 된 주축 회귀 또는 다음과 같은 유형 II 회귀 P Legendre의 lmodel2 R 패키지도 여기서 관련이 있습니다. 이러한 기술은 ‘가 각 변수의 역할 (응답 또는 예측 자)이 어떤 역할 (응답 또는 예측 자)을 수행하는지 또는 언제 측정 오류를 설명해야하는지 알려주세요.
@chl : (+1) 네, 당신이 옳다고 믿습니다. 동일한 절차에 대해 몇 가지 다른 이름을 나열하지만 모두 익숙하지는 않습니다. 적어도 R. Frisch, 완전 회귀 시스템을 통한 통계적 합류 분석 , Universitetets Ø konomiske Instituut, 1934 년에는 대각선 회귀 라고 불렀습니다.
@cardinal Wikipedia 항목을 읽을 때 더주의해야했습니다. 향후 참조, 다음은 R을 사용한 생물 통계 설계 및 분석 에서 가져온 사진 입니다. , by M. Logan (Wiley, 2010; 그림 8.4, p. 174), Elvis ‘의 멋진 삽화처럼 다양한 접근 방식을 요약합니다.

Answer 3

한 회귀에서 기울기가 더 작은 이유에 대한 간략한 설명입니다. 두 기울기 모두 $ x $ 및 $ y $의 표준 편차 ($ s_ {x} $ 및 $ s_ {y} $)와 $ x $ 및 $ y $ ($ r $) 간의 상관 관계의 세 가지 숫자에 따라 달라집니다. $ y $를 응답으로 사용한 회귀는 기울기 $ r \ frac {s_ {y}} {s_ {x}} $를, 응답으로 $ x $를 사용한 회귀는 $ r \ frac {s_ {x}} {s_ {y}} $, 따라서 두 번째 기울기에 대한 첫 번째 기울기의 비율은 $ r ^ 2 \ leq 1 $와 같습니다.

설명 된 분산 비율이 클수록 각 경우에서 얻은 슬로프. 설명 된 분산 비율은 대칭이며 단순 선형 회귀의 제곱 상관과 같습니다.

Answer 4

회귀선은 다음과 같습니다. (항상) 실제 관계와 같지 않음

$$ y = a + bx와 같은 “진정한”인과 관계가있을 수 있습니다. + \ epsilon $$

하지만 적합 회귀선 y ~ x 또는 x ~ y는 같은 의미가 아닙니다. 인과 관계로 (실제로 회귀선 중 하나에 대한 표현이 인과 적 “진정한”관계에 대한 표현과 일치 할 수도 있음)

기울기 간의보다 정확한 관계

2 개의 전환 된 단순 선형 회귀 :

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

다음과 같이 슬로프를 연결할 수 있습니다.

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

그래서 슬로프는 서로 반대로 아니라 .

직관

이유는

회귀선과 상관 관계가 인과 관계에 반드시 일대일로 대응하는 것은 아닙니다 .
회귀선은 조건부 확률 또는 최상의 예측과 더 직접적으로 관련됩니다.

조건부 확률이 관계의 강도와 관련이 있다고 상상할 수 있습니다. 회귀선은이를 반영하며, 관계의 강도가 작을 때는 선의 기울기가 둘 다 얕거나 관계의 강도가 강할 때는 둘 다 가파르기도합니다. 기울기는 단순히 서로 반대가 아닙니다.

예

두 변수 $ X $ 및 $ Y $ 는 (인과 적) 선형 관계로 서로 관련됩니다. $$ Y = \ text {약간 $ X + $ 많이 of error} $$ 그러면 $ X $를 표현하려는 경우 해당 관계를 완전히 뒤집는 것이 좋지 않을 것이라고 상상할 수 있습니다. $ Y $ 의 주어진 값을 기반으로합니다.

대신

$$ X = \ text {많은 $ Y + $ 약간의 오류} $$

또한 사용하는 것이 좋습니다

$$ X = \ text {약간 $ Y + $ a lot of error} $$

각 회귀선.분포는 $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ 및 $ \ Sigma_ {12가있는 다변량 정규 분포입니다. } = \ Sigma_ {21} = \ rho $

조건부 기대 값 (선형 회귀에서 얻을 수있는 값)은 다음과 같습니다.

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

그리고이 경우 $ X, Y $ 다변량 정규 분포이면 주변 분포는

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

그러면 변수 Y를 파로 간주 t $ \ rho X $ 및 분산이있는 부분 소음 $ 1- \ rho ^ 2 $ . 반대의 경우도 마찬가지입니다.

상관 계수 $ \ rho $ 가 클수록 두 선이 가까워집니다. 그러나 상관 관계가 낮을수록 관계가 약할수록 선이 덜 가파르게됩니다 ( 두 선 Y ~ X 및 X ~ Y)

다른 답변과 연결

이 결과를 연결할 수 있습니다. $ R ^ 2 = 1 $ 일 때는 상호가되어야한다고 다른 사람들의 답변과 함께. 실제로 $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ 및 $ b_ {y \ sim x} = \ beta $ (추정 오류 없음), 따라서 :

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

그래서 $ b_ {x \ sim y} = 1 / \ beta $

Answer 6

입력에 노이즈가있을 때 흥미로워집니다 (항상 그렇다고 주장 할 수있는 명령이나 관찰이 완벽하지 않습니다).

I 간단한 선형 관계 $ x = y $를 기반으로 현상을 관찰하기 위해 몇 가지 시뮬레이션을 구축했으며 x와 y 모두에 가우스 잡음이 있습니다. 다음과 같이 관찰을 생성했습니다 (파이썬 코드) :

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n)

다른 결과를보십시오 (여기서 odr은 직교 거리 회귀입니다. 최소 직사각형 회귀와 동일) :

모든 코드가 있습니다.

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

Answer 7

간단한 답

단순 선형 회귀의 목표는 다음 항목에 대한 최상의 예측을내는 것입니다. y 변수 (x 변수의 값이 주어짐). 이는 y 변수의 값이 주어 졌을 때 x 변수를 가장 잘 예측하는 것과는 다른 목표입니다.

댓글

답변

댓글

답변

댓글

답변

답변

회귀선은 다음과 같습니다. (항상) 실제 관계와 같지 않음

기울기 간의보다 정확한 관계

직관

예

댓글

답변

다른 답변과 연결

답변

답변

간단한 답

그림

답글 남기기 답글 취소하기