$ y $와 $ x $ 사이에 “진정한”관계가 있다고 가정하겠습니다. $ y = ax + b + \ epsilon $, 여기서 $ a $ 및 $ b $는 상수이고 $ \ epsilon $은 iid 일반 노이즈입니다. 해당 R 코드에서 무작위로 데이터를 생성 할 때 : x <- 1:100; y <- ax + b + rnorm(length(x)) 그런 다음 y ~ x와 같은 모델에 적합하면 분명히 $ a $ 및 $ b $에 대해 상당히 좋은 추정치를 얻습니다.

역할을 바꾸면 그러나 (x ~ y)에서와 같이 변수 중 $ y $에 대한 결과를 $ x $의 함수로 다시 작성하면 결과 기울기는 항상 더 가파 릅니다 (더 음수 또는 긍정) y ~ x 회귀 분석에 의해 추정 된 것보다. 나는 그 이유를 정확히 이해하려고 노력하고 있으며 누군가가 거기에서 무슨 일이 일어나고 있는지에 대한 직관을 줄 수 있다면 감사 할 것입니다. .

댓글

  • 그 ‘ 일반적으로 사실입니다. 아마도 ‘ 데이터에서이를보고있을 것입니다. 이 코드를 붙여 넣으십시오. y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); R에 여러 번 입력하면 ‘ 두 가지 방식으로 작동한다는 것을 알 수 있습니다.
  • 그 ‘ 나는 설명하고 있었다. 귀하의 예에서 y는 ‘ x의 함수가 전혀 아니 었으므로 ‘ 실제로는 ” slope ” (이 예에서는 ‘ a ‘).
  • lm (y ~ x)는 모델 $ y = \ beta_ {0} + \ beta_ {1} x + \ varepsilon $에 최소 제곱으로 적합합니다 (오류가 정상일 때 ML 추정과 동일). 슬로프가 있습니다.
  • stats.stackexchange.com/questions/13126 stats.stackexchange.com/questions/18434 . 그러나 나는 아직 아무도 (a) $ Y $ 대 $ X $의 회귀, (b) $ X $ 대 $ Y $의 회귀, (c) 상관 관계 분석 사이의 관계에 대해 간단하고 명확한 설명을 제공하지 않았다고 생각합니다. $ X $ 및 $ Y $의 (d) $ X $ 및 $ Y $의 변수 내 오류 회귀, (e) $ (X, Y) $에 이변 량 정규 분포 피팅. 이것은 그러한 설명을하기에 좋은 장소입니다 :-).
  • 물론 매크로가 맞습니다. x와 y가 질문에서 동등한 역할을하기 때문에 어느 기울기가 더 극단적 인 것은 우연의 문제입니다. 그러나 기하학은 회귀에서 x와 y를 반대로 할 때 원래 기울기의 recipocal 을 얻어야한다고 (잘못) 제안합니다. x와 y가 선형 의존적 일 때를 제외하고는 결코 발생하지 않습니다. 이 질문은 이유를 묻는 것으로 해석 될 수 있습니다.

답변

$ n $ 데이터 포인트 $ (x_i, y_i), i = 1,2, \ ldots n $, 평면에 직선 $ y = ax + b $를 그립니다. $ ax_i + b $를 $ y_i $의 $ \ hat {y} _i $ 값으로 예측하면 오류 는 $ (y_i- \ hat {y} _i) = (y_i- ax_i-b) $, 제곱 오차 는 $ (y_i-ax_i-b) ^ 2 $, 총 제곱 오차 $ \ sum_ {i = 1} ^ n (y_i-ax_i-b) ^ 2 $. 우리는

$ a $와 $ b $의 어떤 선택이 $ S = \ displaystyle \ sum_ {i = 1} ^ n (y_i-ax_i -b) ^ 2 $?

$ (y_i-ax_i-b) $는 $ (x_i, y_i) $의 수직 거리이므로 직선에서 점의 수직 거리 제곱의 합이 가능한 한 작도록 선을 요청합니다. 이제 $ S $는 $ a $ 및 $ b $의 2 차 함수이며 $ a $ 및 $ b $가 $$ \ begin {align *} \ frac {\ partial S} {\와 같을 때 최소값을 얻습니다. 부분 a} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (-x_i) & = 0 \\ \ frac {\ partial S} {\ partial b} & = 2 \ sum_ {i = 1} ^ n (y_i-ax_i-b) (-1) & = 0 \ end {align *} $$ 두 번째 방정식에서 $$ b = \ frac {1} {n} \ sum_ {i = 1} ^ n ( y_i-ax_i) = \ mu_y-a \ mu_x $$ 여기서 $ \ displaystyle \ mu_y = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i, ~ \ mu_x = \ frac {1} {n } \ sum_ {i = 1} ^ n x_i $는 각각 $ y_i $ “s 및 $ x_i $”s의 산술 평균 값입니다. 첫 번째 방정식에 대입하면 $$ a = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}. $$ 따라서 $ S $를 최소화하는 선은 $$ y = ax + b = \ mu_y + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2} \ right) (x -\ mu_x), $$ 및 $ S $의 최소값은 $$ S _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right ]-\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} { n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}.$$

$ x $와 $ y $의 역할을 바꾸면 $ x = \ hat {a} y + \ hat {b} $ 선을 그리고 $의 값을 요청합니다. $$ T = \ sum_ {i = 1} ^ n (x_i-\ hat {a} y_i-\ hat {b}) ^ 2, $$을 최소화하는 \ hat {a} $ 및 $ \ hat {b} $ 즉, 선에서 점의 수평 거리의 제곱의 합이 가능한 한 작은 선을 원합니다.

$$ x = \ hat {a} y + \ hat {b} = \ mu_x + \ left (\ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} \ right) (y-\ mu_y) $$ 및 최소값 $ T $ 중 $$ T _ {\ min} = \ frac {\ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2 \ right] \ left [\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2 \ right]-\ left [\ left (\ frac { 1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y \ right] ^ 2} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2}. $$

두 선 모두 $ (\ mu_x, \ mu_y) $ 지점을 통과하지만 기울기는 $$ a = \ frac { \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_ i \ right)-\ mu_x \ mu_y} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right)-\ mu_x ^ 2}, ~~ \ hat {a } ^ {-1} = \ frac {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ 2 \ right)-\ mu_y ^ 2} {\ left (\ frac {1 } {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} $$는 일반적으로 다릅니다. 실제로 @whuber가 주석에서 지적했듯이 모든 포인트 $ (x_i, y_i) $가 동일한 직선에있을 때 기울기는 동일합니다. 이를 보려면 $$ \ hat {a} ^ {-1}-a = \ frac {S _ {\ min}} {\ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_iy_i \ right)-\ mu_x \ mu_y} = 0 \ Rightarrow S _ {\ min} = 0 \ Rightarrow y_i = ax_i + b, i = 1,2, \ ldots, n. $$

댓글

  • 감사합니다! abs (correlation) < 1은 반대의 경우 기울기가 체계적으로 더 가파른 이유를 설명합니다.
  • (+ 1)하지만 그림만으로 답변을 추가했습니다. 당신이 방금 말한 것의 기하학적 인 마음을 가지고 있습니다. 🙂
  • 클래스 응답 (+1)

답변

Dilip의 대답을 설명하기 위해 다음 그림에서

  • 검은 점은 데이터 포인트입니다.
  • 왼쪽의 검은 색 선은 y ~ x에서 얻은 회귀선으로, 빨간색 세그먼트 길이의 제곱을 최소화합니다.
  • 오른쪽에있는 검은 색 선은 x ~ y에서 얻은 회귀선으로, 빨간색 세그먼트 길이의 제곱을 최소화합니다.

회귀선

편집 (최소 직사각형 회귀)

“응답”과 “공변량”을 선택하는 자연스러운 방법이 없지만 두 변수가 상호 의존적이라면 $ y $ 및 $ x $에 대한 대칭 역할을 보존 할 수 있습니다. ; 이 경우 “최소 사각형 회귀”를 사용할 수 있습니다.

  • 평상시처럼 $ Y = aX + b + \ epsilon $을 작성합니다.
  • $ \ hat y_i = a x_i + b $ and $ \ hat x_i = {1 \ over a} (y_i-b) $ $ Y_i $에 대한 조건부 추정치에서 $ X = x_i $ 및 $ X_i $에 대한 조건부 $ Y = y_i $;
  • $ \ sum_i 최소화 | x_i-\ hat x_i | \ cdot | y_i-\ hat y_i | $, $$ \ hat y = \ mathrm {sign} \ left (\ mathrm {cov} (x, y) \ right) {\ hat \ sigma_y \ over \ hat \ sigma_x} (x- \ overline x) + \ overline y. $$

다음은 동일한 데이터 포인트가있는 그림입니다. 각 포인트에 대해 “직사각형”은 두 개의 빨간색 세그먼트 길이의 곱으로 계산되고 직사각형의 합은 다음과 같습니다. 최소화. 이 회귀의 속성에 대해 많이 알지 못하며 Google에서 많이 찾을 수 없습니다.

최소 직사각형

댓글

  • 일부 참고 : ( 1 ) 제가 착각하지 않는 한 ” 최소 직사각형 회귀 분석 “은 중앙에 배치하고 크기를 다시 조정 한 후 행렬 $ \ mathbf X = (\ mathbf y, \ mathbf x) $에서 첫 번째 주성분을 취하여 얻은 해와 같습니다. 단위 차이가 있고 역 대체. (계속)
  • (계속) ( 2 ) 이렇게 보면이 ” 가장 작은 직사각형이라는 것을 쉽게 알 수 있습니다. 회귀 “는 직교 (또는 총) 최소 제곱 형식과 동일하므로 ( 3 ) $ \ delta = 1 $를 사용하는 중앙에 재조정 된 벡터에 대한 데밍 회귀 의 특별한 경우. 직교 최소 제곱은 ” 최소 원 회귀 “로 간주 할 수 있습니다.
  • @cardinal 매우 흥미로운 댓글입니다! (+1) 나는 장축을 믿습니다 (reg 사이의 수직 거리를 최소화합니다.선 및 모든 점, à la PCA) 또는 축소 된 주축 회귀 또는 다음과 같은 유형 II 회귀 P Legendre의 lmodel2 R 패키지도 여기서 관련이 있습니다. 이러한 기술은 ‘가 각 변수의 역할 (응답 또는 예측 자)이 어떤 역할 (응답 또는 예측 자)을 수행하는지 또는 언제 측정 오류를 설명해야하는지 알려주세요.
  • @chl : (+1) 네, 당신이 옳다고 믿습니다. 동일한 절차에 대해 몇 가지 다른 이름을 나열하지만 모두 익숙하지는 않습니다. 적어도 R. Frisch, 완전 회귀 시스템을 통한 통계적 합류 분석 , Universitetets Ø konomiske Instituut, 1934 년에는 대각선 회귀 라고 불렀습니다.
  • @cardinal Wikipedia 항목을 읽을 때 더주의해야했습니다. 향후 참조, 다음은 R을 사용한 생물 통계 설계 및 분석 에서 가져온 사진 입니다. , by M. Logan (Wiley, 2010; 그림 8.4, p. 174), Elvis ‘의 멋진 삽화처럼 다양한 접근 방식을 요약합니다.

li>

답변

한 회귀에서 기울기가 더 작은 이유에 대한 간략한 설명입니다. 두 기울기 모두 $ x $ 및 $ y $의 표준 편차 ($ s_ {x} $ 및 $ s_ {y} $)와 $ x $ 및 $ y $ ($ r $) 간의 상관 관계의 세 가지 숫자에 따라 달라집니다. $ y $를 응답으로 사용한 회귀는 기울기 $ r \ frac {s_ {y}} {s_ {x}} $를, 응답으로 $ x $를 사용한 회귀는 $ r \ frac {s_ {x}} {s_ {y}} $, 따라서 두 번째 기울기에 대한 첫 번째 기울기의 비율은 $ r ^ 2 \ leq 1 $와 같습니다.

설명 된 분산 비율이 클수록 각 경우에서 얻은 슬로프. 설명 된 분산 비율은 대칭이며 단순 선형 회귀의 제곱 상관과 같습니다.

답변

회귀선은 다음과 같습니다. (항상) 실제 관계와 같지 않음

$$ y = a + bx와 같은 “진정한”인과 관계가있을 수 있습니다. + \ epsilon $$

하지만 적합 회귀선 y ~ x 또는 x ~ y는 같은 의미가 아닙니다. 인과 관계로 (실제로 회귀선 중 하나에 대한 표현이 인과 적 “진정한”관계에 대한 표현과 일치 할 수도 있음)


기울기 간의보다 정확한 관계

2 개의 전환 된 단순 선형 회귀 :

$$ Y = a_1 + b_1 X \\ X = a_2 + b_2 Y $$

다음과 같이 슬로프를 연결할 수 있습니다.

$$ b_1 = \ rho ^ 2 \ frac {1} {b_2} \ leq \ frac {1} {b_2} $$

그래서 슬로프는 서로 반대로 아니라 .


직관

이유는

  • 회귀선과 상관 관계가 인과 관계에 반드시 일대일로 대응하는 것은 아닙니다 .
  • 회귀선은 조건부 확률 또는 최상의 예측과 더 직접적으로 관련됩니다.

조건부 확률이 관계의 강도와 관련이 있다고 상상할 수 있습니다. 회귀선은이를 반영하며, 관계의 강도가 작을 때는 선의 기울기가 둘 다 얕거나 관계의 강도가 강할 때는 둘 다 가파르기도합니다. 기울기는 단순히 서로 반대가 아닙니다.

두 변수 $ X $ $ Y $ 는 (인과 적) 선형 관계로 서로 관련됩니다. $$ Y = \ text {약간 $ X + $ 많이 of error} $$ 그러면 $ X $를 표현하려는 경우 해당 관계를 완전히 뒤집는 것이 좋지 않을 것이라고 상상할 수 있습니다. $ Y $ 의 주어진 값을 기반으로합니다.

대신

$$ X = \ text {많은 $ Y + $ 약간의 오류} $$

또한 사용하는 것이 좋습니다

$$ X = \ text {약간 $ Y + $ a lot of error} $$

각 회귀선.분포는 $ \ Sigma_ {11} \ Sigma_ {22} = 1 $ $ \ Sigma_ {12가있는 다변량 정규 분포입니다. } = \ Sigma_ {21} = \ rho $

예

조건부 기대 값 (선형 회귀에서 얻을 수있는 값)은 다음과 같습니다.

$$ \ begin {array} {} E (Y | X) & = & \ rho X \\ E (X | Y) & = & \ rho Y \ end {array} $$

그리고이 경우 $ X, Y $ 다변량 정규 분포이면 주변 분포는

$$ \ begin {array} {} Y & \ sim & N (\ rho X, 1- \ rho ^ 2) \\ X & \ sim & N (\ rho Y, 1- \ rho ^ 2) \ end {array} $$

그러면 변수 Y를 파로 간주 t $ \ rho X $ 및 분산이있는 부분 소음 $ 1- \ rho ^ 2 $ . 반대의 경우도 마찬가지입니다.

상관 계수 $ \ rho $ 가 클수록 두 선이 가까워집니다. 그러나 상관 관계가 낮을수록 관계가 약할수록 선이 덜 가파르게됩니다 (Y ~ XX ~ Y)

댓글

  • 훌륭한 설명입니다. 간단하고 직관적입니다.

답변

이를 확인하는 간단한 방법은 모델 $ y = \ alpha + \ beta x + \ epsilon $ , 두 가지 회귀를 실행합니다.

  • $ y = a_ {y \ sim x} + b_ {y \ sim x} x $
  • $ x = a_ {x \ sim y} + b_ {x \ sim y} y $

그런 다음 $ b_ {y \ sim x를 사용하여 } = \ frac {cov (x, y)} {var (x)} = \ frac {cov (x, y)} {var (y)} \ frac {var (y)} {var (x)} $ :

$$ b_ {y \ sim x} = b_ {x \ sim y} \ frac {var (y)} {var ( x)} $$

그러므로 경사가 더 가파른 지 아닌지는 비율에 따라 다릅니다. $ \ frac {var (y)} { var (x)} $ . 이 비율은 가정 된 실제 모델에 따라 다음과 같습니다.

$$ \ frac {var (y)} {var (x)} = \ frac { \ beta ^ 2 var (x) + var (\ epsilon)} {var (x)} $$

다른 답변과 연결

이 결과를 연결할 수 있습니다. $ R ^ 2 = 1 $ 일 때는 상호가되어야한다고 다른 사람들의 답변과 함께. 실제로 $ R ^ 2 = 1 \ Rightarrow var (\ epsilon) = 0 $ $ b_ {y \ sim x} = \ beta $ (추정 오류 없음), 따라서 :

$$ R ^ 2 = 1 \ Rightarrow b_ {y \ sim x} = b_ {x \ sim y} \ frac {\ beta ^ 2 var (x) + 0} {var (x)} = b_ {x \ sim y} \ beta ^ 2 $$

그래서 $ b_ {x \ sim y} = 1 / \ beta $

답변

입력에 노이즈가있을 때 흥미로워집니다 (항상 그렇다고 주장 할 수있는 명령이나 관찰이 완벽하지 않습니다).

I 간단한 선형 관계 $ x = y $를 기반으로 현상을 관찰하기 위해 몇 가지 시뮬레이션을 구축했으며 x와 y 모두에 가우스 잡음이 있습니다. 다음과 같이 관찰을 생성했습니다 (파이썬 코드) :

x = np.linspace(0, 1, n) y = x x_o = x + np.random.normal(0, 0.2, n) y_o = y + np.random.normal(0, 0.2, n) 

다른 결과를보십시오 (여기서 odr은 직교 거리 회귀입니다. 최소 직사각형 회귀와 동일) :

여기에 이미지 설명 입력

모든 코드가 있습니다.

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd

답변

간단한 답

단순 선형 회귀의 목표는 다음 항목에 대한 최상의 예측을내는 것입니다. y 변수 (x 변수의 값이 주어짐). 이는 y 변수의 값이 주어 졌을 때 x 변수를 가장 잘 예측하는 것과는 다른 목표입니다.

p>

y ~ x의 단순 선형 회귀는 iv id = “be6eaf0b05에서 y를 예측할 수있는”최상의 “가능한 모델을 제공합니다. “> . 따라서 x ~ y에 대한 모델을 맞추고 대수적으로 반전하면 해당 모델은 y ~ x. 그러나 x ~ y에 맞는 모델을 반전하면 일반적으로 x가 주어진 경우 y를 예측할 수 있습니다. “최적”y ~ x 모델과 비교하면 “반전 된 x ~ y 모델”이 다른 목표를 달성하기 위해 만들어 졌기 때문입니다.

그림

다음 데이터 세트가 있다고 가정 해보십시오.

입력 여기에 이미지 설명

y ~ x의 OLS 회귀를 실행하면 다음 모델이 나타납니다.

y = 0.167 + 1.5*x 

관련 오류가있는 다음 예측을 수행하여 y의 예측을 최적화합니다.

여기에 이미지 설명 입력

OLS 회귀의 예측은 다음과 같은 의미에서 최적입니다. 가장 오른쪽 열에있는 값의 합계 (예 : 제곱의 합)는 가능한 한 작습니다.

x ~ y의 OLS 회귀를 실행하면 다른 모델을 제시합니다.

x = -0.07 + 0.64*y 

관련 오류와 함께 다음 예측을 수행하여 x 예측을 최적화합니다.

이미지 설명 입력 여기에 이온

다시 말하지만 가장 오른쪽 열의 값의 합이 가능한 한 작다는 점에서 최적입니다 (0.071).

이제 대수학을 사용하여 첫 번째 모델 인 y = 0.167 + 1.5*x를 반전하여 모델 x = -0.11 + 0.67*x.

다음 예측 및 관련 오류를 제공합니다.

여기에 이미지 설명 입력

가장 오른쪽 열에있는 값의 합은 0.074이며, y에서 x를 회귀하여 얻은 모델, 즉 x ~ y 모델의 해당 합계. 즉, “반전 된 y ~ x 모델”은 x ~ y의 OLS 모델보다 x를 예측하는 데 더 나쁜 역할을합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다