“X와 Y는 X 단독보다 Z에서 더 큰 분산 비율을 설명했습니다.”라는 문장의 의미는 무엇입니까?

보다 일반적으로, 모델이 종속 변수에서 “더 많은 변동을 설명”한다는 것은 무엇을 의미합니까? 이것은 확실히 “이것은 변수를 더 설명합니다”와 동일하지 않습니까?

이 기본에 대한 통찰력에 감사드립니다. 질문.

댓글

  • " 분산 설명 "는 " 변수를 설명하는 것처럼 " 모호하므로 ' ' (의미 적으로) 관련 될 가능성을 배제하지 마십시오. ANOVA / 회귀 출력을 해석하는 방법은 ' 오해의 소지가 있고 " 유용하지 않기 때문에 " 정보. " 운동이 혈압의 변화를 설명한다고 가정 해 보겠습니다. " .. 혈압을 운동하면 혈압의 가변성이 감소한다는 의미입니까? 사실, BP는 더 많은 변수가되는데, 그 이유는 한판 승부로 인해 내 BP가 증가하고 휴식 중 압력이 정상인 경향이 있기 때문입니다. 결과를 설명하는 더 좋은 방법이 있습니다.
  • 일반화 된 선형 모델 (glm) 태그를 다중 회귀로 대체했습니다. 이 질문은 편차와 제곱합의 차이를 참조하여 glms로 일반화 할 수 있지만 OP '의 의도는 아닌 것 같습니다.

답변

모델에 변수를 추가 할 때 (짧을수록 좋습니다!) 추가 된 변수가 추가되는 경우 일부 설명력을 추가하면 모델 적합성이 증가합니다 (즉, 모델이 추정되는 표본에서 종속 변수를 예측하는 전체 모델의 용량). 그러나 더 많은 변수를 추가하면 과적 합의 위험이 높아집니다 (예 : 추정되는 샘플 내에서 높은 적합도를 가진 모델을 빌드하고 다른 샘플에서 사용하면 예측 성능이 저하됨). 따라서 시간이 지남에 따라 모델 적합도에 대해 추정 할 모수 수의 균형을 맞추는 일부 사양 기준이 도입되었으므로 결과적으로 모드 적합이 증가 할 때 변수 (및 따라서 추정 할 모수)의 추가가 권장되지 않을 수 있습니다. 매개 변수 페널티에 비해 충분히 높지 않습니다.

“보다 일반적으로, 모델이 종속 변수에서”더 많은 변동을 설명 “할 때 의미하는 바는 무엇입니까? “이것은 변수를 설명합니다”더? ” 회귀와 같은 기본 모델에서 종속 변수의 분산이 모델에 의해 설명되고 잔차로 설명이 적을수록 모델이 더 좋습니다 (단어 사용) “종속 변수를 더 많이 설명합니다”

답변

귀하의 질문에 답할 모델에 대해 생각해야하므로 선형 모델을 가정 해 보겠습니다. 편의를 위해 분산 대신 제곱 편차의 합을 사용하십시오. 분산을 번역하려면 제곱합을 $ N-1 $ 로 나눕니다.

$ Z = (z_1, …, z_N) $ 데이터가됩니다. 제곱 편차의 합계 $ \ sum_ {i = 1} ^ N (z_i-\ bar {z}) ^ 2 $ 입니다. $ Z $ $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y +로 추정하기로 결정한 경우 \ varepsilon $ , 그러면 추정치 $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ for $ Z $ ; 그 평균은 $ Z $ “의 평균과 동일합니다.

$ \ hat {Z} $ $ Z $ 보다 작습니다. 직관적으로 줄에 있도록 제한했기 때문입니다. 분산은 데이터가 정확히 선형 인 경우에만 동일합니다. 따라서이 추정값으로 $ Z $ 를 캡처하려고하면 m $ Z $ 의> 변형 . 따라서 더 많은 분산 $ \ hat {Z} $ 캡처할수록 데이터가 정확히 선형에 가깝습니다.

다음 ID 보류 (ANOVA 분해라고 함) :

$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i-\ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i-\ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i-\ bar {z}) ^ 2} _ {ESS} $$

따라서 $ Z $ 의 총 제곱합 (TSS)은 적합 데이터의 (정규화되지 않은) 분산 인 설명 제곱합 (ESS)으로 나뉩니다. . 이것이 “설명 된 분산”입니다. 잔차 제곱합 (RSS)은 실제 데이터가 피팅 된 데이터와 여전히 얼마나 다른지, 즉 “설명되지 않은 분산”입니다. 설명되거나 설명되지 않은 분산의 비율을 얻으려면 TSS로 나눌 수 있습니다. 설명 된 분산의 비율 인 $ ESS / TSS $ $ R ^ 2 $ 값 및 측정이라고합니다. 적합의 질.

설명 / 설명되지 않은 분산의 언어는 “항상 유용하지는 않습니다. 실제로 선형 회귀와 PCA에서만 볼 수 있습니다. 또한 가능한 한 많은 분산을 설명하는 것은 최선의 생각이 아닙니다.” 예측을하고 싶다면 이것은 과적 합이기 때문입니다. 능선 회귀와 같은 작업을 수행하면 “분산을 덜 설명”하는 편향된 추정치를 얻을 수 있습니다. 데이터의 $ R ^ 2 $ 는 더 나빠질 것입니다. -하지만 능선 회귀를 수행하는 이유는 테스트 오류가 일반적으로 더 좋기 때문입니다.

(예측의 경우 ANOVA 분해보다 더 중요한 것은 편향 분산 분해입니다.)

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다