다음 용어의 선형 회귀 컨텍스트와 관련하여 의미의 차이에 대해 정말 혼란 스럽습니다.

  • F 통계
  • R 제곱
  • 잔여 표준 오류

이 웹 사이트 이는 선형 회귀와 관련된 다양한 용어에 대한 훌륭한 통찰력을 제공했지만 위에서 언급 한 용어는 상당히 많이 보입니다 (내가 이해하는 한). 내가 읽은 내용과 혼란스러운 내용을 인용하겠습니다.

잔류 표준 오차는 선형 회귀 피팅의 품질을 측정 한 것입니다 ……. 잔차 표준 오차는 반응의 평균 양입니다. )는 실제 회귀선에서 벗어납니다.

1. 이것은 실제로 필름 라인에서 관찰 된 값의 평균 거리입니까?

R 제곱 통계는 모델이 실제 데이터에 얼마나 잘 맞는지 확인합니다.

2. 이제 RSE가 관측 된 점이 회귀선에서 얼마나 멀리 벗어나는지 알려 주면 낮은 RSE가 실제로”관측 된 데이터 점을 기반으로 모델이 잘 적합합니다 “라고 알려주기 때문에 혼란 스럽습니다. > 따라서 모델이 얼마나 잘 맞는지, 그렇다면 R 제곱과 RSE의 차이점은 무엇입니까?

F- 통계는 예측 변수와 반응 변수 사이에 관계가 있는지 여부를 나타내는 좋은 지표입니다.

3. F 값을 가질 수 있다는 것이 사실입니까? RSE가 높고 R 제곱이 낮도록 비선형 인 강한 관계

Comments

  • Q 3 Fvalue는 비선형 관계를 나타내지 않습니다. . 종속 변수와 독립 변수 사이에 실질적 (상수) 관계가 있는지 여부를 나타내는 비율입니다.
  • 비선형 또는 선형 관계의 본질을 알려주지 않습니다.

답변

이러한 용어를 이해하는 가장 좋은 방법은 회귀 계산을 직접 수행하는 것입니다. 밀접하게 관련된 두 가지 답변 ( 여기 여기 )을 작성했지만 완전히 도움이되지 않을 수 있습니다. 당신은 당신의 특별한 경우를 이해합니다. 그러나 그럼에도 불구하고 읽어보십시오. 아마도 그들은 이러한 용어를 더 잘 개념화하는 데 도움이 될 것입니다.

회귀 (또는 ANOVA)에서 우리는 관심 집단의 결과를 예측할 수있는 샘플 데이터 세트를 기반으로 모델을 구축합니다. 이를 위해 다음 세 가지 구성 요소는 다른 구성 요소를 계산할 수있는 간단한 선형 회귀로 계산됩니다. 평균 제곱, F- 값, $ R ^ 2 $ (조정 된 $ R ^ 2 $ ) 및 잔류 표준 오차 ( $ RSE $ ) :

  1. 총 제곱합 ( $ SS_ {total} $ )
  2. 잔여 제곱합 ( $ SS_ {residual} $ )
  3. 모델 제곱합 ( $ SS_ {model} $ )

각 팀은 모델은 데이터를 설명하며 데이터 포인트에서 피팅 된 모델까지의 거리 제곱의 합입니다 (아래 그림에서 빨간색 선으로 표시됨).

$ SS_ {total} $ 은 평균이 데이터에 얼마나 적합한 지 평가합니다. 왜 그럴까요? 평균은 우리가 맞출 수있는 가장 단순한 모델이기 때문에 최소 제곱 회귀선이 비교되는 모델 역할을합니다. cars 데이터 세트를 사용하는이 플롯은 다음을 보여줍니다.

이미지 설명 입력 여기

$ SS_ {residual} $ 는 회귀선이 데이터에 얼마나 적합한 지 평가합니다.

여기에 이미지 설명 입력

$ SS_ {model} $ 은 회귀선이 평균과 비교하여 얼마나 더 나은지 비교합니다 (즉, $ SS_ {total} $ $ SS_ {residual} $ ).

여기에 이미지 설명 입력

질문에 답변하려면 , 먼저 모델로 시작하여 이해하고 싶은 용어를 계산하고 참조로 출력합니다.

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

제곱합은 다음의 제곱 거리입니다. 개별 데이터 포인트 :

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

평균 제곱은 자유도에 의해 평균화 된 제곱의 합입니다.

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

질문에 대한 내 답변 :

Q1 :

  1. 따라서 이것은 실제로 필름 라인에서 관찰 된 값의 평균 거리?

잔여 표준 오차 ( $ RSE $ )는 잔여 평균 제곱 ( $ MS_ {r esidual} $ ) :

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

$ SS_ {residual} $ 은 관측 된 데이터 포인트와 모델 (위 두 번째 플롯의 회귀선)의 제곱 거리였으며 $ MS_ {residual} $ 평균 $ SS_ {residual} $ , 첫 번째 답변 질문은 예입니다. $ RSE $ 는 모델에서 관찰 된 데이터의 평균 거리를 나타냅니다. 직관적으로도 거리가 좁 으면 모델 적합성도 더 좋아지기 때문에이 방법도 완벽합니다.

Q2 :

  1. 이제 RSE가 관찰 된 지점이 RSE가 낮은 회귀선은 실제로 “관측 된 데이터 포인트를 기반으로 모델이 잘 적합 함”을 나타냅니다.-> 따라서 모델이 얼마나 적합한 지, 그렇다면 R 제곱과 RSE의 차이는 무엇입니까?

이제 $ R ^ 2 $ $ SS_ {model} $ $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

$ R ^ 2 $ 는 데이터의 총 변동 중 모델이 설명 할 수있는 정도를 나타냅니다 (회귀 총 변동은 데이터의 변동이라는 것을 기억하십시오. 가장 단순한 모델을 데이터, 즉 평균에 맞출 때. $ SS_ {total} $ 플롯을 $ SS_ {model} $ 플롯과 비교합니다.

두 번째 질문에 대답하기 위해 $ RSE $ $ R ^ 2 $ <의 차이점 / span>은 $ RSE $ 가 관찰 된 데이터가 주어진 경우 모델 (이 경우 회귀선)의 부정확성에 대해 알려줍니다.

반면에 $ R ^ 2 $ 는 모델 (즉, 회귀선)에 의해 설명 된 변동과 비교하여 얼마나 많은 변동이 설명되는지 알려줍니다. 단독으로 의미합니다 (즉, 가장 단순한 모델).

Q3 :

  1. RSE가 높고 R 제곱이 낮도록 비 선형 인 강한 관계를 나타내는 F 값을 가질 수 있다는 것이 사실입니까?

그래서 그는 $ F $ -값은 모델 평균 제곱 $ MS_ {model} $ 으로 계산됩니다. (또는 신호)를 $ MS_ {residual} $ (노이즈)로 나눈 값 :

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

즉, $ F $ -값은 모델의 부정확성을 고려할 때 평균에 비해 모델이 얼마나 개선되었는지를 나타냅니다.

세 번째 질문은 이해하기 어렵지만 제공하신 견적에 동의합니다.

답변

(2 ) 당신은 그것을 정확하게 이해하고 있으며, 당신은 개념에 어려움을 겪고 있습니다.

$ R ^ 2 $ 값은 모델이 모든 데이터를 얼마나 잘 설명하는지 나타냅니다. 0에서 1 사이의 값만 사용할 수 있습니다. 모델이 설명 할 수있는 데이터 세트의 포인트 편차의 백분율입니다.

RSE는 편차가 무엇인지에 대한 설명자에 가깝습니다. 원본 데이터가 나타내는 모델. 따라서 $ R ^ 2 $는 “모델이 제시된 데이터를 잘 설명합니다.”라고 말합니다. RSE는 “매핑되었을 때 데이터가 여기에있을 것으로 예상했지만 실제로는 여기에 있습니다.”라고 말합니다. 그것들은 매우 유사하지만 다른 방식으로 검증하는 데 사용됩니다.

답변

위에서 Chris가 답한 내용을 보완하기 위해 :

F- 통계는 모델 평균 제곱과 잔차 평균 제곱. 회귀 모델을 피팅 한 후 Stata와 같은 소프트웨어는 F- 통계와 관련된 p- 값도 제공합니다. 이를 통해 모델의 계수가 0이라는 귀무 가설을 테스트 할 수 있습니다.이를 “모델 전체의 통계적 유의성”이라고 생각할 수 있습니다.

답변

이 다른 답변 에서 지적했듯이 $ F $ , $ RSS $ $ R ^ 2 $ 는 모두 상호 연관되어 있습니다. 관련 발췌 :

두 모델 간의 F- 통계, null 모델 (절편 만 해당) $ m_0 $ 및 대체 모델 $ m_1 $ ( $ m_0 $ 은 (는) $ m_1 $ ) :

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ 는 다음과 같이 정의됩니다.

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

$ F $ 다음을 확인할 수 있습니다.

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다