우리 모두 알고 있듯이 로지스틱 회귀 모델을 평가하는 방법은 두 가지가 있으며 매우 테스트 중입니다. 다른 것
-
예측력 :
독립 변수를 기반으로 종속 변수를 얼마나 잘 예측할 수 있는지 측정하는 통계를 얻습니다. 잘 알려진 Pseudo R ^ 2는 McFadden (1974)과 Cox and Snell (1989)입니다.
-
적합도 통계
검정 모델을 더 복잡하게 만들어 더 잘할 수 있는지 여부를 알려주는 것입니다. 실제로 놓친 비선형 성이나 상호 작용이 있는지 테스트하는 것입니다.
구현했습니다. 이미 2 차 및 상호 작용을 추가 한 모델에 대한 두 테스트 모두
:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
예상 전력은 아래와 같고 MaFadden은 0.4004이며 0.2 ~ 0.4 사이의 값을 사용하여 모델에 매우 잘 맞도록해야합니다 (Louviere et al (2000), Domenich 및 McFadden (1975)) :
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
및 적합도 통계 :
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
내 이해대로 GOF는 실제로 다음과 같은 null 및 대립 가설을 테스트하고 있습니다.
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
모델이 상호 작용을 추가했기 때문에 이미 비선형 성과 p- 값이 H0을 거부해야한다는 것을 보여 주므로 내 모델에는 실제로 상호 작용, 비선형 성이 필요하다는 결론에 도달했습니다. 제 해석이 정확하길 바라며 미리 조언 해 주셔서 감사합니다.
댓글
- stats.stackexchange.com/questions/169000/ … 및 stats.stackexchange.com/questions/167483 / …
- HL 테스트의 p- 값보다 기본 테이블을 보는 것이 좋습니다. 또한 모델의 잔차 플롯에서도 마찬가지입니다. 문제가 어디에 있는지 보여줍니다.
- Hosmer-Lemeshow는 더 이상 사용되지 않는 것으로 간주됩니다. stats.stackexchange.com/questions/273966/ …
답변
해결해야 할 몇 가지 문제가 있습니다.
- $ R ^ 2 $ 측정 값 자체로는 적합도를 측정하지 않습니다. 그들은 주로 예측 차별을 측정합니다. 적합도는 $ R ^ 2 $를 더 풍부한 모델의 $ R ^ 2 $와 비교할 때만 얻을 수 있습니다.
- Hosmer-Lemeshow 테스트는 다음과 같은 특정 적합 결여가 아닌 전체 교정 오류에 대한 것입니다. 2 차 효과. 과적 합을 제대로 고려하지 않고 빈 선택과 분위수 계산 방법에 임의적이며 종종 너무 낮은 검정력을가집니다.
- 이러한 이유로 Hosmer-Lemeshow 테스트는 더 이상 권장되지 않습니다. Hosmer et al은 더 나은 d.f. 옴니버스 적합성 테스트는 R
rms
패키지residuals.lrm
기능으로 구현됩니다. - 모든 정사각형 및 상호 작용 항의 기여도를 공동 테스트 ( “청크”테스트에서)로 평가합니다.
- 하지만 모델을 지정하는 것이 좋습니다. 회귀 스플라인을 사용하여 선형성 가정을 완화하고 부트 스트랩을 사용하여 과적 합을 추정하고 과적 합이 수정 된 고분해능 부드러운 보정 곡선을 가져와 절대 정확도를 확인합니다. 이러한 작업은 R
rms
패키지를 사용하여 수행됩니다.
마지막 요점에서 저는 모델이 유연하다는 철학을 선호합니다 (샘플에 의해 제한됨). 어쨌든 우리는 “적합하지 않음”보다 “적합”에 더 중점을 둡니다.
댓글
- 한 가지 : 대부분 $ R ^ 2 $ 측정 값은 피팅 된 모델을 df를 만들지 않고 각 레코드에 대해 올바른 예측을 얻는 " 완벽한 모델 "과 비교합니다. / 과적 합 조정. +1.
- 예, ' 단지 우리가 완벽 해지기를 바라지 않기 때문에 $ 1라고 부르지 않습니다. R ^ {2} $ 부족 적합합니다.
답변
From Wikipedia :
이 테스트는 관찰 된 이벤트 비율이 모델 모집단의 하위 그룹에서 예상 이벤트 비율과 일치하는지 여부를 평가합니다. Hosmer–Lemeshow 검정은 특히 하위 그룹을 적합 위험 값의 십 분위수로 식별합니다. 하위 그룹에서 예상되는 이벤트 비율과 관찰 된 이벤트 비율이 유사한 모델을 잘 보정되었다고합니다.
의미 : 모델을 작성하여 모델을 채점 한 후 원하는 실제 이벤트 비율과 유사한 10 분위수에 분포되어 있는지 교차 확인합니다.
따라서 가설은
- $ H_0 $ : 실제 및 예상 이벤트 비율이 10에 걸쳐 유사합니다. 십진수
- $ H_1 $ : 동일하지 않습니다.
따라서 p -값이.05, 제대로 배포되지 않았으므로 모델을 수정해야합니다.
이 질문에 대한 답변이 되었기를 바랍니다.
Answer
이것은 @FrankHarrell “의 대답을 따르는 다소 의문이지만 H – L 테스트의 팬은 에도 불구하고 2 차 용어 포함 & 일부 † 2 차 상호 작용, 모델 여전히 는 상당한 적합성 결여를 보여주었습니다. &는 아마도 훨씬 더 복잡한 모델이 적절할 것임을 보여주었습니다. “당신은”당신이 지정한 모델의 적합성을 테스트하고 있습니다. 더 간단한 1 차 모델.
† 완전한 2 차 모델이 아닙니다. — 3 개가 있습니다. 이동합니다.