ご存知のとおり、ロジスティック回帰モデルを評価する方法は2つあり、非常にテストされています。さまざまなもの
-
予測力:
独立変数に基づいて従属変数をどれだけうまく予測できるかを測定する統計を取得します。よく知られている疑似R ^ 2は、McFadden(1974)とCox and Snell(1989)です。
-
適合度統計
テストは、モデルをより複雑にすることでさらに改善できるかどうかを示しています。これは、見逃した非線形性や相互作用があるかどうかを実際にテストしています。
実装しました二次と交互作用をすでに追加した私のモデルの両方のテスト
:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
予測される検出力は次のとおり、MaFaddenは0.4004、モデルの適合度を示すには、0.2〜0.4の値を使用する必要があります(Louviere et al(2000)、Domenich and McFadden(1975)):
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
および適合度統計:
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
私の理解として、GOFは実際に次のnullおよび対立仮説をテストしています。
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
モデルが相互作用を追加したため、すでに非線形性があり、p値はH0を拒否する必要があることを示しています。私のモデルには相互作用、確かに非線形性が必要であるという結論に達しました。私の解釈が正しいことを願っています。事前にアドバイスをありがとうございます。
コメント
- stats.stackexchange.com/questions/169000/ … および stats.stackexchange.com/questions/167483 / …
- HLテストのp値よりも、基になるテーブルを確認する方が適切です。また、モデルからの残差のプロットでも。これにより、問題がどこにあるかがわかります。
- Hosmer-Lemeshowは廃止されたと見なされます: stats.stackexchange.com/questions/273966/ …
回答
対処すべき問題がいくつかあります。
- $ R ^ 2 $の測定値は、それ自体では適合度を測定することはありません。それらは主に予測的識別を測定します。適合度は、$ R ^ 2 $をより豊富なモデルの$ R ^ 2 $と比較することによってのみ得られます
- Hosmer-Lemeshowテストは、全体的なキャリブレーションエラーに対するものであり、次のような特定の適合度の欠如に対するものではありません。二次効果。過剰適合を適切に考慮せず、ビンの選択と分位数の計算方法に恣意的であり、電力が低すぎることがよくあります。
- これらの理由から、ホスマー・レメショー検定は推奨されなくなりました。 Hosmer etalはより良いd.fを持っています。 R
rms
パッケージresiduals.lrm
関数に実装された適合度のオムニバステスト。 - 適合度は次のとおりです。すべての二乗項と交互作用項の寄与を(「チャンク」テストで)共同でテストすることによって評価されます。
- ただし、モデルを指定して、前もって適合しやすくすることをお勧めします(特に回帰スプラインを使用して線形性の仮定を緩和し、ブートストラップを使用して過剰適合を推定し、過剰適合を修正した高解像度の滑らかな検量線を取得して絶対精度を確認します。これらは、R
rms
パッケージを使用して行われます。
最後の点として、モデルは柔軟であるという哲学を好みます(サンプルによって制限されます)。サイズ、とにかく)そして私たちは「適合性の欠如」よりも「適合性」に重点を置いています。
コメント
- 1つだけ:ほとんどの$ R ^ 2 $メジャーは、適合モデルを"完全モデル"と比較しています。これにより、dfを作成せずに各レコードの予測が正しく行われます。 /過剰適合調整。私から+1します。
- はい、'完璧になることを決して望んでいないので、$ 1とは呼ばないでしょう-R ^ {2} $不足
回答
このテストでは、観測されたイベント率がモデル母集団のサブグループで予想されるイベント率と一致するかどうかを評価します。 Hosmer-Lemeshow検定は、サブグループを適合リスク値の十分位数として具体的に識別します。サブグループで予想されるイベント率と観測されるイベント率が類似しているモデルは、適切に調整されていると呼ばれます。
その意味:モデルのスコアリングモデルを作成した後、
したがって、仮説は
- $ H_0 $:実際のイベント率と予測されたイベント率は10の間で類似しています。十分位数
- $ H_1 $:それらは同じです
したがって、 p -値が。未満の場合。05、それらは十分に分散されていないため、モデルを改良する必要があります。
これがクエリの一部に答えることを願っています。
回答
これは@FrankHarrellの回答に続いてかなり議論の余地がありますが、H – Lテストのファンは、その結果からにもかかわらず / em>二次項の包含&いくつかの † 2次相互作用、モデル それでもは、適合性の大幅な欠如を示しました。&おそらく、さらに複雑なモデルが適切である可能性があります。あなたは、指定したモデルの適合性をテストしています。 より単純な1次モデル。
†完全な2次モデルではありません— 3つあります 行くべき相互作用。