Jak všichni víme, existují 2 metody hodnocení modelu logistické regrese a velmi se testují různé věci
-
Prediktivní síla:
Získejte statistiku, která měří, jak dobře můžete předpovědět závislou proměnnou na základě nezávislých proměnných. Známými Pseudo R ^ 2 jsou McFadden (1974) a Cox a Snell (1989).
-
Statistiky dobré shody
Test říká, zda byste mohli udělat ještě lépe tím, že model zkomplikujete, což ve skutečnosti testuje, zda existují nějaké nelinearity nebo interakce, které jste zmeškali.
Implementoval jsem oba testy na mém modelu, které přidaly kvadratickou a interakci
již:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
a předpokládaná síla je níže, MaFadden je 0,0000 a hodnota mezi 0,2 ~ 0,4 by měla být považována za velmi dobrou shodu modelu (Louviere et al (2000), Domenich a McFadden (1975)):
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
a statistika dobré shody:
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
Jak chápu, GOF ve skutečnosti testuje následující nulovou a alternativní hypotézu:
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
Protože moje modely přidaly interakci, nelinearita již a hodnota p ukazuje H0 by měla být odmítnuta, takže jsem dospěl k závěru, že můj model potřebuje interakci, nelinearitu. Doufám, že je můj výklad správný, a děkuji za každou radu předem, děkuji.
Komentáře
- viz také stats.stackexchange.com/questions/169000/ … a stats.stackexchange.com/questions/167483 / …
- Lepší je podívat se na podkladovou tabulku, než je p-hodnota pro HL test. A také na grafech zbytků z vašeho modelu. To ukáže, kde je problém.
- Hosmer-Lemeshow je považován za zastaralý: stats.stackexchange.com/questions/273966/…
Odpověď
Je třeba řešit několik problémů.
- $ R ^ 2 $ míry samy o sobě nikdy neměří dobrou shodu; měří hlavně prediktivní diskriminaci. Dobrá shoda vychází pouze z porovnání $ R ^ 2 $ s $ R ^ 2 $ z bohatšího modelu.
- Test Hosmer-Lemeshow je určen pro celkovou chybu kalibrace, nikoli pro žádný konkrétní nedostatek shody, jako je kvadratické efekty. Správně nezohledňuje přehodnocení, je libovolný při výběru košů a způsobu výpočtu kvantilů a často má příliš nízkou moc.
- Z těchto důvodů se test Hosmer-Lemeshow již nedoporučuje. Hosmer a spol. Mají lepší d.f. omnibusový test fit, implementovaný ve funkci R
rms
balíčkuresiduals.lrm
. - Pro váš případ může být dobrá fit být posouzeno společným testováním (v „blokovém“ testu) příspěvku všech čtverců a interakčních výrazů.
- Doporučuji však specifikovat model, aby bylo pravděpodobnější, že bude vyhovovat předem (zejména s ohledem relaxační předpoklady linearity pomocí regresních splajnů) a pomocí bootstrapu k odhadu overfittingu a získání overfitting korigované hladké kalibrační křivky s vysokým rozlišením ke kontrole absolutní přesnosti. To se provádí pomocí balíčku R
rms
.
V posledním bodě dávám přednost filozofii, že modely jsou flexibilní (omezené vzorkem velikost, stejně) a že se soustředíme více na „fit“ než na „nedostatek fit“.
Komentáře
- Jen jedna věc: většina $ R ^ 2 $ opatření porovnávají přizpůsobený model s “ dokonalým modelem „, který pro každý záznam získá správnou předpověď, aniž by vytvořil df / nadměrná úprava. +1 ode mě.
- Ano, ‚ to je jen to, že nikdy nedoufáme, že budeme dokonalí, takže bych nevolal $ 1 – R ^ {2} $ nedostatek fit.
Odpověď
Z Wikipedie :
Test hodnotí, zda sledované míry událostí odpovídají očekávaným hodnotám událostí v podskupinách modelové populace. Test Hosmer – Lemeshow specificky identifikuje podskupiny jako decily přizpůsobených hodnot rizika. Modely, u nichž jsou očekávané a pozorované míry událostí v podskupinách podobné, se nazývají dobře kalibrované.
Jeho význam: po sestavení modelu, který váš model vyhodnotí, chcete ke křížové kontrole, zda je distribuován mezi 10 decilů podobně jako skutečné míry událostí.
Takže hypotézy budou
- $ H_0 $: Míry skutečných a předpokládaných událostí jsou podobné mezi 10 deciles
- $ H_1 $: jsou stejné motivy
Proto je-li hodnota p -value menší než.05, nejsou dobře distribuovány a musíte svůj model vylepšit.
Doufám, že to odpovídá na některé z vašich dotazů.
Odpověď
Toto je poněkud diskutabilní po odpovědi uživatele @FrankHarrell, ale fanoušek testu H – L by z tohoto výsledku vyvodil, že navzdory vaše zahrnutí kvadratických výrazů & některé † interakce 2. řádu, model stále vykazoval značný nedostatek přizpůsobení, & že by byl možná ještě složitější model. Testujete přizpůsobení přesně modelu, který jste zadali, nikoli modelu jednodušší model 1. řádu.
† Není to úplný model 2. řádu — existují tři další interakce.