Som vi alle vet, er det to metoder for å evaluere den logistiske regresjonsmodellen, og de tester veldig forskjellige ting
-
Forutsigende kraft:
Få en statistikk som måler hvor godt du kan forutsi den avhengige variabelen basert på de uavhengige variablene. Den kjente Pseudo R ^ 2 er McFadden (1974) og Cox og Snell (1989).
-
Goodness of-fit statistikk
Testen forteller om du kan gjøre det enda bedre ved å gjøre modellen mer komplisert, som faktisk tester om det er noen ikke-lineariteter eller interaksjoner du har savnet.
Jeg implementerte begge testene på modellen min, som allerede la til kvadratisk og interaksjon
:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
og den forventede kraften er som nedenfor, MaFadden er 0.4004, og verdien mellom 0,2 ~ 0,4 bør tas for å gi en veldig god passform for modellen (Louviere et al (2000), Domenich og McFadden (1975)):
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
og statistikk om godhet:
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
Som min forståelse tester GOF faktisk følgende null og alternative hypoteser:
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
Siden modellene mine la til interaksjon, bør ikke-linearitet allerede og p-verdien viser H0 avvises, så jeg kom til at modellen min trenger interaksjon, ikke-linearitet. Håper min tolkning er riktig og takk for alle råd på forhånd, takk.
Kommentarer
- se også stats.stackexchange.com/questions/169000/ … og stats.stackexchange.com/questions/167483 / …
- Bedre å se på den underliggende tabellen enn p-verdien for HL-testen. Og også på plott av restene fra modellen din. Dette vil vise hvor problemet er.
- Hosmer-Lemeshow regnes som foreldet: stats.stackexchange.com/questions/273966/…
Svar
Det er flere problemer å løse.
- $ R ^ 2 $ måler i seg selv aldri godhet av passform; de måler hovedsakelig prediktiv diskriminering. Godhet av passform kommer bare fra å sammenligne $ R ^ 2 $ med $ R ^ 2 $ fra en rikere modell
- Hosmer-Lemeshow-testen er for total kalibreringsfeil, ikke for noen spesiell mangel på passform som kvadratiske effekter. Det tar ikke riktig hensyn til overmontering, er vilkårlig i forhold til valg av kasser og metode for beregning av kvantiler, og har ofte kraft som er for lav.
- Av disse grunner anbefales ikke Hosmer-Lemeshow-testen lenger. Hosmer et al. Har en bedre d.f. omnibustest av tilpasning, implementert i R
rms
-pakkenresiduals.lrm
-funksjonen. - For din sak kan godhet av passform bli vurdert ved å teste (i en «klump» -test) bidraget til alle kvadrat- og samhandlingsbetingelsene.
- Men jeg anbefaler å spesifisere modellen for å gjøre den mer sannsynlig å passe foran (spesielt mht. avslappende antagelser om lineæritet ved bruk av regresjonslinjer) og bruk bootstrap for å estimere overmontering og for å få en overmonteringskorrigert, jevn kalibreringskurve med høy oppløsning for å kontrollere absolutt nøyaktighet. Disse gjøres ved hjelp av R
rms
-pakken.
På det siste punktet foretrekker jeg filosofien om at modeller er fleksible (som begrenset av eksemplet størrelse, uansett) og at vi konsentrerer oss mer om «fit» enn «mangel på fit».
Kommentarer
- Bare en ting: de fleste $ R ^ 2 $ målinger sammenligner den tilpassede modellen med en » perfekt modell » som får spådommen riktig for hver plate, uten å lage en df / justering av overmontering. +1 fra meg.
- Ja, det er ‘ bare at vi aldri håper å være perfekte, så jeg vil ikke ringe $ 1 – R ^ {2} $ mangel av passform.
Svar
Fra Wikipedia :
Testen vurderer om de observerte hendelsesfrekvensene samsvarer med forventede hendelsesfrekvenser i undergrupper av modellpopulasjonen. Hosmer-Lemeshow-testen identifiserer spesifikt undergrupper som desiler av monterte risikoværdier. Modeller som forventede og observerte hendelsesfrekvenser i undergrupper er like kalles godt kalibrert.
Betydningen: etter å ha bygget modell som scorer modellen din, vil du ha for å kryssjekke om den er fordelt på 10 desiler som tilsvarer faktiske hendelsesfrekvenser.
Så hypoteser vil være
- $ H_0 $: Faktiske og forventede hendelsesfrekvenser er like over 10 desiler
- $ H_1 $: de er mot samme
Derfor hvis p -verdien er mindre enn.05, de er ikke godt distribuert, og du må avgrense modellen din.
Jeg håper dette svarer på noen av spørsmålene dine.
Svar
Dette er ganske tøft etter @FrankHarrells svar, men en fan av H – L-testen vil utlede fra det resultatet at til tross for din inkludering av kvadratiske termer & noen † 2.ordens interaksjoner, modellen fremdeles viste betydelig mangel på passform, & at kanskje en enda mer kompleks modell ville være passende. Du tester tilpasningen til akkurat den modellen du spesifiserte, ikke av enklere 1. ordens modell.
† Det er ikke en full 2. ordens modell — det er tre interaksjoner å gå.