Evaluering av logistisk regresjon og tolkning av Hosmer-Lemeshow Goodness of Fit

Question

Som vi alle vet, er det to metoder for å evaluere den logistiske regresjonsmodellen, og de tester veldig forskjellige ting

Forutsigende kraft:

Få en statistikk som måler hvor godt du kan forutsi den avhengige variabelen basert på de uavhengige variablene. Den kjente Pseudo R ^ 2 er McFadden (1974) og Cox og Snell (1989).
Goodness of-fit statistikk

Testen forteller om du kan gjøre det enda bedre ved å gjøre modellen mer komplisert, som faktisk tester om det er noen ikke-lineariteter eller interaksjoner du har savnet.

Jeg implementerte begge testene på modellen min, som allerede la til kvadratisk og interaksjon
:

 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6

og den forventede kraften er som nedenfor, MaFadden er 0.4004, og verdien mellom 0,2 ~ 0,4 bør tas for å gi en veldig god passform for modellen (Louviere et al (2000), Domenich og McFadden (1975)):

 > PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925

og statistikk om godhet:

 > hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16

Som min forståelse tester GOF faktisk følgende null og alternative hypoteser:

 H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity

Siden modellene mine la til interaksjon, bør ikke-linearitet allerede og p-verdien viser H0 avvises, så jeg kom til at modellen min trenger interaksjon, ikke-linearitet. Håper min tolkning er riktig og takk for alle råd på forhånd, takk.

Kommentarer

se også stats.stackexchange.com/questions/169000/ … og stats.stackexchange.com/questions/167483 / …
Bedre å se på den underliggende tabellen enn p-verdien for HL-testen. Og også på plott av restene fra modellen din. Dette vil vise hvor problemet er.
Hosmer-Lemeshow regnes som foreldet: stats.stackexchange.com/questions/273966/…

Answer 1

Det er flere problemer å løse.

$ R ^ 2 $ måler i seg selv aldri godhet av passform; de måler hovedsakelig prediktiv diskriminering. Godhet av passform kommer bare fra å sammenligne $ R ^ 2 $ med $ R ^ 2 $ fra en rikere modell
Hosmer-Lemeshow-testen er for total kalibreringsfeil, ikke for noen spesiell mangel på passform som kvadratiske effekter. Det tar ikke riktig hensyn til overmontering, er vilkårlig i forhold til valg av kasser og metode for beregning av kvantiler, og har ofte kraft som er for lav.
Av disse grunner anbefales ikke Hosmer-Lemeshow-testen lenger. Hosmer et al. Har en bedre d.f. omnibustest av tilpasning, implementert i R rms -pakken residuals.lrm -funksjonen.
For din sak kan godhet av passform bli vurdert ved å teste (i en «klump» -test) bidraget til alle kvadrat- og samhandlingsbetingelsene.
Men jeg anbefaler å spesifisere modellen for å gjøre den mer sannsynlig å passe foran (spesielt mht. avslappende antagelser om lineæritet ved bruk av regresjonslinjer) og bruk bootstrap for å estimere overmontering og for å få en overmonteringskorrigert, jevn kalibreringskurve med høy oppløsning for å kontrollere absolutt nøyaktighet. Disse gjøres ved hjelp av R rms -pakken.

På det siste punktet foretrekker jeg filosofien om at modeller er fleksible (som begrenset av eksemplet størrelse, uansett) og at vi konsentrerer oss mer om «fit» enn «mangel på fit».

Kommentarer

Bare en ting: de fleste $ R ^ 2 $ målinger sammenligner den tilpassede modellen med en » perfekt modell » som får spådommen riktig for hver plate, uten å lage en df / justering av overmontering. +1 fra meg.
Ja, det er ‘ bare at vi aldri håper å være perfekte, så jeg vil ikke ringe $ 1 – R ^ {2} $ mangel av passform.

Answer 2

Fra Wikipedia :

Testen vurderer om de observerte hendelsesfrekvensene samsvarer med forventede hendelsesfrekvenser i undergrupper av modellpopulasjonen. Hosmer-Lemeshow-testen identifiserer spesifikt undergrupper som desiler av monterte risikoværdier. Modeller som forventede og observerte hendelsesfrekvenser i undergrupper er like kalles godt kalibrert.

Betydningen: etter å ha bygget modell som scorer modellen din, vil du ha for å kryssjekke om den er fordelt på 10 desiler som tilsvarer faktiske hendelsesfrekvenser.

Så hypoteser vil være

$ H_0 $: Faktiske og forventede hendelsesfrekvenser er like over 10 desiler
$ H_1 $: de er mot samme

Derfor hvis p -verdien er mindre enn.05, de er ikke godt distribuert, og du må avgrense modellen din.

Jeg håper dette svarer på noen av spørsmålene dine.

Evaluering av logistisk regresjon og tolkning av Hosmer-Lemeshow Goodness of Fit

Kommentarer

Svar

Kommentarer

Svar

Svar

Legg igjen en kommentar Avbryt svar