Som vi alle ved, er der to metoder til at evaluere den logistiske regressionsmodel, og de tester meget forskellige ting
-
Forudsigelig styrke:
Få en statistik, der måler, hvor godt du kan forudsige den afhængige variabel baseret på de uafhængige variabler. Den velkendte Pseudo R ^ 2 er McFadden (1974) og Cox og Snell (1989).
-
Goodness of-fit-statistik
Testen fortæller, om du kunne gøre det endnu bedre ved at gøre modellen mere kompliceret, som faktisk tester, om der er nogen ikke-lineariteter eller interaktioner, du har gået glip af.
Jeg implementerede begge test på min model, som allerede tilføjede kvadratisk og interaktion
:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
og den forudsagte effekt er som nedenfor, MaFadden er 0.4004, og værdien mellem 0,2 ~ 0,4 skal tages for at præsentere en meget god pasform af modellen (Louviere et al (2000), Domenich og McFadden (1975)):
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
og statistik over godhed-af-pasform:
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
Som min forståelse tester GOF faktisk følgende nul og alternative hypotese:
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
Da mine modeller tilføjede interaktion, skulle ikke-linearitet allerede og p-værdien viser H0 afvises, så jeg kom til den konklusion, at min model faktisk har brug for interaktion, ikke-linearitet. Håber min fortolkning er korrekt og tak for enhver rådgivning på forhånd tak.
Kommentarer
- se også stats.stackexchange.com/questions/169000/ … og stats.stackexchange.com/questions/167483 / …
- Bedre at se på den underliggende tabel end p-værdien for HL-testen. Og også ved plots af restprodukter fra din model. Dette viser, hvor problemet er.
- Hosmer-Lemeshow betragtes som forældet: stats.stackexchange.com/questions/273966/…
Svar
Der er flere problemer at løse.
- $ R ^ 2 $ måler i sig selv aldrig målingens pasform; de måler hovedsageligt prædiktiv diskrimination. God tilpasning kommer kun ved at sammenligne $ R ^ 2 $ med $ R ^ 2 $ fra en rigere model
- Hosmer-Lemeshow-testen er til generel kalibreringsfejl, ikke for nogen særlig mangel på pasform såsom kvadratiske effekter. Det tager ikke ordentligt højde for overfitting, er vilkårligt i forhold til valg af kasser og metode til beregning af kvantiler og har ofte strøm, der er for lav.
- Af disse grunde anbefales Hosmer-Lemeshow-testen ikke længere. Hosmer et al. Har en bedre d.f. omnibustest af pasform, implementeret i R
rms
-pakkeresiduals.lrm
-funktionen. - For din sag kan godhed af pasform vurderes ved fælles test (i en “klump” -test) bidraget fra alle kvadrat- og interaktionsbetingelser.
- Men jeg anbefaler at specificere modellen for at gøre den mere tilbøjelig til at passe foran (især med hensyn til afslappende antagelser om linearitet ved hjælp af regressionssplines) og brug af bootstrap til at estimere overfitting og for at få en overfitting-korrigeret højopløselig glat kalibreringskurve for at kontrollere absolut nøjagtighed. Disse udføres ved hjælp af pakken R
rms
.
På det sidste punkt foretrækker jeg filosofien om, at modeller er fleksible (som begrænset af prøven størrelse, alligevel) og at vi koncentrerer os mere om “fit” end “mangel på fit”.
Kommentarer
- Bare en ting: de fleste $ R ^ 2 $ målinger sammenligner den monterede model med en ” perfekt model ” som får forudsigelsen rigtig for hver post uden at lave en df / justering af overmontering. +1 fra mig.
- Ja, det er ‘ bare fordi vi aldrig håber at være perfekte, så jeg kalder ikke $ 1 – R ^ {2} $ mangel af pasform.
Svar
Fra Wikipedia :
Testen vurderer, om de observerede hændelsesfrekvenser svarer til forventede begivenhedsrater i undergrupper af modelpopulationen. Hosmer-Lemeshow-testen identificerer specifikt undergrupper som deciler af monterede risikoværdier. Modeller, hvor forventede og observerede begivenhedsfrekvenser i undergrupper er ens, kaldes velkalibrerede.
Betydningen: efter bygning model, der scorer din model “sy, vil du have for at krydstjekke, om det er fordelt på 10 deciler svarende til faktiske begivenhedsrater.
Så hypoteser vil være
- $ H_0 $: Faktiske og forudsagte begivenhedsrater er ens på tværs af 10 deciler
- $ H_1 $: de er mot samme
Derfor hvis p -værdi er mindre end.05, de er ikke godt distribuerede, og du skal finjustere din model.
Jeg håber, dette besvarer nogle af dine forespørgsler.
Svar
Dette er ret svagt at følge @FrankHarrells svar, men en fan af H – L-testen ville udlede af det resultat, at på trods af din inkludering af kvadratiske udtryk & nogle † 2. ordens interaktioner, modellen stadig viste en betydelig mangel på pasform, & at måske en endnu mere kompleks model ville være passende. Du tester tilpasningen af nøjagtigt den model, du specificerede, ikke af den enklere 1. ordens model.
† Det er ikke en fuld 2. ordens model — der er tre interaktioner at gå.