Som vi alle vet, er det to metoder for å evaluere den logistiske regresjonsmodellen, og de tester veldig forskjellige ting

  1. Forutsigende kraft:

    Få en statistikk som måler hvor godt du kan forutsi den avhengige variabelen basert på de uavhengige variablene. Den kjente Pseudo R ^ 2 er McFadden (1974) og Cox og Snell (1989).

  2. Goodness of-fit statistikk

    Testen forteller om du kan gjøre det enda bedre ved å gjøre modellen mer komplisert, som faktisk tester om det er noen ikke-lineariteter eller interaksjoner du har savnet.

Jeg implementerte begge testene på modellen min, som allerede la til kvadratisk og interaksjon
:

 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6 

og den forventede kraften er som nedenfor, MaFadden er 0.4004, og verdien mellom 0,2 ~ 0,4 bør tas for å gi en veldig god passform for modellen (Louviere et al (2000), Domenich og McFadden (1975)):

 > PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925 

og statistikk om godhet:

 > hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16 

Som min forståelse tester GOF faktisk følgende null og alternative hypoteser:

 H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity 

Siden modellene mine la til interaksjon, bør ikke-linearitet allerede og p-verdien viser H0 avvises, så jeg kom til at modellen min trenger interaksjon, ikke-linearitet. Håper min tolkning er riktig og takk for alle råd på forhånd, takk.

Kommentarer

Svar

Det er flere problemer å løse.

  • $ R ^ 2 $ måler i seg selv aldri godhet av passform; de måler hovedsakelig prediktiv diskriminering. Godhet av passform kommer bare fra å sammenligne $ R ^ 2 $ med $ R ^ 2 $ fra en rikere modell
  • Hosmer-Lemeshow-testen er for total kalibreringsfeil, ikke for noen spesiell mangel på passform som kvadratiske effekter. Det tar ikke riktig hensyn til overmontering, er vilkårlig i forhold til valg av kasser og metode for beregning av kvantiler, og har ofte kraft som er for lav.
  • Av disse grunner anbefales ikke Hosmer-Lemeshow-testen lenger. Hosmer et al. Har en bedre d.f. omnibustest av tilpasning, implementert i R rms -pakken residuals.lrm -funksjonen.
  • For din sak kan godhet av passform bli vurdert ved å teste (i en «klump» -test) bidraget til alle kvadrat- og samhandlingsbetingelsene.
  • Men jeg anbefaler å spesifisere modellen for å gjøre den mer sannsynlig å passe foran (spesielt mht. avslappende antagelser om lineæritet ved bruk av regresjonslinjer) og bruk bootstrap for å estimere overmontering og for å få en overmonteringskorrigert, jevn kalibreringskurve med høy oppløsning for å kontrollere absolutt nøyaktighet. Disse gjøres ved hjelp av R rms -pakken.

På det siste punktet foretrekker jeg filosofien om at modeller er fleksible (som begrenset av eksemplet størrelse, uansett) og at vi konsentrerer oss mer om «fit» enn «mangel på fit».

Kommentarer

  • Bare en ting: de fleste $ R ^ 2 $ målinger sammenligner den tilpassede modellen med en » perfekt modell » som får spådommen riktig for hver plate, uten å lage en df / justering av overmontering. +1 fra meg.
  • Ja, det er ‘ bare at vi aldri håper å være perfekte, så jeg vil ikke ringe $ 1 – R ^ {2} $ mangel av passform.

Svar

Fra Wikipedia :

Testen vurderer om de observerte hendelsesfrekvensene samsvarer med forventede hendelsesfrekvenser i undergrupper av modellpopulasjonen. Hosmer-Lemeshow-testen identifiserer spesifikt undergrupper som desiler av monterte risikoværdier. Modeller som forventede og observerte hendelsesfrekvenser i undergrupper er like kalles godt kalibrert.

Betydningen: etter å ha bygget modell som scorer modellen din, vil du ha for å kryssjekke om den er fordelt på 10 desiler som tilsvarer faktiske hendelsesfrekvenser.

Så hypoteser vil være

  • $ H_0 $: Faktiske og forventede hendelsesfrekvenser er like over 10 desiler
  • $ H_1 $: de er mot samme

Derfor hvis p -verdien er mindre enn.05, de er ikke godt distribuert, og du må avgrense modellen din.

Jeg håper dette svarer på noen av spørsmålene dine.

Svar

Dette er ganske tøft etter @FrankHarrells svar, men en fan av H – L-testen vil utlede fra det resultatet at til tross for din inkludering av kvadratiske termer & noen 2.ordens interaksjoner, modellen fremdeles viste betydelig mangel på passform, & at kanskje en enda mer kompleks modell ville være passende. Du tester tilpasningen til akkurat den modellen du spesifiserte, ikke av enklere 1. ordens modell.

† Det er ikke en full 2. ordens modell — det er tre interaksjoner å gå.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *