Jak wszyscy wiemy, istnieją 2 metody oceny modelu regresji logistycznej i są one bardzo testowane różne rzeczy
-
Moc predykcji:
Uzyskaj statystykę, która mierzy, jak dobrze możesz przewidzieć zmienną zależną na podstawie zmiennych niezależnych. Dobrze znanymi pseudo R ^ 2 są McFadden (1974) oraz Cox i Snell (1989).
-
Statystyki dopasowania.
Test mówi, czy można by było jeszcze lepiej, komplikując model, co w rzeczywistości polega na sprawdzeniu, czy są jakieś nieliniowości lub interakcje, które zostały pominięte.
Zaimplementowałem oba testy na moim modelu, który dodał kwadrat i interakcję
już:
>summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6
i przewidywana moc jest taka, jak poniżej, MaFadden to 0,4004, a należy przyjąć wartość między 0,2 ~ 0,4, aby przedstawić bardzo dobre dopasowanie modelu (Louviere i in. (2000), Domenich i McFadden (1975)):
> PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925
oraz statystyki zgodności:
> hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16
Jak rozumiem, GOF faktycznie testuje następującą zerową i alternatywną hipotezę:
H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity
Ponieważ moje modele dodały interakcję, nieliniowość już i wartość p pokazuje H0, należy odrzucić, więc doszedłem do wniosku, że mój model wymaga interakcji, a właściwie nieliniowości. Mam nadzieję, że moja interpretacja jest poprawna i dziękuję za wszelkie porady z góry, dzięki.
Komentarze
- zobacz także stats.stackexchange.com/questions/169000/ … i stats.stackexchange.com/questions/167483 / …
- Lepiej przyjrzeć się poniższej tabeli niż wartości p dla testu HL. A także na wykresach reszt z twojego modelu. To pokaże, gdzie jest problem.
- Hosmer-Lemeshow jest uważany za przestarzały: stats.stackexchange.com/questions/273966/…
Odpowiedź
Jest kilka problemów do rozwiązania.
- $ R ^ 2 $ miary same w sobie nigdy nie mierzą dobroci dopasowania; mierzą głównie dyskryminację predykcyjną. Dobroć dopasowania wynika tylko z porównania R ^ 2 $ z R ^ 2 $ z bogatszego modelu
- Test Hosmera-Lemeshow dotyczy ogólnego błędu kalibracji, a nie konkretnego braku dopasowania, takiego jak efekty kwadratowe. Nie uwzględnia on odpowiednio overfittingu, jest arbitralny w odniesieniu do wyboru pojemników i metody obliczania kwantyli, a często ma zbyt małą moc.
- Z tego powodu test Hosmera-Lemeshowa nie jest już zalecany. Hosmer i wsp. Mają lepszy d.f. Omnibus test dopasowania, zaimplementowany w funkcji R
rms
pakieturesiduals.lrm
. - W Twoim przypadku wartość dopasowania może zostać ocenione poprzez wspólne testowanie (w teście „fragmentu”) wkładu wszystkich warunków kwadratu i interakcji.
- Zalecam jednak określenie modelu, aby zwiększyć prawdopodobieństwo dopasowania go z góry (zwłaszcza w odniesieniu do rozluźnienie założeń dotyczących liniowości przy użyciu krzywych regresji) oraz użycie metody bootstrap do oszacowania nadmiernego dopasowania i uzyskania gładkiej krzywej kalibracji o wysokiej rozdzielczości z korekcją nadmiernego dopasowania w celu sprawdzenia absolutnej dokładności. Robi się to za pomocą pakietu R
rms
.
W ostatnim punkcie wolę filozofię, zgodnie z którą modele są elastyczne (ograniczone przez próbkę rozmiar, w każdym razie) i że bardziej koncentrujemy się na „dopasowaniu” niż na „braku dopasowania”.
Komentarze
- Tylko jedna rzecz: większość $ R Miary ^ 2 $ porównują dopasowany model z ” idealnym modelem „, który zapewnia prawidłowe prognozy dla każdego rekordu, bez tworzenia df / regulacja nadmiernego dopasowania. +1 ode mnie.
- Tak, ' polega tylko na tym, że nigdy nie mamy nadziei być idealni, więc nie zadzwoniłbym do $ 1 – R ^ {2} $ brak pasuje.
Odpowiedź
Z Wikipedii :
Test ocenia, czy obserwowane wskaźniki zdarzeń odpowiadają oczekiwanym częstościom zdarzeń w podgrupach populacji modelowej. Test Hosmera-Lemeshowa w szczególności identyfikuje podgrupy jako decile dopasowanych wartości ryzyka. Modele, dla których oczekiwane i obserwowane wskaźniki zdarzeń w podgrupach są podobne, nazywane są dobrze skalibrowanymi.
Jego znaczenie: po zbudowaniu modelu oceniamy model „sy, chcesz aby sprawdzić krzyżowo, czy jest on rozłożony na 10 decyli, podobnie jak rzeczywiste wskaźniki zdarzeń.
Zatem hipotezy będą
- $ H_0 $: rzeczywiste i przewidywane wskaźniki zdarzeń są podobne w 10 decylach
- $ H_1 $: są podobne do siebie
Zatem jeśli p -wartość jest mniejsza niż.05, nie są one dobrze rozpowszechnione i musisz udoskonalić swój model.
Mam nadzieję, że ta odpowiedź na niektóre z Twoich pytań.
Odpowiedź
To raczej dyskusyjne po odpowiedzi @FrankHarrell „, ale fan testu H – L wywnioskowałby z tego wyniku, że pomimo uwzględnienie terminów kwadratowych & niektóre † interakcje drugiego rzędu, model nadal wykazał znaczny brak dopasowania, &, że być może nawet bardziej złożony model byłby odpowiedni. „Testujesz ponownie dopasowanie dokładnie określonego modelu, a nie prostszy model pierwszego rzędu.
† To nie jest pełny model drugiego rzędu — istnieją trzy interakcje.