Como todos sabemos, existem 2 métodos para avaliar o modelo de regressão logística e eles estão testando muito coisas diferentes

  1. Poder preditivo:

    Obtenha uma estatística que mede o quão bem você pode prever a variável dependente com base nas variáveis independentes. Os conhecidos Pseudo R ^ 2 são McFadden (1974) e Cox e Snell (1989).

  2. Estatísticas de ajuste perfeito

    O teste está dizendo se você poderia fazer ainda melhor tornando o modelo mais complicado, o que na verdade é testar se há alguma não linearidade ou interação que você perdeu.

Eu implementei ambos os testes em meu modelo, que adicionaram quadrática e interação
já:

 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 0.108 0.9139 Top 0.311891 0.189793 1.643 0.1003 Right -1.015460 0.502736 -2.020 0.0434 * Left -0.962143 0.431534 -2.230 0.0258 * Bottom 0.198631 0.157242 1.263 0.2065 I(Top^2) -0.003213 0.002114 -1.520 0.1285 I(Left^2) -0.054258 0.008768 -6.188 6.09e-10 *** I(Bottom^2) 0.003725 0.001782 2.091 0.0366 * Top:Right 0.012290 0.007540 1.630 0.1031 Top:Bottom 0.004536 0.002880 1.575 0.1153 Right:Left -0.044283 0.015983 -2.771 0.0056 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 3350.3 on 2799 degrees of freedom Residual deviance: 1984.6 on 2789 degrees of freedom AIC: 2006.6 

e a potência prevista é como abaixo, o MaFadden é 0,4004, e o valor entre 0,2 ~ 0,4 deve ser considerado para apresentar um ajuste muito bom do modelo (Louviere et al (2000), Domenich e McFadden (1975)):

 > PseudoR2(spec_q2) McFadden Adj.McFadden Cox.Snell Nagelkerke McKelvey.Zavoina Effron Count Adj.Count 0.4076315 0.4004680 0.3859918 0.5531859 0.6144487 0.4616466 0.8489286 0.4712500 AIC Corrected.AIC 2006.6179010 2006.7125925 

e as estatísticas de adequação:

 > hoslem.test(result,phat,g=8) Hosmer and Lemeshow goodness of fit (GOF) test data: result, phat X-squared = 2800, df = 6, p-value < 2.2e-16 

No meu entendimento, o GOF está realmente testando a seguinte hipótese nula e alternativa:

 H0: The models does not need interaction and non-linearity H1: The models needs interaction and non-linearity 

Como meus modelos adicionaram interação, a não linearidade já e o valor p mostra H0 devem ser rejeitados, então eu cheguei à conclusão de que meu modelo precisa de interação, não linearidade de fato. Espero que minha interpretação esteja correta e obrigado por qualquer conselho antecipado, obrigado.

Comentários

Resposta

Há vários problemas a serem resolvidos.

  • $ R ^ 2 $ medidas por si mesmas nunca medem a qualidade do ajuste; medem principalmente a discriminação preditiva. A qualidade do ajuste vem apenas da comparação de $ R ^ 2 $ com $ R ^ 2 $ de um modelo mais rico
  • O teste de Hosmer-Lemeshow é para erro de calibração geral, não para qualquer falta particular de ajuste, como efeitos quadráticos. Ele não leva o overfitting em consideração, é arbitrário para a escolha de bins e método de quantis de computação e geralmente tem uma potência muito baixa.
  • Por essas razões, o teste de Hosmer-Lemeshow não é mais recomendado. Hosmer et al têm um melhor d.f. teste abrangente de ajuste, implementado na função R rms pacote residuals.lrm.
  • Para o seu caso, o ajuste perfeito pode ser avaliada testando em conjunto (em um teste de “bloco”) a contribuição de todos os termos do quadrado e de interação.
  • Mas eu recomendo especificar o modelo para torná-lo mais provável de se ajustar desde o início (especialmente em relação a relaxando as suposições de linearidade usando splines de regressão) e usando o bootstrap para estimar o overfitting e para obter uma curva de calibração suave de alta resolução corrigida para overfitting para verificar a precisão absoluta. Isso é feito usando o pacote R rms.

No último ponto, eu prefiro a filosofia de que os modelos sejam flexíveis (conforme limitado pela amostra tamanho, de qualquer maneira) e que nos concentramos mais no “ajuste” do que na “falta de ajuste”.

Comentários

  • Só uma coisa: a maioria $ R ^ 2 $ medidas estão comparando o modelo ajustado a um ” modelo perfeito ” que obtém a previsão correta para cada registro, sem fazer um df / ajuste de overfitting. +1 de mim.
  • Sim, ‘ é que nunca esperamos ser perfeitos, então eu não chamaria $ 1 – R ^ {2} $ de falta de ajuste.

Resposta

da Wikipedia :

O teste avalia se as taxas de eventos observadas correspondem ou não às taxas de eventos esperadas em subgrupos da população modelo. O teste Hosmer-Lemeshow identifica especificamente os subgrupos como os decis dos valores de risco ajustados. Os modelos para os quais as taxas de eventos esperadas e observadas em subgrupos são semelhantes são chamados de bem calibrados.

Seu significado: depois de construir o modelo de pontuação do seu modelo “, você deseja para verificar se ele está distribuído em 10 decis semelhantes às taxas de eventos reais.

Portanto, as hipóteses serão

  • $ H_0 $: as taxas de eventos reais e previstas são semelhantes em 10 decis
  • $ H_1 $: eles são mot mesmo

Portanto, se p -valor é menor que.05, eles não estão bem distribuídos e você precisa refinar seu modelo.

Espero que isso responda a algumas de suas perguntas.

Resposta

Isso é bastante discutível após a resposta de @FrankHarrell “, mas um fã do teste H – L inferiria desse resultado que apesar de sua inclusão de termos quadráticos & algumas interações de 2ª ordem, o modelo ainda mostrou falta de ajuste significativa, & que talvez um modelo ainda mais complexo fosse apropriado. Você “está testando o ajuste precisamente do modelo especificado, não do modelo mais simples de 1ª ordem.

† Não é um modelo completo de 2ª ordem — existem três interações para ir.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *