A distribuição gama pode assumir uma grande variedade de formas e, dada a ligação entre a média e a variância por meio de seus dois parâmetros, parece adequada para lidar com heterocedasticidade em dados não negativos, de uma forma que OLS transformado em log não pode “fazer sem WLS ou algum tipo de estimador VCV consistente com heteroscedasticidade.
Eu o usaria mais para rotina não modelagem de dados negativos, mas não conheço ninguém que a use, não a aprendi em um ambiente formal de sala de aula e a literatura que li nunca a usa. Sempre que procuro no Google algo como “usos práticos de gama GLM” , Eu venho com um conselho para usá-lo para tempos de espera entre eventos de Poisson. OK. Mas isso parece restritivo e não pode ser seu único uso.
Ingenuamente, parece que o gama GLM é uma suposição relativamente – meios leves de modelagem de dados não negativos, dada a flexibilidade de gama. Claro que você precisa verificar os gráficos QQ e os gráficos residuais como qualquer modelo. existem desvantagens sérias que estou perdendo? Além da comunicação com as pessoas que “apenas executam OLS”?
Comentários
- Eu ‘ estou bem tarde para a conversa, mas eu ‘ estou interessado na regressão gama, pois ela cumpre os mesmos propósitos da regressão de Poisson (que eu saiba), mas devido à sua forma contínua, ela ‘ s mais fácil para cálculos de gradiente – potencialmente tornando-o uma escolha melhor para o software de modelagem Bayesiana que usa amostragem baseada em gradiente HMC / NUTS, como PyMC3, Stan, etc. (curioso o que os outros pensam)
Resposta
O gama tem uma propriedade compartilhada pela lognormal; ou seja, quando o parâmetro de forma é mantido constante enquanto o parâmetro de escala é variado (como geralmente é feito ao usar qualquer um dos modelos), a variância é proporcional ao quadrado médio (coeficiente de variação constante).
Algo aproximadamente a isso ocorre com bastante frequência com dados financeiros ou, de fato, com muitos outros tipos de dados.
Como resultado, muitas vezes é adequado para dados que são contínuos, positivos, distorcidos e onde a variação é quase constante na escala logarítmica, embora haja uma série de outras escolhas bem conhecidas (e freqüentemente disponíveis) com essas propriedades.
Além disso, é comum ajustar um link de log com o gama GLM (é relativamente mais raro usar o link natural). O que o torna um pouco diferente do ajuste de um modelo linear normal aos registros dos dados é que em a escala logarítmica da gama é deixada enviesada em vários graus enquanto o normal (o logarítmico de uma lognormal) é simétrico. Isso o torna (o gama) útil em uma variedade de situações.
Eu vi usos práticos para GLMs gama discutidos (com exemplos de dados reais) em (de cara) de Jong & Heller e Livres , bem como vários artigos; Eu também vi aplicativos em outras áreas. Ah, e se bem me lembro, Venables e Ripley “s MASS usa no absenteísmo escolar (os dados do quine; Editar: na verdade, está em Complementos de estatísticas para MASSA , consulte a p11, a 14ª página do pdf, tem um link de log, mas há uma pequena mudança no DV). Uh, e McCullagh e Nelder fizeram um exemplo de coagulação do sangue, embora talvez possa ter sido uma ligação natural.
Depois, há “s livro de Faraway” , onde ele fez um exemplo de seguro de carro e um exemplo de dados de fabricação de semicondutores.
Existem algumas vantagens e desvantagens em escolher qualquer uma das duas opções. Como hoje em dia, ambos são fáceis de ajustar; geralmente é uma questão de escolher o que é mais adequado.
Está longe de ser a única opção; por exemplo, também há GLMs gaussianos inversos, que são mais enviesados / com cauda mais pesada (e ainda mais heterocedástico) do que gama ou lognormal.
Quanto às desvantagens, é mais difícil fazer intervalos de previsão. Algumas telas de diagnóstico são mais difíceis de interpretar. Calcular as expectativas na escala do preditor linear (geralmente a escala logarítmica) é mais difícil do que para o equivalente modelo lognormal. Testes de hipóteses e intervalos são geralmente assintóticos. Esses são problemas relativamente menores.
Ele tem algumas vantagens sobre a regressão lognormal log-link (tomar registros e ajustar um modelo de regressão linear comum); uma é que a previsão média é fácil.
Comentários
- Deve ser ” Gamma ” ou ” gamma “? Nós sabemos disso ‘ não nomeado para uma pessoa. Eu ‘ vi minúsculas ” g ” com muito mais frequência .Claramente a distribuição é nomeada para a função, que remonta ao século 18.
- A notação $ \ Gamma $ é a única razão que ‘ vi para esse uso. Com distribuições geralmente, maiúsculas geralmente ecoam sobrenomes, por ex. Poisson ou Gaussiano, como você sabe.
- @NickCox Eu mudei como você sugere e corrigi ” Gaussiano inverso ” enquanto eu estava nisso.
- @Gleb_b: Você ainda usa o link de log com a família gaussiana inversa?
- @ DimitriyV.Masterov It ‘ é menos usado, então ‘ é mais difícil de generalizar. Pelo que eu ‘ vi, é ‘ bastante comum usar um link de log com Gaussiano inverso, mas outros links podem ser adequados em algumas situações, como um link inverso.
Resposta
Essa é uma boa pergunta. Na verdade, por que as pessoas não usam mais os modelos lineares generalizados (GLM) também é uma boa pergunta.
Nota de aviso: Algumas pessoas usam GLM para o modelo linear geral, não o que está em mente aqui.
-
Depende de onde você olha. Por exemplo, as distribuições gama têm sido populares em várias ciências ambientais por algumas décadas e, portanto, a modelagem com variáveis preditoras também é uma extensão natural. Existem muitos exemplos em hidrologia e geomorfologia, para citar alguns campos nos quais me desviei.
-
É difícil definir exatamente quando usá-lo, além de uma resposta vazia de quando funciona melhor. Dado dados positivos distorcidos, muitas vezes me pegarei tentando modelos gama e lognormal (no link de log de contexto GLM, família normal ou gaussiana) e escolhendo o que funciona melhor.
-
A modelagem Gamma permaneceu muito difícil de fazer até bem recentemente, certamente em comparação com, digamos, fazer logs e aplicar regressões lineares, sem escrever muito código você mesmo. Mesmo agora, acho que não é tão fácil em todos os principais ambientes de software estatístico.
-
Ao explicar o que é usado e o que não é, apesar dos méritos e deméritos, acho que você sempre se resume exatamente ao tipo de fatores que identifica: o que é ensinado, o que está na literatura que as pessoas leem, o que as pessoas ouvem falar no trabalho e em conferências. Então, você precisa de uma espécie de sociologia da ciência amadora para explicar. A maioria das pessoas parece seguir caminhos retos e estreitos em seus próprios campos. Vagamente, quanto maior a literatura interna em qualquer campo sobre técnicas de modelagem, menos inclinado as pessoas nesse campo parecem tentar algo diferente.
Comentários
- Como você determina o que funciona melhor?
- Eu vejo as probabilidades , R-quadrados (apesar do que as pessoas dizem), intervalos de confiança em torno de estimativas de parâmetros, gráficos de observados vs ajustados, residuais vs ajustados, etc. Se houvesse ciência favorecendo um modelo em detrimento de outro, isso pesaria também, mas na minha experiência, a ciência não é tão bem formado. De que outra forma isso poderia ser feito?
- @NickCox O que devemos observar quando a análise é observada x ajustada, residual x ajustada e gráfico qq normal? Eu entendo que isso pode ser diferente entre os modelos. Você poderia dar um exemplo para gama, poisson e binomial negativo? Obrigado
- @tatami Que ‘ é uma questão totalmente nova, ou mais, eu acho. Se você perguntar, você ‘ verá quem morde. Eu ‘ nunca pensei que um modelo gama e um modelo binomial negativo fossem rivais em qualquer projeto, mas isso pode ser falha de imaginação ou experiência.
Resposta
A regressão gama está no GLM e, portanto, você pode obter muitas quantidades úteis para fins de diagnóstico, como resíduos de desvio, alavancagens, Cook ” s distância e assim por diante. Eles talvez não sejam tão bons quanto as quantidades correspondentes para dados transformados em log.
Uma coisa que a regressão gama evita em comparação com o lognormal é o viés de transformação. A desigualdade de Jensen implica que as previsões da regressão lognormal serão sistematicamente enviesadas porque sua modelagem transformou os dados em vez do valor esperado transformado.
Além disso, a regressão gama (ou outros modelos para dados não negativos) pode lidar com uma ampla gama de dados do que o lognormal devido ao fato de que pode ter um modo em 0, como você tem com a distância exponencial ribuição, que está na família gama, o que é impossível para o lognormal.
Eu li sugestões de que usar a probabilidade de Poisson como uma quase-probabilidade é mais estável. Eles “se conjugam um ao outro. O quase-Poisson também tem o benefício substancial de ser capaz de lidar com valores 0 exatos, que perturbam tanto o gama quanto, especialmente, o lognormal.
Resposta
Na minha opinião, ele assume que os erros estão em uma família de distribuições gama, com as mesmas formas, e com as escalas mudando de acordo com a fórmula relacionada.
Mas é difícil fazer o diagnóstico do modelo. Observe que o gráfico QQ simples não é adequado aqui, porque é quase a mesma distribuição, enquanto a nossa é uma família de distribuições com variâncias diferentes.
Ingenuamente, o gráfico de resíduos pode ser usado para ver que eles têm escalas diferentes, mas a mesma forma, geralmente com caudas longas.
Na minha experiência, o gama GLM pode ser experimentado para alguns problemas distribuídos de cauda longa e é amplamente utilizado nos setores de seguros e meio ambiente, etc. as suposições são difíceis de testar, e o modelo geralmente não funciona bem, então diferentes artigos argumentam para usar outras distribuições de família com o mesmo problema, como gaussiana inversa, etc. Na prática, parece que tais escolhas dependem do julgamento de especialistas com o experiência industrial. Isso limita o uso do gama GLM.