La distribución gamma puede adoptar una amplia gama de formas y, dado el vínculo entre la media y la varianza a través de sus dos parámetros, parece adecuada para lidiar con la heterocedasticidad en datos no negativos, de una manera que OLS transformada logarítmicamente no puede prescindir de WLS o de algún tipo de estimador de VCV consistente con heterocedasticidad.

Lo usaría más para rutinas no modelado de datos negativos, pero no conozco a nadie más que lo use, no lo aprendí en un salón de clases formal y la literatura que leo nunca lo usa. Siempre que busco en Google algo como «usos prácticos de gamma GLM» , Se me ocurre un consejo para usarlo para los tiempos de espera entre eventos de Poisson. De acuerdo. Pero eso parece restrictivo y no puede ser su único uso.

Ingenuamente, parece que la gamma GLM es una suposición relativamente -Medios livianos para modelar datos no negativos, dada la flexibilidad de gamma. Por supuesto, es necesario verificar los gráficos de QQ y los gráficos de residuos como cualquier modelo. Pero ¿Hay algún inconveniente serio que me esté perdiendo? ¿Más allá de la comunicación con personas que «simplemente ejecutan OLS»?

Comentarios

  • Yo ‘ llegué bastante tarde a la conversación, pero yo ‘ estoy interesado en la regresión Gamma, ya que cumple los mismos propósitos que la regresión de Poisson (que yo sepa) pero debido a su forma continua, ‘ es más fácil para los cálculos de gradientes, lo que potencialmente lo convierte en una mejor opción para el software de modelado bayesiano que utiliza HMC / NUTS de muestreo basado en gradientes, como PyMC3, Stan, etc. (Es curioso lo que otros piensen)

Respuesta

La gamma tiene una propiedad compartida por lognormal; es decir, cuando el parámetro de forma se mantiene constante mientras se varía el parámetro de escala (como se suele hacer cuando se utiliza cualquiera de los dos modelos), la varianza es proporcional al cuadrado medio (coeficiente de variación constante).

Algo aproximarse a esto ocurre con bastante frecuencia con datos financieros, o de hecho, con muchos otros tipos de datos.

Como resultado, a menudo es adecuado para datos que son continuos, positivos, sesgados a la derecha y donde la varianza es casi constante en la escala logarítmica, aunque hay una serie de otras opciones bien conocidas (y a menudo disponibles) con esas propiedades.

Además, es común ajustar un enlace de registro con el GLM gamma (es relativamente más raro usar el enlace natural). Lo que lo hace ligeramente diferente de ajustar un modelo lineal normal a los registros de datos es que en la escala logarítmica la gamma se deja sesgada en diversos grados mientras que la normal (el logaritmo de una logaritmo normal) es simétrica. Esto la hace (la gamma) útil en una variedad de situaciones.

He visto usos prácticos de los GLM gamma discutidos (con ejemplos de datos reales) en (fuera de mi cabeza) de Jong & Heller y Frees , así como numerosos artículos; También he visto aplicaciones en otras áreas. Ah, y si mal no recuerdo, Venables y Ripley «s MASS lo usa en el absentismo escolar (los datos quine; Editar: resulta que en realidad está en Complementos de estadísticas para MASS , ver p11, la página 14 del pdf, tiene un enlace de registro pero hay un pequeño cambio de DV). Uh, y McCullagh y Nelder hicieron un ejemplo de coagulación sanguínea, aunque quizás haya sido un vínculo natural.

Luego está «s Faraway» s book donde hizo un ejemplo de seguro de automóvil y un ejemplo de datos de fabricación de semiconductores.

Existen algunas ventajas y desventajas al elegir cualquiera de las dos opciones. Dado que estos días ambos son fáciles de colocar; Por lo general, se trata de elegir cuál es la más adecuada.

Está lejos de ser la única opción; por ejemplo, también hay GLM gaussianos inversos, que son más sesgados / con colas más pesadas (y incluso más heterocedástico) que gamma o lognormal.

En cuanto a los inconvenientes, es más difícil hacer intervalos de predicción. Algunas pantallas de diagnóstico son más difíciles de interpretar. Calcular las expectativas en la escala del predictor lineal (generalmente la escala logarítmica) es más difícil que para el equivalente modelo lognormal. Las pruebas de hipótesis y los intervalos son generalmente asintóticos. A menudo, estos son problemas relativamente menores.

Tiene algunas ventajas sobre la regresión logarítmica-logarítmica normal (tomar registros y ajustar un modelo de regresión lineal ordinario); una es que la predicción media es fácil.

Comentarios

  • Debería ser » Gamma » o » gamma «? Sabemos que ‘ no con el nombre de una persona. ‘ he visto » g » minúsculas con mucha más frecuencia .Claramente, la distribución lleva el nombre de la función, que se remonta al siglo XVIII.
  • La notación $ \ Gamma $ es la única razón por la que ‘ he visto ese uso. Con las distribuciones en general, las mayúsculas suelen hacer eco de los apellidos, p. Poisson o gaussiano, como sabes.
  • @NickCox Lo cambié como sugieres, y arreglé » gaussiano inverso » mientras estaba en ello.
  • @Gleb_b: ¿Todavía usas el enlace de registro con la familia gaussiana inversa?
  • @ DimitriyV.Masterov It ‘ es menos utilizado, por lo que ‘ es más difícil de generalizar. Por lo que ‘ he visto, ‘ es bastante común usar un enlace de registro con gaussiano inverso, pero otros enlaces pueden ser adecuados en algunas situaciones, como un enlace inverso.

Responder

Esa es una buena pregunta. De hecho, Por qué la gente no usa más modelos lineales generalizados (GLM) también es una buena pregunta.

Nota de advertencia: algunas personas usan GLM para el modelo lineal general, no lo que se piensa aquí.

  • Depende de dónde mires. Por ejemplo, las distribuciones gamma han sido populares en varias de las ciencias ambientales durante algunas décadas, por lo que el modelado con variables predictoras también es una extensión natural. Hay muchos ejemplos en hidrología y geomorfología, por nombrar algunos campos en los que me he desviado.

  • Es difícil precisar exactamente cuándo usarlo más allá de una respuesta vacía de cuándo funciona mejor. Dados los datos positivos sesgados, a menudo me encuentro probando modelos gamma y lognormal (en el enlace de registro de contexto GLM, familia normal o gaussiana) y elijo cuál funciona mejor.

  • El modelado gamma siguió siendo bastante difícil de hacer hasta hace relativamente poco tiempo, ciertamente en comparación con, digamos, tomar registros y aplicar regresiones lineales, sin escribir mucho código usted mismo. Incluso ahora, supongo que no es igualmente fácil en todos los principales entornos de software estadístico.

  • Al explicar qué se usa y qué no se usa, a pesar de los méritos y deméritos, creo que siempre se reduce precisamente al tipo de factores que identifica: qué se enseña, qué está en la literatura que la gente lee, lo que la gente escucha hablar en el trabajo y en las conferencias. Entonces, necesitas una especie de sociología de la ciencia amateur para explicar. La mayoría de la gente parece seguir caminos rectos y estrechos dentro de sus propios campos. En términos generales, cuanto mayor es la literatura interna en cualquier campo sobre técnicas de modelado, menos inclinada parece estar la gente en ese campo a intentar algo diferente.

Comentarios

  • ¿Cómo se determina cuál funciona mejor?
  • Analizo las probabilidades , R-cuadrados (a pesar de lo que la gente diga), intervalos de confianza alrededor de las estimaciones de los parámetros, gráficos de observado vs ajustado, residual vs ajustado, etc. Si hubiera ciencia que favoreciera un modelo sobre otro, eso también pesaría, pero en mi experiencia la ciencia no está tan bien formado. ¿De qué otra manera se podría hacer?
  • @NickCox ¿Qué debemos tener en cuenta cuando el análisis observado frente a ajustado, residuales frente a ajustado y gráfico qq normal? Entiendo que esto puede diferir entre modelos. ¿Podría dar un ejemplo de gamma, poisson y binomio negativo? Gracias
  • @tatami Esa ‘ es una pregunta completamente nueva, o más, creo. Si lo preguntas, ‘ verás quién muerde. ‘ nunca pensé que un modelo gamma y un modelo binomial negativo fueran rivales en cualquier proyecto, pero eso podría ser un fracaso de la imaginación o la experiencia.

Respuesta

La regresión gamma está en el GLM y, por lo tanto, puede obtener muchas cantidades útiles para fines de diagnóstico, como residuos de desviación, apalancamiento, cocción » s distancia, y así sucesivamente. Quizás no sean tan agradables como las cantidades correspondientes para datos transformados logarítmicamente.

Una cosa que la regresión gamma evita en comparación con el logaritmo normal es el sesgo de transformación. La desigualdad de Jensen implica que las predicciones de la regresión lognormal estarán sesgadas sistemáticamente porque modela datos transformados en lugar del valor esperado transformado.

Además, la regresión gamma (u otros modelos para datos no negativos) pueden hacer frente a un conjunto de datos más amplio que el lognormal debido al hecho de que puede tener un modo en 0, como el que tiene con el dist exponencial ribution, que pertenece a la familia gamma, lo cual es imposible para lognormal.

He leído sugerencias de que usar la probabilidad de Poisson como una cuasi verosimilitud es más estable. Son conjugados entre sí. El cuasi-Poisson también tiene el beneficio sustancial de poder hacer frente a valores 0 exactos, que afectan tanto a la gamma como, especialmente, a la lognormal.

Respuesta

En mi opinión, se asume que los errores se encuentran en una familia de distribuciones gamma, con las mismas formas, y con las escalas cambiando según la fórmula relacionada.

Pero es difícil hacer un diagnóstico de modelo. Tenga en cuenta que la gráfica QQ simple no es adecuada aquí, porque se trata de la misma distribución, mientras que la nuestra es una familia de distribuciones con diferentes varianzas.

Ingenuamente, la gráfica de residuos se puede usar para ver que tienen diferentes escalas pero la misma forma, generalmente con colas largas.

En mi experiencia, la gamma GLM puede probarse para algunos problemas de distribución de cola larga, y se usa ampliamente en los sectores de seguros y medio ambiente, etc. Pero las suposiciones son difíciles de probar y el modelo no funciona bien por lo general, por lo que diferentes artículos argumentan que se usan otras distribuciones familiares con el mismo problema, como la gaussiana inversa, etc. En la práctica, parece que tales elecciones dependen del juicio de expertos con experiencia industrial. Esto limita el uso de gamma GLM.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *