La distribution gamma peut prendre un assez large éventail de formes, et étant donné le lien entre la moyenne et la variance à travers ses deux paramètres, elle semble adaptée à traitant de lhétéroscédasticité dans les données non négatives, dune manière que lOLS à transformation logarithmique ne peut « pas se passer de WLS ou dune sorte destimateur de VCV cohérent en hétéroscédasticité.

Je lutiliserais plus pour la routine non- la modélisation des données négatives, mais je ne connais personne d’autre qui l’utilise, je ne l’ai pas appris dans une salle de classe formelle et la littérature que j’ai lue ne l’utilise jamais. , Je propose des conseils pour lutiliser pour les temps dattente entre les événements de Poisson. OK. Mais cela semble restrictif et ne peut pas être sa seule utilité.

Naïvement, il semble que le gamma GLM soit une hypothèse relativement – moyen léger de modéliser des données non négatives, étant donné la flexibilité du gamma. Bien sûr, vous devez vérifier les graphiques QQ et les graphiques résiduels comme nimporte quel modèle. Mais y a-t-il des inconvénients sérieux qui me manquent? Au-delà de la communication avec les personnes qui « ne font quexécuter OLS »?

Commentaires

  • Je ‘ suis assez tard à la conversation, mais je ‘ m intéressé par la régression Gamma car elle accomplit les mêmes objectifs que la régression de Poisson (à ma connaissance) mais en raison de sa forme continue, elle ‘ est plus facile pour les calculs de gradient – ce qui en fait potentiellement un meilleur choix pour les logiciels de modélisation bayésienne qui utilisent léchantillonnage HMC / NUTS basé sur le gradient, comme PyMC3, Stan, etc. (Curieux de savoir ce que les autres pensent)

Réponse

Le gamma a une propriété partagée par le lognormal; à savoir que lorsque le paramètre de forme est maintenu constant alors que le paramètre déchelle est varié (comme cela est généralement fait lors de lutilisation de lun ou lautre pour les modèles), la variance est proportionnelle à la moyenne au carré (coefficient de variation constant).

Quelque chose Cette approximation se produit assez souvent avec les données financières, ou même avec de nombreux autres types de données.

En conséquence, elle convient souvent aux données continues, positives, asymétriques à droite et pour lesquelles la variance est presque constante sur léchelle logarithmique, bien quil existe un certain nombre dautres choix bien connus (et souvent assez facilement disponibles) avec ces propriétés.

De plus, il est courant dajuster un lien log avec le gamma GLM (il « est relativement plus rare dutiliser le lien naturel). Ce qui le rend légèrement différent de lajustement dun modèle linéaire normal aux logs des données est que sur léchelle logarithmique où le gamma est laissé biaisé à des degrés divers tandis que la normale (le log dune lognormale) est symétrique. Cela le rend (le gamma) utile dans une variété de situations.

Jai vu des utilisations pratiques des gamma GLM discutées (avec des exemples de données réelles) dans (par dessus ma tête) de Jong & Heller et Libère ainsi que de nombreux articles; Jai aussi vu des applications dans dautres domaines. Oh, et si je me souviens bien, Venables and Ripley « s MASS lutilise sur labsentéisme scolaire (les données quine; Edit: il savère quil est en fait dans Compléments statistiques de MASS , voir p11, la 14e page du pdf, il a un lien de connexion mais il « un petit décalage du DV). Euh, et McCullagh et Nelder ont fait un exemple de coagulation sanguine, bien que peut-être que ce soit un lien naturel.

Ensuite, il y a « s le livre de Faraway » où il a fait un exemple dassurance automobile et un exemple de données de fabrication de semi-conducteurs.

Il y a des avantages et des inconvénients à choisir lune ou lautre des deux options. Depuis ces jours, les deux sont faciles à installer; cest généralement une question de choisir ce qui est le plus approprié.

Cest loin dêtre la seule option; par exemple, il y a aussi des GLM gaussiens inverses, qui sont plus biaisés / plus lourds (et encore plus hétéroscédastique) que gamma ou log-normale.

En ce qui concerne les inconvénients, il est plus difficile de faire des intervalles de prédiction. Certains affichages de diagnostic sont plus difficiles à interpréter. Le calcul des attentes à léchelle du prédicteur linéaire (généralement léchelle logarithmique) est plus difficile que pour léquivalent modèle log-normal. Les tests dhypothèses et les intervalles sont généralement asymptotiques. Ce sont souvent des problèmes relativement mineurs.

Il présente certains avantages par rapport à la régression log-normale log-link (prise de logs et ajustement dun modèle de régression linéaire ordinaire). la prédiction moyenne est facile.

Commentaires

  • Devrait lêtre  » Gamma  » ou  » gamma « ? Nous savons que ‘ nest pas nommé pour une personne. Jai ‘ vu des minuscules  » g  » beaucoup plus fréquemment .Clairement, la distribution est nommée pour la fonction, qui remonte au 18ème siècle.
  • La notation $ \ Gamma $ est la seule raison pour laquelle jai ‘ vu pour cette utilisation. Avec les distributions en général, les majuscules font généralement écho aux noms de famille, par ex. Poisson ou gaussien, comme vous le savez.
  • @NickCox Je lai changé comme vous le suggérez, et jai corrigé  » Gaussien inverse  » pendant que jy étais.
  • @Gleb_b: Utilisez-vous toujours le lien de journal avec la famille gaussienne inverse?
  • @ DimitriyV.Masterov It ‘ est moins utilisé, donc il est ‘ plus difficile à généraliser. Daprès ce que jai ‘ vu, il ‘ est assez courant dutiliser un lien log avec gaussien inverse, mais dautres liens peuvent convenir dans certaines situations, comme un lien inverse.

Réponse

Cest « une bonne question. En fait, Pourquoi les gens nutilisent pas davantage les modèles linéaires généralisés (GLM) est également une bonne question.

Note davertissement: certaines personnes utilisent GLM pour le modèle linéaire général, pas ce qui est à lesprit ici.

  • Cela dépend de lendroit où vous regardez. Par exemple, les distributions gamma sont populaires dans plusieurs sciences de lenvironnement depuis quelques décennies et la modélisation avec des variables prédictives est donc également une extension naturelle. Il existe de nombreux exemples en hydrologie et en géomorphologie, pour ne citer que certains domaines dans lesquels je me suis égaré.

  • Il est difficile de déterminer quand lutiliser au-delà dune réponse vide de quand cela fonctionne le mieux. Compte tenu des données positives biaisées, je me retrouverai souvent à essayer des modèles gamma et log-normaux (dans le lien de journal de contexte GLM, dans la famille normale ou gaussienne) et à choisir celui qui fonctionne le mieux.

  • La modélisation gamma est restée assez difficile à faire jusquà assez récemment, certainement par rapport à la prise de journaux et à lapplication de régressions linéaires, sans écrire beaucoup de code vous-même. Même maintenant, je suppose que ce nest pas aussi facile dans tous les principaux environnements de logiciels statistiques.

  • En expliquant ce qui est utilisé et ce qui ne l’est pas, malgré les mérites et les inconvénients, je pense que vous vous ramenez toujours précisément au type de facteurs que vous identifiez: ce qui est enseigné, quoi est dans la littérature que les gens lisent, ce dont les gens entendent parler au travail et lors de conférences. Il faut donc une sorte de sociologie amateur de la science à expliquer. La plupart des gens semblent suivre des chemins droits et étroits dans leurs propres champs. En gros, plus la littérature interne dans nimporte quel domaine sur les techniques de modélisation est vaste, moins les gens dans ce domaine semblent vouloir essayer quelque chose de différent.

Commentaires

  • Comment déterminez-vous ce qui fonctionne le mieux?
  • Je regarde les probabilités , R-carrés (malgré ce que les gens disent), intervalles de confiance autour des estimations de paramètres, graphiques observés vs ajustés, résiduels vs ajustés, etc. Sil y avait une science favorisant un modèle par rapport à un autre, cela pèserait aussi, mais daprès mon expérience, la science nest pas si bien formé. Comment pourrait-il être fait autrement?
  • @NickCox À quoi devons-nous faire attention lorsque lanalyse observée vs ajustée, résiduelle vs ajustée et normale qq plot? Je comprends que cela peut différer entre les modèles. Pourriez-vous donner un exemple pour gamma, poisson et binôme négatif? Merci
  • @tatami Que ‘ est une toute nouvelle question, ou plus, je pense. Si vous le demandez, vous ‘ verrez qui mord. Je ‘ n’ai jamais pensé qu’un modèle gamma et un modèle binomial négatif étaient rivaux dans un projet, mais cela pourrait être un échec d’imagination ou d’expérience.

Réponse

La régression gamma est dans le GLM et vous pouvez donc obtenir de nombreuses quantités utiles à des fins de diagnostic, telles que les résidus de déviance, les effets de levier, Cook  » s distance, et ainsi de suite. Ils ne sont peut-être pas aussi bons que les quantités correspondantes pour les données transformées en log.

Une chose que la régression gamma évite par rapport à la log-normale est le biais de transformation. Linégalité de Jensen implique que les prédictions de la régression log-normale seront systématiquement biaisées car il sagit de modéliser les données transformées plutôt que la valeur attendue transformée.

De plus, la régression gamma (ou dautres modèles pour les données non négatives) peut faire face à un tableau de données plus large que le lognormal en raison du fait quil peut avoir un mode à 0, comme vous avez avec le dist exponentiel ribution, qui est dans la famille gamma, ce qui est impossible pour la log-normale.

Jai lu des suggestions selon lesquelles lutilisation de la vraisemblance de Poisson comme quasi-vraisemblance est plus stable. Ils « se conjuguent lun à lautre. Le quasi-Poisson a également lavantage substantiel de pouvoir faire face à des valeurs 0 exactes, qui perturbent à la fois le gamma et, surtout, la log-normale.

Réponse

À mon avis, cela suppose que les erreurs se situent sur une famille de distributions gamma, avec les mêmes formes, et avec les échelles changeant selon la formule associée.

Mais il est difficile de faire un diagnostic de modèle. Notez que le graphique QQ simple ne convient pas ici, car il sagit de la même distribution, alors que le nôtre est une famille de distributions avec des variances différentes.

Naïvement, le graphique des résidus peut être utilisé pour voir quils ont différentes échelles mais la même forme, généralement avec de longues queues.

Daprès mon expérience, le gamma GLM peut être essayé pour certains problèmes distribués à longue traîne, et il est largement utilisé dans les secteurs de lassurance et de lenvironnement, etc. les hypothèses sont difficiles à tester et le modèle ne fonctionne généralement pas bien, de sorte que différents articles soutiennent lutilisation dautres distributions familiales avec le même problème, comme la gaussienne inverse, etc. En pratique, il semble que de tels choix dépendent du jugement dexpert avec le expérience industrielle. Cela limite lutilisation du gamma GLM.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *