De gammadistributie kan een behoorlijk breed scala aan vormen aannemen, en gezien het verband tussen het gemiddelde en de variantie via zijn twee parameters, lijkt het geschikt voor omgaan met heteroskedasticiteit in niet-negatieve gegevens, op een manier dat log-getransformeerde OLS “niet kan zonder WLS of een soort van heteroskedasticiteit-consistente VCV-schatter.

Ik zou het meer gebruiken voor routinematige niet- negatieve gegevensmodellering, maar ik ken niemand anders die het gebruikt, ik heb het niet geleerd in een formele klas, en de literatuur die ik lees, gebruikt het nooit. Telkens wanneer ik Google zoiets als praktisch gebruik van gamma GLM , Kom ik met advies om het te gebruiken voor wachttijden tussen Poisson-evenementen. OK. Maar dat lijkt beperkend en kan “niet het enige gebruik zijn.

Naïef lijkt het erop dat de gamma-GLM een relatief aanname is -lichte manier om niet-negatieve gegevens te modelleren, gezien de flexibiliteit van gamma. Natuurlijk moet u QQ-plots en residuele plots controleren zoals elk model. Maar zijn er ernstige nadelen die ik mis? Behalve communicatie met mensen die “net OLS draaien”?

Reacties

  • Ik ‘ ben vrij laat aan het gesprek, maar ik ‘ m geïnteresseerd in gammaregressie omdat het dezelfde doelen bereikt als Poisson-regressie (voor zover ik weet), maar vanwege de continue vorm ‘ is gemakkelijker voor gradiëntberekeningen, waardoor het mogelijk een betere keuze wordt voor Bayesiaanse modelleringssoftware die gebruikmaakt van op gradiënt gebaseerde sampling HMC / NUTS, zoals PyMC3, Stan, enz. (Benieuwd wat anderen denken)

Answer

De gamma heeft een eigenschap die wordt gedeeld door de lognormal; namelijk dat wanneer de vormparameter constant wordt gehouden terwijl de schaalparameter wordt gevarieerd (zoals gewoonlijk wordt gedaan bij gebruik van beide voor modellen), de variantie evenredig is met het gemiddelde kwadraat (constante variatiecoëfficiënt).

Iets een benadering hiervan komt vrij vaak voor met financiële gegevens, of inderdaad, met veel andere soorten gegevens.

Als gevolg hiervan is het vaak geschikt voor gegevens die continu, positief, rechtsknalig zijn en waar variantie bijna constant op de log-schaal, hoewel er een aantal andere bekende (en vaak redelijk gemakkelijk beschikbare) keuzes zijn met die eigenschappen.

Verder is het gebruikelijk om een log-link te plaatsen met de gamma-GLM (het is relatief zeldzamer om de natuurlijke link te gebruiken). Wat het enigszins verschilt van het passen van een normaal lineair model in de logboeken van de gegevens, is dat op de logaritmische schaal de gamma wordt in verschillende mate scheef gelaten terwijl de normale (de log van een lognormale) symmetrisch is. Dit maakt het (de gamma) nuttig in een verscheidenheid aan situaties.

Ik heb praktische toepassingen van gamma-GLMs besproken (met voorbeelden van echte gegevens) in (uit mijn hoofd) de Jong & Heller en Maakt vrij, evenals talrijke papieren; Ik “heb ook toepassingen op andere gebieden gezien. Oh, en als ik het me goed herinner, Venables en Ripleys MASS gebruikt het op schoolverzuim (de quine-gegevens; Bewerken: het blijkt eigenlijk in Statistische aanvullingen op MASS te staan, zie p11, de 14e pagina van de pdf, het heeft een log link maar er is een kleine verschuiving van de DV). Uh, en McCullagh en Nelder deden een voorbeeld van bloedstolling, hoewel het misschien een natuurlijke link was.

Dan is er “s Faraway” s boek waar hij een voorbeeld van een autoverzekering deed en een voorbeeld van halfgeleiderfabricage.

Er zijn enkele voor- en nadelen aan het kiezen van een van de twee opties. Beide zijn tegenwoordig eenvoudig te monteren; het is over het algemeen een kwestie van kiezen wat het meest geschikt is.

Het is verre van de enige optie; er zijn bijvoorbeeld ook omgekeerde Gauss-GLMs, die meer scheef / zwaarder zijn (en zelfs heteroskedastisch) dan gamma of lognormaal.

Wat de nadelen betreft: het is moeilijker om voorspellingsintervallen uit te voeren. Sommige diagnostische weergaven zijn moeilijker te interpreteren. Het berekenen van verwachtingen op de schaal van de lineaire voorspeller (meestal de logschaal) is moeilijker dan voor het equivalent lognormaal model. Hypothesetests en intervallen zijn over het algemeen asymptotisch. Dit zijn vaak relatief kleine problemen.

Het heeft enkele voordelen ten opzichte van log-link lognormale regressie (logboeken nemen en aanpassen aan een gewoon lineair regressiemodel); een daarvan is dat gemiddelde voorspelling is eenvoudig.

Opmerkingen

  • Zou het moeten zijn ” Gamma ” of ” gamma “? We weten dat ‘ niet is genoemd naar een persoon. Ik ‘ heb kleine letters ” g ” veel vaker gezien .Het is duidelijk dat de distributie is genoemd naar de functie, die teruggaat tot de 18e eeuw.
  • De $ \ Gamma $ -notatie is de enige reden waarom ik ‘ heb gezien voor dat gebruik. Bij distributies in het algemeen echos hoofdletters gewoonlijk achternamen, bijv. Poisson of Gaussiaans, zoals je weet.
  • @NickCox Ik heb het gewijzigd zoals je suggereert, en ik heb ” Inverse Gaussian ” terwijl ik bezig was.
  • @Gleb_b: Gebruik je nog steeds de log-link met de omgekeerde Gaussiaanse familie?
  • @ DimitriyV.Masterov It ‘ wordt minder gebruikt, dus het ‘ s moeilijker te generaliseren. Van wat ik ‘ heb gezien, is het ‘ vrij normaal om een log-link te gebruiken met inverse Gaussian, maar andere links kunnen ook geschikt zijn in sommige situaties, zoals een inverse link.

Antwoord

Dat is een goede vraag. In feite waarom mensen niet meer gegeneraliseerde lineaire modellen (GLM) gebruiken, is ook een goede vraag.

Waarschuwing: sommige mensen gebruiken GLM voor een algemeen lineair model, niet wat hier in gedachten is.

  • Het hangt ervan af waar u kijkt. Gamma-distributies zijn bijvoorbeeld al enkele decennia populair in verschillende milieuwetenschappen en dus is ook modellering met voorspellende variabelen een natuurlijke uitbreiding. Er zijn veel voorbeelden in de hydrologie en geomorfologie, om een paar gebieden te noemen waarin ik ben afgedwaald.

  • Het is moeilijk vast te stellen wanneer je het moet gebruiken buiten een leeg antwoord of wanneer het het beste werkt. Gegeven scheve positieve gegevens zal ik vaak merken dat ik gamma- en lognormale modellen uitprobeer (in GLM-context loglink, normale of Gaussiaanse familie) en kies welke beter werkt.

  • Gamma-modellering bleef vrij moeilijk te doen tot vrij recent, zeker in vergelijking met bijvoorbeeld het opnemen van logs en het toepassen van lineaire regressies, zonder zelf veel code te schrijven. Zelfs nu denk ik dat het niet in alle grote statistische software-omgevingen even gemakkelijk is.

  • Bij het uitleggen wat wel en niet wordt gebruikt, ondanks verdiensten en tekortkomingen, denk ik dat het altijd gaat om precies het soort factoren dat je identificeert: wat wordt geleerd, wat is in de literatuur die mensen lezen, waar mensen over horen praten op het werk en op conferenties. Je hebt dus een soort amateuristische wetenschapssociologie nodig om uit te leggen. De meeste mensen lijken binnen hun eigen velden rechte en smalle paden te volgen. Losjes, hoe groter de interne literatuur op welk gebied dan ook over modelleertechnieken, hoe minder geneigd mensen op dat gebied lijken om iets anders te proberen.

Opmerkingen

  • Hoe bepaal je welke beter werkt?
  • Ik kijk naar waarschijnlijkheden , R-kwadraten (ondanks wat mensen zeggen), betrouwbaarheidsintervallen rond parameterschattingen, plots van waargenomen versus gefit, residu versus gefit, enz. Als de wetenschap het ene model bevoordeelde boven het andere, zou dat ook wegen, maar in mijn ervaring is niet zo goed gevormd. Hoe kan het anders worden gedaan?
  • @NickCox Waar moeten we op letten wanneer analyse wordt geobserveerd versus gefit, residuen versus gefit en normaal qq-plot? Ik begrijp dat dit kan verschillen tussen modellen. Kunt u een voorbeeld geven voor gamma, poisson en negatief binominaal? Bedankt
  • @tatami Dat ‘ een geheel nieuwe vraag is, of meer, denk ik. Als je het vraagt, ‘ zal je zien wie bijt. Ik ‘ heb nooit gedacht dat een gammamodel en een negatief binominaal model rivalen waren in welk project dan ook, maar dat kan een gebrek aan fantasie of ervaring zijn.

Answer

Gamma-regressie bevindt zich in de GLM en u kunt dus veel bruikbare hoeveelheden krijgen voor diagnostische doeleinden, zoals afwijkingsresiduen, leverages, Cook ” s afstand, enzovoort. Ze zijn misschien niet zo mooi als de overeenkomstige hoeveelheden voor log-getransformeerde gegevens.

Een ding dat gammaregressie vermijdt in vergelijking met de lognormale is transformatiebias. De ongelijkheid van Jensen impliceert dat de voorspellingen van lognormale regressie zullen systematisch vertekend zijn omdat het getransformeerde gegevens modelleert in plaats van de getransformeerde verwachte waarde.

Ook gammaregressie (of andere modellen voor niet-negatieve gegevens) kunnen omgaan met een bredere reeks gegevens dan de lognormaal vanwege het feit dat het een modus op 0 kan hebben, zoals je hebt met de exponentiële dist ribution, die in de gamma-familie zit, wat onmogelijk is voor de lognormaal.

Ik heb suggesties gelezen dat het gebruik van de Poisson-waarschijnlijkheid als een quasi-waarschijnlijkheid stabieler is. Ze re-conjugaten van elkaar. De quasi-Poisson heeft ook het substantiële voordeel dat hij kan omgaan met exacte 0-waarden, die zowel het gamma als vooral de lognormale problemen veroorzaken.

Antwoord

Naar mijn mening gaat het ervan uit dat de fouten liggen in een familie van gamma-distributies, met dezelfde vormen, en waarbij de schalen veranderen volgens de gerelateerde formule.

Maar het is moeilijk om modeldiagnose te doen. Merk op dat de eenvoudige QQ-plot hier niet geschikt is, omdat het ongeveer dezelfde distributie betreft, terwijl de onze een familie is van distributies met verschillende varianties.

Naïef kan de residuenplot worden gebruikt om te zien dat ze verschillende schalen maar dezelfde vorm, meestal met lange staarten.

In mijn ervaring kan de gamma-GLM worden geprobeerd voor sommige problemen met verspreide lange staarten, en het wordt veel gebruikt in verzekerings- en milieusectoren, enz. Maar de aannames zijn moeilijk te testen en het model presteert meestal niet goed, dus verschillende papers pleiten voor het gebruik van andere gezinsverdelingen met hetzelfde probleem, zoals inverse Gaussiaans, enz. In de praktijk lijkt het erop dat dergelijke keuzes afhangen van deskundig oordeel met de industriële ervaring. Dit beperkt het gebruik van de gamma-GLM.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *