Gamma-fordelingen kan tage et stort bredt spektrum af former, og i betragtning af sammenhængen mellem middelværdien og variansen gennem de to parametre synes den velegnet til beskæftiger sig med heteroskedasticitet i ikke-negative data på en måde, som logtransformeret OLS ikke kan klare sig uden hverken WLS eller en slags heteroskedasticitet-konsistent VCV-estimator.
Jeg vil bruge det mere til rutinemæssig ikke- negativ datamodellering, men jeg kender ikke nogen anden, der bruger det, jeg har ikke lært det i en formel klasseværelse, og den litteratur, jeg læser, bruger det aldrig. Når jeg googler noget som “praktisk brug af gamma GLM” , Jeg kommer med råd til at bruge det til ventetider mellem Poisson-begivenheder. OK. Men det virker begrænsende og kan ikke være dets eneste anvendelse.
Naivt ser det ud til, at gamma GLM er en relativt antagelse -lys middel til modellering af ikke-negative data, givet gammas fleksibilitet. Selvfølgelig skal du kontrollere QQ-plots og restplots som enhver model. Men er der nogen alvorlige ulemper, som jeg mangler? Ud over kommunikation til folk, der “bare kører OLS”?
Kommentarer
- Jeg ‘ er ret sent til samtalen, men jeg ‘ er interesseret i Gamma-regression, da den udfører samme formål som Poisson-regression (efter min viden), men på grund af dens kontinuerlige form er den ‘ er lettere for gradientberegninger – hvilket muligvis gør det til et bedre valg for Bayesian modelleringssoftware, der bruger gradientbaseret sampling HMC / NUTS, såsom PyMC3, Stan osv. (Nysgerrig hvad andre synes)
Svar
Gamma har en egenskab, der deles af lognormal; nemlig at når formparameteren holdes konstant, mens skalaparameteren varieres (som normalt gøres, når man bruger en af modellerne), er variansen proportional med middel-kvadratet (konstant variationskoefficient).
Noget omtrentlig til dette forekommer ret ofte med økonomiske data eller faktisk med mange andre slags data.
Som et resultat er det ofte velegnet til data, der er kontinuerlige, positive, retvinklede, og hvor variansen er næsten konstant på log-skalaen, selvom der er en række andre velkendte (og ofte ret let tilgængelige) valg med disse egenskaber.
Yderligere er det almindeligt at tilpasse et log-link med gamma GLM (det er relativt sjældnere at bruge det naturlige link). Hvad der gør det lidt anderledes end at tilpasse en normal lineær model til dataloggene er, at på logskalaen gamma efterlades skæv i forskellige grader , mens normal (log af en lognormal) er symmetrisk. Dette gør det (gamma) nyttigt i en række forskellige situationer.
Jeg har set praktiske anvendelser af gamma-GLMer diskuteret (med reelle dataeksempler) i (uden for toppen af mit hoved) de Jong & Heller og Frigørelser samt adskillige papirer; Jeg har også set applikationer på andre områder. Åh, og hvis jeg husker rigtigt, Venables og Ripleys MASS bruger det på skolefravær (quindataene; Rediger: viser sig, at det faktisk er i Statistik Suppler til MASS , se s. 11, den 14. side i pdf, den har en loglink, men der er et lille skift af DV). Uh, og McCullagh og Nelder gjorde et eksempel på blodpropper, selvom det måske kan have været en naturlig forbindelse.
Så er der “s Faraways bog , hvor han lavede et eksempel på en bilforsikring og et eksempel på fremstillingen af halvledere.
Der er nogle fordele og nogle ulemper ved at vælge en af de to muligheder. Siden disse dage er begge nemme at montere; det er generelt et spørgsmål om at vælge, hvad der er bedst egnet.
Det er langt fra den eneste mulighed; for eksempel er der også inverse Gaussiske GLMer, som er mere skæve / tungere halede (og endnu mere heteroskedastisk) end enten gamma eller lognormal.
Hvad angår ulemper, er det sværere at foretage forudsigelsesintervaller. Nogle diagnostiske skærme er sværere at fortolke. Beregningsforventninger på skalaen for den lineære forudsigelse (generelt log-skalaen) er sværere end for det tilsvarende lognormal model. Hypotesetests og intervaller er generelt asymptotiske. Disse er ofte relativt mindre problemer.
Det har nogle fordele i forhold til lognormal lognormal regression (tager logfiler og passer til en almindelig lineær regressionsmodel); den ene er, at middel forudsigelse er let.
Kommentarer
- Skal det være ” Gamma ” eller ” gamma “? Vi ved, at det ‘ ikke er opkaldt efter en person. Jeg ‘ har set små bogstaver ” g ” meget oftere .Distributionen er tydeligt opkaldt efter funktionen, der går tilbage til det 18. århundrede.
- $ \ Gamma $ notationen er den eneste grund til, at jeg ‘ har set for den brug. Med distributioner generelt ekko store bogstaver normalt efternavne, f.eks. Poisson eller Gaussisk, som du ved.
- @NickCox Jeg har ændret det som du foreslår, og jeg fikset ” Invers Gaussisk ” mens jeg var ved det.
- @Gleb_b: Bruger du stadig loglinket med den omvendte Gaussiske familie?
- @ DimitriyV.Masterov Det ‘ er mindre brugt, så det ‘ er sværere at generalisere. Fra hvad jeg ‘ har set, er det ‘ ret almindeligt at bruge et log-link med invers Gaussisk, men andre links kan være passende i nogle situationer, f.eks. et omvendt link.
Svar
Det er et godt spørgsmål. Faktisk hvorfor ikke folk bruger generaliserede lineære modeller (GLM) mere, er også et godt spørgsmål.
Advarsel: Nogle mennesker bruger GLM til generel lineær model, ikke hvad der er i tankerne her.
-
Det afhænger af, hvor du kigger. For eksempel har gammafordelinger været populære i flere af miljøvidenskaberne i nogle årtier, og modellering med forudsigelsesvariabler er også en naturlig forlængelse. Der er mange eksempler inden for hydrologi og geomorfologi, for at nævne nogle felter, hvor jeg er kommet vild.
-
Det er svært at finde ud af, hvornår man skal bruge det ud over et tomt svar, når det fungerer bedst. I betragtning af skæve positive data vil jeg ofte finde ud af, at jeg prøver gamma- og lognormale modeller (i GLM-kontekstloglink, normal eller Gaussisk familie) og vælger hvilke der fungerer bedre.
-
Gammamodellering forblev ganske vanskeligt at gøre indtil for nylig, bestemt sammenlignet med f.eks. at tage logfiler og anvende lineære regressioner uden at skrive en masse kode selv. Selv nu vil jeg gætte, at det ikke er lige så let på tværs af alle de større statistiske softwaremiljøer.
-
Når jeg forklarer, hvad der bruges og hvad der ikke bruges, på trods af fordele og ulemper, tror jeg, du altid kommer ned til præcis den slags faktorer, du identificerer: hvad læres, hvad er i den litteratur, som folk læser, hvad folk hører talt om på arbejdspladsen og på konferencer. Så du har brug for en slags amatørvidenskabelig videnskab for at forklare. De fleste mennesker ser ud til at følge lige og smalle stier inden for deres egne felter. Løst, jo større den interne litteratur inden for ethvert felt om modelleringsteknikker er, jo mindre tilbøjelige synes folk på dette område at prøve noget andet.
Kommentarer
- Hvordan bestemmer du, hvad der fungerer bedre?
- Jeg ser på sandsynlighederne , R-firkanter (på trods af hvad folk siger), konfidensintervaller omkring parameterestimater, plot af observeret vs monteret, resterende vs monteret osv. Hvis der var videnskab, der favoriserede en model frem for en anden, ville det også veje, men efter min erfaring videnskaben er ikke så velformet. Hvordan kunne det ellers gøres?
- @NickCox Hvad skal vi passe på, når analyse observeret vs monteret, rester vs monteret og normal qq plot? Jeg forstår, at dette kan variere mellem modellerne. Kan du give et eksempel på gamma, poisson og negativ binomial? Tak
- @tatami At ‘ er et helt nyt spørgsmål eller mere, tror jeg. Hvis du spørger det, ser du ‘ hvem der bider. Jeg ‘ har aldrig nogensinde troet, at en gammamodel og en negativ binomial model var rivaler i ethvert projekt, men det kunne være svigt i fantasi eller erfaring.
Svar
Gamma-regression er i GLM, og så kan du få mange nyttige mængder til diagnostiske formål, såsom afvigelsesrester, gearing, Cook ” s afstand og så videre. De er måske ikke så pæne som de tilsvarende størrelser for logtransformerede data.
En ting, som gamma-regression undgår i forhold til det lognormale, er transformationsforstyrrelse. Jensens ulighed indebærer, at forudsigelserne fra lognormal regression vil være systematisk forudindtaget, fordi det modellerer transformerede data snarere end den transformerede forventede værdi.
Gamma-regression (eller andre modeller til ikke-negative data) kan også klare et bredere matrix af data end det lognormale, fordi det kan have en tilstand på 0, som du har med den eksponentielle dist ribution, som er i gamma-familien, hvilket er umuligt for det lognormale.
Jeg har læst forslag om, at brugen af Poisson-sandsynligheden som en kvasi-sandsynlighed er mere stabil. De er konjugater af hinanden. Kvasi-Poisson har også den væsentlige fordel ved at være i stand til at klare nøjagtige 0-værdier, der besværer både gamma og især det lognormale.
Svar
Efter min mening antager det, at fejlene ligger på en familie af gammafordelinger med de samme former, og med skalaerne, der ændres i henhold til den relaterede formel.
Men det er vanskeligt at lave modeldiagnose. Bemærk, at det enkle QQ-plot ikke er egnet her, fordi det handler om den samme fordeling, mens vores er en familie af fordelinger med forskellige varianter.
Naivt kan restplottet bruges til at se, at de har forskellige skalaer, men den samme form, normalt med lange haler.
Efter min erfaring kan gamma GLM blive prøvet for nogle lange hale distribuerede problemer, og det bruges i vid udstrækning i forsikrings- og miljøsektorer osv. Men antagelserne er vanskelige at teste, og modellen fungerer normalt ikke godt, så forskellige papirer hævder at bruge andre familiefordelinger med det samme problem, som omvendt gaussisk osv. I praksis ser det ud til, at sådanne valg afhænger af ekspertbedømmelse med industriel erfaring. Dette begrænser brugen af gamma GLM.