Gammadistribusjonen kan ta et ganske bredt spekter av former, og gitt sammenhengen mellom gjennomsnittet og variansen gjennom de to parametrene, virker det egnet å å håndtere heteroskedasticitet i ikke-negative data, på en måte som logg-transformert OLS ikke kan klare seg uten verken WLS eller en slags heteroskedasticitet-konsistent VCV-estimator.

Jeg vil bruke den mer til rutinemessig ikke- negativ datamodellering, men jeg kjenner ikke noen andre som bruker den, jeg har ikke lært den i en formell klasseromsinnstilling, og litteraturen jeg leser bruker den aldri. Når jeg googler noe sånt som «praktisk bruk av gamma GLM» , Jeg kommer med råd om å bruke den til ventetider mellom Poisson-hendelser. OK. Men det virker begrensende og kan ikke være den eneste bruken.

Naivt, det virker som om gamma GLM er en relativt antagelse -lys betyr å modellere ikke-negative data, gitt gammas fleksibilitet. Selvfølgelig må du sjekke QQ-plotter og gjenværende plott som alle modeller. Men er det noen alvorlige ulemper jeg mangler? Utover kommunikasjon til folk som «bare kjører OLS»?

Kommentarer

  • Jeg ‘ er ganske sent til samtalen, men jeg ‘ er interessert i Gamma-regresjon da den oppnår samme formål som Poisson-regresjon (etter min viten), men på grunn av dens kontinuerlige form er den ‘ er enklere for gradientberegninger – noe som potensielt gjør det til et bedre valg for Bayesian modelleringsprogramvare som bruker gradientbasert sampling HMC / NUTS, som PyMC3, Stan, etc. (Nysgjerrig på hva andre synes)

Svar

Gamma har en egenskap som deles av lognormal; nemlig at når formparameteren holdes konstant mens skalaparameteren varieres (som det vanligvis gjøres når man bruker en av modellene), er avviket proporsjonalt med middelkvadrat (konstant variasjonskoeffisient).

Noe omtrentlig til dette forekommer ganske ofte med økonomiske data, eller faktisk, med mange andre typer data.

Som et resultat er det ofte egnet for data som er kontinuerlige, positive, høyre-skjev og hvor avvik er nesten konstant på loggskalaen, selv om det finnes en rekke andre velkjente (og ofte ganske lett tilgjengelige) valg med disse egenskapene.

Videre er det vanlig å passe til en logglenke. med gamma GLM (det er relativt sjeldnere å bruke den naturlige lenken). Det som gjør det litt annerledes enn å tilpasse en normal lineær modell til loggene til dataene er at på loggskalaen blir gamma venstre i forskjellige grader mens det normale (loggen til en lognormal) er symmetrisk. Dette gjør det (gamma) nyttig i en rekke situasjoner.

Jeg har sett praktiske bruksområder for gamma-GLM diskutert (med reelle dataeksempler) i (utenfor toppen av hodet) de Jong & Heller og Frigjør samt mange papirer; Jeg har også sett applikasjoner på andre områder. Å, og hvis jeg ikke husker riktig, Venables og Ripleys MASS bruker det på skolefravær (quine data; Rediger: viser seg at det faktisk er i Statistikk Kompletter til MASS , se s. 11, den 14. siden i pdf, den har en loggkobling, men det er et lite skifte av DV). Uh, og McCullagh og Nelder gjorde et eksempel på blodpropp, selv om det kanskje kan ha vært en naturlig kobling.

Så er det «s Faraways bok hvor han gjorde et eksempel på bilforsikring og et eksempel på produksjon av halvlederprodusenter.

Det er noen fordeler og noen ulemper ved å velge ett av de to alternativene. Siden disse dager er begge enkle å montere; det handler vanligvis om å velge hva som er best egnet.

Det er langt fra det eneste alternativet. For eksempel er det også omvendte gaussiske GLM-er, som er mer skjev / tyngre halede (og enda mer heteroskedastisk) enn enten gamma eller lognormal.

Når det gjelder ulemper, er det vanskeligere å gjøre prediksjonsintervaller. Noen diagnostiske skjermer er vanskeligere å tolke. Beregningsforventningene på skalaen til den lineære prediktoren (generelt log-skalaen) er vanskeligere enn for det tilsvarende lognormal modell. Hypotesetester og intervaller er vanligvis asymptotiske. Dette er ofte relativt små problemer.

Det har noen fordeler i forhold til lognormal lognormal regresjon (tar logger og passer til en vanlig lineær regresjonsmodell); den ene er at gjennomsnittlig prediksjon er lett.

Kommentarer

  • Skal det være » Gamma » eller » gamma «? Vi vet at det ‘ ikke oppkalt etter en person. Jeg ‘ har sett små bokstaver » g » mye oftere .Distribusjonen er åpenbart oppkalt etter funksjonen, som går tilbake til 1700-tallet.
  • $ \ Gamma $ -notasjonen er den eneste grunnen til at jeg ‘ har sett for som bruker. Med distribusjoner generelt ekko store bokstaver vanligvis etternavn, f.eks. Poisson eller Gauss, som du vet.
  • @NickCox Jeg har endret det som du foreslår, og jeg fikset » Invers Gaussisk » mens jeg var i gang.
  • @Gleb_b: Bruker du fremdeles logglenken med den omvendte Gaussiske familien?
  • @ DimitriyV.Masterov Det ‘ er mindre brukt så det ‘ er vanskeligere å generalisere. Fra det jeg ‘ har sett, er det ‘ ganske vanlig å bruke en logglenke med invers Gaussisk, men andre lenker kan være passende i noen situasjoner, for eksempel en omvendt lenke.

Svar

Det er et godt spørsmål. hvorfor ikke folk bruker generaliserte lineære modeller (GLM) mer, er også et godt spørsmål.

Advarsel: Noen bruker GLM for generell lineær modell, ikke hva som er tenkt her.

  • Det avhenger av hvor du ser. For eksempel har gammadistribusjoner vært populære i flere av miljøvitenskapene i noen tiår, og modellering med prediktorvariabler er også en naturlig utvidelse. Det er mange eksempler innen hydrologi og geomorfologi, for å nevne noen felt der jeg har kommet vill.

  • Det er vanskelig å slå fast når det skal brukes utover et tomt svar når det fungerer best. Gitt skjeve positive data, vil jeg ofte finne meg selv å prøve gamma- og lognormale modeller (i GLM-sammenhengslogg, normal eller Gaussisk familie) og velge hvilke som fungerer bedre.

  • Gammamodellering var ganske vanskelig å gjøre før ganske nylig, absolutt sammenlignet med å si logger og bruke lineære regresjoner, uten å skrive mye kode selv. Selv nå vil jeg gjette at det ikke er like enkelt i alle de store statistiske programvaremiljøene.

  • Når jeg forklarer hva som brukes og hva som ikke brukes, til tross for fordeler og ulemper, tror jeg at du alltid kommer ned til nøyaktig den typen faktorer du identifiserer: hva blir lært, hva er i litteraturen som folk leser, det folk hører snakket om på jobben og på konferanser. Så du trenger en slags amatørvitenskapssosiologi for å forklare. De fleste ser ut til å følge rette og smale stier innenfor sine egne felt. Løst, jo større den interne litteraturen på et hvilket som helst felt om modelleringsteknikker er, jo mindre tilbøyelige mennesker i det feltet ser ut til å være å prøve noe annet.

Kommentarer

  • Hvordan bestemmer du hvilke som fungerer bedre?
  • Jeg ser på sannsynlighetene , R-firkanter (til tross for hva folk sier), konfidensintervaller rundt parameterestimater, plott av observerte vs monterte, gjenværende vs monterte osv. Hvis det var vitenskap som favoriserer en modell fremfor en annen, ville det også veie, men etter min erfaring var vitenskapen er ikke så godt formet. Hvordan kunne det ellers gjøres?
  • @NickCox Hva skal vi se etter når analyser observeres vs montert, rester vs montert og normalt qq plot? Jeg forstår at dette kan variere mellom modellene. Kan du gi et eksempel på gamma, poisson og negativ binomial? Takk
  • @tatami At ‘ er et helt nytt spørsmål, eller mer, tror jeg. Hvis du spør om det, vil du ‘ se hvem som biter. Jeg ‘ har aldri trodd at en gammamodell og en negativ binomial modell var konkurrenter i ethvert prosjekt, men det kan være svikt i fantasi eller erfaring.

Svar

Gamma-regresjon er i GLM, og slik at du kan få mange nyttige mengder for diagnostiske formål, for eksempel avviksrester, leverages, Cook » s avstand og så videre. De er kanskje ikke så fine som de tilsvarende størrelsene for logg-transformerte data.

En ting som gamma-regresjon unngår i forhold til det lognormale er transformasjonsforstyrrelse. Jensens ulikhet innebærer at spådommene fra lognormal regresjon vil være systematisk partisk fordi det modellerer transformerte data i stedet for den transformerte forventede verdien.

Også gammaregresjon (eller andre modeller for ikke-negative data) kan takle et bredere utvalg av data enn det lognormale på grunn av at det kan ha en modus på 0, slik som du har med den eksponensielle dist ribusjon, som er i gammafamilien, noe som er umulig for det lognormale.

Jeg har lest forslag om at bruk av Poisson-sannsynligheten som en kvasi-sannsynlighet er mer stabil. De er konjugerer av hverandre. Kvasi-Poisson har også den store fordelen av å være i stand til å takle nøyaktige 0-verdier, som plager både gamma og, spesielt, det lognormale.

Svar

Etter min mening antar det at feilene ligger på en familie av gammadistribusjoner, med samme former, og med skalaene endret i henhold til den relaterte formelen.

Men det er vanskelig å gjøre modelldiagnose. Merk at det enkle QQ-plottet ikke er egnet her, fordi det handler om den samme fordelingen, mens vår er en familie av fordelinger med forskjellige avvik.

Naivt kan restplottet brukes til å se at de har forskjellige skalaer, men samme form, vanligvis med lange haler.

Etter min erfaring kan gamma GLM prøves for noen lange hale distribuerte problemer, og det er mye brukt i forsikrings- og miljøsektorer osv. Men antagelsene er vanskelige å teste, og modellen fungerer vanligvis ikke bra, så forskjellige papirer argumenterer for å bruke andre familiefordelinger med samme problem, som omvendt gaussisk osv. I praksis ser det ut til at slike valg avhenger av ekspertvurdering industriell erfaring. Dette begrenser bruken av gamma GLM.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *