Gammafördelningen kan ta ett ganska brett spektrum av former, och med tanke på länken mellan medelvärdet och variansen genom dess två parametrar verkar det lämpligt att hantera heteroskedasticitet i icke-negativa data, på ett sätt som log-transformerad OLS inte kan klara sig vare sig WLS eller någon form av heteroskedasticitetskonsistent VCV-uppskattning.
Jag skulle använda den mer för rutin som inte är negativ datamodellering, men jag känner inte någon annan som använder den, jag har inte lärt mig den i en formell klassrumsinställning, och litteraturen som jag läser använder den aldrig. När jag googlar något som ”praktiska användningar av gamma GLM” , Jag kommer med råd att använda den för väntetider mellan Poisson-händelserna. OK. Men det verkar begränsande och kan inte vara dess enda användning.
Naivt verkar det som om gamma GLM är ett relativt antagande -lätt sätt att modellera icke-negativa data, med tanke på gammas flexibilitet. Naturligtvis måste du kontrollera QQ-plottar och kvarvarande plottar som alla modeller. Men finns det några allvarliga nackdelar som jag saknar? Utöver kommunikation till människor som ”bara kör OLS”?
Kommentarer
- Jag ’ är ganska sent till konversationen, men jag ’ är intresserad av gammaregression eftersom den uppnår samma syften som Poisson-regression (såvitt jag vet) men på grund av dess kontinuerliga form är den ’ är lättare för gradientberäkningar – vilket gör det till ett bättre val för Bayesian-modelleringsprogram som använder gradientbaserad sampling HMC / NUTS, som PyMC3, Stan, etc. (Nyfiken vad andra tycker)
Svar
Gamma har en egenskap som delas av lognormal; nämligen att när formparametern hålls konstant medan skalparametern varieras (som vanligtvis görs när man använder antingen för modeller), är variansen proportionell mot medelkvadrat (konstant variationskoefficient).
Något ungefärligt detta inträffar ganska ofta med finansiella data, eller faktiskt, med många andra typer av data.
Som ett resultat är det ofta lämpligt för data som är kontinuerliga, positiva, rätt skeva och där variansen är nästan konstant på loggskalan, även om det finns ett antal andra välkända (och ofta ganska lätt tillgängliga) val med dessa egenskaper.
Vidare är det vanligt att passa en logg-länk med gamma GLM (det är relativt sällsynt att använda den naturliga länken). Det som gör det lite annorlunda än att anpassa en normal linjär modell till dataloggarna är att på loggskalan lämnas gamma skev i varierande grad medan det normala (logg för en lognormal) är symmetriskt. Detta gör det (gamma) användbart i en mängd olika situationer.
Jag har sett praktiska användningsområden för gamma-GLM som diskuterats (med verkliga dataexempel) i (utanför toppen av mitt huvud) de Jong & Heller och Frees samt många tidningar; Jag har också sett applikationer inom andra områden. Åh, och om jag kommer ihåg rätt, Venables och Ripleys MASS använder det för skolfrånvaro (kvindata; Redigera: visar sig att det faktiskt finns i Statistikkomplement till MASS , se s.11, 14: e sidan i pdf-filen, den har en logglänk men det är en liten förskjutning av DV). Uh, och McCullagh och Nelder gjorde ett blodproppsexempel, även om det kanske kan ha varit en naturlig länk.
Sedan finns det ”s Faraway” bok där han gjorde ett exempel på en bilförsäkring och ett exempel på tillverkning av halvledare.
Det finns några fördelar och några nackdelar med att välja något av de två alternativen. Eftersom dessa dagar är båda lätta att montera; det är i allmänhet en fråga om att välja vad som är bäst lämpligt.
Det är långt ifrån det enda alternativet; till exempel finns det också inversa gaussiska GLM, som är mer sneda / tyngre tailed (och ännu mer heteroskedastisk) än antingen gamma eller lognormal.
När det gäller nackdelar är det svårare att göra prediktionsintervall. Vissa diagnostiska skärmar är svårare att tolka. Beräkningsförväntningarna på skalan för den linjära prediktorn (vanligtvis log-skalan) är svårare än för motsvarande lognormal modell. Hypotesprov och intervall är i allmänhet asymptotiska. Dessa är ofta relativt mindre problem.
Det har några fördelar jämfört med log-länk lognormal regression (tar loggar och passar en vanlig linjär regressionsmodell); en är att genomsnittlig förutsägelse är lätt.
Kommentarer
- Bör det vara ” Gamma ” eller ” gamma ”? Vi vet att det ’ inte namngiven efter en person. Jag ’ har sett små bokstäver ” g ” mycket oftare .Distributionen är uppenbarligen namngiven efter funktionen, som går tillbaka till 1700-talet.
- $ \ Gamma $ -notationen är den enda anledningen till att jag ’ har sett för den användningen. Med distributioner generellt, versaler brukar versaler med efternamn, t.ex. Poisson eller Gaussian, som ni vet.
- @NickCox Jag har ändrat det som du föreslår, och jag fixade ” Invers Gaussian ” medan jag var på det.
- @Gleb_b: Använder du fortfarande logglänken med den inversa Gaussiska familjen?
- @ DimitriyV.Masterov Det ’ används mindre så att det ’ är svårare att generalisera. Från vad jag ’ har sett är det ’ ganska vanligt att använda en log-länk med invers Gaussisk, men andra länkar kan vara lämpliga i vissa situationer, till exempel en invers länk.
Svar
Det är en bra fråga. Faktum är att varför inte människor använder generaliserade linjära modeller (GLM) mer är också en bra fråga.
Varningsanmärkning: Vissa använder GLM för generell linjär modell, inte vad man tänker här.
-
Det beror på var du tittar. Till exempel har gammadistributioner varit populära i flera av miljövetenskaperna i några decennier, så modellering med prediktorvariabler är också en naturlig förlängning. Det finns många exempel inom hydrologi och geomorfologi, för att nämna några områden där jag har avvikit.
-
Det är svårt att fastställa när det ska användas utöver ett tomt svar när det fungerar bäst. Med tanke på snedställda positiva data kommer jag ofta att försöka gamma- och lognormala modeller (i GLM-sammanhangslogg, normal eller Gaussisk familj) och välja vilka som fungerar bättre.
-
Gammamodellering förblev ganska svår att göra tills ganska nyligen, säkert jämfört med att säga att ta loggar och tillämpa linjära regressioner utan att skriva mycket kod själv. Redan nu skulle jag gissa att det inte är lika enkelt i alla större statistiska programvarumiljöer.
-
När jag förklarar vad som används och vad som inte används, trots fördelar och nackdelar, tror jag att du alltid kommer ner till exakt vilken typ av faktorer du identifierar: vad lärs ut, vad finns i litteraturen som människor läser, vad folk hör talas om på jobbet och vid konferenser. Så du behöver en slags amatörs vetenskapssociologi för att förklara. De flesta verkar följa raka och smala vägar inom sina egna fält. Lösare, ju större intern litteratur inom något område om modelleringsteknik, desto mindre benägna människor inom detta område verkar vara att prova något annat.
Kommentarer
- Hur bestämmer du vilka som fungerar bättre?
- Jag ser sannolikheten , R-rutor (trots vad folk säger), konfidensintervall kring parameteruppskattningar, diagram över observerade kontra monterade, kvarvarande kontra monterade, etc. Om det fanns vetenskap som gynnade en modell framför en annan, skulle det också väga, men enligt min erfarenhet vetenskapen är inte så välformad. Hur skulle det annars kunna göras?
- @NickCox Vad ska vi se upp för när analys observeras vs monterad, rester vs monterad och normal qq-plot? Jag förstår att detta kan skilja sig mellan modellerna. Kan du ge ett exempel på gamma, poisson och negativ binomial? Tack
- @tatami Att ’ är en helt ny fråga, eller mer, tror jag. Om du frågar det ’ ser du vem som biter. Jag ’ Jag har aldrig tänkt att en gammamodell och en negativ binomial modell var konkurrenter i något projekt, men det kan vara fantasifel eller erfarenhetsbrist.
Svar
Gamma-regression finns i GLM och så kan du få många användbara kvantiteter för diagnostiska ändamål, såsom avvikelserester, hävstång, Cook ” s avstånd, och så vidare. De är kanske inte lika trevliga som motsvarande kvantiteter för log-transformerad data.
En sak som gammaregression undviker jämfört med det lognormala är transformationsbias. Jensens ojämlikhet innebär att förutsägelserna från lognormal regression kommer att vara systematiskt förspända eftersom det modellerar transformerade data snarare än det förvandlade förväntade värdet.
Gamma-regression (eller andra modeller för icke-negativa data) kan också klara av ett bredare utbud av data än det lognormala på grund av att det kan ha ett läge vid 0, som du har med den exponentiella distansen ribution, som är i gammafamiljen, vilket är omöjligt för det lognormala.
Jag har läst förslag om att använda Poisson-sannolikheten som kvasi-sannolikhet är mer stabil. De är konjugerade av varandra. Kvasi-Poisson har också den stora fördelen att kunna klara exakta 0-värden, vilket stör både gamma och, särskilt, det lognormala.
Svar
Enligt min mening antar det att felen ligger på en familj av gammafördelningar, med samma former, och med skalorna som ändras enligt tillhörande formel.
Men det är svårt att göra modelldiagnos. Observera att det enkla QQ-diagrammet inte är lämpligt här, eftersom det handlar om samma fördelning, medan vårt är en familj av fördelningar med olika avvikelser.
Naivt kan restdiagrammet användas för att se att de har olika skalor men samma form, vanligtvis med långa svansar.
Enligt min erfarenhet kan gamma GLM testas för vissa långsvansdistribuerade problem, och det används ofta i försäkrings- och miljösektorer etc. Men antagandena är svåra att testa, och modellen fungerar vanligtvis inte bra, så olika artiklar argumenterar för att använda andra familjefördelningar med samma problem, som invers Gaussian, etc. I praktiken verkar det som att sådana val beror på expertbedömning med industriell erfarenhet. Detta begränsar användningen av gamma GLM.