Mikor kell használni a gamma GLM-eket?

A gammaeloszlás meglehetősen sokféle formát ölthet, és mivel az átlag és a variancia két paraméteren keresztüli összefüggést mutat, alkalmasnak tűnik a heteroskedaszticitás kezelése nem negatív adatokban, oly módon, hogy a log-transzformált OLS nem képes sem WLS, sem valamiféle heteroskedasticitás-konzisztens VCV becslő nélkül.

Inkább rutinszerű nem negatív adatmodellezés, de nem ismerek mást, aki használja, még nem tanultam meg hivatalos tanteremben, és az általam olvasott szakirodalom soha nem használja. Amikor guglizok valami olyasmit, mint a “gamma GLM gyakorlati felhasználása” , Javaslatot adok arra, hogy a Poisson-események közötti várakozási időre használjam. OK. De ez korlátozónak tűnik, és nem ez lehet az egyetlen felhasználása.

Naivan úgy tűnik, hogy a gamma GLM viszonylag feltételezés -könnyű eszköz a nem negatív adatok modellezésére, figyelembe véve a gamma rugalmasságát. Természetesen ellenőrizni kell a QQ és a maradék ábrákat, mint bármelyik modellt. De vannak olyan komoly hátrányai, amelyek hiányoznak? Azon kommunikáción túl, aki “csak az OLS-t futtatja”?

Megjegyzések

I ‘ m elég későn a beszélgetéshez, de ‘ érdekel a gamma regresszió, mivel ugyanazokat a célokat éri el, mint Poisson regresszió (tudomásom szerint), de folytonos formája miatt ‘ könnyebb a színátmenet-számításokhoz – ezáltal jobb választás lehet a Bayes-i modellező szoftverek számára, amelyek gradiens alapú mintavételi HMC / NUTS-t használnak, például PyMC3, Stan stb. (Kíváncsi mások véleményére)

Válasz

A gamma tulajdonsággal rendelkezik, amelyet a lognormal oszt meg; mégpedig az, hogy ha az alakparamétert állandó értéken tartják, miközben a skála paraméter változik (mint általában bármelyik modell esetében), a variancia arányos az átlagos négyzettel (állandó variációs együtthatóval).

Valami ehhez hozzávetőlegesen gyakran fordul elő pénzügyi adatok, vagy akár sok más adat esetében is.

Ennek eredményeként gyakran alkalmas folyamatos, pozitív, jobbra ferde adatokra, ahol eltérés mutatkozik szinte állandó a log-skálán, bár számos más jól ismert (és gyakran meglehetősen könnyen elérhető) választás is rendelkezésre áll ezeknél a tulajdonságoknál.

Ezenkívül általános a log-link illesztése a gamma GLM-mel (viszonylag ritkábban használják a természetes kapcsolatot). Ami kissé eltér attól, hogy normál lineáris modellt illesztünk az adatok naplóihoz, az az, hogy a log skálán a gamma különböző mértékben ferdeségben marad , míg a normál (a lognormális log log) szimmetrikus. Ez (gamma) hasznos sokféle helyzet.

A gamma GLM-ek gyakorlati felhasználását (valódi adatpéldákkal) már megbeszéltem (a fejem tetején) de Jong & Heller és Szabadít , valamint számos papír; Más területeken is láttam alkalmazásokat. Ja, és ha jól emlékszem, Venables and Ripley MASS az iskolai hiányzásokra használja (a quine adatok; Szerkesztés: kiderül, hogy valójában MASS statisztikai kiegészítők , lásd a 11. oldalt, a pdf 14. oldalát, log link, de a DV kis eltolódása van). Uh, McCullagh és Nelder véralvadási példát tett, bár talán természetes kapcsolat lehetett.

Ezután ott van a “s Faraway könyv , ahol példát készített egy gépjármű-biztosítási és egy félvezető-gyártási adatokra.

A két lehetőség bármelyikének megválasztásakor vannak előnyei és hátrányai. Mivel manapság mindkettő könnyen illeszthető; általában a legmegfelelőbbek kiválasztása a kérdés.

Ez korántsem az egyetlen lehetőség; például vannak inverz Gauss-féle GLM-ek is, amelyek inkább ferde / nehezebb farkúak (és akár heteroskedasztikusabb), mint akár gamma, akár lognormális.

Ami a hátrányokat illeti, nehezebb megjósolni az előrejelzési intervallumokat. Bizonyos diagnosztikai kijelzőket nehezebb értelmezni. A várakozásokat a lineáris prediktor skáláján (általában a log-skálán) nehezebb kiszámítani, mint az egyenértékűnél lognormális modell. A hipotézis tesztek és az intervallumok általában aszimptotikusak. Ezek gyakran viszonylag kisebb kérdések.

Van néhány előnye a log-link lognormális regresszióval szemben (naplók felvétele és egy közönséges lineáris regressziós modell illesztése); az egyik az, hogy az átlagos előrejelzés egyszerű.

Megjegyzések

Kell-e ” Gamma ” vagy ” gamma “? Tudjuk, hogy ‘ nem megnevezve egy személy számára. Én ‘ láttam kisbetűt ” g ” sokkal gyakrabban .Nyilvánvaló, hogy a disztribúciót a függvénynek nevezik el, amely a 18. századig nyúlik vissza.
Csak a $ \ Gamma $ jelöléssel láttam ‘ hogy a felhasználás. Általában az eloszlásoknál a nagybetű általában visszhangozza a vezetékneveket, pl. Poisson vagy Gaussian, mint tudod.
@NickCox Megváltoztattam, ahogy javasolod, és kijavítottam az ” inverz Gaussian ” amíg én voltam rajta.
@Gleb_b: Még mindig használja a napló linket az inverz Gauss családdal?
@ DimitriyV.Masterov It ‘ s kevésbé használják, így ‘ nehezebb általánosítani. Amit ‘ láttam, ‘ meglehetősen gyakori a log-link használata inverz Gaussian-nal, de más linkek is alkalmasak lehetnek bizonyos helyzetekben, például egy inverz link.

Válasz

Ez jó kérdés. Valójában az, hogy miért nem használják az általánosított lineáris modelleket (GLM), szintén jó kérdés.

Figyelmeztetés: Vannak, akik az általános lineáris modellhez használják a GLM-et, nem pedig arra, amit itt szem előtt tartunk.

Ez valóban attól függ, hova nézel. Például a gammaeloszlás néhány évtizede népszerű volt a környezettudományok körében, így a prediktor változókkal történő modellezés is természetes kiterjesztés. A hidrológiában és a geomorfológiában számos példa van, hogy megnevezzek néhány olyan területet, amelyeken eltévelyedtem.
Nehéz pontosan megfogalmazni, hogy mikor kell használni azt üres válaszon túl, amikor csak a legjobban működik. A ferde pozitív adatok alapján gyakran tapasztalhatom, hogy gamma és lognormális modelleket próbálok ki (GLM kontextusban log link, normál vagy Gauss család), és kiválasztom, melyik működik jobban.
A gamma-modellezés egészen a közelmúltig meglehetősen nehéz volt, minden bizonnyal összehasonlítva a mondjuk naplók felvételével és lineáris regressziók alkalmazásával anélkül, hogy sok kódot írtál volna magad. Még most is azt hiszem, hogy ez nem egyformán egyszerű az összes nagyobb statisztikai szoftverkörnyezetben.
Az érdemek és a hiányosságok ellenére kifejtve, hogy mit használnak és mit nem, azt gondolom, hogy mindig pontosan azokra a tényezőkre tér vissza, amelyeket azonosít: mit tanítanak, mit a szakirodalomban olvasható, amit az emberek olvasnak, amiről az emberek hallják a munkahelyen és a konferenciákon beszélni. Szüksége van egyfajta amatőr tudományszociológiára a magyarázathoz. Úgy tűnik, hogy a legtöbb ember egyenes és keskeny utakat követ a saját területén. Lazán, minél nagyobb a belső szakirodalom bármilyen területen a modellezési technikákról, úgy tűnik, kevésbé hajlandóak az emberek ezen a területen valami mást kipróbálni.

Megjegyzések

Hogyan határozhatja meg, hogy melyik működik jobban?
Megnézem a valószínűségeket , R-négyzetek (annak ellenére, amit az emberek mondanak), a paraméterbecslések körüli konfidencia intervallumok, a megfigyelt és illesztett ábrák, a maradék és az illesztés stb. nincs olyan jól kialakítva. Hogyan lehetne ezt másképp megcsinálni?
@NickCox Mire kell figyelnünk, ha az elemzés megfigyelhető vs illesztett, maradványok vs illesztett és normál qq diagram? Értem, hogy ez eltérhet a modellek között. Mondana példát gammára, poissonra és negatív binomiálra? Köszönöm
@tatami Ez ‘ egy teljesen új kérdést, vagy azt hiszem. Ha megkérdezi, ‘ meglátja, ki harap.

soha nem gondoltam volna, hogy a gamma modell és a negatív binomiális modell riválisa lenne bármelyik projektnek, de ez a képzelet vagy a tapasztalat kudarca lehet.

Válasz

A gamma regresszió benne van a GLM-ben, így diagnosztikai célokra sok hasznos mennyiséget kaphat, például deviáns maradványokat, tőkeáttételeket, Cookot ” s távolság, és így tovább. Talán nem olyan szépek, mint a log-transzformált adatok megfelelő mennyiségei.

A gamma-regresszió a lognormálishoz képest elkerüli a transzformációs torzítást. Jensen egyenlőtlensége azt sugallja, hogy a lognormális regresszióból származó jóslatok szisztematikusan elfogultak lesznek, mert a transzformált adatokat és nem a transzformált várható értéket modellezik.

A gamma regresszió (vagy más modellek a nem negatív adatokhoz) is a lognormálisnál szélesebb adattömbbel megbirkózni, annak a ténynek köszönhető, hogy 0-nál lehet módja, mint például az exponenciális távolsággal ribution, amely a gamma családban van, ami a lognormális számára lehetetlen.

Olvastam olyan javaslatokat, amelyek szerint a Poissoni valószínűség kvázi valószínűségként történő használata stabilabb. “Konjugálják egymást. A kvázi Poisson-nak az az előnye is, hogy képes megbirkózni a pontos 0 értékekkel, amelyek mind a gammát, mind pedig a lognormálist megzavarják.

Válasz

Véleményem szerint feltételezi, hogy a hibák egy gammaeloszlás-családra vonatkoznak, azonos alakúak, és a skála a kapcsolódó képlet szerint változik.

De nehéz elvégezni a modell diagnózist. Ne feledje, hogy az egyszerű QQ diagram itt nem megfelelő, mert nagyjából ugyanaz az eloszlás, míg a miénk különböző eltérésekkel rendelkező eloszlások családja.

Naiv módon a maradék diagramot felhasználhatjuk annak megállapítására, hogy vannak-e. különböző méretű, de azonos alakú, általában hosszú farokkal.

Tapasztalataim szerint a gamma GLM-et kipróbálhatjuk hosszú farkú eloszlású problémákra, és széles körben használják a biztosítási és környezetvédelmi ágazatokban stb. a feltételezéseket nehéz tesztelni, és a modell általában nem teljesít jól, ezért a különféle cikkek szerint más családeloszlások is használatosak ugyanazzal a problémával, mint az inverz Gauss-féle stb. A gyakorlatban úgy tűnik, hogy az ilyen választások a szakértő megítélésétől függenek. ipari tapasztalat. Ez korlátozza a gamma GLM használatát.

Megjegyzések

Válasz

Megjegyzések

Válasz

Megjegyzések

Válasz

Válasz

Vélemény, hozzászólás? Kilépés a válaszból