Kdy použít gamma GLM? | Complex Solutions

Distribuce gama může nabývat docela široké škály tvarů a vzhledem k vazbě mezi střední hodnotou a rozptylem prostřednictvím jejích dvou parametrů se zdá být vhodná pro zabývající se heteroskedasticitou v nezáporných datech způsobem, který logem transformovaná OLS nezvládne ani bez WLS, ani s jakýmsi heteroskedasticitou konzistentním odhadcem VCV.

Použil bych to spíše pro rutinní ne- modelování negativních dat, ale neznám nikoho jiného, kdo to používá, nenaučil jsem se to ve formálním prostředí učebny a literatura, kterou jsem četl, to nikdy nepoužívá. Kdykoli vyhledávám Google něco jako „praktické využití gamma GLM“ , Přišel jsem s radou, jak ji použít pro čekací doby mezi Poissonovými událostmi. Dobře. Ale zdá se to omezující a nemůže to být její jediné použití.

Naivně to vypadá, že gama GLM je relativně předpoklad -lehké prostředky modelování nezáporných dat, vzhledem k flexibilitě gama. Samozřejmě musíte zkontrolovat grafy QQ a zbytkové grafy jako každý model. existují nějaké vážné nevýhody, které mi chybí? Kromě komunikace s lidmi, kteří „právě spouštějí OLS“?

Komentáře

I ‚ m docela pozdě ke konverzaci, ale ‚ zajímám se o regresi gama, protože dosahuje stejných účelů jako Poissonova regrese (podle mých znalostí), ale díky své spojité formě ‚ je snadnější pro výpočet gradientů – což je potenciálně lepší volba pro Bayesianský modelovací software, který používá gradientní vzorkování HMC / NUTS, jako jsou PyMC3, Stan atd. (Zvláštní, co si ostatní myslí)

Odpověď

Gama má vlastnost sdílenou lognormálem; a sice, že když je parametr tvaru udržován konstantní, zatímco parametr měřítka je měněn (jak se obvykle děje při použití buď pro modely), je rozptyl úměrný střední hodnotě na druhou (konstantní variační koeficient).

Něco přibližně k tomu dochází poměrně často u finančních údajů nebo dokonce u mnoha jiných druhů údajů.

Ve výsledku je často vhodný pro data, která jsou spojitá, pozitivní, zkosená a kde je odchylka téměř konstantní v logaritmickém měřítku, i když s těmito vlastnostmi existuje celá řada dalších dobře známých (a často docela snadno dostupných) možností.

Dále je běžné přizpůsobit log-link s gamma GLM (použití přirozeného spojení je relativně vzácnější). To, co se mírně liší od přizpůsobení běžného lineárního modelu logům dat, je to, že na měřítko protokolu, které gama ponechá nakloněné v různé míře , zatímco normální (protokol lognormálu) je symetrický. Díky tomu je (gama) užitečné v v různých situacích.

Viděl jsem praktická použití pro gamma GLM diskutovaná (s příklady skutečných dat) v (z hlavy) de Jong & Heller a Osvobodí stejně jako četné práce; Viděl jsem také aplikace v jiných oblastech. A pokud si dobře pamatuji, Venables and Ripleys MASS jej používá na školní absenci (údaje quine; Upravit: Ukázalo se, že je to ve skutečnosti ve statistických doplňcích k MASS , viz str. 11, 14. stránka souboru PDF, má log link, ale tam je malý posun DV). Uh, a McCullagh a Nelder udělali příklad srážení krve, i když to možná mohlo být přirozené spojení.

Pak existuje kniha Faraway , kde vytvořil příklad pojištění automobilů a příklad výroby dat polovodičů.

Výběr jedné ze dvou možností má určité výhody a nevýhody. Vzhledem k tomu, že v dnešní době se oba snadno hodí; obecně jde o výběr toho, co je nejvhodnější.

Není to zdaleka jediná možnost; například existují také inverzní gaussovské GLM, které jsou více šikmé / těžší (a ještě více heteroskedastické) než gama nebo lognormální.

Pokud jde o nevýhody, je obtížnější provádět intervaly predikce. Některá diagnostická zobrazení se interpretují obtížněji. Výpočet očekávání na měřítku lineárního prediktoru (obecně měřítko protokolu) je těžší než pro ekvivalent lognormální model. Testy hypotéz a intervaly jsou obecně asymptotické. Často jde o relativně malé problémy.

Má několik výhod oproti log-link lognormální regrese (pořizování protokolů a přizpůsobení běžnému lineárnímu regresnímu modelu); jedním z nich je, že průměrná předpověď je snadná.

Komentáře

Mělo by to být “ Gama “ nebo “ gamma „? Známe to ‚ pojmenovaný pro osobu. ‚ viděl jsem malá písmena “ g “ mnohem častěji .Je jasné, že distribuce je pojmenována pro funkci, která sahá až do 18. století.
Notace $ \ Gamma $ je jediný důvod, proč jsem ‚ viděl toto použití. U distribucí obecně velká písmena obvykle odrážejí příjmení, např. Poisson nebo Gaussian, jak víte.
@NickCox Změnil jsem to, jak navrhujete, a opravil jsem “ inverzní Gaussian “ když jsem na tom byl.
@Gleb_b: Používáte stále odkaz na log s inverzní Gaussovou rodinou?
@ DimitriyV.Masterov It ‚ je méně používaný, takže ‚ je těžší jej zobecnit. Z toho, co jsem ‚ viděl, je ‚ docela běžné používat log-link s inverzní Gaussian, ale mohou být vhodné i jiné odkazy v některých situacích, jako je inverzní odkaz.

Odpověď

To je dobrá otázka. Ve skutečnosti proč lidé více nepoužívají zobecněné lineární modely (GLM), je také dobrá otázka.

Varovná poznámka: Někteří lidé používají GLM pro obecný lineární model, ne to, co je zde na mysli.

Záleží na tom, kam se podíváte. Například gama distribuce jsou již několik desetiletí populární v několika vědách o životním prostředí, a proto je přirozeným rozšířením také modelování pomocí predikčních proměnných. Existuje mnoho příkladů v hydrologii a geomorfologii, abych jmenoval některá pole, ve kterých jsem zabloudil.
Je těžké přesně určit, kdy ji použít, kromě prázdné odpovědi, kdykoli to funguje nejlépe. Vzhledem ke zkresleným pozitivním údajům se často ocitnu v pokusech o gama a lognormální modely (v odkazu na kontextový protokol GLM, normální nebo Gaussova rodina) a vyberu si, která funguje lépe.
Modelování gama bylo až do nedávné doby docela obtížné, jistě ve srovnání s tím, jak říkají protokoly a lineární regrese, aniž byste sami psali hodně kódu. Dokonce i teď „hádám, že to není stejně snadné ve všech hlavních statistických softwarových prostředích.
Při vysvětlování toho, co se používá a co se nepoužívá, navzdory výhodám a nevýhodám si myslím, že vždy přijdete přesně na druh faktorů, které identifikujete: co se učí, co je v literatuře, kterou lidé čtou, o čem lidé slyší mluvení v práci a na konferencích. K vysvětlení tedy potřebujete druh amatérské sociologie vědy. Zdá se, že většina lidí sleduje přímé a úzké cesty ve svých vlastních polích. Volněji, čím větší je interní literatura v jakékoli oblasti o technikách modelování, zdá se, že méně naklonění lidé v této oblasti zkoušejí něco jiného.

Komentáře

Jak zjistíte, která z nich funguje lépe?
Dívám se na pravděpodobnosti , R-čtverce (navzdory tomu, co lidé říkají), intervaly spolehlivosti kolem odhadů parametrů, grafy pozorovaných vs přizpůsobených, zbytkových vs přizpůsobených atd. Pokud by existovala věda upřednostňující jeden model před druhým, to by také vážilo, ale podle mých zkušeností věda není tak dobře formovaný. Jak jinak by se to dalo udělat?
@NickCox Na co si máme dát pozor, když je analýza pozorována vs vsazena, zbytky vs vsazena a normální qq spiknutí? Chápu, že se to může u různých modelů lišit. Mohl byste uvést příklad pro gama, poissonovu a zápornou binomii? Díky
@tatami To je podle mě ‚ úplně nová otázka. Pokud se ho zeptáte, ‚ uvidíte, kdo kousne. Nikdy jsem si ‚ nemyslel, že gama model a negativní binomický model jsou soupeři v jakémkoli projektu, ale to může být selhání představivosti nebo zkušenosti.

Odpověď

Gamma regrese je v GLM, takže můžete získat mnoho užitečných množství pro diagnostické účely, jako jsou zbytky odchylek, páky, Cook “ s vzdálenost atd. Možná nejsou tak hezké jako odpovídající veličiny pro data transformovaná logem.

Jedna věc, které se gamma regrese ve srovnání s lognormální vyhýbá, je zkreslení transformace. Jensenova nerovnost znamená, že předpovědi z lognormální regrese budou systematicky upřednostňovány, protože jde o modelování transformovaných dat spíše než o transformovanou očekávanou hodnotu.

Také gama regrese (nebo jiné modely pro nezáporná data) mohou vyrovnat se s širším polem dat než lognormální vzhledem k tomu, že může mít režim na 0, jako máte s exponenciální vzdáleností ributace, která je v rodině gama, což je pro lognormální nemožné.

Přečetl jsem návrhy, že použití Poissonovy pravděpodobnosti jako kvazipravděpodobnosti je stabilnější. „Konjugují se navzájem. Kvazi-Poisson má také podstatnou výhodu v schopnosti vyrovnat se s přesnými hodnotami 0, což obtěžuje jak gama, tak zejména lognormální.

Odpověď

Podle mého názoru předpokládá, že chyby spočívají v rodině gama distribucí se stejnými tvary a se změnami vah podle příslušného vzorce.

Je však obtížné provést diagnostiku modelu. Všimněte si, že jednoduchý graf QQ zde není vhodný, protože se jedná o přibližně stejnou distribuci, zatímco naše je rodina distribucí s různými odchylkami.

Naivně lze pomocí reziduálního grafu zjistit, že mají různá měřítka, ale stejný tvar, obvykle s dlouhými ocasy.

Podle mých zkušeností lze gamma GLM vyzkoušet pro některé problémy s distribucí dlouhého ocasu a je široce používán v pojišťovacích a environmentálních sektorech atd. předpoklady se obtížně testují a model obvykle nefunguje dobře, takže různé články tvrdí, že používají jiné rodinné distribuce se stejným problémem, jako je inverzní Gaussian atd. V praxi se zdá, že taková volba závisí na odborném posouzení s průmyslové zkušenosti. To omezuje použití gamma GLM.

Komentáře

Odpověď

Komentáře

Odpověď

Komentáře

Odpověď

Odpověď

Napsat komentář Zrušit odpověď na komentář