Milloin käyttää gamma-GLM-malleja?

Gammajakaumalla voi olla melko laaja muoto, ja kun otetaan huomioon keskiarvon ja varianssin välinen yhteys kahden parametrin kautta, se näyttää sopivan heteroskedastisuuden käsitteleminen ei-negatiivisissa tiedoissa tavalla, jota log-muunnettu OLS ei voi tehdä ilman joko WLS: ää tai jonkinlaista heteroskedastiilisuutta vastaavaa VCV-estimaattoria.

Käytän sitä enemmän rutiininomaisiin ei-negatiivisiin tietoihin negatiivisen datan mallintaminen, mutta en tiedä ketään muuta, joka käyttää sitä, en ole oppinut sitä virallisessa luokkahuoneessa, eikä lukemani kirjallisuus koskaan käytä sitä. Aina kun googlen jotain ”gamma GLM: n käytännön käyttötarkoituksia” , Ehdotan neuvoja käyttää sitä odotusaikoihin Poissonin tapahtumien välillä. OK. Mutta se näyttää rajoittavalta eikä voi olla sen ainoa käyttö.

Naivisti näyttää siltä, että gamma-GLM on suhteellisen oletus -valo tarkoittaa ei-negatiivisen datan mallintamista, kun otetaan huomioon gamman joustavuus. Tietysti sinun on tarkistettava QQ-käyrät ja jäännöskaaviot kuten mikä tahansa malli. onko puuttuvia vakavia haittoja? Viestinnän lisäksi ihmisille, jotka ”vain ajavat OLS: ää”?

Kommentit

Olen ’ m melko myöhään keskusteluun, mutta olen ’ kiinnostunut gamma-regressiosta, koska sillä on samat tarkoitukset kuin Poissonin regressiolla (tietoni mukaan), mutta jatkuvan muodonsa vuoksi se ’ on helpompaa gradienttilaskelmille – mikä tekee siitä paremman valinnan Bayesin mallinnusohjelmistolle, joka käyttää gradienttipohjaista näytteenottoa HMC / NUTS, kuten PyMC3, Stan jne. (utelias mitä muut ajattelevat)

vastaus

Gammalla on ominaisuus, jonka lognormaali jakaa; nimittäin se, että kun muotoparametria pidetään vakiona, kun asteikkoparametriä vaihdellaan (kuten yleensä tehdään, kun kumpaakin käytetään malleissa), varianssi on verrannollinen keskipitkään neliöön (vakio variaatiokerroin).

Jotain likimääräinen tähän tapahtuu melko usein taloudellisten tietojen tai monen muun tyyppisten tietojen kanssa.

Tämän seurauksena se soveltuu usein jatkuvaan, positiiviseen, oikealle vinoon ja poikkeavaan dataan. lähes vakio log-asteikolla, vaikka näiden ominaisuuksien kanssa on useita muita tunnettuja (ja usein melko helposti saatavilla olevia) vaihtoehtoja.

Lisäksi lokilinkille on yleistä sovittaa gamma GLM: n kanssa (luonnollisen linkin käyttö on suhteellisen harvinaisempaa). Mikä tekee siitä hieman erilainen kuin normaalin lineaarisen mallin sovittaminen datan lokeihin, on se, että päällä log-asteikko gamma jätetään vinossa vaihtelevasti , kun taas normaali (lognormaalin loki) on symmetrinen, mikä tekee siitä (gamma) hyödyllisen erilaisia tilanteita.

Olen nähnyt käytännön käyttötapoja gamma-GLM-malleille (todellisten dataesimerkkien kanssa) (pääni yläosasta) de Jong & Heller ja vapauttaa sekä lukuisia papereita; Olen nähnyt sovelluksia myös muilla alueilla. Voi, ja jos muistan oikein, Venables and Ripley MASS käyttää sitä koulun poissaoloissa (quine data; Muokkaa: käy ilmi, että se on oikeastaan MASS-tilastojen täydennykset , katso s. 11, pdf-tiedoston 14. sivu, sillä on lokilinkki, mutta DV: ssä on pieni muutos). Uh, ja McCullagh ja Nelder tekivät esimerkin veren hyytymisestä, vaikka ehkä se on voinut olla luonnollinen yhteys.

Sitten on ”s Farawayn kirja , jossa hän teki esimerkin autovakuutuksesta ja puolijohteiden valmistustiedoista.

Jommankumman vaihtoehdon valinnassa on joitain etuja ja haittoja. Koska nämä päivät molemmat ovat helposti sovitettavissa; yleensä on kyse siitä, mitkä sopivat parhaiten.

Se ei ole kaukana ainoasta vaihtoehdosta; esimerkiksi on myös käänteisiä Gaussin GLM-malleja, jotka ovat enemmän vinoja / raskaampia (ja jopa heteroskedastisempi) kuin joko gamma tai lognormaali.

Mitä tulee haittoihin, ennustevälien tekeminen on vaikeampi. Joitakin diagnostisia näyttöjä on vaikea tulkita. Odotusten laskeminen lineaarisen ennustimen asteikolla (yleensä log-asteikko) on vaikeampi kuin vastaavalla lognormaali malli. Hypoteesitestit ja intervallit ovat yleensä asymptoottisia. Nämä ovat usein suhteellisen vähäisiä asioita.

Sillä on joitain etuja verrattuna log-linkin lognormaaliin regressioon (lokien ottaminen ja tavallisen lineaarisen regressiomallin sovittaminen); yksi on se, että keskimääräinen ennustaminen on helppoa.

Kommentit

Pitäisikö sen olla ” Gamma ” tai ” gamma ”? Tiedämme sen ’ nimetty henkilölle. Olen ’ nähnyt pieniä kirjaimia ” g ” paljon useammin .Jakelu on nimenomaisesti nimetty funktiolle, joka on peräisin 1700-luvulta.
$ \ Gamma $ -merkintä on ainoa syy, jolle olen nähnyt ’ että käyttö. Jakeluissa yleensä isot kirjaimet toistavat yleensä sukunimet, esim. Poisson tai Gaussian, kuten tiedät.
@NickCox Olen muuttanut sitä kuten ehdotat, ja korjasin ” käänteisen Gaussin ” kun olin siinä.
@Gleb_b: Käytätkö edelleen lokilinkkiä käänteisen Gaussin perheen kanssa?
@ DimitriyV.Masterov It ’ on vähemmän käytetty, joten sitä on ’ vaikeampaa yleistää. Sen perusteella, mitä olen ’ nähnyt, on ’ melko tavallista käyttää lokilinkkiä käänteisen Gaussin kanssa, mutta muut linkit voivat olla sopivia joissakin tilanteissa, kuten käänteinen linkki.

Vastaa

Se on hyvä kysymys. Itse asiassa miksi ihmiset eivät käytä yleisiä lineaarisia malleja (GLM) enemmän, on myös hyvä kysymys.

Varoitus: Jotkut ihmiset käyttävät GLM: ää yleisessä lineaarisessa mallissa, ei tässä mielessä.

Se riippuu minne katsot. Esimerkiksi gammajakaumat ovat olleet suosittuja useissa ympäristötieteissä jo vuosikymmenien ajan, joten myös ennustemuuttujien mallinnus on luonnollinen jatko. Hydrologiassa ja geomorfologiassa on monia esimerkkejä, joiden joukossa olen eksynyt.
On vaikea määritellä tarkalleen milloin sitä tulisi käyttää tyhjän vastauksen lisäksi aina, kun se toimii parhaiten. Kun otetaan huomioon vääristyneet positiiviset tiedot, huomaan usein kokeilevan gamma- ja lognormaalimalleja (GLM-kontekstilokilinkeissä, normaali tai Gaussin perhe) ja valitsen, mikä toimii paremmin.
Gamma-mallinnus oli melko vaikea tehdä vasta melko äskettäin, varmasti verrattuna sanomalokien ottamiseen ja lineaaristen regressioiden käyttämiseen kirjoittamatta itse paljon koodia. Jopa nyt luulisin, että se ei ole yhtä helppoa kaikissa tärkeimmissä tilasto-ohjelmistoympäristöissä.
Selitettäessä mitä käytetään ja mitä ei käytetä ansioista ja haitoista huolimatta, luulen, että tulet aina alas juuri sellaisiin tekijöihin, jotka tunnistat: mitä opetetaan, mitä on kirjallisuudessa, jota ihmiset lukevat, mistä ihmiset puhuvat työssä ja konferensseissa. Joten tarvitset eräänlaisen amatööri tieteen sosiologian selittääkseen. Useimmat ihmiset näyttävät kulkevan suoria ja kapeita polkuja omalla kentällään. Löyhästi, mitä suurempi sisäinen kirjallisuus kaikilla aloilla mallintamistekniikoista, sitä vähemmän taipuvaiset ihmiset näyttävät kokeilevan jotain erilaista.

kommentit

Kuinka määrität, mikä toimii paremmin?
Katson todennäköisyyksiä , R-neliöt (huolimatta siitä, mitä ihmiset sanovat), luottamusvälit parametriarvioiden ympärillä, havaittu vs. sovitettu, jäännös vs asennettu jne. Jos tiede suosisi yhtä mallia toiseen, se painaisi myös, mutta kokemukseni mukaan ei ole niin hyvin muodostunut. Kuinka muuten se voitaisiin tehdä?
@NickCox Mitä meidän pitäisi varoa, kun analyysi havaitaan vs. sovitettu, jäännökset vs. asennettu ja normaali qq-käyrä? Ymmärrän, että tämä saattaa vaihdella mallien välillä. Voisitko antaa esimerkin gammasta, poissonista ja negatiivisesta binomista? Kiitos
@tatami Se ’ on mielestäni aivan uusi kysymys. Jos kysyt sitä, ’ näet kuka puree. En ’ ole koskaan ajatellut, että gammamalli ja negatiivinen binomimalli olisivat kilpailijoita missään projektissa, mutta se voi olla mielikuvituksen tai kokemuksen epäonnistuminen.

vastaus

Gamma-regressio on GLM: ssä, joten voit saada monia hyödyllisiä määriä diagnostiikkatarkoituksiin, kuten devianssijäännöksiä, vipuja, Cookia Niiden etäisyys ja niin edelleen. Ne eivät ehkä ole yhtä hienoja kuin log-muunnetun datan vastaavat määrät.

Yksi asia, jota gamma-regressio välttää lognormaaliin verrattuna, on muunnoksen puolueellisuus. lognormaalista regressiosta johtuvat ennusteet kallistuvat järjestelmällisesti, koska ne mallintavat muunnettua dataa eikä muunnettua odotettua arvoa.

Myös gamma-regressio (tai muut ei-negatiivisen datan mallit) voi selviytyä laajemmasta joukosta tietoja kuin normaali logiikka johtuu siitä, että sillä voi olla tila 0, kuten sinulla on eksponentiaalisen etäisyyden kanssa gamma-perheessä oleva ribuutio, mikä on mahdotonta lognormaalille.

Olen lukenut ehdotuksia siitä, että Poissonin todennäköisyyden käyttö lähes todennäköisyytenä on vakaampaa. Ne ”konjugoituvat toistensa kanssa. Kvasi-Poissonilla on myös huomattava etu, että se pystyy selviytymään tarkkojen 0-arvojen kanssa, jotka häiritsevät sekä gammaa että erityisesti lognormaalia.

vastaus

Mielestäni se olettaa, että virheet ovat gammajakaumaperheessä, jolla on samat muodot, ja asteikot muuttuvat vastaavan kaavan mukaan.

Mutta mallidiagnoosia on vaikea tehdä. Huomaa, että yksinkertainen QQ-käyrä ei sovi tähän, koska se on suunnilleen sama jakauma, kun taas meidän on jakaumaperhe, jolla on erilaiset varianssit.

Naiivisesti jäännöskaavion avulla voidaan nähdä, että heillä on eri asteikot, mutta sama muoto, yleensä pitkillä hännillä.

Kokemukseni mukaan gamma GLM: ää voidaan kokeilla joissakin pitkällä hännällä jakautuneissa ongelmissa, ja sitä käytetään laajalti vakuutus- ja ympäristöaloilla jne. oletuksia on vaikea testata, ja malli ei toimi hyvin yleensä, joten eri kirjoituksissa väitetään käyttävän muita saman ongelman perhejakaumia, kuten käänteinen Gaussian jne. Käytännössä näyttää siltä, että tällaiset valinnat riippuvat asiantuntijoiden arvioista teollinen kokemus. Tämä rajoittaa gamma-GLM: n käyttöä.

Kommentit

vastaus

Kommentit

Vastaa

kommentit

vastaus

vastaus

Vastaa Peruuta vastaus