Distribuția gamma poate lua o gamă destul de largă de forme și având în vedere legătura dintre medie și varianță prin cei doi parametri, pare potrivită pentru care se ocupă de heteroskedasticitatea în date non-negative, într-un mod în care OLS transformat în jurnal nu poate face fără WLS sau un fel de estimator VCV compatibil cu heteroskedasticitatea.

L-aș folosi mai mult pentru rutina non- modelarea negativă a datelor, dar nu cunosc pe nimeni altcineva care o folosește, nu am învățat-o într-un cadru formal de clasă, iar literatura pe care am citit-o nu o folosește niciodată. Ori de câte ori Google Google ceva de genul „utilizări practice ale gama GLM” , Vin cu sfaturi pentru a-l folosi pentru timpul de așteptare între evenimentele Poisson. OK. Dar asta pare restrictiv și nu poate fi singura sa utilizare.

Naiv, se pare că gama GLM este o presupunere relativă – mijloace ușoare de modelare a datelor non-negative, dată fiind flexibilitatea gamma. Desigur, trebuie să verificați graficele QQ și graficele reziduale ca orice model. Dar există dezavantaje serioase care îmi lipsesc? Dincolo de comunicarea către persoanele care „doar execută OLS”?

Comentarii

  • ‘ sunt destul de târziu la conversație, dar ‘ mă interesează regresia Gamma, deoarece îndeplinește aceleași scopuri ca și regresia Poisson (din câte știu eu), dar datorită formei sale continue, ‘ este mai ușor pentru calculele gradientului – ceea ce îl face o alegere mai bună pentru software-ul de modelare bayesian care utilizează eșantionare bazată pe gradient HMC / NUTS, cum ar fi PyMC3, Stan etc. (Curios ce cred alții)

Răspuns

Gama are o proprietate partajată de lognormal; și anume că atunci când parametrul de formă este menținut constant în timp ce parametrul de scară este variat (așa cum se face de obicei atunci când se utilizează fie pentru modele), varianța este proporțională cu pătratul mediu (coeficientul constant de variație).

Ceva aproximativ la acest lucru apare destul de des cu datele financiare, sau într-adevăr, cu multe alte tipuri de date.

Prin urmare, acestea sunt adesea potrivite pentru date care sunt continue, pozitive, înclinate la dreapta și unde variația este aproape constantă la scara jurnalului, deși există o serie de alte opțiuni bine-cunoscute (și adesea destul de ușor disponibile) cu acele proprietăți.

Mai mult, este obișnuit să se potrivească un link jurnal cu gama GLM (este relativ mai rar să folosiți legătura naturală). Ceea ce o face ușor diferită de potrivirea unui model liniar normal la jurnalele datelor este că pe scala jurnalului gamma este lăsată înclinată la diferite grade în timp ce normalul (jurnalul unui lognormal) este simetric. Acest lucru îl face (gamma) util în o varietate de situații.

Am văzut utilizări practice pentru gama GLM-uri discutate (cu exemple de date reale) în (în partea de sus a capului meu) de Jong & Heller și Eliberează , precum și numeroase lucrări; Am „văzut și aplicații în alte domenii. Oh, și dacă îmi amintesc bine, MESA Venables și Ripley îl folosește pentru absenteismul școlar (datele de la chine; Editați: se dovedește că este „de fapt în Complimente statistice la MASS , vezi p11, a 14-a pagină a pdf-ului, are un legătură jurnal, dar există o mică schimbare a DV). Uh, și McCullagh și Nelder au făcut un exemplu de coagulare a sângelui, deși poate că ar fi fost o legătură naturală.

Apoi, există cartea „s Faraway , unde a făcut un exemplu de asigurare auto și un exemplu de date de fabricație a semiconductoarelor.

Există câteva avantaje și unele dezavantaje în alegerea uneia dintre cele două opțiuni. Din moment ce ambele sunt ușor de montat; este, în general, o chestiune de a alege ceea ce este cel mai potrivit.

Este departe de singura opțiune; de exemplu, există și GLM-uri Gaussiene inverse, care sunt mai înclinate / mai grele (și chiar mai heteroskedastic) decât fie gamma, fie lognormal.

În ceea ce privește dezavantajele, este mai greu să faci intervale de predicție. Unele afișaje de diagnostic sunt mai greu de interpretat. Așteptările de calcul pe scara predictorului liniar (în general scara log) sunt mai grele decât pentru echivalentul model lognormal. Testele și intervalele de ipoteză sunt, în general, asimptotice. Acestea sunt adesea probleme relativ minore.

Are unele avantaje față de regresia lognormă log-link (luarea de jurnale și potrivirea unui model de regresie liniar obișnuit); una este aceea predicția medie este ușoară.

Comentarii

  • Ar trebui să fie ” Gamma ” sau ” gamma „? Știm că ‘ nu este numit pentru o persoană. Am ‘ văzut minuscule ” g ” mult mai frecvent .În mod clar, distribuția poartă numele funcției, care datează din secolul al XVIII-lea.
  • Notarea $ \ Gamma $ este singurul motiv pentru care am văzut ‘ acea utilizare. În general, cu distribuții, majusculele sunt de obicei ecouri pentru nume, de ex. Poisson sau Gaussian, după cum știți.
  • @ NickCox L-am schimbat după cum sugerați și am remediat ” Gaussian invers ” cât am fost la asta.
  • @Gleb_b: Mai folosiți legătura jurnal cu familia Gauss inversă?
  • @ DimitriyV.Masterov Este ‘ este mai puțin utilizat, astfel încât ‘ este mai greu de generalizat. Din ceea ce am văzut, ‘ am văzut, ‘ este destul de obișnuit să folosești un link-log cu Gauss invers, dar alte link-uri pot fi potrivite în unele situații, cum ar fi o legătură inversă.

Răspuns

Aceasta este o întrebare bună. De fapt, de ce oamenii nu folosesc mai mult modele liniare generalizate (GLM) este, de asemenea, o întrebare bună.

Notă de avertizare: Unii oameni folosesc GLM pentru modelul liniar general, nu ceea ce are în vedere aici.

  • Depinde unde vă uitați. De exemplu, distribuțiile gamma sunt populare în mai multe științe ale mediului înconjurător de câteva decenii și astfel modelarea cu variabile predictive este, de asemenea, o extensie naturală. Există multe exemple în hidrologie și geomorfologie, pentru a numi câteva domenii în care m-am abătut.

  • Este greu de identificat când trebuie să îl folosiți dincolo de un răspuns gol ori de câte ori funcționează cel mai bine. Având în vedere date pozitive distorsionate, mă voi găsi adesea încercând modele gamma și lognormale (în contextul legăturilor GLM, jurnal normal sau familie gaussiană) și alegând care funcționează mai bine.

  • Modelarea gamma a rămas destul de dificil de realizat până destul de recent, cu siguranță în comparație cu luarea de jurnale și aplicarea regresiilor liniare, fără a scrie singur o mulțime de coduri. Chiar și acum, aș presupune că nu este la fel de ușor în toate mediile software statistice majore.

  • În explicarea a ceea ce se folosește și a ceea ce nu se folosește, în ciuda meritelor și a meritelor, cred că ajungeți întotdeauna exact la tipul de factori pe care îi identificați: ce este predat, ce este în literatura pe care o citesc oamenii, despre ceea ce aud oamenii despre care se vorbește la serviciu și la conferințe. Deci, aveți nevoie de un fel de sociologie amatorie a științei pentru a explica. Majoritatea oamenilor par să urmeze cărări drepte și înguste în propriile lor câmpuri. Liber, cu cât literatura internă este mai mare în orice domeniu privind tehnicile de modelare, cu atât oamenii mai puțin înclinați în acest domeniu par să încerce ceva diferit.

Comentarii

  • Cum determinați care funcționează mai bine?
  • Privesc probabilitățile , Pătrate R (în ciuda a ceea ce spun oamenii), intervale de încredere în jurul estimărilor parametrilor, graficele observate vs potrivite, reziduale vs potrivite etc. Dacă ar exista știința care ar favoriza un model față de altul, și asta ar cântări nu este atât de bine format. Cum altfel s-ar putea face?
  • @NickCox La ce ar trebui să ne uităm atunci când analiza observată vs montată, reziduuri vs montate și graficul normal qq? Înțeleg că acest lucru ar putea diferi între modele. Ați putea da un exemplu pentru gama, poisson și binomul negativ? Mulțumim
  • @tatami Că ‘ este o întrebare complet nouă, sau mai multe, cred. Dacă îl întrebați, ‘ veți vedea cine mușcă. ‘ nu m-am gândit niciodată că un model gamma și un model binomial negativ sunt rivali în orice proiect, dar asta ar putea fi eșecul imaginației sau al experienței.

Răspuns

Regresia gamma este în GLM și astfel puteți obține multe cantități utile în scopuri de diagnostic, cum ar fi reziduuri de devianță, pârghii, Cook ” Distanța și așa mai departe. Poate că nu sunt la fel de frumoase ca cantitățile corespunzătoare pentru datele transformate în jurnal.

Un lucru pe care regresia gamma îl evită în comparație cu lognormalul este prejudecata transformării. predicțiile din regresia lognormală vor fi sistematizate, deoarece modelarea transformă date mai degrabă decât valoarea așteptată transformată.

De asemenea, regresia gamma (sau alte modele pentru date non-negative) poate faceți față cu o gamă mai largă de date decât lognormal, datorită faptului că poate avea un mod la 0, cum ar fi cu distanța exponențială ributație, care se află în familia gamma, ceea ce este imposibil pentru lognormal.

Am citit sugestii că utilizarea probabilității Poisson ca cvasiprobabilitate este mai stabilă. Ei „se conjugă unul cu celălalt. Cvasi-Poisson are, de asemenea, avantajul substanțial de a putea face față valorilor exacte 0, care afectează atât gama, cât și, mai ales, lognormalul.

Răspuns

În opinia mea, presupune că erorile se află pe o familie de distribuții gamma, cu aceleași forme și cu scalele care se schimbă în conformitate cu formula aferentă.

Dar este dificil să se facă un diagnostic de model. Rețineți că graficul QQ simplu nu este potrivit aici, deoarece este aproximativ aceeași distribuție, în timp ce al nostru este o familie de distribuții cu varianțe diferite.

Naiv, graficul reziduurilor poate fi folosit pentru a vedea că au scări diferite, dar aceeași formă, de obicei cu cozi lungi.

Din experiența mea, gama GLM poate fi încercată pentru unele probleme distribuite de coadă lungă și este utilizată pe scară largă în sectoarele asigurărilor și al mediului, etc. presupunerile sunt dificil de testat, iar modelul nu funcționează bine de obicei, astfel încât diferite lucrări susțin că se utilizează alte distribuții familiale cu aceeași problemă, cum ar fi Gauss invers, etc. În practică, se pare că astfel de alegeri depind de judecata expertului experiență industrială. Acest lucru limitează utilizarea GLM gamma.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *