La distribuzione gamma può assumere una gamma piuttosto ampia di forme e, dato il collegamento tra la media e la varianza attraverso i suoi due parametri, sembra adatta a trattare con leteroschedasticità in dati non negativi, in un modo che OLS trasformato in log non può fare a meno di WLS o di una sorta di stimatore VCV coerente con leteroschedasticità.
Lo userei di più per routine non modelli di dati negativi, ma non conosco nessun altro che lo usi, non lho imparato in un contesto scolastico formale e la letteratura che ho letto non lo usa mai. Ogni volta che cerco su Google qualcosa come “usi pratici del gamma GLM” , Mi viene in mente di usarlo per i tempi di attesa tra gli eventi di Poisson. OK. Ma sembra restrittivo e non può essere il suo unico utilizzo.
Ingenuamente, sembra che la gamma GLM sia un presupposto relativamente mezzi leggeri per modellare dati non negativi, data la flessibilità della gamma. Ovviamente è necessario controllare i grafici QQ e i grafici residui come qualsiasi modello. Ma ci sono seri inconvenienti che mi mancano? Oltre la comunicazione con le persone che “gestiscono solo OLS”?
Commenti
- I ‘ sono abbastanza in ritardo alla conversazione, ma ‘ sono interessato alla regressione Gamma poiché raggiunge gli stessi scopi della regressione di Poisson (per quanto ne so) ma a causa della sua forma continua, ‘ è più facile per i calcoli del gradiente, rendendolo potenzialmente una scelta migliore per il software di modellazione bayesiano che utilizza HMC / NUTS di campionamento basato sul gradiente, come PyMC3, Stan, ecc. (Curioso cosa pensano gli altri)
Risposta
La gamma ha una proprietà condivisa dal lognormal; vale a dire che quando il parametro di forma viene mantenuto costante mentre il parametro di scala viene variato (come di solito si fa quando si utilizzano entrambi i modelli), la varianza è proporzionale al quadrato medio (coefficiente di variazione costante).
Qualcosa approssimativo a questo si verifica abbastanza spesso con i dati finanziari o, in effetti, con molti altri tipi di dati.
Di conseguenza è spesso adatto per dati continui, positivi, inclinati a destra e in cui la varianza è quasi costante sulla scala logaritmica, sebbene ci siano un certo numero di altre scelte ben note (e spesso abbastanza prontamente disponibili) con queste proprietà.
Inoltre, è comune adattare un log-link con la gamma GLM (è relativamente più raro usare il collegamento naturale). Ciò che lo rende leggermente diverso dalladattamento di un normale modello lineare ai log dei dati è che su la scala logaritmica la gamma è inclinata a vari gradi mentre la normale (il lognormale) è simmetrica. Questo la rende (la gamma) utile una varietà di situazioni.
Ho visto gli usi pratici dei GLM gamma discussi (con esempi di dati reali) in (dalla parte superiore della mia testa) de Jong & Heller e Frees oltre a numerosi articoli; “Ho visto anche applicazioni in altre aree. Oh, e se non ricordo male, Venables e MASS di Ripley le usano sullassenteismo scolastico (i dati di quine; Modifica: risulta che “è effettivamente in Complementi statistici a MASS , vedere p11, la 14a pagina del pdf, ha un log link ma cè un piccolo spostamento del DV). Uh, e McCullagh e Nelder hanno fatto un esempio di coagulazione del sangue, anche se forse potrebbe essere stato un collegamento naturale.
Poi cè “s Faraway” s book dove ha fatto un esempio di assicurazione auto e un esempio di dati di produzione di semiconduttori.
Ci sono alcuni vantaggi e alcuni svantaggi nello scegliere una delle due opzioni. Da questi giorni entrambi sono facili da montare; in genere si tratta di scegliere ciò che è più adatto.
Non è lunica opzione; per esempio, ci sono anche GLM gaussiani inversi, che sono più inclinati / con coda più pesante (e anche più eteroschedastico) rispetto a gamma o lognormale.
Per quanto riguarda gli svantaggi, è più difficile fare intervalli di previsione. Alcuni display diagnostici sono più difficili da interpretare. Calcolare le aspettative sulla scala del predittore lineare (generalmente la scala logaritmica) è più difficile che per lequivalente modello lognormale. I test di ipotesi e gli intervalli sono generalmente asintotici. Questi sono spesso problemi relativamente minori.
Presenta alcuni vantaggi rispetto alla regressione lognormale log-link (prendendo log e adattando un modello di regressione lineare ordinario); uno è che significa che la previsione è facile.
Commenti
- Dovrebbe essere ” Gamma ” o ” gamma “? Sappiamo che ‘ non chiamato per una persona. ‘ ho visto ” g ” minuscolo molto più spesso .Chiaramente la distribuzione prende il nome dalla funzione, che risale al XVIII secolo.
- La notazione $ \ Gamma $ è lunico motivo per cui ‘ ho visto che uso. Con le distribuzioni in genere, le maiuscole di solito fanno eco ai cognomi, ad es. Poisson o gaussiano, come sai.
- @NickCox Lho modificato come suggerisci e ho corretto ” Gaussiano inverso ” già che ci stavo.
- @Gleb_b: Usi ancora il link di log con la famiglia gaussiana inversa?
- @ DimitriyV.Masterov It ‘ è meno utilizzato, quindi ‘ è più difficile da generalizzare. Da quello che ‘ ho visto, ‘ è abbastanza comune utilizzare un collegamento di log con gaussiano inverso, ma altri collegamenti potrebbero essere adatti in alcune situazioni, come un collegamento inverso.
Risposta
Questa “è una buona domanda. Infatti, Anche perché le persone non usano più i modelli lineari generalizzati (GLM) è una buona domanda.
Nota di avvertenza: alcune persone usano GLM per il modello lineare generale, non ciò che è in mente qui.
-
Dipende da dove guardi. Ad esempio, le distribuzioni gamma sono state popolari in molte delle scienze ambientali per alcuni decenni e quindi anche la modellazione con variabili predittive è unestensione naturale. Ci sono molti esempi in idrologia e geomorfologia, per citare alcuni campi in cui mi sono allontanato.
-
È difficile definire con precisione quando usarlo al di là di una risposta vuota di quando funziona meglio. Dati i dati positivi distorti, mi ritroverò spesso a provare modelli gamma e lognormali (in collegamento log del contesto GLM, famiglia normale o gaussiana) e scegliere quale funziona meglio.
-
La modellazione gamma è rimasta abbastanza difficile da fare fino a tempi abbastanza recenti, certamente rispetto al prendere log e applicare regressioni lineari, senza scrivere molto codice da soli. Anche adesso, immagino che non sia altrettanto facile in tutti i principali ambienti software statistici.
-
Nello spiegare cosa viene utilizzato e cosa non viene utilizzato, nonostante i meriti e i demeriti, penso che tu ti riduca sempre al tipo di fattori che identifichi: cosa viene insegnato, cosa è nella letteratura che la gente legge, ciò di cui si sente parlare al lavoro e alle conferenze. Quindi, hai bisogno di una specie di sociologia della scienza amatoriale per spiegare. La maggior parte delle persone sembra seguire sentieri stretti e stretti allinterno dei propri campi. In generale, quanto più ampia è la letteratura interna in qualsiasi campo sulle tecniche di modellazione, tanto meno le persone in quel campo sembrano essere inclini a provare qualcosa di diverso.
Commenti
- Come determinare quale funziona meglio?
- Guardo le probabilità , R-quadrati (nonostante quello che dicono le persone), intervalli di confidenza attorno alle stime dei parametri, grafici di osservati vs adattati, residui vs adattati, ecc. Se ci fosse la scienza che preferisce un modello rispetto a un altro, anche questo peserebbe, ma nella mia esperienza la scienza non è così ben formato. In quale altro modo potrebbe essere fatto?
- @NickCox A cosa dovremmo prestare attenzione quando analisi osservata vs adattata, residui vs adattata e normale grafico qq? Capisco che questo potrebbe differire tra i modelli. Potresti fare un esempio per gamma, poisson e binomio negativo? Grazie
- @tatami Questa ‘ è una domanda completamente nuova, o anche di più, credo. Se lo chiedi, ‘ vedrai chi morde. ‘ non ho mai pensato che un modello gamma e un modello binomiale negativo fossero rivali in qualsiasi progetto, ma questo potrebbe essere un fallimento dellimmaginazione o dellesperienza.
Risposta
La regressione gamma è nel GLM e quindi puoi ottenere molte quantità utili per scopi diagnostici, come residui di devianza, leve, Cook ” s distanza, e così via. Forse non sono così belle quanto le quantità corrispondenti per i dati trasformati in log.
Una cosa che la regressione gamma evita rispetto al lognormale è la distorsione di trasformazione. La disuguaglianza di Jensen implica che le previsioni dalla regressione lognormale saranno sistematicamente distorte perché modellano dati trasformati piuttosto che il valore atteso trasformato.
Inoltre, la regressione gamma (o altri modelli per dati non negativi) può gestire una matrice di dati più ampia rispetto al lognormale perché può avere una modalità a 0, come quella che hai con la dist esponenziale ribuzione, che è nella famiglia gamma, che è impossibile per il lognormale.
Ho letto dei suggerimenti secondo cui lutilizzo della probabilità di Poisson come quasi-probabilità è più stabile. Essi “si coniugano luno con laltro. Il quasi-Poisson ha anche il sostanziale vantaggio di essere in grado di far fronte a valori esatti di 0, che disturbano sia il gamma che, soprattutto, il lognormale.
Risposta
A mio parere, si presume che gli errori si trovino su una famiglia di distribuzioni gamma, con le stesse forme, e con le scale che cambiano secondo la relativa formula.
Ma è difficile fare la diagnosi del modello. Nota che il semplice grafico QQ non è adatto qui, perché riguarda la stessa distribuzione, mentre la nostra è una famiglia di distribuzioni con varianze diverse.
Ingenuamente, il grafico dei residui può essere usato per vedere che hanno scale diverse ma la stessa forma, di solito con code lunghe.
Nella mia esperienza, la gamma GLM può essere provata per alcuni problemi distribuiti a coda lunga, ed è ampiamente utilizzata nei settori assicurativo e ambientale, ecc. le ipotesi sono difficili da testare e il modello di solito non funziona bene, quindi articoli diversi sostengono di utilizzare altre distribuzioni familiari con lo stesso problema, come la gaussiana inversa, ecc. In pratica, sembra che tali scelte dipendono dal giudizio di esperti esperienza industriale. Questo limita luso della gamma GLM.