Die Gammaverteilung kann einen ziemlich großen Bereich von Formen annehmen, und angesichts der Verbindung zwischen dem Mittelwert und der Varianz durch ihre beiden Parameter scheint sie geeignet zu sein Umgang mit Heteroskedastizität in nicht negativen Daten, so dass logarithmisch transformiertes OLS weder auf WLS noch auf einen heteroskedastizitätskonsistenten VCV-Schätzer verzichten kann.

Ich würde ihn eher für routinemäßige Nicht-Daten verwenden. Modellierung negativer Daten, aber ich kenne niemanden, der sie verwendet, ich habe sie nicht in einem formellen Klassenzimmer gelernt, und die Literatur, die ich lese, verwendet sie nie. Immer wenn ich so etwas wie „praktische Anwendungen von Gamma-GLM“ google. Ich habe mir geraten, es für Wartezeiten zwischen Poisson-Ereignissen zu verwenden. OK. Aber das scheint restriktiv zu sein und kann nicht die einzige Verwendung sein.

Naiv scheint das Gamma-GLM eine relativ gute Annahme zu sein -Lichtes Mittel zum Modellieren nicht negativer Daten angesichts der Flexibilität von Gamma. Natürlich müssen Sie QQ-Diagramme und Restdiagramme wie jedes Modell überprüfen Gibt es ernsthafte Nachteile, die mir fehlen? Über die Kommunikation mit Personen hinaus, die „nur OLS ausführen“?

Kommentare

  • Ich ‚ bin ziemlich spät zum Gespräch, aber ich ‚ interessiere mich für die Gamma-Regression, da sie dieselben Zwecke wie die Poisson-Regression erfüllt (meines Wissens), aber aufgrund ihrer kontinuierlichen Form ‚ ist einfacher für Gradientenberechnungen – möglicherweise eine bessere Wahl für Bayessche Modellierungssoftware, die gradientenbasierte Abtast-HMC / NUTS wie PyMC3, Stan usw. verwendet. (Neugierig, was andere denken)

Antwort

Das Gamma hat eine Eigenschaft, die vom Lognormal gemeinsam genutzt wird. Das heißt, wenn der Formparameter konstant gehalten wird, während der Skalierungsparameter variiert wird (wie dies normalerweise bei Verwendung für beide Modelle der Fall ist), ist die Varianz proportional zum mittleren Quadrat (konstanter Variationskoeffizient).

Etwas Eine Annäherung daran tritt ziemlich häufig bei Finanzdaten oder in der Tat bei vielen anderen Arten von Daten auf.

Infolgedessen ist es häufig für Daten geeignet, die kontinuierlich, positiv, rechtwinklig und mit Varianz sind Auf der Log-Skala nahezu konstant, obwohl es eine Reihe anderer bekannter (und oft recht leicht verfügbarer) Optionen mit diesen Eigenschaften gibt.

Außerdem ist es üblich, einen Log-Link anzupassen mit dem Gamma-GLM (es ist relativ seltener, den natürlichen Link zu verwenden). Was es geringfügig von der Anpassung eines normalen linearen Modells an die Protokolle der Daten unterscheidet, ist, dass aktiviert ist Die logarithmische Skala, in der das Gamma in unterschiedlichem Maße schief bleibt , während die Normalen (das Logarithmus eines logarithmischen Normalen) symmetrisch sind eine Vielzahl von Situationen.

Ich habe praktische Anwendungen für Gamma-GLMs gesehen, die (mit Beispielen für reale Daten) in (von oben nach unten) de diskutiert wurden Jong & Heller und befreit sowie zahlreiche Artikel; Ich habe auch Anwendungen in anderen Bereichen gesehen. Oh, und wenn ich mich recht erinnere, verwendet Venables und Ripleys MASS sie bei Fehlzeiten in der Schule (die Quine-Daten; Bearbeiten: Es stellt sich heraus, dass es tatsächlich in Statistik-Ergänzungen zu MASS ist, siehe Seite 11, 14. Seite des PDF, es hat eine Log Link, aber es gibt eine kleine Verschiebung des DV). Äh, und McCullagh und Nelder haben ein Beispiel für die Blutgerinnung gemacht, obwohl es vielleicht eine natürliche Verbindung gewesen sein könnte.

Dann gibt es „s Faraway“ s Buch , in dem er ein Beispiel für eine Kfz-Versicherung und ein Beispiel für Daten zur Halbleiterherstellung erstellt hat.

Die Auswahl einer der beiden Optionen hat einige Vor- und Nachteile. Seit diesen Tagen sind beide leicht zu montieren; Es geht im Allgemeinen darum, zu wählen, was am besten geeignet ist.

Es ist bei weitem nicht die einzige Option. Beispielsweise gibt es auch inverse Gaußsche GLMs, die stärker verzerrt / schwerer sind (und noch heteroskedastischer) als entweder Gamma oder Lognormal.

Was die Nachteile betrifft, ist es schwieriger, Vorhersageintervalle zu erstellen. Einige Diagnoseanzeigen sind schwieriger zu interpretieren. Die Berechnung der Erwartungen auf der Skala des linearen Prädiktors (im Allgemeinen der logarithmischen Skala) ist schwieriger als für das Äquivalent lognormales Modell. Hypothesentests und Intervalle sind im Allgemeinen asymptotisch. Dies sind häufig relativ geringfügige Probleme.

Es hat einige Vorteile gegenüber der logarithmischen logarithmischen logarithmischen Regression (Protokollierung und Anpassung eines gewöhnlichen linearen Regressionsmodells) Die mittlere Vorhersage ist einfach.

Kommentare

  • Sollte es sein “ Gamma “ oder “ gamma „? Wir wissen, dass ‚ nicht benannt nach einer Person. Ich ‚ habe viel häufiger Kleinbuchstaben “ g “ gesehen .Die Distribution ist eindeutig nach der Funktion benannt, die bis ins 18. Jahrhundert zurückreicht.
  • Die Notation $ \ Gamma $ ist der einzige Grund, warum ich ‚ gesehen habe diese Verwendung. Bei Verteilungen im Allgemeinen gibt Großbuchstaben normalerweise Nachnamen wieder, z. Poisson oder Gauß, wie Sie wissen.
  • @NickCox Ich habe es geändert, wie Sie vorschlagen, und “ Inverses Gauß behoben

während ich dabei war.

  • @Gleb_b: Verwenden Sie immer noch den Protokolllink mit der inversen Gaußschen Familie?
  • @ DimitriyV.Masterov It ‚ wird weniger verwendet, daher ist es ‚ schwieriger zu verallgemeinern. Nach dem, was ich ‚ gesehen habe, ist es ‚ ziemlich üblich, einen Protokolllink mit inversem Gaußschen zu verwenden, aber andere Links können geeignet sein in einigen Situationen, z. B. bei einem inversen Link.
  • Antwort

    Das ist eine gute Frage. Warum nicht mehr generalisierte lineare Modelle (GLM) verwendet werden, ist ebenfalls eine gute Frage.

    Warnhinweis: Einige Benutzer verwenden GLM für das allgemeine lineare Modell, nicht für das, was hier im Sinn ist.

    • Es hängt davon ab, wohin Sie schauen. Zum Beispiel sind Gammaverteilungen in einigen Umweltwissenschaften seit einigen Jahrzehnten beliebt, und daher ist die Modellierung mit Prädiktorvariablen auch eine natürliche Erweiterung. Es gibt viele Beispiele in der Hydrologie und Geomorphologie, um einige Bereiche zu nennen, in denen ich mich verirrt habe.

    • Es ist schwer zu bestimmen, wann es verwendet werden soll, abgesehen von einer leeren Antwort, wann es am besten funktioniert. Angesichts verzerrter positiver Daten versuche ich oft, Gamma- und Lognormalmodelle (im GLM-Kontextprotokoll, normale oder Gaußsche Familie) auszuprobieren und auszuwählen, welche besser funktionieren.

    • Die Gammamodellierung war bis vor kurzem recht schwierig, sicherlich im Vergleich zum Protokollieren und Anwenden linearer Regressionen, ohne selbst viel Code zu schreiben. Selbst jetzt würde ich vermuten, dass es nicht in allen wichtigen statistischen Softwareumgebungen gleich einfach ist.

    • Bei der Erklärung, was verwendet wird und was nicht, trotz aller Vor- und Nachteile, denke ich, dass Sie immer genau auf die Art von Faktoren zurückkommen, die Sie identifizieren: Was wird gelehrt, was In der Literatur, die Menschen lesen, wird darüber gesprochen, worüber bei der Arbeit und auf Konferenzen gesprochen wird. Sie brauchen also eine Art Amateur-Wissenschaftssoziologie, um dies zu erklären. Die meisten Menschen scheinen auf ihren eigenen Feldern geraden und schmalen Pfaden zu folgen. Je größer die interne Literatur in einem Bereich über Modellierungstechniken ist, desto weniger geneigt scheinen die Leute in diesem Bereich zu sein, etwas anderes auszuprobieren.

    Kommentare

    • Wie bestimmen Sie, welche besser funktionieren?
    • Ich betrachte die Wahrscheinlichkeiten , R-Quadrate (trotz der Aussagen der Leute), Konfidenzintervalle um Parameterschätzungen, Diagramme von beobachteten gegen angepasste, verbleibende gegen angepasste usw. Wenn es eine Wissenschaft gäbe, die ein Modell einem anderen vorzieht, würde das auch wiegen, aber meiner Erfahrung nach die Wissenschaft ist nicht so gut geformt. Wie könnte es sonst getan werden?
    • @NickCox Worauf sollten wir achten, wenn die Analyse gegen angepasste, Residuen gegen angepasste und normale qq-Diagramme beobachtet wird? Ich verstehe, dass dies zwischen den Modellen unterschiedlich sein kann. Können Sie ein Beispiel für Gamma, Poisson und negatives Binom geben? Danke
    • @tatami Das ‚ ist eine ganz neue Frage oder mehr, denke ich. Wenn Sie danach fragen, werden Sie ‚ sehen, wer beißt. Ich ‚ habe nie gedacht, dass ein Gammamodell und ein negatives Binomialmodell Rivalen in einem Projekt sind, aber das könnte ein Mangel an Vorstellungskraft oder Erfahrung sein.

    Antwort

    Die Gamma-Regression befindet sich im GLM, sodass Sie viele nützliche Größen für Diagnosezwecke erhalten können, z. B. Abweichungsreste, Hebel, Cook „. s Entfernung und so weiter. Sie sind vielleicht nicht so schön wie die entsprechenden Größen für logarithmisch transformierte Daten.

    Eine Sache, die die Gamma-Regression im Vergleich zur logarithmischen Normalität vermeidet, ist die Transformationsverzerrung. Jensens Ungleichung impliziert dies Die Vorhersagen aus der lognormalen Regression werden systematisch verzerrt, da transformierte Daten und nicht der transformierte erwartete Wert modelliert werden.

    Auch die Gamma-Regression (oder andere Modelle für nichtnegative Daten) können dies Bewältigen Sie ein breiteres Datenfeld als das logarithmische Normal, da es einen Modus bei 0 haben kann, wie Sie es mit dem exponentiellen dist haben Ribution, die zur Gammafamilie gehört, die für das Lognormal unmöglich ist.

    Ich habe Vorschläge gelesen, dass die Verwendung der Poisson-Wahrscheinlichkeit als Quasi-Wahrscheinlichkeit stabiler ist. Sie sind Konjugate voneinander. Das Quasi-Poisson hat auch den wesentlichen Vorteil, dass es mit exakten 0-Werten umgehen kann, die sowohl das Gamma als auch insbesondere das Lognormal stören.

    Antwort

    Meiner Meinung nach wird davon ausgegangen, dass die Fehler auf einer Familie von Gammaverteilungen mit denselben Formen und liegen Die Skalen ändern sich gemäß der zugehörigen Formel.

    Es ist jedoch schwierig, eine Modelldiagnose durchzuführen. Beachten Sie, dass das einfache QQ-Diagramm hier nicht geeignet ist, da es sich um ungefähr dieselbe Verteilung handelt, während es sich bei unserer um eine Familie von Verteilungen mit unterschiedlichen Varianzen handelt.

    Naiv kann das Residuen-Diagramm verwendet werden, um festzustellen, ob dies der Fall ist verschiedene Skalen, aber die gleiche Form, normalerweise mit langen Schwänzen.

    Nach meiner Erfahrung kann das Gamma-GLM für einige Probleme mit verteilten langen Schwänzen ausprobiert werden, und es wird häufig in Versicherungs- und Umweltsektoren usw. verwendet Die Annahmen sind schwer zu testen, und das Modell funktioniert normalerweise nicht gut. Daher argumentieren verschiedene Artikel, andere Familienverteilungen mit demselben Problem wie inverses Gaußsch usw. zu verwenden. In der Praxis scheint es, dass solche Entscheidungen von der Beurteilung durch Experten abhängen Industrieerfahrung. Dies schränkt die Verwendung des Gamma-GLM ein.

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.