Rozkład gamma może przybierać dość szeroki zakres kształtów, a biorąc pod uwagę związek między średnią a wariancją za pomocą dwóch parametrów, wydaje się, że nadaje się do radzenie sobie z heteroskedastycznością w danych nieujemnych w sposób, w jaki OLS przekształcony w dziennik nie może obejść się bez WLS lub jakiegoś rodzaju estymatora VCV zgodnego z heteroskedastycznością.

Używałbym go bardziej do rutynowych nie- negatywne modelowanie danych, ale nie znam nikogo innego, kto go używa, nie nauczyłem się tego w formalnych warunkach klasowych, a literatura, którą czytam, nigdy go nie używa. Za każdym razem, gdy wyszukuję w Google coś w rodzaju „praktyczne zastosowania gamma GLM” , Podaję radę, aby używać go do czasu oczekiwania między zdarzeniami Poissona. OK. Ale wydaje się to ograniczające i nie może być jego jedynym zastosowaniem.

Naiwnie, wygląda na to, że gamma GLM jest względnym założeniem -lekki sposób modelowania danych nieujemnych, biorąc pod uwagę elastyczność gamma. Oczywiście musisz sprawdzić wykresy QQ i wykresy reszt jak w każdym modelu. Ale czy są jakieś poważne wady, których mi brakuje? Oprócz komunikacji z ludźmi, którzy „po prostu uruchamiają OLS”?

Komentarze

  • I ' dość późno do rozmowy, ale ' interesuje mnie regresja Gamma, ponieważ spełnia ona te same cele, co regresja Poissona (o ile wiem), ale ze względu na jej ciągłą formę ' jest łatwiejszy do obliczeń gradientowych – potencjalnie czyniąc go lepszym wyborem dla oprogramowania do modelowania bayesowskiego, które wykorzystuje gradientowe próbkowanie HMC / NUTS, takie jak PyMC3, Stan itp. (Ciekawe, co myślą inni)

Odpowiedź

Gamma ma właściwość wspólną dla lognormal; mianowicie, gdy parametr kształtu jest utrzymywany na stałym poziomie, podczas gdy parametr skali jest zmienny (jak to zwykle ma miejsce w przypadku obu modeli), wariancja jest proporcjonalna do średniokwadratowej (stały współczynnik zmienności).

Coś przybliżenie do tego występuje dość często w przypadku danych finansowych, a nawet wielu innych rodzajów danych.

W rezultacie często nadaje się do danych, które są ciągłe, dodatnie, skośne w prawo i gdzie wariancja jest prawie stała na skali logarytmicznej, chociaż istnieje wiele innych dobrze znanych (i często dość łatwo dostępnych) opcji z tymi właściwościami.

Ponadto często dopasowuje się link do dziennika z gamma GLM (stosunkowo rzadsze jest użycie naturalnego łącza). To, co nieco różni się od dopasowania normalnego modelu liniowego do dzienników danych, polega na tym, że włączone skali logarytmicznej, gdzie wartość gamma jest odchylona w różnym stopniu , podczas gdy normalna (logarytm normalny) jest symetryczna. To sprawia, że (gamma) jest przydatna w różne sytuacje.

Widziałem praktyczne zastosowania GLM gamma omówione (z przykładami rzeczywistych danych) w (z góry mojej głowy) de Jong & Heller i Uwalnia , a także liczne dokumenty; Widziałem też aplikacje w innych obszarach. Och, i jeśli dobrze pamiętam, Venables and Ripley „s MASS używa go do nieobecności w szkole (dane quine; Edycja: okazuje się, że tak naprawdę jest w Statystyka uzupełnia MASĘ , patrz str. 11, 14. strona pliku PDF, ma log link, ale jest mała zmiana DV). Uh, a McCullagh i Nelder zrobili przykład krzepnięcia krwi, chociaż być może było to naturalne połączenie.

Następnie „ książka Farawaya , w której przedstawił przykład ubezpieczenia samochodu i przykład danych dotyczących produkcji półprzewodników.

Istnieją pewne zalety i wady wyboru jednej z dwóch opcji. Od tego czasu oba są łatwe do dopasowania; generalnie jest to kwestia wyboru tego, co jest najbardziej odpowiednie.

Nie jest to jedyna opcja, na przykład istnieją również odwrotne Gaussowskie GLM, które są bardziej skośne / cięższe (i nawet bardziej heteroskedastyczny) niż gamma lub lognormal.

Jeśli chodzi o wady, trudniej jest określić przedziały przewidywania. Niektóre ekrany diagnostyczne są trudniejsze do zinterpretowania. Obliczanie oczekiwań w skali predyktora liniowego (zwykle w skali logarytmicznej) jest trudniejsze niż w przypadku odpowiednika model log-normalny. Testy hipotez i interwały są na ogół asymptotyczne. Są to często stosunkowo drobne problemy.

Ma pewne zalety w porównaniu z logarytmiczną regresją log-normalną (przyjmowanie logów i dopasowywanie zwykłego modelu regresji liniowej). średnie przewidywanie jest łatwe.

Komentarze

  • Czy powinno być ” Gamma ” lub ” gamma „? Wiemy, że ' nie nazwany na cześć osoby. Znacznie częściej ' widziałem małe litery ” g ” .Najwyraźniej nazwa dystrybucji pochodzi od funkcji, która sięga XVIII wieku.
  • Notacja $ \ Gamma $ jest jedynym powodem, dla którego ' widziałem tego użycia. W przypadku dystrybucji generalnie wielkie litery zwykle odzwierciedlają nazwiska, np. Poisson lub Gaussian, jak wiesz.
  • @NickCox Zmieniłem to, jak sugerujesz, i naprawiłem ” Odwrotność Gaussa ” kiedy ja to robiłem.
  • @Gleb_b: Czy nadal używasz łącza do dziennika z odwrotną rodziną Gaussa?
  • @ DimitriyV.Masterov It ' jest rzadziej używane, więc ' jest trudniejsze do uogólnienia. Z tego, co ' widziałem, ' jest dość powszechne używanie łącza dziennika z odwrotnym Gaussa, ale inne łącza mogą być odpowiednie w niektórych sytuacjach, takich jak odwrotny link.

Odpowiedź

To dobre pytanie. W rzeczywistości Dlaczego ludzie nie używają częściej uogólnionych modeli liniowych (GLM), jest również dobrym pytaniem.

Uwaga ostrzegawcza: Niektórzy ludzie używają GLM do ogólnego modelu liniowego, a nie to, o czym tutaj myślimy.

  • To zależy od tego, gdzie spojrzysz. Na przykład rozkłady gamma są popularne w kilku naukach o środowisku od kilku dziesięcioleci, a więc modelowanie za pomocą zmiennych predykcyjnych jest również naturalnym rozszerzeniem. Istnieje wiele przykładów z hydrologii i geomorfologii, by wymienić niektóre dziedziny, w których się zbłądziłem.

  • Trudno jest dokładnie określić, kiedy należy go użyć, poza pustą odpowiedzią, kiedy działa najlepiej. Biorąc pod uwagę wypaczone pozytywne dane, często próbuję wypróbować modele gamma i lognormalne (w kontekście łącza dziennika GLM, normalna lub Gaussa) i wybieram, który działa lepiej.

  • Modelowanie gamma było dość trudne do wykonania do niedawna, na pewno w porównaniu z, powiedzmy, rejestrowaniem dzienników i stosowaniem regresji liniowych bez konieczności samodzielnego pisania dużej ilości kodu. Nawet teraz sądzę, że nie jest to równie łatwe we wszystkich głównych środowiskach oprogramowania statystycznego.

  • Przy wyjaśnianiu, co jest używane, a czego nie, pomimo zalet i wad, myślę, że zawsze sprowadzasz się do dokładnie tego rodzaju czynników, które identyfikujesz: tego, czego się uczy, co jest w literaturze, którą ludzie czytają, o czym ludzie słyszą w pracy i na konferencjach. Potrzebujesz więc pewnego rodzaju amatorskiej socjologii nauki, żeby to wyjaśnić. Większość ludzi zdaje się podążać prostymi i wąskimi ścieżkami na własnych polach. Mówiąc ogólnie, im obszerniejsza jest wewnętrzna literatura w dowolnej dziedzinie dotyczącej technik modelowania, tym mniej skłonni ludzie w tej dziedzinie wydają się próbować czegoś innego.

Komentarze

  • W jaki sposób określacie, który działa lepiej?
  • Patrzę na prawdopodobieństwa , R-kwadraty (wbrew temu, co mówią ludzie), przedziały ufności wokół oszacowań parametrów, wykresy obserwowanych vs dopasowanych, resztowych vs dopasowanych itp. Gdyby istniała nauka faworyzująca jeden model nad innym, to też by to ważyło, ale z mojego doświadczenia wynika, że nauka nie jest tak dobrze uformowany. Jak inaczej można by to zrobić?
  • @NickCox Na co powinniśmy zwrócić uwagę, gdy analiza obserwowana vs dopasowana, reszty vs dopasowana i normalny wykres qq? Rozumiem, że może się to różnić w zależności od modelu. Czy możesz podać przykład dla dwumianu gamma, poissona i ujemnego dwumianu? Dzięki
  • @tatami To ' to zupełnie nowe pytanie, a może więcej, jak sądzę. Jeśli o to zapytasz, ' zobaczysz, kto gryzie. ' nigdy nie myślałem, że model gamma i negatywny model dwumianowy są rywalami w jakimkolwiek projekcie, ale może to być porażka wyobraźni lub doświadczenia.

Odpowiedź

Regresja gamma znajduje się w GLM, więc możesz uzyskać wiele przydatnych wartości do celów diagnostycznych, takich jak reszty odchyleń, dźwignie, Cook ” s odległości itd. Być może nie są one tak dobre, jak odpowiednie wielkości dla danych przekształconych logarytmicznie.

Jedną rzeczą, której unika regresja gamma w porównaniu z lognormą, jest błąd transformacji. Nierówność Jensena oznacza, że prognozy z regresji logarytmicznej będą systematycznie obciążane, ponieważ modeluje przekształcone dane zamiast przekształconej wartości oczekiwanej.

Ponadto regresja gamma (lub inne modele dla danych nieujemnych) może poradzić sobie z szerszą gamą danych niż lognormal ze względu na fakt, że może mieć tryb na 0, taki jak masz z wykładniczym dist żebracja, która należy do rodziny gamma, co jest niemożliwe dla lognormalności.

Czytałem sugestie, że używanie prawdopodobieństwa Poissona jako quasi-prawdopodobieństwa jest bardziej stabilne. One „ponownie sprzężone są ze sobą. Quasi-Poissona ma również istotną zaletę, że jest w stanie poradzić sobie z dokładnymi wartościami 0, które kłopoczą zarówno gamma, jak i, zwłaszcza, log-normalność.

Odpowiedź

Moim zdaniem zakłada się, że błędy dotyczą rodziny rozkładów gamma o takich samych kształtach i ze skalami zmieniającymi się zgodnie z powiązanym wzorem.

Jednak trudno jest przeprowadzić modelową diagnozę. Zwróć uwagę, że prosty wykres QQ nie jest tutaj odpowiedni, ponieważ dotyczy mniej więcej tego samego rozkładu, podczas gdy nasz jest rodziną rozkładów z różnymi wariancjami.

Naiwnie, wykres reszt może być użyty, aby zobaczyć, że mają różne skale, ale ten sam kształt, zwykle z długimi ogonami.

Z mojego doświadczenia wynika, że gamma GLM może być wypróbowana w przypadku niektórych problemów z rozproszonym ogonem i jest szeroko stosowana w sektorach ubezpieczeniowych i środowiskowych itp. Ale założenia są trudne do przetestowania, a model zwykle nie sprawdza się dobrze, więc w różnych pracach argumentuje się, że używa się innych rozkładów rodzin z tym samym problemem, np. odwrotnego Gaussa itp. W praktyce wydaje się, że takie wybory zależą od oceny eksperta z doświadczenie przemysłowe. To ogranicza użycie gamma GLM.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *