ガンマ分布はかなり広範囲の形状をとることができ、2つのパラメーターによる平均と分散の関係を考えると、次のようになります。ログ変換されたOLSがWLSまたはある種の不均一分散不均一分散VCV推定量なしでは実行できない方法で、非負のデータの不均一分散を処理します。

ルーチンの非分散にもっと使用します。ネガティブデータモデリングですが、それを使用している人は誰も知りません。正式な教室環境でそれを学んだことはなく、読んだ文献では決して使用していません。「ガンマGLMの実用的な使用」のようなものをGoogleで検索するときはいつでも、ポアソンイベント間の待機時間に使用するためのアドバイスを思いつきます。OK。しかし、それは制限的であり、「唯一の使用法ではありません。

単純に、ガンマGLMは比較的想定されているようです。 -ガンマの柔軟性を考慮して、非負のデータをモデル化する軽い手段。もちろん、他のモデルと同様に、QQプロットと残差プロットを確認する必要があります。私が見逃している深刻な欠点はありますか? 「OLSを実行するだけ」の人とのコミュニケーションを超えて?

コメント

  • 私は'かなり遅れています会話に、しかし私は'ポアソン回帰と同じ目的を達成するので(私の知る限り)ガンマ回帰に興味がありますが、その連続的な形式のために'勾配計算が容易-PyMC3、Stanなどの勾配ベースのサンプリングHMC / NUTSを使用するベイジアンモデリングソフトウェアに適している可能性があります(他の人の考えに興味があります)

回答

ガンマには、lognormalによって共有されるプロパティがあります。つまり、スケールパラメータが変化している間、形状パラメータが一定に保たれている場合(モデルにどちらかを使用する場合に通常行われるように)、分散は平均二乗(一定の変動係数)に比例します。

何かこれに近似するのは、財務データ、または実際には他の多くの種類のデータでかなり頻繁に発生します。

その結果、連続的で正の右スキューで分散が存在するデータに適していることがよくあります。ログスケールではほぼ一定ですが、これらのプロパティには他にもよく知られている(そして多くの場合かなり簡単に利用できる)選択肢がいくつかあります。

さらに、ログリンクを適合させるのが一般的です。ガンマGLMを使用します(自然リンクを使用することは比較的まれです)。通常の線形モデルをデータのログに適合させることとわずかに異なるのは、がオンになっていることです。法線(対数法線の対数)が対称である間、ガンマはさまざまな程度に歪んだままの対数スケール。これにより、(ガンマ)はさまざまな状況。

(実際のデータ例を使用して) deで説明されているガンマGLMの実際の使用法を見てきました。 Jong & Heller Frees 、および多数の論文。他の分野でもアプリケーションを見たことがあります。ああ、覚えていれば、 Venables and RipleyのMASS は学校の欠席時にそれを使用しています(クワインのデータ。編集:実際には MASSの統計補完 にあります。PDFの14ページ目のp11を参照してください。ログリンクですが、「DVの小さなシフトがあります)。ええと、マッカラーとネルダーは血液凝固の例を示しましたが、おそらくそれは自然なつながりだったのかもしれません。

次に、ファラウェイの本で、自動車保険の例と半導体製造データの例を示しました。

2つのオプションのいずれかを選択することには、いくつかの利点といくつかの欠点があります。最近はどちらも簡単に装着できます。一般に、最も適切なものを選択する必要があります。

これは唯一の選択肢からはほど遠いです。たとえば、逆ガウスGLMもあります。これは、よりスキュー/より重いテール(およびガンマまたは対数正規よりもさらに不均一分散)。

欠点については、予測区間を実行するのが難しいです。一部の診断表示は解釈が困難です。線形予測子のスケール(通常は対数スケール)での期待値の計算は、同等のものよりも困難です。対数正規モデル。仮説検定と間隔は一般に漸近的です。これらは比較的小さな問題であることがよくあります。

対数正規対数正規回帰(ログを取得して通常の線形回帰モデルをフィッティングする)に比べていくつかの利点があります。平均予測は簡単です。

コメント

  • それは"ガンマ"または" gamma "?私たちはそれを知っています'人にちなんで名付けられました。'小文字の" g "をずっと頻繁に見ました。明らかに、分布は18世紀にさかのぼる関数にちなんで名付けられています。
  • $ \ Gamma $表記は、私が'で見た唯一の理由です。その使用。一般的な分布では、大文字は通常、名前をエコーします。ご存知のとおり、ポアソンまたはガウス分布です。
  • @NickCox提案どおりに変更し、"逆ガウス分布"私がそこにいた間。
  • @Gleb_b:逆ガウス分布のログリンクを引き続き使用しますか?
  • @ DimitriyV.Masterov It 'はあまり使用されないため、'一般化するのは困難です。私が'見てきたことから、'は逆ガウス分布のログリンクを使用するのがかなり一般的ですが、他のリンクが適している場合があります逆リンクなど、状況によっては。

回答

それは良い質問です。実際、なぜ人々は一般化線形モデル(GLM)をもっと使わないのかということも良い質問です。

警告注:一部の人々は、ここで念頭に置いていることではなく、一般線形モデルにGLMを使用しています。

  • どこを見ているかによります。たとえば、ガンマ分布は数十年にわたっていくつかの環境科学で人気があり、予測変数を使用したモデリングも自然な拡張です。私が迷ったいくつかの分野を挙げれば、水文学と地形学には多くの例があります。

  • 最適に機能する場合の空虚な答えを超えて、いつ使用するかを正確に特定することは困難です。偏った正のデータを考えると、ガンマモデルと対数正規モデル(GLMコンテキストログリンク、正規またはガウスファミリー)を試し、どちらがより適切に機能するかを選択することがよくあります。

  • ガンマモデリングは、かなり最近まで、自分で多くのコードを記述せずにログを取得して線形回帰を適用する場合と比較して、非常に困難なままでした。今でも、すべての主要な統計ソフトウェア環境で同じように簡単ではないと思います。

  • 何が使用され、何が使用されないかを説明する際には、長所と短所にもかかわらず、常に、特定する要素の種類、つまり、教えられること、何を正確に理解するかを考えます。人々が読む文学、人々が聞くものは職場や会議で話されています。したがって、説明するには、一種のアマチュア科学社会学が必要です。ほとんどの人は自分の分野でまっすぐで狭い道をたどっているようです。大まかに言えば、モデリング技術に関するどの分野の内部文献も大きいほど、その分野の傾向の少ない人々は別のことを試みているようです。

コメント

  • どちらが効果的かをどのように判断しますか?
  • 可能性を調べます、R-squares(人々の言うことにもかかわらず)、パラメーター推定値の周りの信頼区間、観測値と近似値、残差と近似値などのプロット。あるモデルを別のモデルよりも優先する科学がある場合、それも重要ですが、私の経験では科学あまりよく形成されていません。他にどのようにそれを行うことができますか?
  • @NickCox分析が観測された場合と適合された場合、残差と適合された場合、および通常のqqプロットの場合、何に注意する必要がありますか?これはモデル間で異なる可能性があることを理解しています。ガンマ、ポアソン、負の二項の例を挙げていただけますか?ありがとう
  • @tatamiそれは'まったく新しい質問、またはそれ以上だと思います。尋ねると、'誰が噛んだかがわかります。 'ガンマモデルと負の二項モデルがどのプロジェクトでもライバルだとは思っていませんでしたが、それは想像力や経験の失敗である可能性があります。

回答

ガンマ回帰はGLMに含まれているため、逸脱度の残差、レバレッジ、クックなど、診断目的で多くの有用な量を取得できます。 ” s距離など。これらは、対数変換されたデータの対応する量ほど良くない可能性があります。

対数正規分布と比較してガンマ回帰が回避することの1つは、変換バイアスです。ジェンセンの不等式は、対数法線回帰からの予測は、変換された期待値ではなく変換されたデータをモデル化するため、体系的にバイアスされます。

また、ガンマ回帰(または非負のデータの他のモデル)は指数分布の場合のように、モードが0になる可能性があるため、対数正規分布よりも幅広いデータ配列に対応します。対数正規分布では不可能なガンマファミリーに属するリブレーション。

ポアソン尤度を準尤度として使用する方が安定しているという提案を読みました。それらは互いに共役です。準ポアソンには、ガンマと特に対数正規の両方を悩ます正確な0値に対処できるという実質的な利点もあります。

回答

私の意見では、エラーは同じ形状のガンマ分布のファミリーにあると想定しています。関連する式に従ってスケールが変化します。

しかし、モデル診断を行うことは困難です。単純なQQプロットは、ほぼ同じ分布であるため、ここでは適切ではないことに注意してください。一方、私たちのプロットは、分散が異なる分布のファミリーです。

単純に、残差プロットを使用して、それらがスケールは異なりますが、形状は同じで、通常はロングテールです。

私の経験では、ガンマGLMはロングテールの分散問題に対して試行される可能性があり、保険や環境セクターなどで広く使用されています。仮定をテストするのは難しく、モデルは通常はうまく機能しないため、別の論文では、逆ガウスなど、同じ問題を持つ他の家族分布を使用することを主張しています。実際には、そのような選択は専門家の判断に依存しているようです。産業経験。これにより、ガンマGLMの使用が制限されます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です