確率変数 $ X \ sim f(x | \ theta)$ があるとします。 。 $ \ theta_0 $ が真のパラメーターである場合、尤度関数を最大化し、導関数をゼロに等しくする必要があります。これが最尤推定法の背後にある基本原理です。

私が理解しているように、フィッシャー情報は次のように定義されています

$$ I(\ theta)= \ Bbb E \ Bigg [\ left (\ frac {\ partial} {\ partial \ theta} f(X | \ theta)\ right)^ 2 \ Bigg] $$

したがって、 $ \ theta_0 $ は真のパラメーター、 $ I(\ theta)= 0 $ です。ただし、 $ \ theta_0 $ が真のパラメーターでない場合は、フィッシャー情報量が多くなります。

私の質問

  1. フィッシャー情報量は「エラー」を測定しますか「与えられたMLEの?言い換えれば、肯定的なフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しませんか?
  2. この「情報」の定義は、シャノンが使用する定義とどのように異なりますか?なぜそれを情報と呼ぶのですか?

コメント

  • なぜ$ E_ \ theta $と書くのですか?期待値は、パラメータ$ \ theta $を使用した分布からのものであるかのように分布された$ X $の値を超えています。
  • また、$ I(\ theta)$は真のパラメータでゼロではありません。
  • E(S)はゼロです(つまり、スコア関数の期待値)が、Neil Gが書いたように-フィッシャー情報(V(S))は(通常)ゼロではありません。

回答

他の回答を補完しようとしています…フィッシャー情報とはどのような情報ですか?パラメータ空間である$ \ theta \ in \ Theta $の$ \ theta $の関数として、対数尤度関数$$ \ ell(\ theta)= \ log f(x; \ theta)$$から始めます。ここで説明しないいくつかの規則性条件を想定すると、$ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ E \ frac {\ partial} {\ partial \ theta} \ ell(\ theta)= \ E_ \ theta \ dot {\ ell}(\ theta)= 0 $(ここでは、パラメーターに関する導関数をドットとして記述します)。分散はフィッシャー情報$$ I(\ theta)= \ E_ \ theta(\ dot {\ ell}(\ theta))^ 2 =-\ E_ \ theta \ ddot {\ ell}(\ theta)$$これが対数尤度関数の(負の)曲率であることを示す最後の式。フィッシャー情報量がスコア$ \ dot {\ ellの分散である場合、尤度方程式$ \ dot {\ ell}(\ theta)= 0 $を解くことにより、$ \ theta $の最尤推定量(mle)を見つけることがよくあります。 }(\ theta)$が大きい場合、その方程式の解はデータに非常に敏感になり、mleの高精度が期待されます。これは少なくとも漸近的に確認され、mleの漸近分散はフィッシャー情報の逆数です。

これをどのように解釈できますか? $ \ ell(\ theta)$は、サンプルからのパラメーター$ \ theta $に関する尤度情報です。これは、実際には相対的な意味でのみ解釈できます。たとえば、尤度比検定$ \ ell(\ theta_0)-\ ell(\ theta_1)$を介して2つの異なる可能なパラメーター値の妥当性を比較するために使用する場合などです。対数尤度の変化率はスコア関数$ \ dot {\ ell}(\ theta)$であり、尤度がどれだけ速く変化するかを示し、その分散$ I(\ theta)$はサンプルごとにどれだけ変化するかを示します。与えられたパラメータ値で、$ \ theta_0 $と言います。方程式(これは本当に驚くべきことです!)$$ I(\ theta)=-\ E_ \ theta \ ddot {\ ell}(\ theta)$$は、情報の変動性の間に関係(等式)があることを示しています(尤度)特定のパラメーター値$ \ theta_0 $、およびそのパラメーター値の尤度関数の曲率。これは、統計$ \ dot {\ ell}(\ theta)\ mid _ {\ theta = \ theta_0} $の変動性(分散)と、パラメーター$ \ theta $を変化させたときに予想される類似性の変化との驚くべき関係です。 $ \ theta_0 $の周りのある間隔で(同じデータの場合)。これは本当に奇妙で、驚くべき、そして強力です!

では、尤度関数とは何ですか?通常、統計モデル$ \ {f(x; \ theta)、\ theta \ in \ Theta \} $は、データ$ x $の確率分布のファミリーであり、パラメーター$ \ theta $によってインデックス付けされます。パラメータスペース$ \ Theta $。データ$ x $が実際に確率分布$ f(x; \ theta_0)$を持つような値$ \ theta_0 \ in \ Theta $が存在する場合、このモデルは真であると見なします。したがって、真のデータ生成確率分布$ f(x; \ theta_0)$を確率分布のファミリーに埋め込むことにより、統計モデルを取得します。しかし、そのような埋め込みは多くの異なる方法で実行できることは明らかであり、そのような埋め込みはそれぞれ「真の」モデルであり、異なる尤度関数を提供します。そして、そのような埋め込みがなければ、尤度関数はありません。埋め込みを賢く選択する方法について、私たちは本当にいくつかの助け、いくつかの原則を必要としているようです!

では、これはどういう意味ですか?これは、尤度関数の選択により、真実が少し変化した場合にデータがどのように変化すると予想されるかがわかることを意味します。ただし、データは実際にデータを生成した真のモデル関数$ f(x; \ theta_0)$に関する情報のみを提供し、選択したモデルの他のすべての要素に関する情報は提供しないため、これをデータで実際に検証することはできません。このように、尤度関数の選択はベイズ分析の事前選択と同様であり、非データ情報を分析に注入します。これを単純な(やや人工的な)例で見て、さまざまな方法でモデルに$ f(x; \ theta_0)$を埋め込む効果を見てみましょう。

$ X_1、\ dotsc、X_n $が$ N(\ mu = 10、\ sigma ^ 2 = 1)$としてiidであると仮定します。つまり、それが真のデータ生成分布です。ここで、これをモデルAとモデルBの2つの異なる方法でモデルに埋め込みます。$$ A \ Colon X_1、\ dotsc、X_n〜 \ text {iid} 〜N(\ mu、\ sigma ^ 2 = 1) 、\ mu \ in \ mathbb {R} \\ B \ Colon X_1、\ dotsc、X_n〜 \ text {iid} 〜N(\ mu、\ mu / 10)、\ mu > 0 $$これが$ \ mu = 10 $で一致することを確認できます。

対数尤度関数は$$ \ ell_A(\ mu)=-\ frac {n} {2} \になります。 log(2 \ pi)-\ frac12 \ sum_i(x_i- \ mu)^ 2 \\ \ ell_B(\ mu)=-\ frac {n} {2} \ log(2 \ pi)-\ frac {n} {2} \ log(\ mu / 10)-\ frac {10} {2} \ sum_i \ frac {(x_i- \ mu)^ 2} {\ mu} $$

スコア関数:(対数微分):$$ \ dot {\ ell} _A(\ mu)= n(\ bar {x}-\ mu)\\ \ dot {\ ell} _B(\ mu)=-\ frac {n } {2 \ mu}-\ frac {10} {2} \ sum_i(\ frac {x_i} {\ mu})^ 2-15 n $$および曲率$$ \ ddot {\ ell} _A(\ mu )= -n \\ \ ddot {\ ell} _B(\ mu)= \ frac {n} {2 \ mu ^ 2} + \ frac {10} {2} \ sum_i \ frac {2 x_i ^ 2} { \ mu ^ 3} $$したがって、フィッシャー情報は実際には埋め込みに依存します。ここで、フィッシャー情報を真の値$ \ mu = 10 $、$$ I_A(\ mu = 10)= n、\\ I_B(\ mu = 10)= n \ cdot(\ frac1 {200} +で計算します。 \ frac {2020} {2000})> n $$なので、パラメータに関するフィッシャー情報はモデルBでいくらか大きくなります。

これは、ある意味で、フィッシャー情報は、管理パラメーターが変更された場合に、パラメーターに関するデータからの情報が変更された速度を示します。 モデルファミリへの埋め込みによって想定される方法。モデルBのより高い情報の説明は、モデルファミリーBが期待値が増加した場合、分散も増加したと仮定していることです。そのため、モデルBでは、サンプル分散は$ \ mu $に関する情報も伝達しますが、モデルAでは伝達されません。

また、この例は、支援するための理論が本当に必要であることを示しています。モデルファミリを構築する方法について説明します。

コメント

  • すばらしい説明。なぜ$ \ E_ \ theta \ dot {\ ell}(\ theta)= 0 $と言うのですか? it ' $ \ theta $の関数-isn '真のパラメータ$ \ theta_0 $で評価された場合にのみ0になりますか?
  • はい、あなたの言うことは本当です、@ idadanny本当のパラメータ値で評価するとゼロです。
  • ありがとう@ kjetil-もう1つ質問があります:間の驚くべき関係ですスコアの分散とすべての$ \ theta $に当てはまる尤度の曲率?または、真のパラメータ$ \ theta_0 $の近くでのみですか?
  • 繰り返しますが、そのtrelationshipは真のパラメータ値に対して真です。しかし、それが大いに役立つためには、連続性がなければなりません。そのため、真の(不明な)だけでなく、推定値$ \ hat {\ theta} $で使用するため、一部の近傍ではほぼ真になります。値。
  • したがって、この関係は真のパラメータ$ \ theta_0 $にも当てはまり、' sは$ \ theta_0 $の近くにありますが、一般的な$ \ theta_1 $の場合は成り立ちませんよね?

回答

負の対数尤度関数$ \ ell $の観点から考えてみましょう。負のスコアは、パラメーター値に対する勾配です。真のパラメーターでは、スコアはゼロです。それ以外の場合、スコアはゼロです。最小$ \ ell $(または非凸$ \ ell $の場合、サドルポイントまたは極小または最尤)への方向を示します。

フィッシャー情報は、$の曲率を測定します。データが$ \ theta $の後に続く場合、\ ell $は$ \ theta $の周りにあります。言い換えると、それはどれだけ揺れているのかを示します。パラメータは対数尤度に影響します。

数百万のパラメータを持つ大きなモデルがあると考えてください。そして、モデルを保存するための小さなサムドライブがありました。各パラメータの何ビットを保存するかをどのように優先する必要がありますか?正しい答えは、フィッシャー情報に従ってビットを割り当てることです(Rissanenはこれについて書いています)。パラメータのフィッシャー情報がゼロの場合、そのパラメータは重要ではありません。

フィッシャー情報量は、このパラメーターがデータについてどの程度教えてくれるかを測定するため、「情報」と呼びます。


これについての口語的な考え方は次のとおりです。 パラメータは車を運転しており、データは後部座席にあり、ドライバーを修正しています。データの煩わしさはフィッシャー情報量です。データがドライバーに運転を許可する場合、フィッシャー情報はゼロです。データが絶えず修正されている場合、それは大きいです。この意味で、フィッシャー情報はデータからパラメータに送られる情報の量です。

ハンドルをもっと作るとどうなるか考えてみてください。敏感。これは再パラメータ化と同等です。その場合、データは車のオーバーステアリングを恐れてそれほど大きくなりたくありません。この種の再パラメータ化により、フィッシャー情報が減少します。

回答

@NeilGの良い回答(+1)と特定の質問に対処する:

  1. 「エラー」自体ではなく「精度」をカウントすると思います。

ログのヘッセ行列であることを忘れないでください。 -ML推定で評価される尤度は、観測されたフィッシャー情報です。推定された標準誤差は、観測されたフィッシャー情報行列の逆行列の対角要素の平方根です。これから、フィッシャー情報はフィッシャー情報行列のトレースになります。フィッシャー情報量行列$ I $がヘッセ行列の正半有限行列行列であるとすると、その対角要素$ I_ {j、j} $は実数で非負であり、直接的な結果として$ tr(I)$をトレースします。これは、あなたの主張によれば、「理想的ではない」推定量しか持てないことを意味します。したがって、正のフィッシャー情報は、 MLEはどれほど理想的ですか。

  1. どちらの場合も、情報の概念を解釈する方法が定義によって異なります。そうは言っても、2つの測定値は密接に関連しています。

フィッシャー情報の逆数は、不偏推定量の最小分散です(クラメール–ラオバウンド)。その意味で、情報マトリックスは、推定された係数に関する情報がデータにどれだけ含まれているかを示します。それどころか、シャノンエントロピーは熱力学から取られました。これは、変数の特定の値の情報内容を$ –p・log_2(p)$として関連付けます。ここで、$ p $は変数が値をとる確率です。どちらも、変数がどれだけ「有益」であるかの測定値です。最初のケースでは、この情報を精度の観点から判断し、2番目のケースでは無秩序の観点から判断します。異なる面、同じコイン! :D

要約:ML推定値で評価されたフィッシャー情報行列$ I $の逆行列は、漸近または近似共分散行列です。このML推定値は極小値でグラフィカルに検出されるため、フィッシャー情報はその最小値の深さと、その周囲にある小刻みに動く部屋を示します。 Lutwakらによるこの論文を見つけました。 フィッシャー情報量の拡大とスタムの不平等に関する有益な情報。 フィッシャー情報計量およびイェンセンシャノン発散に関するウィキペディアの記事も、始めましょう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です