私は、最尤推定(MLE)を自己紹介しようとしている初心者で、いくつかを把握できます。尤度関数のピークを探す、クラメール・ラオ境界に近づく、フィッシャー情報量行列を反転して共分散行列と分散推定値を導出するなど、材料を適切に分析します。皮肉なことに、私はピン留めしようとしてさらに問題があります。フィッシャー行列の列、行、エントリが何を表し、その構造を定義する必要があるかを正確に。私は過去1年ほどで1〜20の参照をざっと読み(さらにCrossValidatedで検索)、マトリックスの他の側面についての議論は通常徹底的ですが、実際の値が数式に組み込まれた例はまだ見ていません。

他のスレッドでより高度なトピックが重複しないように、詳細に説明しようと思います。私の混乱のほとんどはこれに起因しているようです。行列方程式の積分には、除算器に2次導関数と尤度関数の結果があり、被除数に1つのパラメーターの2つの導関数があり、通常はiとjのような2つの添え字があります。 (例については、このウィキペディアのエントリこれを参照してください)。常に正確に2つの添え字があるように見えます。これは、2次元の行列を意味し、以下の関連する質問をします。

  1. 1つの処理と1つのパラメーターしかない場合、 1次元の行列を意味します。もしそうなら、行列の添え字iとjは何を参照しますか?フィッシャー行列方程式の被除数を導出するには、単一次元の外積をそれ自体に対して行う必要がありますか?

  2. 2つある場合、列と行の構造はどのように変化しますか?治療と単一のパラメータを推定する必要がありますか?これは2Dマトリックスを意味しますか?

  3. 1つの処理と2つのパラメーター(スケールと形状など)がある逆の状況は、質問2に違いをもたらしますか?これは実用的ではないと思います一部の分布では、尤度関数で他のパラメーターを導出するためにパラメーターの1つが必要な場合。

  4. 2つ以上の処理と2つ以上のパラメーターがある場合、マトリックス構造を変更してエントリを計算するにはどうすればよいですか?これは、3D以上のマトリックスを意味しているようです。この場合、iとjだけでなく、より多くの添え字が必要になります。これまでにざっと読んだテキスト、ジャーナル記事、チュートリアルでは、そのための数式はまだ見ていません。 (必要に応じて参照のリストがあります)。これは実際のMLEで一般的に行われていますか?

  5. マトリックスを拡張して、パラメーターとともに、個別のディストリビューションまたはディストリビューションファミリーを含めることはできますか?これはマトリックスの構造にどのように影響しますか?

  6. マトリックスエントリは、可能性と観測値の両方が利用可能な場合、それらの計算を組み合わせて構成できますか? https://en.wikipedia.org/wiki/Fisher_information_metric#Definition のフィッシャーメトリック式は、可能性の代わりにPDFを使用しているようです。これは、観察された情報とフィッシャー情報を混合することを構成しますか?質問のこの部分は、観察された情報とフィッシャー情報の微妙な違いなど、他のトピックにつながる可能性があります。ここで、2つのタイプのエントリが同じマトリックスに混在しているのではないかと思っています。ほとんどの場合、別々に保持されていると思います。

私が探している答えはおそらく簡単です。私は明らかにいくつかの単純な根本的な概念を間違っています。このつまずきを乗り越えると、いくつかの確率関数をフィッシャーの式にすばやくプラグインし、いくつかの共分散行列を返し、いくつかのMLEを選択する練習をすることができるはずです。通常それは難しいでしょう。一部ですが、私はこの基本的なタスクに固執しています。写真は、いわば千の言葉に値します。実際の値がプラグインされた例を見れば、上記の質問への答えはおそらくすぐに明らかになります。残っているのは、通常の数式からマトリックスにデータを入力する方法を説明することだけです。 2つの添え字のみ、または代わりに、複数の処理とパラメーターに対応するための数式の変更。そのような例や演習へのリンクも役立ちます。よろしくお願いします:)

コメント

  • +1あなたは本当に自分で答えようとしたのですが、友好的なアドバイスとして:先に進んで編集してくださいこれを小さな質問に。その範囲で、対数尤度コスト関数を数値的に評価し、そのヘッセ行列を取得して、偏導関数がどのように見えるかを自分で確認することはできませんか? (必要に応じて、それを行うことができます。)最初に離散変数ではなく連続変数から始めます。 (他のパラメーターの機能も混乱していると思います。パラメーターは、完全な次元ではなく、計画行列に列を追加するだけです。)
  • アドバイスありがとうございます-‘今夜と明日、数回編集して切り詰めます。 ‘ 1つのパラメーター、2つのパラメーター、複数のパラメーターおよび処理を使用して行列を導出するプロセスを確認することに興味があります。それが’私にとっての本当のこだわりです。 ‘ 2つの添え字を持つフィッシャー式のバージョンを考えると、これら3つのシナリオを異なる方法で処理する方法を想像することはできません。ありがとう:)
  • これに答える最も簡潔な方法は、1)1つのパラメーター2)2つのパラメーター& 3)複数の実際のフィッシャーマトリックスのスクリーンショット/リンクです。各列/行の量が明確にラベル付けされている限り、複数の処理を伴うパラメーター。または、単純な”複数のパラメーター&処理を使用すると、X個の列とY個の行があります。1つのパラメーターを使用すると、値はここに表示されます。 X. etc “追加のパラメーター&処理に対応するために変更が必要な場合を除き、数式/ウォークスルーは不要です。 &は自分でそれを行う必要があります。自分の構造を比較するには、完成した例が必要です。
  • これは答えるのがかなり難しいようです。 &の例を挙げたほうが、派生に行き詰まったり、解釈について混乱したりする’を示す方が簡単かもしれません。しかし、最初に、’ “処理”とはどういう意味ですか?観察?実験的な治療ですか?
  • @Scortchi答え’はおそらく非常に単純です。数式で正確に2つの添え字i & jを使用することが、I ‘が派生に固執する唯一のポイントです。 ‘単一のパラメーター、または複数のパラメーター/処理にどのように対応できるかを理解できません。明確にラベル付けされた列&行を使用して実際に完成したフィッシャー情報マトリックスを表示すると答えられます。 ‘文献には多くはありません。 ‘ dと言うと、”ああ、これが2つの添え字が3つのパラメーターまたは1つだけを処理できる理由です。マトリックスに配置されます。”これは’完成品の構造I ‘ m後、それ以上はありません。

回答

フィッシャー情報量は、数値を含む対称正方行列です。推定しているパラメータの数に等しい行/列の数。スコアの共分散行列、&各パラメータのスコアまたはの期待値を思い出してください。各パラメーターに勾配があるヘッセ行列の負の値。さまざまな実験的処理を検討する場合は、モデルにパラメーターを追加することでその効果を表します。つまり、行/列を増やします(次元を増やすのではなく—行列には定義上2つの次元があります)。 g単一のパラメーターのみの場合、フィッシャー情報は1行1列の行列(スカラー)—の分散、またはの2次導関数の負の期待値です。 、スコア。

$ n $の観測値を持つ$ x $での$ Y $の単純な線形回帰モデルの場合

$ y_i = \ beta_0 + \ beta_1 x_i + \ varepsilon_i $

$ \ varepsilon \ sim \ mathrm {N}(0、\ sigma ^ 2)$の場合、推定する3つのパラメーター、切片$ \ beta_0 $、勾配$ \ beta_1 $、誤差分散$ \ sigma ^ 2 $;フィッシャー情報は

$$ \ begin {align} \ mathcal {I}(\ beta_0、\ beta_1、\ sigma ^ 2)= & \ operatorname {E} \ left [\ begin {matrix} \ left(\ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0} \ right)^ 2 & \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0} \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_1} & \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0} \ tfrac { \ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0} & \ left(\ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_1} \ right)^ 2 & \ tfrac {\ partial \ ell(\ beta_0、\ beta_1 、\ sigma ^ 2)} {\ partial \ beta_1} \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2} \\ \ tfrac {\ partial \ ell (\ beta_0、\ beta_1、\ si gma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0} & \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2} \ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} { \ partial \ beta_1} & \ left(\ tfrac {\ partial \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2} \ right )^ 2 \\ \ end {matrix} \ right] \\ \\ = &-\ operatorname {E} \ left [\ begin {matrix} \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {(\ partial \ beta_0)^ 2} & \ tfrac {\ partial ^ 2 \ ell(\ beta_0 、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_0 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_1 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {(\ partial \ beta_1)^ 2} & \ tfrac {\ partial ^ 2 \ ell(\ beta_ 0、\ beta_1、\ sigma ^ 2)} {\ partial \ beta_1 \ partial \ sigma ^ 2} \\ \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_0} & \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {\ partial \ sigma ^ 2 \ partial \ beta_1} & \ tfrac {\ partial ^ 2 \ ell(\ beta_0、\ beta_1、\ sigma ^ 2)} {(\ partial \ sigma ^ 2)^ 2 } \\ \ end {matrix} \ right] \\ \\ = & \ left [\ begin {matrix} \ tfrac {n} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & 0 \\ \ tfrac {\ sum_i ^ n x_i} {\ sigma ^ 2} & \ tfrac {\ sum_i ^ n x_i ^ 2} {\ sigma ^ 2} & 0 \\ 0 & 0 & \ tfrac {n} {2 \ sigma ^ 4} \ end {matrix} \ right] \ end {align} $ $

ここで、$ \ ell(\ cdot)$は、パラメーターの対数尤度関数です。 ($ x $は、特定の処理を示すダミー変数である可能性があることに注意してください。)

コメント

  • 完璧-it ‘まさに私が必要としていたものです。 ‘これを一晩中熟考し、説明が必要かどうかを確認します-‘今は見つかりません-しかし、この回答はすでに対処しています私が上で述べたさまざまなシナリオのすべてが、一挙に。ありがとう
  • @Scortchi ‘の例の構造は、リンクしたフィッシャー式が任意の数に対応するために2つの行列添え字(iとj)のみを必要とする方法を明確に示していますパラメータと値の。上の行列の各非対角線には、被除数に正確に2つの項があります。各被除数から項を加算または減算する代わりに、パラメーターの一意の組み合わせごとに、行列から行と列を加算または減算します。ほとんどの出版された文献は’その重要な区別を明確にしていないため、混乱を招きました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です