等分散性とは、誤差項の標準偏差が一貫しており、x値に依存しないことを意味することを読みました。

質問1:なぜこれが必要なのか、誰かが直感的に説明できますか? (適用例は素晴らしいでしょう!)

質問2:それが理想的であるかどうかをヘテロ-またはホモ-思い出せません。誰かがどちらが理想的であるかの論理を説明できますか?

質問3:不均一分散性は、xがエラーと相関していることを意味します。誰かがこれが悪い理由を説明できますか?

*ホモ-*と*ヘテロ不均一性*のグラフ

コメント

  • " 不均一分散性とは、xがエラーと相関していることを意味します "-これを言う理由は何ですか?
  • ヒント:等分散性は簡単に説明できます。必要なパラメーターは1つだけです(一般的な分散の場合)。不均一分散モデルをどのように説明しますか?

回答

等分散性とは、すべての観測値の分散が互いに同一であることを意味し、不均一分散性とは、それらが異なることを意味します。分散のサイズがxに関連する傾向を示す可能性はありますが、厳密には必要ありません。添付の図に示されているように、ポイントごとにランダムな方法でサイズが異なる分散も同様に適格です。等分散性データと不均一分散性データ

回帰の仕事は、できるだけ多くのデータポイントに近いところを通過する最適な曲線を推定することです。不均一分散データの場合、定義上、一部のポイントは他のポイントよりもはるかに広く分散します。回帰が単にすべてのデータポイントを同等に扱う場合、最大の分散を持つデータは、最小化の目的を達成するために、回帰曲線を自分自身に向かって「ドラッグ」することによって、最適な回帰曲線を選択する際に過度の影響を与える傾向があります。最終的な回帰曲線に関するデータポイントの全体的なばらつき。

この問題は、各データポイントをその分散に反比例して重み付けするだけで簡単に解決できます。ただし、これは、個々のポイントに関連付けられた分散を知っていることを前提としています。多くの場合、そうではありません。したがって、等分散性データが好まれる理由は、それらがより単純で扱いやすいためです。個々の点の基礎となる分散を必ずしも知らなくても、回帰曲線の「正しい」答えを得ることができます。 、とにかくすべてが同じである場合、ある意味でポイント間の相対的な重みが「キャンセル」されるためです。

編集:

コメント投稿者は、その個人の考えを説明するように私に求めますポイントには独自の固有の異なる分散がある場合があります。私は思考実験でそうします。ブナのサイズからサイズまで、さまざまな動物の束の重量と長さを測定するように依頼するとします。 x軸に長さ、y軸に重みをプロットします。しかし、もう少し詳しく検討するために、少し一時停止しましょう。具体的に重量値を見てみましょう。実際にどのようにして取得したのでしょうか。家のペットの体重を測定するのと同じ物理測定装置を使用して、鼻の重量を測定することはできません。また、同じ装置を使用して象の体重を量るのと同じように、家のペットの体重を量ります。鼻の場合は、おそらく分析化学バランスのようなものを使用する必要があります。精度は0.0001gまでですが、家のペットの場合は、体重計を使用します。これは、約0.5ポンド程度(約200 g)の精度である可能性がありますが、象の場合は、トラックのようなものを使用できます。スケール、これは+/- 10 kg以内の精度である可能性があります。要点は、これらのデバイスはすべて、固有の精度が異なることです。つまり、特定の有効桁数までの重量のみを示します。あなたが本当に確かに知ることができないこと。上記の不均一分散プロットのエラーバーのさまざまなサイズは、個々のポイントのさまざまな分散に関連付けられており、基礎となる測定値に関するさまざまな程度の確実性を反映しています。つまり、すべてのポイントを同じように測定できない場合があるため、ポイントごとに分散が異なる可能性があります。+ /-0.0001 gまでの象の体重は、取得できないため、決してわかりません。トラックのスケールからはそのような精度が得られますが、分析化学天びんでそのような精度を得ることができるため、+ /-0.0001gまでのブナの重量を知ることができます。(技術的には、この特定の思考実験では、長さの測定でも同じタイプの問題が実際に発生しますが、実際には、x軸の値の不確実性を表す水平エラーバーをプロットすることにした場合、それらはポイントごとにサイズも異なります。)

コメント

  • ポイント/観測値の変動"。それがないと、読者は満足せず、異議を唱える可能性があります。サンプルの1回の観測で、独自の変動測定値を設定するにはどうすればよいでしょうか。 “answer”>

    回帰で等分散性が必要なのはなぜですか?

    そうではありません回帰で等分散性または不均一分散性が必要である必要があります。必要なのは、モデルがデータの実際のプロパティを反映することです。回帰モデルは次の仮定のいずれかで定式化できます。等分散性、または不均一分散性を前提とした、特定の形式。データの実際のプロパティに適合し、観測されたプロセスからのデータの動作の合理的な仕様を反映する回帰モデルを作成したいと考えています。

    したがって、応答の期待値からの偏差の分散(誤差項)が固定されている(つまり、等分散性である)場合、これを反映するモデルが必要です。応答の期待値からの偏差の分散(誤差項)は説明変数に依存します(つまり、不均一分散)ので、これを反映するモデルが必要です。 モデルを誤って指定した場合(たとえば、不均一分散データに等分散性モデルを使用する場合)、これは誤差項の分散を誤って指定することを意味します。その結果、回帰関数の推定値は、一部のエラーに過小ペナルティを課し、他のエラーに過大ペナルティを課し、モデルを正しく指定した場合よりもパフォーマンスが低下する傾向があります。

回答

他の優れた回答に加えて:

誰かがこれが必要な理由を直感的に説明できますか? (適用例は素晴らしいでしょう!)

一定の分散は必要ではありませんが、モデリングと分析が行われる場合は必要です。これの一部は歴史的でなければならず、分散が一定でない場合の分析はより複雑で、より多くの計算が必要です!したがって、一定の分散が成り立ち、より単純でより速い方法を使用できる状況に到達するための1つの開発された方法(変換)より多くの代替方法があり、高速計算は以前ほど重要ではありません。しかし、シンプルさは依然として価値があります!一部は技術的/数学的です。分散が一定でないモデルには、正確な補助がありません(ここを参照)。したがって、おおよその推論のみが可能です。 2つのグループの問題における非一定の分散は、有名なBehrens-Fisher問題です。

しかし、それよりもさらに深刻です。 2つのグループの平均をt検定(のいくつかの変形)と比較して、最も単純な例を見てみましょう。帰無仮説は、グループが等しいというものです。これは、治療群と比較群によるランダム化実験だとしましょう。グループのサイズが妥当な場合、ランダム化によってグループが等しくなるはずです(処理前)。一定の分散の仮定は、処理(それが機能する場合)は平均にのみ影響し、分散には影響しないことを示しています。しかし、それはどのように分散に影響を与えることができますか?治療が実際に治療グループのすべてのメンバーに等しく機能する場合、それは多かれ少なかれすべてのメンバーに同じ効果をもたらすはずです、グループはただシフトされます。したがって、不均等な分散は、治療が治療グループの一部のメンバーに対して他のメンバーとは異なる効果を持つことを意味する可能性があります。たとえば、グループの半分に何らかの効果があり、残りの半分にはるかに強い効果がある場合、分散は平均とともに増加します。 したがって、一定分散の仮定は、実際には個々の治療効果の均一性に関する仮定です。これが当てはまらない場合は、分析がより複雑になることを期待する必要があります。 こちらをご覧ください。次に、分散が等しくない場合、その理由、特に治療がそれと関係があるかどうかを尋ねることも興味深いかもしれません。もしそうなら、この投稿は興味深いかもしれません

質問2:できますそれが理想的であるかホモであるかを決して覚えていない。誰かがどちらが理想的であるかの論理を説明できるか?

誰も理想的、あなたはあなたが持っている状況をモデル化する必要があります!しかし、これがこれらの2つの面白い単語の意味を覚えることについての質問である場合は、セックスの前に付けてくださいそしてあなたは覚えているでしょう。

質問3:不均一分散は、xがエラーと相関していることを意味します。誰かがこれが悪い理由を説明できますか?

これは、 $ x $で与えられたエラーの条件付き分布を意味します $ x $ によって異なります。それは「悪い」ではなく、人生を複雑にするだけです。しかし、人生を面白くするだけかもしれません。何か面白いことが起こっていることを示しているのかもしれません。

回答

OLS回帰の仮定の1つは次のとおりです。

誤差項/残差の分散は一定です。この仮定等分散性として知られています。

この仮定により、観測値の変化に応じて、エラー項は変更しないでください

  1. この条件に違反した場合、通常の最小二乗推定量線形で、偏りがなく、一貫性がありますが、これらの推定量は効率的ではなくなります

また、標準誤差の推定値に偏り、信頼できない

等分散性が存在する場合、推定量に関する仮説検定問題が発生します。 。

要約すると、等分散性がない場合、線形および不偏推定量はありますが、BLUE(最良の線形不偏推定量)はありません。

[ガウスマルコフの定理を読む]

  1. 理想的には、モデルに等分散性が必要であることが明らかになったと思います。

  2. 誤差項がyまたはy予測またはxiのいずれか。これは、予測子が「y」の変動を正しく説明する仕事をしていないことを示しています。

どういうわけか、モデルの仕様が正しくないか、他の問題があります。

お役に立てば幸いです!すぐに直感的な例を書こうとします。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です