「XとYはXのみよりもZの分散の割合が大きいことを説明した」というステートメントの意味
より一般的には、モデルが従属変数の「より多くの分散を説明する」とはどういう意味ですか?確かにこれは「これが変数を説明する」と同等ではありませんか?
この基本についての洞察に感謝します質問。
コメント
- "差異の説明"は"変数"を説明するのと同じくらい曖昧なので、' t 'が(意味的に)関連している可能性を排除します。 'は誤解を招き、"役に立たない"情報。 "運動で血圧の変動が説明されると言ったとしましょう" ..運動すると血圧の変動が少なくなるということですか?実際、発作によって血圧が上昇し、安静時の圧力が正常血圧になる傾向があるため、私の血圧はより変動します。これは望ましいことです。結果を説明するためのより良い方法があります。
- 一般化線形モデル(glm)タグを重回帰に置き換えました。質問は、分散や二乗和ではなく偏差を参照することでglmsに一般化できると考えられますが、それはOP 'の意図ではないようです。
回答
モデルに変数を追加するとき、追加された変数が追加された場合、いくつかの言葉で(短いほど良いです!)ある程度の説明力があれば、追加によりモデルの適合度が増加します(つまり、モデルが推定されるサンプルの従属変数を予測する全体としてのモデルの容量)。ただし、変数を追加すると、過剰適合のリスクも高くなることに注意してください(つまり、推定されるサンプル内での適合度が高く、他のサンプルで使用すると予測パフォーマンスが低下するモデルを構築します)。そのため、時間の経過とともに、モデルの適合に対して推定されるパラメーターの数のバランスをとるように、いくつかの仕様基準が導入されました。その結果、モード適合が増加したときに、変数(したがって推定されるパラメーター)の追加が推奨されない場合があります。パラメータのペナルティと比較して、は十分に高くありません。
「より一般的には、モデルが従属変数の「より多くの変動を説明する」とはどういう意味ですか?確かにこれは同等ではありません「これは変数を説明します」もっと?回帰などの基本モデルでは、従属変数の分散がモデルによって説明されるほど、残差によって説明されることが少なくなります。これは、(あなたの言葉を使用すると)「従属変数をより詳しく説明する」ためです。
回答
質問に答えるにはモデルについて考える必要があるので、線形モデルを想定しましょう。便宜上、分散の代わりに偏差の2乗の合計を使用します。分散を変換するには、二乗の合計を $ N-1 $ で割ります。
$ Z =(z_1、…、z_N)$ がデータになります。偏差の2乗の合計
$ \ hat {Z} $ は、 $ Z $ よりも小さくなっています。これは、行に制限されているためです。分散は、データが正確に線形である場合にのみ同じです。したがって、この推定値で $ Z $ をキャプチャしようとすると、 $ Z $ の変動。したがって、より多くの変動 $ \ hat {Z} $ キャプチャするほど、データは正確に線形に近くなります。
次のIDが保持されます(ANOVA分解と呼ばれます):
$$ \ underbrace {\ sum_ {i = 1} ^ N( z_i- \ bar {z})^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N(z_i- \ hat {z} _i)^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N(\ hat {z} _i- \ bar {z})^ 2} _ {ESS} $$
したがって、 $ Z $ の総平方和(TSS)は、近似データの(正規化されていない)分散分析である説明された平方和(ESS)に分割されます。 。これが「説明された差異」です。残差平方和(RSS)は、実際のデータが近似データとどれだけ異なるか、つまり「原因不明の分散」です。説明された分散または説明されていない分散の比率を取得するには、TSSで除算します。説明された分散の割合、 $ ESS / TSS $ は、 $ R ^ 2 $ 値と呼ばれます。適合の質。
説明された/説明されていない分散の言語は必ずしも有用ではありません。実際には線形回帰とPCAでしか見られません。また、できるだけ多くの分散を説明することは最善のアイデアではありません。予測を行いたい場合は、これは過剰であるためです。リッジ回帰のようなことをすると、「分散が少ないことを説明する」バイアスのある推定値が得られます—データの
(予測では、ANOVA分解よりも重要なのは偏りと分散分解です。)