Excelで回帰を行っており、四半期(季節値)のダミー変数があります。Q2とQ3のP値は重要ですが、Q1のP値も重要です。高い。 「Q1を正確に引き出すことができません…どうすればよいですか?
出力は次のとおりです。
Intercept Pvalue 1.3208E-08 PRD1 Pvalue .00002834 Q1 Pvalue .6863222747 <-- this one concerns me Q2 Pvalue 6.22284E-06 Q3 Pvalue 1.22817E-07 PRD2 Pvalue 0.115615524
コメント
- これは知識のある人には明らかかもしれませんが、この出力のユーザーが第1四半期の予測を表示した場合、'ではありません。役に立たない、またはせいぜい間違っていますか?P値が高いアイテムに基づいて係数'を残しても大丈夫ですか?助けてください理解するために。私はこれらのタイプの問題を処理する方法に苦労しています。
- P値の高いアイテムを含めると回帰モデル全体が破壊されるのではないかと思いますか?通常、アイテムをプルせずに回帰を再度実行します。 P値は高いが、この場合は' Q1であり、' Q1なしでQ23と4を正確に持つことはできません。
- これは'トピックから外れていませんが、???何かの重複である可能性がありますか?
- そこにある必要がありますが、他の誰かがハ今はここで深夜になるので、検索を行う必要があります。ただし、問題は、異なる四半期のダミーが実際に1つの変数を構成することです(この場合、4つの可能な値があるため、それを表すには3つのダミーが必要です。これらの3つのダミーは一緒に変数を構成します(Rではこのような変数は" factor "と呼ばれます。各係数の個々のt値を確認するのではなく、1つのF検定を作成します。完全な変数(3つの自由度があります)の場合。
- ここでの四半期のような因子は、常に全体として扱う必要があります。ITをすべてのダミーと一緒に残すか、完全に除外します。個々の係数の1つが重要ではないことは問題ではない
回答
主な質問に答えるには:この出力は、Q1ダミーの効果が0と大きく異ならないことを意味します。つまり、Q1の効果は基本的にQ4と同じであり、これは参照です。カテゴリー。したがって、ダミー値が第2四半期と第3四半期に重要であるという強力な証拠のみがあります。
コメントに次のように記述します
高いP値を持つアイテムを含めると、回帰モデル全体が破壊されるのではないかと思いますか?通常、アイテムが高いP値を取得せずに回帰を再度実行しますが、この場合はQ1であり、Q23と4を正確に取得することはできません。 Q1なし..〜混乱
これは素晴らしいことではありません。一部の予測子が何らかの結果の予測に役立つかどうかに関心がある場合は、投げ縄やエラスティックネット回帰などのツールを使用することから始めるのがよいでしょう。これらの方法は、ペナルティ付きモデルをデータに適合させ、多重比較問題が発生しています。これらのトピックについては、このサイトの他の場所で詳しく説明されています。
コメント
- "これは' t great "ではありません。つまり、私のモデルのQ1は'素晴らしいですか?利用できる唯一のツールは、VBAツールパック回帰分析プラグインを備えたExcelです。そうは言っても、Q1の係数は' t 0なので、ユーザーにQ1の選択を許可すると、ユーザーが第4四半期に予測する場合とは異なる予測を行います。したがって、第1四半期のP値が非常に高いことがわかっているため、これを許可することに関心がありました。
- "異なる"はしません'間違っているという意味ではありません。
- ただし、変更によって"が異なります"は、非常に高いP値を持つ入力によって駆動されています。 '予測に影響を与えてはいけないようです。それは'本質的に私の質問全体です。あなたの意見に基づいて、私はそれについて心配するべきではないことを収集します'しかし、私がなぜそうしないのか完全にはわかりません。
- あなたは理解しようとするべきですが、少なくとも、心配しないでください!理解せずに心配することは、事態を悪化させるだけかもしれません。
- @JohnsonJason、目標が予測である場合は、LASSOまたはエラスティックネットを使用することをお勧めします。ただし、説明モデリングと予測モデリングは異なる問題を解決していることに注意してください。 Shmueli "説明または予測" (2010)。 OPはそれを明示的にしていないので、私はこれに注意する必要があります。