仮説検定で高陽性尖度が問題になるのはなぜですか？

Question

残差の高い正の尖度は正確に問題になる可能性があると聞いたことがあります（申し訳ありませんが、テキストへのリンクを提供できません。仮説検定と信頼区間（したがって、統計的推論の問題）これは本当ですか？もしそうなら、なぜですか？残差の高い正の尖度は、残差の大部分が0の残差平均に近く、したがってそれほど大きくないことを示しませんか？残差は存在しますか？（答えがある場合は、数学的にあまり傾いていないので、あまり詳細な数学ではない答えを出してみてください）。

正規（ガウス）誤差項の理想的な条件を持つモデルに焦点を当てていると思います。（他の多くの状況では、残余の高い尖度が予想されます。）高い尖度は、分布が通常よりも太いことを意味する可能性が高いため、非常に高い（+または-）残差があります。ゼロに近いものがたくさんあるとしても、それは良いニュースに過ぎず、注意が必要なのは悪いニュースの可能性です。しかし、順番に、それは何かを意味する可能性があります。残余対近似プロットは通常、より有益です。
実際、私は正規性の仮定を持つモデルに焦点を合わせていました。

Answer 1

残余の高い正の尖度は、正確な仮説検定と信頼区間（したがって統計的問題）にとって問題になる可能性があることを聞きました[…]推論）。これは本当ですか？もしそうなら、なぜですか？

ある種の仮説検定では、それは真実です。

残差の高い正の尖度は、残差の大部分が残差の平均0に近く、したがってそれほど大きな残差が存在しないことを示していませんか？

いいえ。

「あなたは」分散の概念を尖度の概念と混同しているようです。分散が小さければ、より小さな残差とより少ない大きな残差への傾向が一緒になります。尖度を変更する間、標準偏差を一定に保つと想像してください（したがって、「分散ではなく尖度への変更について確実に話します）。

異なる分散を比較します（ただし、同じ尖度）：

尖度は異なりますが、分散は同じです。

（

Answer 2

尖度は外れ値を測定します。外れ値は、正規分布に基づく標準的な推論（t検定、t間隔など）では問題があります。これで話は終わりです！そして、それは本当に非常に単純な話です。

この話があまり評価されない理由は、尖度が「ピーク」を測定するという古代の神話が続いているためです。

尖度が「ピーク」ではなく外れ値を測定する理由を示す簡単な説明です。

次のデータセットを検討してください。

0、3、4、1 、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、1

尖度は（z値の期待値です）^ 4。（z値）^ 4は次のとおりです。

6.51、0.30、5.33、0.45、0.00、0.30、6.51、0.00、0.45、0.30、0.00、6.51、0.00、0.00、0.30、0.00、 27.90、0.00、0.30、0.45

平均は2.78であり、これは尖度の推定値です。（過剰な尖度が必要な場合は3を引きます。）

ここで、最後のデータ値を999に置き換えて、外れ値にします：

0、3、4、1、2、3 、0、2、1、3、2、0、2、2、3、2、5、2、3、999

ここで、（z値）^ 4：

0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、360.98

平均は18.05であり、これは尖度の推定値です。（過剰な尖度が必要な場合は3を引きます。）

明らかに、外れ値のみが重要です。「ピーク」や中間付近のデータについては何も重要ではありません。

2番目のデータセットを使用して標準的な統計分析を実行する場合は、問題が発生する可能性があります。大きな尖度は問題を警告します。

これは詳細な論文です：

Westfall、P.H。（2014）。尖度としての尖度、1905〜 2014年。R.I.P。アメリカの統計学者、68、191–195。

ノンパラメトリック検定を使用しないのはなぜですか？これらのタイプの問題については、それらが優れている可能性があります。
同意しました。テストが好きな場合は、それが可能性のある方法です。しかし、それは私の関心事ではありません。私は一般的に確率論的モデリングにもっと興味があります。 1つのアプリケーション：平均に本当に興味があるかもしれません。たとえば、従属変数が獲得したドルである場合、プロセスの平均はプロセスの中央値よりも興味深いものです。では、データが外れ値になりやすい場合、データはプロセスについて何を意味するのでしょうか？ ‘は難しい問題ですが、重要な問題であり、瞬間尖度が答えに関連しています。ノンパーテストではありません。
コーシー分布の場合、トリム平均は中央値よりも位置のより良い尺度になる可能性があり、通常の平均は位置の尺度ではありません。場所の尺度として何を使用するかは、分布が何であるかによって異なります。尖度が指標として役立たない例は、平均極値が中央値と平均の両方よりも位置のより良い尺度である一様分布です。
ポイントではありません。ドルなどの合計に関心がある場合、通常の平均は必要な場所の尺度です。
コーシー分布変数がある場合は、獲得した合計ドルを主張できますが、平均値は、場所の特に有用な測定値ではありません。つまり、”期待値”には合理的な期待値が関連付けられていません。

Answer 3

尖度は尾が非対称であることも示します。両側仮説検定では、一方のテールがロングテールになり、もう一方のテールがショートテールになります。テールの1つは>アルファである可能性がありますが、<ベータです。一方のテールはp値を渡しますが、もう一方はパスしません。

基本的に、統計的推論は標準正規分布を前提としています。これが標準正規分布でない場合は、より高度な推論メカニズムに基づいた推論でうまくいく可能性があります。ポアソン推論を使用できる場合がありますが、正規分布ではないため、法線に基づく推論を使用することはできません。

スキューと尖度は、非正常性の尺度です。正規性をテストする必要があることを知る前に、手段を取り、正規分布を使用することを学びます。法線には、各次元から36以上のデータポイントが必要です。 20個のデータポイントで推定できますが、それでもスキューと尖度があります。分布が正規に近づくと、スキューと分布はなくなります。

説明の1つは、尖度を尖度と定義しました。別の人はしませんでした。これは現時点では未解決の戦いです。尖度は4番目の瞬間、領域です。私は問題のピークがないことに取り組んでいます。

そこにあるもう1つのアイデアは、スキューがあると、中央値が三角形を形成するモードに傾くというものです。お楽しみください。

‘これにより、すでに優れた回答とは異なる有用なものが追加されることは明らかではありません。いくつかの不可解なステートメントが追加されます。例：”通常は36以上のデータポイントが必要です”（つまり、35はOKではありませんか？この主張の根拠は何ですか？”歪度をピークとして”誰もこれを主張しているとは思わない’。”統計的推論は、標準的な正規値を想定しています”：一般的ではありません。クルトーシスは4番目の瞬間、領域：いいえ、ここで定義されているクルトーシスは、に基づく無次元の比率です。平均についての4番目と2番目のモーメント。
4番目のモーメントは整数であるため、領域です。その領域の変換方法尖度や曲率に陥ったことは私には失われます。
尖度の典型的な説明は尖度ですが、それは私の見解では間違っています。’ ‘元の応答を編集して、尖度が尖度であると言うように歪度を変更します…ありがとうございます。
尾は対称ではありません。 ‘非対称テールを考慮した統計的推論については何も見たことがありません。より多くのデータポイントが収集されると尾が動くため、尖度のリスクが発生します。スキューと尖度は、標準正規分布を達成するのに十分なデータがないことです。
そうではありません。指数分布、ガンマ分布、ワイブル分布、および正規分布ではない他の多くの分布について、理論と応用がたくさんあります。。

仮説検定で高陽性尖度が問題になるのはなぜですか？

コメント

回答

コメント

回答

コメント

回答

コメント

コメントを残すコメントをキャンセル

コメント

回答

コメント

回答

コメント

回答

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル