p値を使用してサンプル相関$ r $の有意性をテストしたい、つまり
$ H_0:\ rho = 0、\; H_1:\ rho \ neq 0. $
フィッシャーのz変換を使用してこれを計算できることを理解しました
$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left(\ displaystyle \ frac {1 + r} {1-r} \ right)$
そしてp値を
$ p = 2P \ left(Z > z_ {obs} \ right)$
標準正規分布を使用します。
私の質問は、これが適切な変換であるためには、$ n $の大きさをどのくらいにする必要があるかということです。明らかに、$ n $は3より大きくなければなりません。 = “39c0dc609b”>
このプレゼンテーションでは、$ n $は10より大きくなければならないと書かれています。検討するデータの場合、$ 5 \ leq n \ leq 10 $のようになります。
コメント
- Wikipediaページには、$ z_ {obsの標準エラーがリストされています。 } $は、$ 1 / \ sqrt {N-3} $で与えられます。ここで、$ N $はサンプルサイズです。したがって、'には少なくとも4つの完全なペアが必要です。Iサンプルサイズに関する制限以外の制限については認識していません。
- 'ができる人からのプレゼンテーションをどれだけ信頼できるかわからない自分の大学名を綴る。さらに深刻なことに、特定のサンプルサイズを超えると問題がなく、それ以外の場合は悲惨であることを示唆するすべてのアドバイスに注意してください。 'は、サンプルサイズに応じて、またデータの分布に応じて、近似品質がスムーズに向上する問題です。簡単なアドバイスは、非常に注意して、すべてをプロットし、ブートストラップされた信頼区間でクロスチェックすることです。
- スライド17は、特殊なケース$ \ rho = 0 $のt検定について説明しています。
- courses.education.illinois.edu/EdPsy580/lectures/ … のプレゼンテーションへのリンクが壊れています、
回答
このような質問の場合は、シミュレーションを実行して、$ p $-かどうかを確認します。値は期待どおりに動作します。 $ p $値は、帰無仮説が真である場合に観察したデータと少なくとも同じだけ帰無仮説から逸脱するサンプルをランダムに抽出する確率です。したがって、そのようなサンプルが多数あり、そのうちの1つが.04の$ p $値を持っている場合、それらのサンプルの4%が.04未満の値を持つと予想されます。同じことが他のすべての可能な$ p $値にも当てはまります。
以下は、Stataでのシミュレーションです。グラフは、$ p $値が測定対象を測定するかどうかをチェックします。つまり、$ p $値が公称$ p $値よりも小さいサンプルの割合が公称$ pからどれだけ逸脱しているかを示します。 $-値。ご覧のとおり、このような少数の観測では、テストに問題があります。研究にとって問題が多すぎるかどうかは、あなたの判断によるものです。
clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
コメント
- $ n $から3ではなく2.5を引いてみてください:-)。
回答
FWIWマイヤーズ&に$ N \ ge 10 $の推奨事項があります(調査設計と統計分析、第2版、2003年、492ページ)。脚注には次のように記載されています。
厳密に言えば、$ Z $変換は$ r /(2(N-1))$の量だけバイアスされます。ピアソンとハートリー(1954年、29ページ)。 $ N $が小さく、$ \ rho $が大きくない限り、このバイアスは一般に無視できます。ここでは無視します。
コメント
- これは私への答えのようです。
回答
ここでフィッシャーの$ z $変換が適切かどうかわからない。$ H_0の場合:\ rho = 0 $(注:ヌル仮説はサンプル$ r $ではなく母集団$ \ rho $に対するものです)、相関係数のサンプリング分布はすでに対称であるため、歪度を減らす必要はありません。これはフィッシャーの$ z $が目指していることです。そうすれば、スチューデントの$ t $近似を使用できます。
$ H_0:\ rho = \ rho_0 \ not = 0 $を意味すると仮定すると、そのPDFの歪度は提案された値に依存します$ \ rho_0 $であるため、$ n $の大きさについての一般的な答えはありません。また、$ n $の最小値は、対象としている有意水準$ \ alpha $によって異なります。その価値を述べてください。
ニックのポイントは公正なものです。概算と推奨事項は常に灰色の領域で機能しています。
その場合、フィッシャーap近似は十分に良好(=対称)です。$ t $分布に適用可能なバインドされた$ n \ geq(t _ {\ alpha / 2} s / \ epsilon)^ 2 $を使用します。ここで、$ s $はサンプル標準です。偏差。正常に十分近い場合、これは$ n \ geq(1.96 s / \ epsilon)^ 2 $になります。
コメント
- 私は思いますこれにより、Fisher 'の" aim "が単純化されすぎます。数学だけでなく目的の問題。歪度かどうかは、全体像の一部にすぎません。 $ z $は、有界分布を有界分布に変換します。これは、信頼区間にとって重要です。実際、ゼロ相関の帰無仮説も科学的な問題でない限り、信頼区間にフィッシャー'の$ z $を使用する方がはるかに有益であると私は主張します。 P値を取得します。
- 私は'申し訳ありませんが、Fisher 'の$ zは初めてです。 $-変換。 $ H_0をテストする場合にのみ使用する必要があります:\ rho = \ rho_0 \ neq 0 $? P値を計算する理由は、Holm-Bonferroni法を使用して、多重比較を行うときにファミリーワイズエラー率を制御したいからです。 Student 'の$ t $分布からP値を計算する必要がありますか?
- 質問は間違った方法だと思います。フィッシャー'の$ z $は、信頼区間と一般的な推論に適した方法です。ほとんどのソフトウェアは、$ \ rho = 0 $のテストに$ t $ベースの計算を使用していると思います。疑わしい場合は、1つの方法を使用することでデータに違いが生じるかどうかを示すことが非常に重要になる可能性があります。したがって、方法が一致すれば問題はありません。
- Fisher 'の$ z $変換について詳しくは、 stata-journal.com/article.html?article=pr0041
- わかりました、@ NickCoxに感謝します! @ Lucozade、$ n $の境界の$ \ epsilon $は何ですか?