フィッシャーの方法を使用してpを組み合わせる-値、および大きなp値と大きな$ n。$

の奇妙な動作に気づきました。私の場合、統計的に有意ではない結果(.1から.5など)が多数あり、私はフィッシャーの方法を使用してそれらを組み合わせています。しかし、フィッシャーの方法では、これらの大きなp値に対して不安定な動作が見られることに気付きました。したがって、p値を.367から.368に変更すると、結合されたp値が大幅に変更されました。これはなぜですか?

p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356 

対照的に、p値が低く$ n、$が小さい場合、これは非常に適切に動作しました。例:

p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06 

フィッシャー統合に使用する関数は次のとおりです。

fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val) 

}

編集この投稿は多少関連していますが、このコンテキストで.367がマジックナンバーである理由については説明していません:フィッシャー'のメソッドが$ p \を生成する理由gg 0.5 $は、すべて$ 0.5 $に等しい複数のp値を組み合わせる場合ですか?

コメント

  • $ 0.367 \ lteに気づきましたか^ {-1} \ lt 0.368 $?(これは、$ 10 ^ 7 $のp値をこの方法で組み合わせると主張する演習の唯一のポイントです。統計的な用途はありません。)
  • I '気づかなかった。 'これは奇妙な動作と関係があると思いますが、理由はわかりません。
  • 反対方向から見ると、'はカイ二乗分布の平均ですか?
  • このQ &は特にクリストフハンクが興味深いと思います'の回答 stats.stackexchange.com/questions/243003/ …

回答

、Fisherの方法は、p値$ p_1、p_2、\ ldots、p_n $を、ヌル仮説の下で独立して発生するという仮定の下で、連続検定統計量と組み合わせます。 $ 0 $と$ 1。$の間で独立して均一に分布します。簡単な計算により、$-2 \ log(p_i)$には$ \ chi ^ 2(2)$分布があり、ここで

$$ P = \ sum_ {i = 1} ^ n -2 \ log(p_i)$$

には$ \ chi ^ 2(2n)$分布があります。大きな$ n $(中心極限定理で保証されている)の場合、この分布はほぼ正規分布です。簡単に計算できるように、平均は$ 2n $、分散は$ 4n、$です。

ここで、$ P $がこの平均と「大幅に」異なるとします。 「多く」とは、通常どおり、標準偏差と比較した場合を意味します。言い換えると、$ P $が$ 2n $と$ \ sqrt {4n} = 2 \ sqrt {n}の数倍以上異なると仮定します。$正規分布に関する基本情報から、これは$ P $がどちらかであることを意味します。異常に小さいまたは異常に大きい。したがって、$ P $の範囲は$ 2n-2K \ sqrt {n} $から$ 2n + 2K \ sqrt {n} $で、$ K \ approx 3の場合、$ Fisherの方法は累積確率を割り当てます(つまり、結合されます)。 p値)はほぼ$ 0 $からほぼ$ 1の範囲です。$

つまり、$ P $のすべての「興味深い」確率は小さい$ K $の間隔$(2n-2K \ sqrt {n}、2n + 2K \ sqrt {n})$。 $ n $が大きくなると、この間隔は狭くなります。中心に対して($ 2n $)。

この結果から導き出せる結論の1つは、$ \ sqrt {n} $が$ 2K $を支配するのに十分な大きさの場合、つまり、 $ n $が$(2 \ times3)^ 2 \約40 $程度よりもはるかに大きい場合、Fisherの方法はその有用性の限界に達している可能性があります。


次の状況では質問、$ n = 10 ^ 7. $したがって、平均ログのp値$ -P /(2n)、$の興味深い間隔は、おおよそ

$$です。 -(2n-2K \ sqrt {n}、2n + 2K \ sqrt {n})/(2n)\ approx(-0.999051、-1.00095)$$

$ K = 3。$ <の場合/ p>

対応する g幾何学的平均p値

$$ e ^ {-0.999051} = 0.368229 \ text {および} e ^ {-1.00095} = 0.367531。$$

質問で使用された$ 0.367 $の下限値はこの間隔の外側にあり、本質的にゼロ(下限)のテール確率を与えますが、$ 0.368 $の上限値はこの間隔内にあり、まだ$ 1よりかなり低い確率を与えます。$これは以前の結論の極端な例であり、次のように言い換えることができます。

p値の平均自然対数が$ -1と大きく異なる場合、$フィッシャーの方法では、$ 0 $または$ 1 $に非常に近い結合p値が生成されます。 「多く」は$ 1 / \ sqrt {2n}に比例します。$

コメント

  • この答えに基づいて、nが大きい場合は、stouffer統合がより適切であると主張しますか?
  • 多数のp値を組み合わせると、このような膨大な量の情報が破棄され、$ n $が大きい結果は、独立性の仮定に敏感であるため(実際にはほとんど成り立たない)、私は信じています。 、 no を組み合わせて単一の決定を行う方法は、ほとんどの状況に適しています。 Stouffer 'の方法はFisher 'の方法とほとんど変わりません。
  • 私は'同意しません。少なくとも、Stouffer統合では、この奇妙な"しきい値"の動作は表示されません。私の知る限り、一貫して0を超えるzscoreのベクトル(たとえば、.5に等しい1000 zscores)を渡すと、常に元のzscoreより上の最終的なzscoreが生成されます。これは論理的です。ここでのFisher 'の方法は、私の頭の中で'バグ'
  • 違いが何であれ、この方法は、何百万ものp値を組み合わせるためのものでも有用でもありません。それらの有用なアプリケーションの領域では、それらはあまり変わらない傾向があります。フィッシャーには' "バグ"はありません'のアプローチ:'は、その仮定と目的を考えると、完全に正確です。 Stouffer 'は、少しアドホックであり、暗黙的に追加の仮定に依存しています。より建設的にするために:(独立した)p値がたくさんある場合、それらの分布が単一の結合された統計から得られるよりも均一性からどのように逸脱するかを研究することによって、それらからはるかに多くの情報を得ることができます。
  • OK。フィッシャー'の方法に関して'本当に同意しません。 " fisherIntegration(rep(.367,1000))=。4999 "について説明した具体的な例と同様ですが、" fisherIntegration(rep(.367,10000000))= 1.965095e-14 "は直感的にばかげています。どの方法も、その仮定/目的を考慮して正当化できますが、この場合、この種のしきい値に依存する動作は、ほとんどのユーザーが合理的であると考えるものに適合しません。もちろん、単一の要約統計量は、分布をより注意深く調べるよりも悪いことに同意します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です