Jutilise la méthode de Fisher pour combiner p -values, et jai remarqué un comportement étrange pour les grandes valeurs p et les gros $ n. $
Dans mon cas, jai un grand nombre de résultats non statistiquement significatifs (par exemple .1 à .5), et Jutilise la méthode de Fisher pour les combiner. Cependant, jai remarqué que la méthode de Fisher semble afficher un comportement instable pour ces grandes valeurs p. Ainsi, la modification des valeurs p de 0,367 à 0,368 a entraîné des changements drastiques pour la valeur p combinée. Pourquoi?
p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356
En revanche, pour les p-values faibles et les petits $ n, $ cela sest très bien comporté. Par exemple:
p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06
Voici la fonction que jutilise pour lintégration Fisher:
fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val)
}
MODIFIER Ce message est quelque peu apparenté mais naborde pas pourquoi .367 est un nombre magique dans ce contexte: Pourquoi la méthode de Fisher ' donne $ p \ gg 0,5 $ lors de la combinaison de plusieurs valeurs p toutes égales à 0,5 $?
Commentaires
- Avez-vous remarqué que 0,367 $ \ lt e ^ {- 1} \ lt 0,368 $? (Ce serait le seul point dun exercice qui prétend combiner 10 $ ^ 7 $ p-values de cette façon: il na aucune utilité statistique.)
- I Je nai ' pas remarqué cela. Je ' je parie que cela a quelque chose à voir avec le comportement étrange, mais je ne sais pas pourquoi.
- De lautre côté, quest-ce que ' est la moyenne de la distribution du chi carré?
- Je pense que vous pouvez trouver ce Q & Un intéressant en particulier Christoph Hanck ' s answer stats.stackexchange.com/questions/243003/…
Réponse
Comme expliqué à https://stats.stackexchange.com/a/314739/919 , La méthode de Fisher combine les valeurs p $ p_1, p_2, \ ldots, p_n $ sous lhypothèse quelles surviennent indépendamment sous des hypothèses nulles avec des statistiques de test continues. Cela signifie que chacune est indépendamment distribué uniformément entre $ 0 $ et $ 1. $ Un simple calcul établit que $ -2 \ log (p_i) $ a une distribution $ \ chi ^ 2 (2) $, doù
$$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$
a une distribution $ \ chi ^ 2 (2n) $. Pour les gros $ n $ (garantis par le théorème de la limite centrale), cette distribution est approximativement normale. Il a une moyenne de 2n $ et une variance de 4n $, $ comme nous pouvons facilement le calculer.
Supposons, maintenant, que $ P $ est « très » différent de cette moyenne. «Beaucoup» signifie, comme dhabitude, par rapport à lécart type. En dautres termes, supposons que $ P $ diffère de $ 2n $ de plus de quelques multiples de $ \ sqrt {4n} = 2 \ sqrt {n}. $ Daprès les informations de base sur les distributions normales, cela implique que $ P $ est soit inhabituellement petit ou inhabituellement grand. Par conséquent, comme $ P $ va de 2n-2K $ \ sqrt {n} $ à 2n $ + 2K \ sqrt {n} $ pour $ K \ environ 3, la méthode de $ Fisher attribue une probabilité cumulative (cest-à-dire combinée p-value) allant de près de 0 $ à près de 1 $
En dautres termes, toute la probabilité « intéressante » pour $ P $ se produit dans lintervalle $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ pour les petits $ K $. À mesure que $ n $ grandit, cet intervalle se rétrécit par rapport à son centre (à $ 2n $).
Une conclusion que nous pourrions tirer de ce résultat est que lorsque $ \ sqrt {n} $ est assez grand pour dominer $ 2K $ – cest-à-dire quand $ n $ est beaucoup plus grand que $ (2 \ times3) ^ 2 \ environ 40 $ environ, alors la méthode de Fisher peut atteindre les limites de son utilité.
Dans les circonstances de la question, $ n = 10 ^ 7. $ Lintervalle intéressant pour la moyenne log p-value, $ -P / (2n), $ est donc à peu près
$$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ approx (-0,999051, -1,00095) $$
quand $ K = 3. $
Le g correspondant Les p-valeurs moyennes éométriques sont
$$ e ^ {- 0.999051} = 0.368229 \ text {et} e ^ {- 1.00095} = 0.367531. $$
La valeur inférieure de 0,367 $ utilisée dans la question est en dehors de cet intervalle, ce qui donne une probabilité de queue essentiellement nulle (inférieure), tandis que la valeur supérieure de 0,368 $ se situe dans cet intervalle, ce qui donne une probabilité qui est encore sensiblement inférieure à 1 $. un exemple extrême de notre conclusion précédente, qui pourrait être reformulée comme ceci:
Quand le logarithme naturel moyen des p-values diffère beaucoup de $ -1 , La méthode de $ Fisher produira une valeur p combinée extrêmement proche de 0 $ ou proche de 1 $. « Beaucoup » est proportionnel à 1 $ / \ sqrt {2n}. $
Commentaires
- Sur la base de cette réponse, diriez-vous que lintégration de stouffer est plus appropriée dans les cas de grand n?
- Je pense que puisquune telle quantité dinformations est rejetée en combinant un grand nombre de valeurs p, et parce que le résultat avec un gros $ n $ est sensible à lhypothèse dindépendance (qui tient rarement vraiment) , aucune méthode pour les combiner en une seule décision ne convient dans la plupart des cas. La méthode de Stouffer ' ne diffère guère de la méthode de Fisher ' de toute façon.
- Je ne ' Je suis daccord, en ce quau moins lintégration de Stouffer naffiche pas ce comportement étrange de " seuil ". Autant que je sache, passer un vecteur de zscores constamment au-dessus de 0 (par exemple 1000 zscores égal à 0,5) produira toujours un zscore final au-dessus de loriginal, ce qui est logique. La méthode de Fisher ' est dans mon esprit un ' bug '
- Quelles que soient les différences, aucune de ces méthodes nétait destinée ni nest utile pour combiner des millions de valeurs p. Dans leurs domaines dapplication utiles, ils ont tendance à ne pas différer beaucoup. Il ny a ' aucun " bug " dans Fisher ': elle ' est parfaitement précise, compte tenu de ses hypothèses et de son objectif. Stouffer ' s est un peu ad hoc, reposant implicitement sur des hypothèses supplémentaires. Pour être plus constructif: lorsque vous avez beaucoup de p-values (indépendantes), vous en tirerez beaucoup plus dinformations en étudiant comment leur distribution sécarte de luniformité que vous ne le ferez dune seule statistique combinée.
- Daccord. Je ne ' pas vraiment d’accord avec vous concernant la méthode de Fisher '. Similaire à lexemple concret dont nous avons discuté " fisherIntegration (rep (.367,1000)) =. 4999 " mais " fisherIntegration (rep (.367,10000000)) = 1.965095e-14 " est intuitivement idiot. Toute méthode peut être justifiée compte tenu de ses hypothèses / objectifs, mais dans ce cas, ce type de comportement dépendant du seuil ne correspondrait pas à ce que la plupart des utilisateurs trouveraient raisonnable. Bien sûr, je suis daccord avec vous quune seule statistique récapitulative sera pire quun examen plus attentif de la distribution.