Ich verwende die Fisher-Methode, um p zu kombinieren -Werte und haben ein merkwürdiges Verhalten für große p-Werte und große $ n festgestellt. $
In meinem Fall habe ich eine große Anzahl nicht statistisch signifikanter Ergebnisse (z. B. 0,1 bis 0,5) und Ich benutze Fischers Methode, um sie zu kombinieren. Ich bemerkte jedoch, dass die Fisher-Methode für diese großen p-Werte ein instabiles Verhalten zu zeigen scheint. Daher führte die Änderung der p-Werte von .367 auf .368 zu drastischen Änderungen für den kombinierten p-Wert. Warum ist das so?
p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356
Im Gegensatz dazu verhielt sich $ bei niedrigen p-Werten und kleinen $ n sehr gut. Beispiel:
p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06
Hier ist die Funktion, die ich für die Fisher-Integration verwende:
fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val)
}
BEARBEITEN Dieser Beitrag ist etwas verwandt, spricht aber nicht an, warum .367 in diesem Zusammenhang eine magische Zahl ist: Warum liefert die Methode von Fisher ' $ p \ gg 0,5 $ beim Kombinieren mehrerer p-Werte, die alle $ 0,5 $ entsprechen?
Kommentare
- Haben Sie bemerkt, dass $ 0,367 \ lt e ^ {- 1} \ lt 0.368 $? (Dies wäre der einzige Punkt einer Übung, die vorgibt, $ 10 ^ 7 $ p-Werte auf diese Weise zu kombinieren: Sie hat keine statistische Verwendung.)
- I. ' hat das nicht bemerkt. Ich ' wette, dass dies etwas mit dem seltsamen Verhalten zu tun hat, aber ich bin mir nicht sicher warum.
- Aus der anderen Richtung, was ' ist der Mittelwert der Chi-Quadrat-Verteilung?
- Ich denke, Sie finden dieses Q & Ein interessantes, besonders Christoph Hanck ' s Antwort stats.stackexchange.com/questions/243003/…
Antwort
Wie unter https://stats.stackexchange.com/a/314739/919 , die Fisher-Methode kombiniert p-Werte $ p_1, p_2, \ ldots, p_n $ unter der Annahme, dass sie unabhängig voneinander unter Nullhypothesen mit kontinuierlichen Teststatistiken auftreten unabhängig verteilt gleichmäßig zwischen $ 0 $ und $ 1. $ Eine einfache Berechnung ergibt, dass $ -2 \ log (p_i) $ eine $ \ chi ^ 2 (2) $ -Verteilung hat, woraus
$$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$
hat eine $ \ chi ^ 2 (2n) $ -Verteilung. Für große $ n $ (wie durch den zentralen Grenzwertsatz garantiert) ist diese Verteilung ungefähr normal. Es hat einen Mittelwert von $ 2n $ und eine Varianz von $ 4n $, wie wir leicht berechnen können.
Nehmen wir nun an, dass $ P $ „viel“ anders ist als dieser Mittelwert. „Viel“ bedeutet wie üblich im Vergleich zur Standardabweichung. Mit anderen Worten, nehmen wir an, dass sich $ P $ von $ 2n $ um mehr als ein paar Vielfache von $ \ sqrt {4n} = 2 \ sqrt {n} unterscheidet. $ Aus grundlegenden Informationen über Normalverteilungen impliziert dies, dass $ P $ entweder ist ungewöhnlich klein oder ungewöhnlich groß. Da $ P $ für $ K \ ca. 3 von $ 2n-2K \ sqrt {n} $ bis $ 2n + 2K \ sqrt {n} $ reicht, weist die Methode von $ Fisher folglich eine kumulative Wahrscheinlichkeit zu (dh kombiniert) p-Wert) im Bereich von fast $ 0 $ bis fast $ 1. $
Mit anderen Worten, die gesamte „interessante“ Wahrscheinlichkeit für $ P $ tritt innerhalb auf das Intervall $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ für kleine $ K $. Wenn $ n $ wächst, wird dieses Intervall enger relativ zu seinem Zentrum (bei $ 2n $).
Eine Schlussfolgerung, die wir aus diesem Ergebnis ziehen könnten, ist, dass wenn $ \ sqrt {n} $ groß genug ist, um $ 2K $ zu dominieren – das heißt, wenn $ n $ ist viel größer als $ (2 \ times3) ^ 2 \ ca. 40 $ oder so, dann kann die Fisher-Methode die Grenzen ihrer Nützlichkeit erreichen.
Unter den Umständen von Die Frage $ n = 10 ^ 7. $ Das interessante Intervall für den durchschnittlichen log p-Wert $ -P / (2n) $ ist daher ungefähr
$$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ ungefähr (-0,999051, -1.00095) $$
wenn $ K = 3. $
Das entsprechende g eometrische mittlere p-Werte sind
$$ e ^ {- 0,999051} = 0,368229 \ text {und} e ^ {- 1.00095} = 0,367531. $$
Der in der Frage verwendete untere Wert von $ 0,367 $ liegt außerhalb dieses Intervalls, was im Wesentlichen eine (untere) Schwanzwahrscheinlichkeit von Null ergibt, während der obere Wert von $ 0,368 $ innerhalb dieses Intervalls liegt, was eine Wahrscheinlichkeit ergibt, die immer noch deutlich unter 1 $ liegt. $ Dies ist Ein extremes Beispiel für unsere vorherige Schlussfolgerung, die folgendermaßen angepasst werden könnte:
Wenn der durchschnittliche natürliche Logarithmus der p-Werte stark von $ -1 abweicht Die Methode von $ Fisher erzeugt einen kombinierten p-Wert extrem nahe $ 0 $ oder nahe $ 1 $. „Viel“ ist proportional zu $ 1 / \ sqrt {2n}. $
Kommentare
- Würden Sie auf der Grundlage dieser Antwort argumentieren, dass die Stouffer-Integration bei großen n angemessener ist?
- Ich glaube, da eine so große Menge an Informationen bei der Kombination einer großen Anzahl von p-Werten verworfen wird und das Ergebnis mit großen $ n $ empfindlich auf die Annahme der Unabhängigkeit reagiert (was selten wirklich zutrifft) In den meisten Fällen ist eine no Methode zum Kombinieren zu einer einzigen Entscheidung geeignet. Die Methode von Stouffer ' unterscheidet sich kaum von der Methode von Fisher '.
- Ich habe keine ' stimme nicht zu, dass zumindest die Stouffer-Integration dieses seltsame " Schwellenwert " -Verhalten nicht anzeigt. Soweit ich das beurteilen kann, führt das Übergeben eines Vektors von Zscores konsistent über 0 (z. B. 1000 Zscores gleich 0,5) immer zu einem endgültigen Zscore über dem Original, was logisch ist. Die Methode von Fisher ' ist in meinen Augen ein ' Fehler '
- Unabhängig von den Unterschieden war weder eine Methode für die Kombination von Millionen von p-Werten vorgesehen noch nützlich. In ihren nützlichen Anwendungsbereichen unterscheiden sie sich kaum. Es gibt ' keinen " Fehler " in Fisher ' Ansatz: ' ist angesichts seiner Annahmen und seines Ziels vollkommen genau. Stouffer ' s ist ein wenig ad hoc und basiert implizit auf zusätzlichen Annahmen. Um konstruktiver zu sein: Wenn Sie viele (unabhängige) p-Werte haben, erhalten Sie weitaus mehr Informationen, indem Sie untersuchen, wie ihre Verteilung von der Einheitlichkeit abweicht, als von einer einzelnen kombinierten Statistik.
- OK. Ich stimme ' Ihnen in Bezug auf die Methode von Fisher ' nicht wirklich zu. Ähnlich wie im konkreten Beispiel haben wir " FisherIntegration (rep (.367,1000)) = 4999 " aber FisherIntegration (rep (.367,10000000)) = 1.965095e-14 " ist intuitiv dumm. Jede Methode kann aufgrund ihrer Annahmen / Ziele gerechtfertigt werden, aber in diesem Fall würde diese Art von schwellenwertabhängigem Verhalten nicht zu dem passen, was die meisten Benutzer für angemessen halten. Natürlich stimme ich Ihnen zu, dass eine einzelne zusammenfassende Statistik schlechter ist als eine genauere Prüfung der Verteilung.