Ik gebruik Fishers methode om p -waarden, en heb wat vreemd gedrag opgemerkt voor grote p-waarden en grote $ n. $
In mijn geval heb ik een groot aantal niet statistisch significante resultaten (bijv. .1 tot .5), en Ik gebruik Fishers Method om ze te combineren. Het viel me echter op dat Fishers Method onstabiel gedrag lijkt te vertonen voor deze grote p-waarden. Het wijzigen van de p-waarden van .367 naar .368 resulteerde dus in drastische veranderingen voor de gecombineerde p-waarde. Waarom is dit?
p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356
Daarentegen gedroeg $ dit zich bij lage p-waarden en kleine $ n heel netjes. Bijvoorbeeld:
p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06
Hier is de functie die ik gebruik voor Fisher-integratie:
fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val)
}
BEWERK Dit bericht is enigszins verwant, maar geeft niet aan waarom .367 een magisch getal is in deze context: Waarom levert Fisher ' s methode $ p \ gg 0.5 $ bij het combineren van verschillende p-waarden die allemaal gelijk zijn aan $ 0.5 $?
Reacties
- Is het je opgevallen dat $ 0.367 \ lt e ^ {- 1} \ lt 0.368 $? (Dat zou het enige punt zijn van een oefening die beweert $ 10 ^ 7 $ p-waarden op deze manier te combineren: het heeft geen statistisch nut.)
- I heb ' dat niet opgemerkt. Ik ' wed dat dit iets te maken heeft met het rare gedrag, maar ik weet niet zeker waarom.
- Van de andere kant, wat is ' is het gemiddelde van de chikwadraatverdeling?
- Ik denk dat je deze Q & Een interessante, vooral Christoph Hanck ' s antwoord stats.stackexchange.com/questions/243003/…
Antwoord
Zoals uitgelegd op https://stats.stackexchange.com/a/314739/919 , Fishers Method combineert p-waarden $ p_1, p_2, \ ldots, p_n $ in de veronderstelling dat ze onafhankelijk ontstaan onder nulhypothesen met continue teststatistieken. Dit betekent dat elk onafhankelijk gelijkmatig verdeeld tussen $ 0 $ en $ 1. $ Een eenvoudige berekening stelt vast dat $ -2 \ log (p_i) $ een $ \ chi ^ 2 (2) $ -verdeling heeft, vanwaar
$$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$
heeft een $ \ chi ^ 2 (2n) $ distributie. Voor grote $ n $ (zoals gegarandeerd door de Central Limit Theorem) is deze verdeling ongeveer normaal. Het heeft een gemiddelde van $ 2n $ en een variantie van $ 4n, $ zoals we gemakkelijk kunnen berekenen.
Stel nu dat $ P $ “veel” anders is dan dit gemiddelde. “Veel” betekent, zoals gebruikelijk, in vergelijking met de standaarddeviatie. Met andere woorden, stel dat $ P $ verschilt van $ 2n $ met meer dan een paar veelvouden van $ \ sqrt {4n} = 2 \ sqrt {n}. $ Uit basisinformatie over normale distributies houdt dit in dat $ P $ ofwel ongewoon klein of ongewoon groot. Aangezien $ P $ varieert van $ 2n-2K \ sqrt {n} $ tot $ 2n + 2K \ sqrt {n} $ voor $ K \ circa 3, kent de methode van $ Fisher een cumulatieve kans toe (dat wil zeggen: gecombineerde p-waarde) variërend van bijna $ 0 $ tot bijna $ 1, $
Met andere woorden, alle “interessante” waarschijnlijkheid voor $ P $ doet zich voor binnen het interval $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ voor kleine $ K $. Naarmate $ n $ groeit, wordt dit interval kleiner ten opzichte van het midden (op $ 2n $).
Een conclusie die we uit dit resultaat kunnen trekken, is dat wanneer $ \ sqrt {n} $ groot genoeg is om $ 2K $ te domineren – dat wil zeggen, wanneer $ n $ is veel groter dan $ (2 \ times3) ^ 2 \ ongeveer 40 $ of zo, dan kan de methode van Fisher de limieten van zijn bruikbaarheid bereiken.
In de omstandigheden van de vraag, $ n = 10 ^ 7. $ Het interessante interval voor de gemiddelde log p-waarde, $ -P / (2n), $ is daarom ongeveer
$$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ circa (-0,999051, -1.00095) $$
wanneer $ K = 3. $
De bijbehorende g eometrische gemiddelde p-waarden zijn
$$ e ^ {- 0.999051} = 0.368229 \ text {en} e ^ {- 1.00095} = 0.367531. $$
De lagere waarde van $ 0,367 $ die in de vraag wordt gebruikt, valt buiten dit interval, wat in wezen nul (lagere) staartkans oplevert, terwijl de hoogste waarde van $ 0,368 $ binnen dit interval ligt, wat een waarschijnlijkheid oplevert die nog steeds aanzienlijk kleiner is dan $ 1. $ Dit is een extreem voorbeeld van onze vorige conclusie, die als volgt zou kunnen worden aangepast:
Wanneer de gemiddelde natuurlijke logaritme van de p-waarden veel verschilt van $ -1 , $ Fishers Method zal een gecombineerde p-waarde produceren die extreem dichtbij $ 0 $ of bijna $ 1 $ ligt. “Much” is evenredig met $ 1 / \ sqrt {2n}. $
Reacties
- Zou u op basis van dit antwoord beweren dat een betere integratie geschikter is in gevallen van grote n?
- Ik geloof dat, aangezien er zon enorme hoeveelheid informatie wordt weggegooid bij het combineren van grote aantallen p-waarden, en omdat het resultaat met grote $ n $ gevoelig is voor de aanname van onafhankelijkheid (wat zelden echt geldt) , geen methode om ze te combineren in een enkele beslissing is in de meeste omstandigheden geschikt. Stouffer ' s methode verschilt toch nauwelijks van Fisher ' s methode.
- Ik don ' ben het er niet mee eens dat Stouffer-integratie dit vreemde " drempel " gedrag niet vertoont. Voor zover ik weet, zal het doorgeven van een vector van zscores consequent boven 0 (bijv. 1000 zscores gelijk aan 0,5) altijd een laatste zscore boven het origineel opleveren, wat logisch is. Fisher ' s methode hier is in mijn gedachten een ' bug '
- Wat de verschillen ook mogen zijn, geen van beide methoden was bedoeld voor en is ook niet bruikbaar voor het combineren van miljoenen p-waarden. In hun nuttige toepassingsgebieden verschillen ze meestal niet veel. Er ' s geen " bug " in Fisher ' s benadering: het ' is volkomen nauwkeurig, gezien zijn aannames en zijn doel. Stouffer ' s is een beetje ad hoc , impliciet afhankelijk van aanvullende aannames. Om constructiever te zijn: als je veel (onafhankelijke) p-waarden hebt, zul je er veel meer informatie uit halen door te bestuderen hoe hun verdeling afwijkt van uniformiteit dan je zult doen met een enkele gecombineerde statistiek.
- OK. Ik ben het ' niet echt met u eens over de ' s methode van Fisher. Vergelijkbaar met het concrete voorbeeld dat we hebben besproken " fisherIntegration (rep (.367,1000)) =. 4999 " maar " fisherIntegration (rep (.367,10000000)) = 1.965095e-14 " is intuïtief dom. Elke methode kan worden gerechtvaardigd gezien de aannames / doelstellingen, maar in dit geval zou dit soort drempelafhankelijk gedrag niet passen bij wat de meeste gebruikers redelijk zouden vinden. Natuurlijk ben ik het met je eens dat een enkele samenvattende statistiek erger zal zijn dan een zorgvuldiger onderzoek van de verdeling.