Jeg bruger Fishers metode til at kombinere p -værdier og har bemærket en mærkelig opførsel for store p-værdier og store $ n. $

I mit tilfælde har jeg et stort antal ikke statistisk signifikante resultater (f.eks. 1 til .5), og Jeg bruger Fishers metode til at kombinere dem. Imidlertid bemærkede jeg, at Fishers metode ser ud til at vise ustabil opførsel for disse store p-værdier. Ændring af p-værdier fra .367 til .368 resulterede således i drastiske ændringer for den kombinerede p-værdi. Hvorfor er dette?

p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356 

I modsætning hertil opførte dette sig meget pænt for lave p-værdier og små $ n, $. For eksempel:

p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06 

Her er den funktion, jeg bruger til Fisher-integration:

fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val) 

}

EDIT Dette indlæg er noget beslægtet, men adresserer ikke hvorfor .367 er et magisk tal i denne sammenhæng: Hvorfor giver Fisher ' s metode $ p \ gg 0,5 $ når du kombinerer flere p-værdier, der alle er lig med $ 0,5 $?

Kommentarer

  • Har du bemærket, at $ 0,367 \ lt e ^ {- 1} \ lt 0,368 $? (Det ville være det eneste punkt i en øvelse, der foregiver at kombinere $ 10 ^ 7 $ p-værdier på denne måde: det har ingen statistisk brug.)
  • I bemærkede det ikke '. Jeg ' vil vædde på, at dette har noget at gøre med den underlige opførsel, men jeg er ikke sikker på, hvorfor.
  • Hvad den anden div <

er middelværdien af chi-kvadratfordelingen?

  • Jeg tror, du måske finder denne Q & En interessant især Christoph Hanck ' s svar stats.stackexchange.com/questions/243003/…
  • Svar

    Som forklaret i https://stats.stackexchange.com/a/314739/919 , Fishers metode kombinerer p-værdier $ p_1, p_2, \ ldots, p_n $ under den antagelse, at de opstår uafhængigt under nulhypoteser med kontinuerlig teststatistik. Dette betyder, at hver er uafhængigt fordelt ensartet mellem $ 0 $ og $ 1. $ En simpel beregning fastslår, at $ -2 \ log (p_i) $ har en $ \ chi ^ 2 (2) $ fordeling, hvorfra

    $$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$

    har en $ \ chi ^ 2 (2n) $ distribution. For store $ n $ (som garanteret af Central Limit Theorem) er denne distribution omtrent normal. Det har et gennemsnit på $ 2n $ og varians på $ 4n, $ som vi let kan beregne.

    Antag nu, at $ P $ er “meget” anderledes end dette gennemsnit. “Meget” betyder som normalt i sammenligning med standardafvigelsen. Antag med andre ord, at $ P $ adskiller sig fra $ 2n $ med mere end et par multipla af $ \ sqrt {4n} = 2 \ sqrt {n}. $ Fra grundlæggende oplysninger om normale distributioner betyder det, at $ P $ enten er usædvanligt lille eller usædvanligt stor. Da $ P $ spænder fra $ 2n-2K \ sqrt {n} $ til $ 2n + 2K \ sqrt {n} $ for $ K \ ca. 3, tildeler $ Fishers metode en kumulativ sandsynlighed (dvs. kombineret p-værdi), der spænder fra næsten $ 0 $ til næsten $ 1. $

    Med andre ord forekommer al den “interessante” sandsynlighed for $ P $ inden for intervallet $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ for lille $ K $. Når $ n $ vokser, indsnævres dette interval i forhold til dets centrum (ved $ 2n $).

    En konklusion, vi kunne drage af dette resultat er, at når $ \ sqrt {n} $ er stor nok til at dominere $ 2K $ – det vil sige når $ n $ er meget større end $ (2 \ times3) ^ 2 \ ca. 40 $ eller deromkring, så Fishers metode kan muligvis nå grænserne for dens anvendelighed.


    Under omstændighederne med spørgsmålet $ n = 10 ^ 7. $ Det interessante interval for gennemsnittet log p-værdi, $ -P / (2n), $ er derfor omtrent

    $$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ approx (-0.999051, -1.00095) $$

    når $ K = 3. $

    Den tilsvarende g eometriske gennemsnitlige p-værdier er

    $$ e ^ {- 0.999051} = 0.368229 \ text {og} e ^ {- 1.00095} = 0.367531. $$

    Den lavere værdi på $ 0,367 $, der bruges i spørgsmålet, er uden for dette interval, hvilket i det væsentlige giver nul (lavere) halesandsynlighed, mens den øvre værdi på $ 0.368 $ ligger inden for dette interval, hvilket giver en sandsynlighed, der stadig er betydeligt mindre end $ 1. $ Dette er et ekstremt eksempel på vores tidligere konklusion, som kunne omformuleres på denne måde:

    Når den gennemsnitlige naturlige logaritme for p-værdier adskiller sig meget fra $ -1 , $ Fishers metode vil producere en kombineret p-værdi ekstremt nær $ 0 $ eller nær $ 1 $. “Meget” er proportional med $ 1 / \ sqrt {2n}. $

    Kommentarer

    • Baseret på dette svar, vil du argumentere for, at stoufferintegration er mere passende i tilfælde af stort n?
    • Jeg tror, at da en så enorm mængde information kasseres i kombination af et stort antal p-værdier, og fordi resultatet med store $ n $ er følsomt over for antagelsen om uafhængighed (som sjældent virkelig holder) , ingen metode til at kombinere dem i en enkelt beslutning er egnet under de fleste omstændigheder. Stouffer ' s metode adskiller sig næppe fra Fisher ' metode.
    • Jeg don ' er ikke enig, idet Stouffer-integration i det mindste ikke viser denne mærkelige " tærskel ". Så vidt jeg kan se, vil det at sende en vektor af zscores konsekvent over 0 (f.eks. 1000 zscores lig med .5) altid producere en endelig zscore over originalen, hvilket er logisk. Fisher ' s metode her er efter min mening en ' bug '
    • Uanset hvad forskellene måtte være, var hverken metoden hverken beregnet til eller er nyttig til at kombinere millioner af p-værdier. I deres anvendelsesområder har de en tendens til ikke at adskille sig meget. Der er ' ingen " bug " i Fisher ' s tilgang: det ' er helt nøjagtigt i betragtning af dets antagelser og sit mål. Stouffer ' s er lidt ad hoc, og stoler implicit på yderligere antagelser. For at være mere konstruktiv: Når du har mange (uafhængige) p-værdier, får du langt mere information ud af dem ved at studere, hvordan deres distribution afviger fra ensartethed, end du vil fra en enkelt kombineret statistik.
    • Okay. Jeg er ' ikke rigtig enig med dig i Fisher ' s metode. I lighed med det konkrete eksempel diskuterede vi " fisherIntegration (rep (.367,1000)) =. 4999 " men " fisherIntegration (rep (.367,10000000)) = 1.965095e-14 " er intuitivt fjollet. Enhver metode kan retfærdiggøres i betragtning af dens antagelser / mål, men i dette tilfælde passer denne form for tærskelafhængig adfærd ikke til det, som de fleste brugere finder rimelige. Selvfølgelig er jeg enig med dig i, at en enkelt sammenfattende statistik vil være værre end at undersøge distributionen nøje.

    Skriv et svar

    Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *