Jeg bruker Fishers metode for å kombinere p -verdier, og har lagt merke til noe merkelig oppførsel for store p-verdier og store $ n. $

I mitt tilfelle har jeg et stort antall ikke statistisk signifikante resultater (f.eks. 1 til .5), og Jeg bruker Fishers metode for å kombinere dem. Imidlertid la jeg merke til at Fishers metode ser ut til å vise ustabil oppførsel for disse store p-verdiene. Endring av p-verdiene fra .367 til .368 resulterte i drastiske endringer for den kombinerte p-verdien. Hvorfor er dette?

p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356 

I kontrast, for lave p-verdier og små $ n, $ oppførte dette seg veldig pent. For eksempel:

p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06 

Her er funksjonen jeg bruker for Fisher-integrering:

fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val) 

}

EDIT Dette innlegget er noe relatert, men tar ikke for seg hvorfor .367 er et magisk tall i denne sammenhengen: Hvorfor gir Fisher ' s metode $ p \ gg 0,5 $ når du kombinerer flere p-verdier som alle tilsvarer $ 0,5 $?

Kommentarer

  • Har du lagt merke til at $ 0,367 \ lt e ^ {- 1} \ lt 0,368 $? (Det ville være det eneste poenget med en øvelse som tilsier å kombinere $ 10 ^ 7 $ p-verdier på denne måten: det har ingen statistisk bruk.)
  • I la ikke merke til at '. Jeg ' Jeg vil satse på at dette har noe å gjøre med den rare oppførselen, men jeg er ikke sikker på hvorfor.
  • Fra den andre retningen, hva ' er gjennomsnittet av chi-kvadratfordelingen?
  • Jeg tror du kan finne denne Q & En interessant spesielt Christoph Hanck ' s svar stats.stackexchange.com/questions/243003/…

Svar

Som forklart i https://stats.stackexchange.com/a/314739/919 , Fishers metode kombinerer p-verdier $ p_1, p_2, \ ldots, p_n $ under antagelse om at de oppstår uavhengig under nullhypoteser med kontinuerlig teststatistikk. Dette betyr at hver er uavhengig fordelt jevnt mellom $ 0 $ og $ 1. $ En enkel beregning fastslår at $ -2 \ log (p_i) $ har en $ \ chi ^ 2 (2) $ fordeling, hvorfra

$$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$

har en $ \ chi ^ 2 (2n) $ fordeling. For store $ n $ (som garantert av Central Limit Theorem) er denne fordelingen omtrent normal. Den har et gjennomsnitt på $ 2n $ og varians på $ 4n, $ som vi lett kan beregne.

Anta at $ P $ nå er «mye» annerledes enn dette gjennomsnittet. «Mye» betyr, som vanlig, i forhold til standardavviket. Anta at $ P $ skiller seg fra $ 2n $ med mer enn noen få multipler av $ \ sqrt {4n} = 2 \ sqrt {n}. $ Fra grunnleggende informasjon om normale fordelinger innebærer dette at $ P $ er enten uvanlig liten eller uvanlig stor. Som $ P $ varierer fra $ 2n-2K \ sqrt {n} $ til $ 2n + 2K \ sqrt {n} $ for $ K \ ca 3, tildeler $ Fishers metode en kumulativ sannsynlighet (det vil si kombinert p-verdi) som spenner fra nesten $ 0 $ til nesten $ 1. $

Med andre ord forekommer all den «interessante» sannsynligheten for $ P $ innen intervallet $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ for små $ K $. Når $ n $ vokser, innsnevres dette intervallet i forhold til sentrum (på $ 2n $).

En konklusjon vi kan trekke fra dette resultatet er at når $ \ sqrt {n} $ er stor nok til å dominere $ 2K $ – det vil si når $ n $ er mye større enn $ (2 \ times3) ^ 2 \ ca 40 $ eller så, da kan Fishers metode nå grensene for dens nytte.


Under omstendighetene spørsmålet, $ n = 10 ^ 7. $ Det interessante intervallet for gjennomsnittet logg p-verdi, $ -P / (2n), $ er derfor omtrent

$$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ approx (-0.999051, -1.00095) $$

når $ K = 3. $

Tilsvarende g eometriske gjennomsnittlige p-verdier er

$$ e ^ {- 0.999051} = 0.368229 \ text {og} e ^ {- 1.00095} = 0.367531. $$

Den nedre verdien på $ 0,367 $ brukt i spørsmålet er utenfor dette intervallet, noe som gir praktisk talt null (nedre) halesannsynlighet, mens den øvre verdien på $ 0.368 $ ligger innenfor dette intervallet, noe som gir en sannsynlighet som fortsatt er betydelig mindre enn $ 1. et ekstremt eksempel på vår forrige konklusjon, som kan omformuleres slik:

Når den gjennomsnittlige naturlige logaritmen til p-verdiene skiller seg mye fra $ -1 , $ Fishers metode vil produsere en kombinert p-verdi ekstremt nær $ 0 $ eller nær $ 1 $. «Mye» er proporsjonalt med $ 1 / \ sqrt {2n}. $

Kommentarer

  • Basert på dette svaret, vil du hevde at stoufferintegrasjon er mer passende i tilfeller av stor n?
  • Jeg tror at siden en så stor mengde informasjon blir forkastet ved å kombinere et stort antall p-verdier, og fordi resultatet med store $ n $ er følsomt for antagelsen om uavhengighet (som sjelden virkelig holder) , ingen metode for å kombinere dem i en enkelt beslutning er egnet i de fleste tilfeller. Stouffer ' s metode skiller seg knapt fra Fisher ' s metode uansett.
  • Jeg don ' er ikke enig, i og med at Stouffer-integrering i det minste ikke viser denne rare " terskelen ". Så vidt jeg kan vite, vil det å sende en vektor med zscores konsekvent over 0 (f.eks. 1000 zscores lik 0,5) alltid gi en endelig zscore over originalen, noe som er logisk. Fisher ' s metode her er i mitt sinn en ' bug '
  • Uansett hva forskjellene måtte være, var hverken metoden ment for eller er nyttig for å kombinere millioner av p-verdier. I deres anvendelsesområder har de en tendens til ikke å skille seg mye ut. Der ' er ingen " bug " i Fisher ' s tilnærming: den ' er helt nøyaktig, gitt sine antakelser og sitt mål. Stouffer ' s er litt ad hoc, og stoler implisitt på flere antagelser. For å være mer konstruktiv: når du har mange (uavhengige) p-verdier, vil du få mye mer informasjon ut av dem ved å studere hvordan fordelingen deres avviker fra enhetlighet enn du vil fra en enkelt kombinert statistikk.

  • Ok. Jeg er ikke ' ikke enig med deg angående Fisher ' s metode. I likhet med det konkrete eksemplet diskuterte vi " fisherIntegration (rep (.367,1000)) =. 4999 " men " fisherIntegration (rep (.367,10000000)) = 1.965095e-14 " er intuitivt tullete. Enhver metode kan rettferdiggjøres med tanke på antakelser / mål, men i dette tilfellet vil denne typen terskelavhengig oppførsel ikke passe det de fleste brukere synes er rimelig. Selvfølgelig er jeg enig med deg i at en enkelt oppsummeringsstatistikk vil være verre enn å undersøke distribusjonen mer nøye.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *