Fisher módszerét használom p értékeket, és furcsa viselkedést észleltek a nagy p-értékek és a nagy $ n esetén. $

Esetemben sok statisztikailag nem szignifikáns eredményem van (pl. 1-től 0,5-ig), és Fisher módszerét kombinálom. Azt azonban észrevettem, hogy Fisher-módszer instabil viselkedést mutat ezeknél a nagy p-értékeknél. Így a p-értékek módosítása .367-ről .368-ra drasztikus változásokat eredményezett a kombinált p-értéknél. Miért van ez?

p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356 

Ezzel szemben az alacsony p-értékek és a kicsi $ n esetében a $ nagyon jól viselkedett. Például:

p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06 

Itt van a Fisher-integrációhoz használt funkció:

fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val) 

}

SZERKESZTÉS Ez a bejegyzés némileg kapcsolódik, de nem foglalkozik azzal, hogy a .367 miért varázslat ebben az összefüggésben: Miért ad Fisher ' s módszere $ p \ gg 0,5 $, ha több p-értéket kombinálunk, amelyek mind megegyeznek 0,5 USD-vel?

Megjegyzések

  • Észrevettétek, hogy 0,367 USD \ lt e ^ {- 1} \ lt 0,368 $? (Ez lenne az egyetlen pontja annak a gyakorlatnak, amely állítólag ilyen módon egyesíti a $ 10 ^ 7 $ p-értékeket: nincs statisztikai célja.)
  • I ezt nem vettem észre '. <

fogadok, hogy ennek köze van a furcsa viselkedéshez, de nem vagyok biztos benne, miért.

  • A másik irányból mi ' s a chi-négyzet eloszlás átlaga?
  • Szerintem megtalálhatja ezt a Q & érdekes, különösen Christoph Hanck ' s válasz stats.stackexchange.com/questions/243003/…
  • Válasz

    Amint azt a https://stats.stackexchange.com/a/314739/919 , Fisher módszere a p p-értékeket $ p_1, p_2, \ ldots, p_n $ egyesíti abban a feltételezésben, hogy nullhipotézisek alatt függetlenül keletkeznek folyamatos tesztstatisztikákkal. Ez azt jelenti, hogy mindegyik egymástól függetlenül egyenletesen oszlik el $ 0 $ és $ 1 között. Egy egyszerű számítás megállapítja, hogy a $ -2 \ log (p_i) $ $ \ chi ^ 2 (2) $ eloszlással rendelkezik, honnan

    $$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$

    $ \ chi ^ 2 (2n) $ eloszlású. Nagy $ n $ esetében (amint azt a Central Limit tétel garantálja) ez az eloszlás megközelítőleg normális. Átlaga $ 2n $ és szórása 4n $, amint könnyen kiszámíthatjuk.

    Tegyük fel most, hogy a $ P $ “sokkal” eltér ettől az átlagtól. A “sok” a szokásos eltéréshez képest a szóráshoz képest. Más szóval, tegyük fel, hogy a $ P $ eltér a $ 2n $ -tól a $ \ sqrt {4n} = 2 \ sqrt {n} néhányszorosával. $ A Normál eloszlásokról szóló alapvető információkból ez azt jelenti, hogy $ P $ vagy szokatlanul kicsi vagy szokatlanul nagy. Következésképpen, mivel a $ P $ a $ 2n-2K \ sqrt {n} $ és a $ 2n + 2K \ sqrt {n} $ között mozog $ K \ kb 3-ért, a $ Fisher metódus kumulatív valószínűséget rendel hozzá (vagyis együttvéve p-érték) közel $ 0 $ és $ 1 között. $

    Más szavakkal, a $ P $ összes “érdekes” valószínűsége a a $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ intervallum a kicsi $ K $ esetén. A $ n $ növekedésével ez az intervallum szűkül közepéhez viszonyítva ($ 2n $).

    Ebből az eredményből levonhatnánk azt a következtetést, hogy amikor a $ \ sqrt {n} $ elég nagy ahhoz, hogy uralja a $ 2K $ -t, vagyis amikor A $ n $ sokkal nagyobb, mint a $ (2 \ szor3) ^ 2 \ kb. 40 $, akkor Fisher módszere elérheti hasznosságának határait.


    A következő esetekben: a kérdés, $ n = 10 ^ 7. $ Az átlagos log p-érték, $ -P / (2n), $ érdekes intervalluma ezért nagyjából

    $$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ kb (-0.999051, -1.00095) $$

    amikor $ K = 3. $

    A megfelelő g az eometrikus átlagos p-értékek

    $$ e ^ {- 0.999051} = 0.368229 \ text {és} e ^ {- 1.00095} = 0.367531. $$

    A kérdésben használt alacsonyabb 0,367 $ érték kívül esik ezen az intervallumon, ami lényegében nulla (alsó) farok valószínűséget ad, míg a 0,368 $ felső értéke ebben az intervallumban fekszik, és ennek valószínűsége még mindig érezhetően kisebb, mint 1 USD. extrém példa korábbi következtetésünkre, amelyet így lehetne újra megismételni:

    Amikor a p-értékek átlagos természetes logaritmusa nagyban különbözik a -1-től , $ Fisher módszerével a kombinált p-érték rendkívül közel $ 0 $ vagy $ 1 $ közelében lesz. A “sok” arányos a következővel: $ 1 / \ sqrt {2n}. $

    Megjegyzések

    • E válasz alapján azzal érvelne, hogy a stouffer integráció megfelelőbb nagy n esetén?
    • Úgy gondolom, hogy mivel ilyen nagy mennyiségű információt elvetünk a nagyszámú p-érték kombinálásakor, és mivel a nagy $ n $ értékű eredmény érzékeny a függetlenség feltételezésére (ami ritkán igaz) , a legtöbb esetben nincs módszer, hogy egyetlen döntést egyesítsenek. Stouffer ' s módszere egyébként alig különbözik a Fisher ' módszerétől.
    • Nem ' nem ért egyet azzal, hogy legalább a Stouffer-integráció nem jeleníti meg ezt a furcsa " küszöbértéket ". Amennyire meg tudom mondani, ha a zscore-vektorok átadása következetesen 0 felett van (pl. 1000 zscore egyenlő .5), akkor mindig végleges zscore jön létre az eredeti felett, ami logikus. Fisher ' s módszere itt egy ' hiba '
    • Bármelyek is lehetnek a különbségek, egyik módszert sem a p-értékek millióinak összevonására szánták, sem pedig nem hasznosak. Hasznos alkalmazási területeiken általában nem sokban különböznek egymástól. ' nincs " hiba " a Fisherben ' s megközelítés: feltételezései és célkitűzései alapján tökéletesen pontos '. A Stouffer ' s egy kicsit eseti jellegű, hallgatólagosan további feltételezésekre támaszkodik. Konstruktívabb: ha sok (független) p-értéked van, akkor sokkal több információt kapsz belőlük, ha tanulmányozod, hogyan tér el az eloszlásuk az egységességtől, mint bármelyik kombinált statisztikától.
    • Rendben. Nem igazán értek veled egyet Fisher ' s módszerével kapcsolatban. A konkrét példához hasonlóan megvitattuk " fisherIntegration (rep (.367,1000)) =. 4999 ", de " fisherIntegration (rep (.367,10000000)) = 1,965095e-14 " intuitívan ostoba. Bármely módszer igazolható feltételezései / céljai alapján, de ebben az esetben ez a fajta küszöbfüggő viselkedés nem felel meg annak, amit a legtöbb felhasználó ésszerűnek tartana. Természetesen egyetértek veled abban, hogy egyetlen összefoglaló statisztika rosszabb, mint az eloszlás alaposabb vizsgálata.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük