Używam metody Fishera do łączenia p -wartości i zauważyłem dziwne zachowanie dla dużych wartości p i dużych $ n. $

W moim przypadku mam dużą liczbę wyników nieistotnych statystycznie (np. od 1 do 0,5) i Używam metody Fishera, aby je połączyć. Jednak zauważyłem, że metoda Fishera wydaje się wykazywać niestabilne zachowanie dla tych dużych wartości p. Zatem zmiana wartości p z 0,367 na 0,368 spowodowała drastyczne zmiany połączonej wartości p. Dlaczego tak jest?

p_value=fisherIntegration(rep(.367,10000000) #p_value=1.965095e-14 p_value=fisherIntegration(rep(.368,10000000) #pvalue=0.8499356 

W przeciwieństwie do niskich wartości p i małych $ n $ zachowywał się bardzo dobrze. Na przykład:

p_value=fisherIntegration(rep(.05,10)) #pvalue=7.341634e-06 

Oto funkcja, której używam do integracji Fishera:

fisherIntegration <- function (vector){ my_length=length(vector) deg_free=my_length*2 y=-2*sum(log(vector)) p.val <- 1-pchisq(y, df = deg_free); p.val=as.numeric(p.val); return(p.val) 

}

EDYTUJ Ten post jest nieco powiązane, ale nie wyjaśnia, dlaczego .367 jest magiczną liczbą w tym kontekście: Dlaczego metoda Fisher ' s daje $ p \ gg 0,5 $ łącząc kilka wartości p równych 0,5 $?

Komentarze

  • Czy zauważyłeś, że 0,367 $ \ lt e ^ {- 1} \ lt 0.368 $? (To byłby jedyny cel ćwiczenia, które ma na celu połączenie 10 $ ^ 7 $ wartości p w ten sposób: nie ma zastosowania statystycznego.)
  • I nie ' tego nie zauważyłem. Założę się, że ' ma to coś wspólnego z dziwnym zachowaniem, ale nie wiem dlaczego.
  • Co z drugiej strony ' jest średnią z rozkładu chi-kwadrat?
  • Myślę, że to Q & jest szczególnie interesujące, zwłaszcza dla Christopha Hancka ' s answer stats.stackexchange.com/questions/243003/…

Odpowiedź

Jak wyjaśniono w https://stats.stackexchange.com/a/314739/919 , Metoda Fishera łączy wartości p $ p_1, p_2, \ ldots, p_n $ przy założeniu, że powstają one niezależnie w hipotezach zerowych z ciągłymi statystykami testowymi. Oznacza to, że każda z nich jest niezależnie rozłożone równomiernie między 0 $ a 1 $. $ Proste obliczenie ustala, że $ -2 \ log (p_i) $ ma rozkład $ \ chi ^ 2 (2) $, skąd

$$ P = \ sum_ {i = 1} ^ n -2 \ log (p_i) $$

ma rozkład $ \ chi ^ 2 (2n) $. Dla dużych $ n $ (gwarantowanych przez centralne twierdzenie graniczne) ten rozkład jest w przybliżeniu normalny. Ma średnią 2n $ i wariancję 4n $, jak łatwo możemy obliczyć.

Załóżmy teraz, że $ P $ jest „znacznie” inne niż ta średnia. „Dużo” oznacza, jak zwykle, w porównaniu z odchyleniem standardowym. Innymi słowy, załóżmy, że $ P $ różni się od $ 2n $ o więcej niż kilka wielokrotności $ \ sqrt {4n} = 2 \ sqrt {n}. $ Z podstawowych informacji o rozkładach normalnych wynika, że $ P $ jest albo niezwykle mały lub niezwykle duży. W konsekwencji, ponieważ $ P $ waha się od 2n-2K \ sqrt {n} $ do 2n + 2K \ sqrt {n} $ dla $ K \ około 3, metoda $ Fishera przypisuje skumulowane prawdopodobieństwo (to znaczy połączone p-value) od prawie 0 $ do prawie 1 $

Innymi słowy, całe „interesujące” prawdopodobieństwo $ P $ występuje w interwał $ (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) $ dla małych $ K $. Wraz ze wzrostem $ n $ ten przedział się zwęża względem jego środka (przy 2n $).

Jeden wniosek, jaki możemy wyciągnąć z tego wyniku, jest taki, że kiedy $ \ sqrt {n} $ jest wystarczająco duże, aby zdominować 2 000 $ – to znaczy, kiedy $ n $ jest znacznie większe niż $ (2 \ times3) ^ 2 \ około 40 $, to metoda Fishera może osiągać granice swojej użyteczności.


W okolicznościach pytanie, $ n = 10 ^ 7. $ Interesujący przedział dla średniej logarytmicznej wartości p, $ -P / (2n), $ jest więc w przybliżeniu

$$ – (2n-2K \ sqrt {n}, 2n + 2K \ sqrt {n}) / (2n) \ ok (-0,999051, -1,00095) $$

gdy $ K = 3. $

Odpowiednie g Średnia eometryczna wartości p to

$$ e ^ {- 0.999051} = 0,368229 \ text {and} e ^ {- 1.00095} = 0,367531. $$

Niższa wartość 0,367 $ użyta w pytaniu znajduje się poza tym przedziałem, co daje zasadniczo zerowe (dolne) prawdopodobieństwo końca, podczas gdy górna wartość 0,368 $ mieści się w tym przedziale, co daje prawdopodobieństwo, które jest nadal znacznie mniejsze niż 1 $. skrajny przykład naszego poprzedniego wniosku, który można powtórzyć w ten sposób:

Gdy średni logarytm naturalny wartości p różni się znacznie od -1 $ Metoda $ Fishera da łączną wartość p skrajnie bliską 0 $ lub blisko 1 $. „Dużo” jest proporcjonalne do 1 USD / \ sqrt {2n}. $

Komentarze

  • Opierając się na tej odpowiedzi, czy mógłbyś argumentować, że sztywniejsza integracja jest bardziej odpowiednia w przypadku dużych n?
  • Uważam, że skoro tak ogromna ilość informacji jest odrzucana przy łączeniu dużej liczby wartości p, a wynik z dużymi $ n $ jest wrażliwy na założenie o niezależności (które rzadko tak naprawdę się sprawdza) , żadna metoda łączenia ich w jedną decyzję nie jest odpowiednia w większości przypadków. Metoda Stouffera ' i tak niewiele różni się od metody Fishera '.
  • Nie ' nie zgadzam się, ponieważ przynajmniej integracja Stouffera nie wyświetla tego dziwnego " progu " zachowania. O ile wiem, przekazanie wektora zscores konsekwentnie powyżej 0 (np. 1000 zscores równe .5) zawsze da końcowy wynik zscore powyżej oryginału, co jest logiczne. Metoda Fishera ' to w mojej głowie ' błąd '
  • Bez względu na różnice, żadna metoda nie była przeznaczona ani nie jest przydatna do łączenia milionów wartości p. W swoich obszarach przydatnych zastosowań zwykle nie różnią się zbytnio. W programie Fisher '

nie ma " błędu " Podejście

: jest ' idealnie dokładne, biorąc pod uwagę jego założenia i cel. Stouffer ' jest trochę ad hoc , domyślnie polegający na dodatkowych założeniach. Aby być bardziej konstruktywnym: gdy masz dużo (niezależnych) wartości p, uzyskasz z nich znacznie więcej informacji, badając, w jaki sposób ich rozkład różni się od jednorodności, niż z jakiejkolwiek pojedynczej łącznej statystyki.

  • Ok. Nie ' naprawdę nie zgadzam się z tobą w sprawie metody Fishera '. Podobnie jak w konkretnym przykładzie omówiliśmy " fisherIntegration (rep (.367,1000)) =. 4999 " ale " fisherIntegration (rep (.367,10000000)) = 1.965095e-14 " jest intuicyjnie głupie. Każda metoda może być uzasadniona, biorąc pod uwagę jej założenia / cele, ale w tym przypadku tego rodzaju zachowanie zależne od progu nie pasuje do tego, co większość użytkowników uzna za rozsądne. Oczywiście zgadzam się z tobą, że pojedyncza statystyka podsumowująca będzie gorsza niż dokładniejsze zbadanie dystrybucji.
  • Dodaj komentarz

    Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *