Chcę przetestować przykładową korelację $ r $ pod kątem istotności, używając wartości p, czyli
$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $
Zrozumiałem, że mogę użyć transformacji z Fishera do obliczenia tego przez
$ Z_ {obs} = \ Displaystyle \ Frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $
i znalezienie wartości p przez
$ p = 2P \ left (Z > z_ {obs} \ right) $
używając standardowego rozkładu normalnego.
Moje pytanie brzmi: jak duże powinno być $ n $, aby było to odpowiednie przekształcenie? Oczywiście $ n $ musi być większe niż 3. Mój podręcznik nie wspomina o żadnych ograniczeniach, ale na slajdzie 29 z ta prezentacja mówi, że $ n $ musi być większe niż 10. Dla danych, które będę rozważać, będę miał około 5 $ \ równoważnik n \ równoważnik 10 $.
Komentarze
- Strona Wikipedii zawiera standardowy błąd $ z_ {obs } $, które jest podane przez $ 1 / \ sqrt {N-3} $, gdzie $ N $ to rozmiar próbki. Zatem ' będziesz potrzebować co najmniej 4 pełnych par. I nie jestem świadomy żadnych ograniczeń poza tymi dotyczącymi wielkości próby.
- Nie wiem, jak bardzo ufać prezentacji od kogoś, kto potrafi ' przeliteruj własną nazwę uniwersytetu. Co więcej, uważaj na wszelkie rady, które sugerują, że powyżej określonej wielkości próbki wszystko jest w porządku, a inaczej jest fatalnie. Jest to ' kwestia jakości aproksymacji, która rośnie płynnie wraz z rozmiarem próby, a także w zależności od rozkładu danych. Prosta rada to być bardzo ostrożnym, wykreślić wszystko i sprawdzić krzyżowo z bootstrapowymi przedziałami ufności.
- Slajd 17 opisuje test t dla specjalnego przypadku $ \ rho = 0 $.
- Link do prezentacji pod adresem course.education.illinois.edu/EdPsy580/lectures/… jest teraz uszkodzony ,
Answer
W przypadku takich pytań po prostu uruchomiłbym symulację i sprawdziłbym, czy $ p $ – wartości zachowują się tak, jak tego oczekuję. Wartość $ p $ to prawdopodobieństwo losowego pobrania próbki, która odbiega przynajmniej tak bardzo od hipotezy zerowej, jak dane zaobserwowane, jeśli hipoteza zerowa jest prawdziwa. Więc gdybyśmy mieli wiele takich próbek, a jedna z nich miała $ p $ -wartość 0,04, to spodziewalibyśmy się, że 4% tych próbek będzie miało wartość mniejszą niż 0,04. To samo dotyczy wszystkich innych możliwych wartości $ p $.
Poniżej znajduje się symulacja w Stata. Wykresy sprawdzają, czy wartości $ p $ mierzą to, co mają mierzyć, to znaczy pokazują, o ile procent próbek z wartościami $ p $ mniejszymi niż nominalna wartość $ p $ odbiega od nominalnej wartości $ p $ -value. Jak widać, test ten jest nieco problematyczny przy tak małej liczbie obserwacji. To, czy jest to zbyt problematyczne dla twoich badań, zależy od twojej oceny.
clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
Komentarze
- Spróbuj odjąć 2,5 zamiast 3 od $ n $ :-).
Odpowiedź
FWIW Widzę rekomendację $ N \ ge 10 $ w Myers & No cóż (projekt badań i analizy statystyczne, wydanie drugie, 2003, s. 492). Przypis stwierdza:
Ściśle mówiąc, transformacja $ Z $ jest obciążona kwotą $ r / (2 (N-1)) $: patrz Pearson i Hartley (1954, s. 29). To odchylenie będzie generalnie pomijalne, chyba że $ N $ jest małe, a $ \ rho $ jest duże. Ignorujemy je tutaj.
Komentarze
- Wygląda na to, że to dla mnie odpowiedź.
Odpowiedź
Nie mam pewności, czy transformacja Fishera $ z $ jest odpowiednia. Dla $ H_0: \ rho = 0 $ (NB: hipoteza zerowa dotyczy populacji $ \ rho $, a nie próbki $ r $), rozkład próbkowania współczynnika korelacji jest już symetryczny, więc nie ma potrzeby zmniejszania skośności, do czego dąży Fisher „s $ z $ zrobić, i możesz użyć przybliżenia $ t $ Studenta.
Zakładając, że masz na myśli $ H_0: \ rho = \ rho_0 \ not = 0 $, to skośność tego pliku PDF będzie zależeć od proponowanej wartości $ \ rho_0 $, więc nie byłoby ogólnej odpowiedzi na pytanie, jak duże powinno być $ n $. Ponadto minimalne wartości $ n $ będą zależeć od poziomu istotności $ \ alpha $, do którego dążysz. Nie zrobiłeś tego podać jego wartość.
Twierdzenie Nicka jest słuszne: przybliżenia i zalecenia zawsze działają w jakiejś szarej strefie.
Jeśli więc twój Fisher ap przybliżenie jest wystarczająco dobre (= symetryczne), użyłbym ograniczenia $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ mające zastosowanie do $ t $ -distributions, gdzie $ s $ to przykładowy standard odchylenie.Jeśli jest wystarczająco blisko normalności, to staje się $ n \ geq (1,96 s / \ epsilon) ^ 2 $.
Komentarze
- Myślę to zbytnio upraszcza ” aim ” Fisher ' s $ z $, co jest częściowo kwestia celu, a także matematyki. Skośność lub nie to tylko część obrazu; $ z $ przekształca ograniczoną dystrybucję w nieograniczoną, co jest ważne dla przedziałów ufności. Faktycznie, argumentowałbym, że o ile hipoteza zerowa o zerowej korelacji nie jest również kwestią naukową, użycie Fishera ' s $ z $ dla przedziałów ufności jest o wiele bardziej owocne niż próba uzyskać wartość p.
- I ' przepraszam, jestem nowy w Fisher ' s $ z $ -transform. Czy powinienem go używać tylko wtedy, gdy chcę przetestować $ H_0: \ rho = \ rho_0 \ neq 0 $? Powodem obliczania wartości P jest to, że chcę użyć metody Holma-Bonferroniego do kontrolowania współczynnika błędów rodzinnych podczas wykonywania wielokrotnych porównań. Czy powinienem raczej obliczyć wartości P z rozkładu Studenta ' s $ t $?
- Pytanie jest, jak sądzę, błędne. Fisher ' s $ z $ jest lepszą metodą dla przedziałów ufności i ogólnie dla wnioskowania. Wydaje mi się, że większość programów używa obliczeń opartych na $ t $ do testowania $ \ rho = 0 $. W razie wątpliwości naprawdę ważne może być wykazanie, czy użycie jednej metody ma wpływ na Twoje dane. Jeśli więc metody się zgadzają, nie ma problemu.
- Więcej informacji o transformacji Fisher ' s $ z $ znajdziesz tutaj: stata-journal.com/article.html?article=pr0041
- Ok, dziękuję @NickCox! @Lucozade, jaki jest $ \ epsilon $ w powiązaniu z $ n $?