p- 값을 사용하여 유의성에 대한 샘플 상관 관계 $ r $를 테스트하려고합니다. 즉
$ H_0 : \ rho = 0, \; H_1 : \ rho \ neq 0. $
나는 Fisher의 z- 변환을 사용하여 이것을 계산할 수 있다는 것을 알고 있습니다.
$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $
다음으로 p- 값 찾기 / p>
$ p = 2P \ left (Z > z_ {obs} \ right) $
표준 정규 분포를 사용합니다.
제 질문은 : 이것이 적절한 변환이 되려면 $ n $이 얼마나 커야합니까? 당연히 $ n $는 3보다 커야합니다. 제 교과서에는 제한 사항이 없지만
이 프레젠테이션 에는 $ n $가 10보다 커야한다고 나와 있습니다. 고려할 데이터의 경우 $ 5 \ leq n \ leq 10 $와 같은 것을 갖게됩니다.
댓글
- Wikipedia 페이지 는 $ z_ {obs의 표준 오류를 나열합니다. } $는 $ 1 / \ sqrt {N-3} $에서 제공합니다. 여기서 $ N $는 샘플 크기입니다. 따라서 ' 최소 4 개의 완전한 쌍이 필요합니다. I 샘플 크기와 관련된 제한 사항을 알지 못합니다.
- 할 수있는 사람의 프레젠테이션을 얼마나 신뢰할 수 있는지 확실하지 않습니다. ' 자신의 대학 이름을 입력합니다. 더 진지하게, 특정 표본 크기 이상으로 문제가없고 그렇지 않으면 심각하다는 것을 암시하는 모든 조언을 조심하십시오. '는 표본 크기와 데이터 분포에 따라 원활하게 증가하는 근사 품질의 문제입니다. 간단한 조언은 매우 신중하고 모든 것을 플로팅하고 부트 스트랩 된 신뢰 구간으로 교차 확인하는 것입니다.
- 슬라이드 17은 특수한 경우 $ \ rho = 0 $에 대한 t- 검정을 설명합니다.
- courses.education.illinois.edu/EdPsy580/lectures/ … 의 프레젠테이션 링크가 깨졌습니다. ,
답변
이러한 질문에 대해서는 시뮬레이션을 실행하고 $ p $- 값은 내가 예상 한대로 작동합니다. $ p $-값은 귀무 가설이 참인 경우 관찰 한 데이터만큼 귀무 가설에서 적어도 많이 벗어나는 표본을 무작위로 그릴 확률입니다. 따라서 그러한 샘플이 많고 그 중 하나의 $ p $ 값이 .04이면 해당 샘플의 4 %가 .04보다 작은 값을 가질 것으로 예상합니다. 다른 모든 가능한 $ p $ 값에 대해서도 마찬가지입니다.
아래는 Stata의 시뮬레이션입니다. 그래프는 $ p $-값이 측정 대상을 측정하는지 확인합니다. 즉, $ p $-값이 공칭 $ p $-값보다 작은 샘플의 비율이 공칭 $ p에서 얼마나 벗어나는지 보여줍니다. $ 가치. 보시다시피 테스트는 이러한 적은 수의 관찰에서 다소 문제가 있습니다. 조사에 너무 문제가 있는지 여부는 판단입니다.
clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
댓글
- $ n $ :-)에서 3 대신 2.5를 빼보세요.
답변
FWIW Myers &에서 $ N \ ge 10 $ 권장 사항을 봅니다 (연구 설계 및 통계 분석, 제 2 판, 2003, p. 492). 각주에는 다음과 같이 설명되어 있습니다.
엄격하게 말하면 $ Z $ 변환은 $ r / (2 (N-1)) $만큼 편향되어 있습니다. Pearson and Hartley (1954, p. 29). 이 편향은 $ N $가 작고 $ \ rho $가 크지 않는 한 일반적으로 무시할 수 있으며 여기서 무시합니다.
댓글
- 답변 인 것 같습니다.
답변
여기서 Fisher의 $ z $ 변환이 적절한 지 확실하지 않습니다. $ H_0의 경우 : \ rho = 0 $ (주의 : 귀무 가설은 모집단 $ \ rho $에 대한 것이며 표본 $ r $가 아님) 상관 계수의 표본 분포는 이미 대칭이므로 왜도를 줄일 필요가 없습니다. 이것이 Fisher의 $ z $가 목표로하는 것입니다. 그러면 Student의 $ t $ 근사치를 사용할 수 있습니다.
$ H_0 : \ rho = \ rho_0 \ not = 0 $을 의미한다고 가정하면 해당 PDF의 왜곡도는 제안 된 값에 따라 달라집니다. $ \ rho_0 $의 크기이므로 $ n $의 크기에 대한 일반적인 답은 없습니다. 또한 $ n $의 최소값은 작업중인 유의 수준 $ \ alpha $에 따라 달라집니다. 그 가치를 명시하십시오.
Nick s point는 공정한 것입니다. 근사치와 권장 사항은 항상 일부 회색 영역에서 작동합니다.
그렇다면 Fisher ap 근사화가 충분히 좋다 (= 대칭). $ t $ -distributions에 적용 할 수있는 $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $를 사용합니다. 여기서 $ s $는 샘플 표준입니다. 일탈.정규성에 충분히 가까우면 $ n \ geq (1.96 s / \ epsilon) ^ 2 $가됩니다.
댓글
- 내 생각에 이것은 Fisher ' s $ z $의 " 목표 "를 지나치게 단순화합니다. 수학뿐만 아니라 목적의 문제. 왜곡 여부는 그림의 일부일뿐입니다. $ z $는 경계 분포를 제한되지 않은 분포로 변환하며 이는 신뢰 구간에 중요합니다. 사실 상관 관계가 0이라는 귀무 가설도 과학적 질문이 아니라면 Fisher ' s $ z $를 신뢰 구간에 사용하는 것이 시도하는 것보다 훨씬 더 유익하다고 주장합니다. P- 값을 얻습니다.
- ' 죄송합니다. Fisher ' s $ z를 처음 사용합니다. $-변환. $ H_0 : \ rho = \ rho_0 \ neq 0 $를 테스트하려는 경우에만 사용해야합니까? P- 값을 계산하는 이유는 다중 비교를 수행 할 때 Holm-Bonferroni 방법을 사용하여 가족 별 오류율을 제어하기를 원하기 때문입니다. 오히려 Student '의 $ t $ 분포에서 P- 값을 계산해야합니까?
- 질문이 잘못된 방향이라고 생각합니다. Fisher '의 $ z $는 일반적으로 신뢰 구간과 추론에 더 나은 방법입니다. 대부분의 소프트웨어는 $ \ rho = 0 $ 테스트를 위해 $ t $ 기반 계산을 사용합니다. 의심스러운 경우 한 가지 방법을 사용하는 것이 데이터에 영향을 미치는지 여부를 보여주는 것이 정말 중요 할 수 있습니다. 따라서 방법이 일치하면 문제가 없습니다.
- Fisher '의 $ z $ 변환에 대한 자세한 내용은 stata-journal.com/article.html?article=pr0041
- 알겠습니다. @NickCox에게 감사드립니다! @Lucozade, $ n $의 경계에서 $ \ epsilon $은 무엇입니까?