자유도가 너무 많은 카이 제곱

기간이 약 $ 63 * (2 ^ {63})보다 큰 타사 난수 생성기가 있습니다.- 1) $는 $ [0,2 ^ {32} -1] $ 범위의 숫자를 생성합니다. 즉, $ 2 ^ {32} $ 다른 숫자입니다. 저는 약간의 수정을했고 그 분포가 균일한지 확인하고 싶습니다. 저는 Pearson의 카이 제곱 테스트를 사용하여 분포에 대해 많이 알지 못해도 올바르게 분포를 맞추고 싶습니다.

$ 1000 * 2 ^ {32} $ 개의 관측치를 $ 2 ^ {32} $ 개의 다른 이산 셀로 나눕니다 (관측치의 수 $ n $는 $ 5 * 2 ^ {32}가되어야한다고 생각합니다. \ lt n \ lt 63 * (2 ^ {63}-1) $, 또는 $ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $, 괜찮은 신뢰도를 얻기 위해 5 개 이상의 규칙을 사용). 예상되는 이론적 빈도 $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
자유도 감소는 1입니다.
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i-E_i) ^ 2 / E_i $.
자유도 = $ 2 ^ {32}-1 $.
p- 값 조회 $ 2 ^ {32}-1 $ 자유도가 주어지면-제곱 ($ x ^ 2 $) 분포.

내가 말할 수있는 한, 그 많은 자유도에 대해 카이 제곱 분포가 존재하지 않습니다. 어떻게해야하나요?
신뢰 중요도 값을 선택하세요 $ c $ $ p > c $는 분포가 균일 할 수 있음을 나타냅니다. 나는 표본 크기가 크지 만 p- 값과의 관계가 확실하지 않기 때문에 (증가 된 표본 추출은 오류를 줄이지 만 유의 값은 오류 유형의 비율을 나타냄) 표준 값 0.05를 고수 할 것이라고 생각합니다.

편집 : 실제 질문은 위에 기울임 꼴로 표시되고 아래에 열거됩니다.

p를 얻는 방법 -value?
중요도 값을 선택하는 방법

수정 :

카이 제곱 적합도 : 효과 크기 및 검정력 에서 후속 질문을했습니다. em>

댓글

양의 자유도에 대한 카이-제곱 분포가 존재합니다. " 정말 큰 df " 또는 " 일부 테이블을 ' 찾을 수 없습니다. 호출하고 싶은 함수는 ' 큰 인수를 사용하지 않습니다 " 또는 다른 어떤 것을 사용합니까? 참고 null을 거부하지 않는다고해서 ' 그 자체가 " 분포가 아마도 균일하다는 것을 의미하지 않습니다. "

' 정말 큰 df에 대한 테이블을 찾을 수 없습니다.

Isn ' 둘 사이에 약간의 차이가 없습니까? p- 값은 null이 얼마나 잘 맞는지를 반영하며 ' 다른 가설이 더 잘 맞지 않음을 의미하지는 않지만 ' 요점 null에 맞지 않을 가능성이있는 ' 관측치를 강조하는 것입니다 (반드시 그런 것은 아니지만 이상 치일 수 있음). 반대로, 실용성을 위해 다른 모든 관찰 (null을 거부하지 않음)은 분포가 아마도 (반드시 그런 것은 아니지만) 이상 값일 수 있음을 암시한다고 가정해야합니다. ) uniform ".

' 그냥 어쩌면 " 둘 중 하나 또는 테스트에서 중간 지점이 될 수 있으며 거부하거나 거부하지 않는 것이 가설이 사실임을 의미하지 않습니다. 신뢰 수준을 변경하면 거짓 양성과 거짓 음성의 비율 만 변경됩니다.

자유도가 ' 매우 큼 ' ' $ \ chi ^ 2 $는 일반 랜덤 변수로 근사 할 수 있습니다.

답변

$ \ nu $가 큰 자유도를 갖는 카이-제곱은 평균 $ \ nu $에서 대략 정규입니다. 그리고 분산 $ 2 \ nu $.

이 경우 100 억 자유도가 충분합니다. 극한의 p- 값 (0.05와 매우 먼)에서 높은 정확도에 관심이 없다면 카이-제곱의 정규 근사값이 좋습니다.

여기에서 $ \ nu =에 대한 비교가 가능합니다. 2 ^ {12} $-정규 근사 (파란색 점선 곡선)가 카이-제곱 (검은 색 단색 곡선)과 거의 구별 할 수 없음을 알 수 있습니다.

근사치가 먼 훨씬 큰 df에서 더 좋습니다.

댓글

그 ' $ x ^ 2 $의 그래프 $ x $가 아니죠? 그리고 이렇게 작은 p- 값으로 어떤 신뢰 수준을 선택해야합니까?

그림은 단순히 카이-제곱 랜덤 변량 ($ X $)의 밀도이며, 밀도는 $ x $의 함수입니다. .' 가설 테스트를 수행 중이므로 ' 신뢰 수준이 없습니다. 유의 수준이 있지만 ' p- 값이 표시된 후 시작하기 전에 선택하도록 선택하지 않습니다.

예, $ x ^ 2_k $ 분포의 PDF 그래프입니다. Pearson '의 테스트 통계 ($ x ^ 2 $)의 이름을 감안할 때, 저는 ' $ x $가 x 축 (이 경우 먼저 통계의 제곱근을 취해야 함) 또는 분포 이름 (이 경우 통계가 축에 직접 매핑 됨). $ \ text {p-value} = 1-CDF $의 실증 테스트는 테이블과 비교하여 후자를 확인합니다.

$ x ^ 2_k $의 p- 값은 다음을 사용하여 CDF를 통해 계산됩니다. $ 1-\ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, 멱급수 는 매우 큰 숫자입니다.

큰 k- 값에서 $ x ^ 2_k $ 분포는 정규 분포에 가깝기 때문에 정규 분포의 CDF 사용 된 분포 : $ 1-\ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x-k} {2 * \ sqrt {k}} \ right) $} \ right ] $ (필요에 따라 $ \ sigma $ 및 $ \ mu $ 대체). 여기에는 강력 계열 도 계산되지만 더 적은 숫자가 관련되고 erf는 많은 표준 라이브러리의 표준 구성 요소입니다.

댓글

답변

댓글

답글 남기기 답글 취소하기