Mam generator liczb losowych innej firmy z okresem w przybliżeniu większym niż 63 USD * (2 ^ {63} – 1) $, który generuje liczby z zakresu $ [0,2 ^ {32} -1] $, czyli $ 2 ^ {32} $ różne liczby. Zrobiłem kilka drobnych modyfikacji i chcę sprawdzić, czy jego rozkład pozostaje jednolity. Używam testu chi-kwadrat Pearsona, aby dopasować rozkład, mam nadzieję, że poprawnie, nie wiedząc zbyt wiele o tym:

  1. Podziel obserwacje $ 1000 * 2 ^ {32} $ przez $ 2 ^ {32} $ różne dyskretne komórki (obliczam, że liczba obserwacji $ n $ powinna wynosić 5 $ * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $ lub, 5 $ * \ text {zakres} \ lt n \ lt \ text {periodicity} $, używając reguły pięciu lub więcej, aby uzyskać przyzwoitą pewność). Oczekiwana teoretyczna częstotliwość $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.

  2. redukcja stopni swobody wynosi 1.

  3. $ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.

  4. stopnie swobody = 2 $ ^ {32} – 1 $.

  5. wyszukaj wartość p chi -squared ($ x ^ 2 $) rozkład dla $ 2 ^ {32} – 1 $ stopni swobody.

    O ile wiem, nie istnieje rozkład chi-kwadrat dla tak wielu stopni swobody. Co mam zrobić?

  6. wybierz wartość istotności ufności $ c $ taką, że $ p > c $ oznacza, że rozkład jest prawdopodobnie jednolity. Mam dużą próbę, ale ponieważ nie mam pewności co do jej związku z wartością p (zwiększone próbkowanie zmniejsza błędy, ale wartość istotności reprezentuje stosunek rodzajów błędów), myślę, że będę po prostu trzymał się standardowej wartości 0,05.

Edycja: rzeczywiste pytania zapisane kursywą powyżej i wyliczone poniżej:

  1. Jak uzyskać p -value?
  2. Jak wybrać wartość istotności?

Edycja:

Zadałem dodatkowe pytanie pod adresem dobroć dopasowania chi-kwadrat: wielkość i moc efektu .

Komentarze

  • Rozkład chi-kwadrat istnieje dla wszystkich dodatnich stopni swobody. Czy masz na myśli " Mogę ' t znaleźć tabele z naprawdę dużymi wartościami df " lub " niektóre funkcja, którą chcę wywołać, won ' nie przyjmuje tak dużych argumentów " czy czegoś innego? że odrzucenie wartości zerowej samo w sobie nie ' oznacza, że " rozkład jest prawdopodobnie jednolity "
  • Nie mogę ' nie znaleźć tabel dla naprawdę dużych df
  • Isn ' czy między nimi jest niewielka różnica? Wartość p odzwierciedla, jak dobrze jest dopasowana wartość zerowa i chociaż nie ' nie sugeruje, że inna hipoteza wygrała ' nie pasuje, jej punkt ma na celu wyróżnienie obserwacji, które prawdopodobnie nie ' nie pasują do wartości zerowej (choć niekoniecznie; może to być wartość odstająca). Więc na odwrót, ze względów praktycznych muszę założyć, że wszystkie inne obserwacje (nie odrzucając wartości zerowej) sugerują ", że rozkład jest prawdopodobnie (choć niekoniecznie; może być wartością odstającą) ) jednolity ".
  • Ja ' wskazuję tylko, że nie ma " może " kompromis w teście albo-albo, ani odrzucenie, ani nie odrzucenie nie oznacza, że jakakolwiek hipoteza jest prawdziwa. A zmiana poziomu ufności zmienia tylko stosunek wyników fałszywie dodatnich do wyników fałszywie ujemnych.
  • Jeśli liczba stopni swobody wynosi ' ' bardzo duże ' ' to $ \ chi ^ 2 $ można przybliżyć zwykłą zmienną losową.

Odpowiedź

Chi-kwadrat z dużymi stopniami swobody $ \ nu $ jest w przybliżeniu normalny ze średnią $ \ nu $ i wariancja 2 $ \ nu $.

W tym przypadku dziesięć miliardów stopni swobody jest wystarczające; chyba że „interesuje Cię wysoka dokładność przy skrajnych wartościach p (bardzo dalekich od 0,05)”, normalne przybliżenie chi-kwadrat będzie w porządku.

Oto porównanie przy zaledwie $ \ nu = 2 ^ {12} $ – widać, że normalne przybliżenie (przerywana niebieska krzywa) jest prawie nie do odróżnienia od chi-kwadrat (ciągła ciemnoczerwona krzywa).

tutaj wprowadź opis obrazu

Przybliżenie jest dalekie lepiej przy znacznie większym df.

Komentarze

  • To ' to wykres $ x ^ 2 $ a nie $ x $, prawda? Jaki poziom ufności powinienem wybrać przy tak małych wartościach p?
  • Rysunek przedstawia po prostu gęstość zmiennej losowej chi-kwadrat ($ X $), której gęstość jest funkcją $ x $ .' przeprowadzasz test hipotezy, więc nie ' nie masz poziomu pewności. Masz poziom istotności, ale nie ' nie wybierasz, że po zobaczysz wartość p, wybierz ją przed rozpoczęciem.
  • Tak, to jest wykres pliku PDF dystrybucji $ x ^ 2_k $. Biorąc pod uwagę nazwę statystyki testowej Pearsona ' ($ x ^ 2 $), nie ' nie jestem pewien, czy $ x $ odwołuje się do Oś x (w takim przypadku najpierw powinienem wziąć pierwiastek kwadratowy ze statystyki) lub nazwę dystrybucji (w takim przypadku statystyka jest odwzorowywana bezpośrednio na oś). Empiryczne testy $ \ text {p-value} = 1 – CDF $ w porównaniu z tabelami potwierdzają to drugie.
  • Wartość p $ x ^ 2_k $ jest obliczana przez CDF za pomocą: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, co obejmuje obliczenie szereg potęgowy z bardzo dużymi liczbami.
  • Przy dużych wartościach k, rozkłady $ x ^ 2_k $ są zbliżone do rozkładu normalnego, więc CDF normalnej używana jest dystrybucja: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ zgodnie z opisem w odpowiedzi (odpowiednio $ \ sigma $ i $ \ mu $ podstawione). Obejmuje to również obliczenie szeregu potęgowego , chociaż w grę wchodzą mniejsze liczby, a erf jest standardowym składnikiem wielu standardowych bibliotek.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *