Am un generator de numere aleatoare terță parte cu o perioadă de aproximativ mai mare de 63 $ * (2 ^ {63} – 1) $ care generează numere în intervalul $ [0,2 ^ {32} -1] $, adică $ 2 ^ {32} $ numere diferite. Am făcut câteva modificări ușoare și doresc să verific distribuția sa rămâne uniformă. Folosesc testul chi-pătrat al lui Pearson pentru potrivirea unei distribuții, sperăm corect, fără să știu multe despre ea:
-
Împarte $ 1000 * 2 ^ {32} $ observații pe $ 2 ^ {32} $ celule discrete diferite (calculez că numărul de observații $ n $ ar trebui să fie $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, sau, $ 5 * \ text {range} \ lt n \ lt \ text {periodicitate} $, folosind regula cinci sau mai mult, pentru a câștiga încredere decentă). Frecvența teoretică așteptată $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
-
reducerea gradelor de libertate este 1.
-
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
-
grade de libertate = $ 2 ^ {32} – 1 $.
-
căutați valoarea p a unui chi -distribuție pătrată ($ x ^ 2 $) dată de $ 2 ^ {32} – 1 $ grade de libertate.
Din câte îmi dau seama, nu există nicio distribuție chi pătrată pentru atâtea grade de libertate. Ce ar trebui să fac?
-
selectați o valoare de semnificație
încredere$ c $ astfel încât $ p > c $ înseamnă că distribuția este probabil uniformă. Am o dimensiune mare a eșantionului, dar din moment ce nu sunt sigur de relația sa cu valoarea p (eșantionarea crescută reduce erorile, dar valoarea de semnificație reprezintă un raport în tipurile de erori) cred că voi rămâne doar cu valoarea standard 0,05. / p>
Editați: întrebări reale cursate mai sus și enumerate mai jos:
- Cum se obține un p -valor?
- Cum se selectează o valoare de semnificație?
Editați:
Am „pus o întrebare ulterioară la bunătatea chi-pătrat: mărimea efectului și puterea .
Comentarii
- Există o distribuție chi-pătrat pentru orice grad pozitiv de libertate. Adică " Nu pot ' să găsesc tabele pentru df foarte mari " sau " unele funcția pe care vreau să o numesc a câștigat ' să nu ia argumente care să fie " sau altceva? Notă faptul că eșecul respingerii nulului nu ' înseamnă în sine că " distribuția este probabil uniformă "
- Nu pot ' să găsesc tabele pentru df foarte mari
- Nu este ' Nu există diferență mică între cele două? O valoare p reflectă cât de bine se potrivește nulul și, deși nu ' nu implică o altă ipoteză câștigată ' nu se potrivește mai bine, punctul său este de a evidenția observațiile care, probabil, nu ' se potrivesc cu nulul (deși nu neapărat; ar putea fi o valoare anterioară). Așadar, din punct de vedere practic, trebuie să presupun că toate celelalte observații (nereușind să respingă nulul) implică " distribuția este probabil (deși nu neapărat; ar putea fi o valoare anterioară ) uniformă ".
- Am ' doar arătând că nu există un " poate " punct intermediar într-un test sau, și nici respingerea sau eșecul respingerii nu implică vreo ipoteză. Și schimbarea nivelului de încredere schimbă doar raportul dintre fals pozitiv și fals negativ.
- Dacă numărul de grade de libertate este ' ' foarte mare ' ' atunci $ \ chi ^ 2 $ poate fi aproximat printr-o variabilă aleatorie normală.
Răspuns
Un chi-pătrat cu grade mari de libertate $ \ nu $ este aproximativ normal cu $ \ nu $ și varianță $ 2 \ nu $.
În acest caz, există zece miliarde de grade de libertate; cu excepția cazului în care sunteți interesat de o precizie ridicată la valori p extreme (foarte departe de 0,05), aproximarea normală a chi-pătrat va fi bună.
Aici este o comparație la doar $ \ nu = 2 ^ {12} $ – puteți vedea că aproximarea normală (curba albastră punctată) este aproape indistinctă de chi-pătrat (curba roșu închis solid).
Aproximarea este departe mai bine la un df mult mai mare.
Comentarii
- Că ' este un grafic de $ x ^ 2 $ și nu $ x $, nu? Și cu valori p atât de mici, ce nivel de încredere ar trebui să aleg?
- Desenul este pur și simplu densitatea unei variabile aleatorii chi-pătrat ($ X $), care densitate este o funcție de $ x $ .' faceți un test de ipoteză, deci nu ' nu aveți un nivel de încredere. Aveți un nivel de semnificație, dar nu ' nu alegeți ca după să vedeți o valoare p, să o alegeți înainte de a începe.
- Da, acesta este graficul PDF-ului distribuției $ x ^ 2_k $. Dat fiind numele statisticii testului Pearson ' ($ x ^ 2 $), nu eram ' sigur că $ x $ face referire la axa x (caz în care ar trebui să iau mai întâi rădăcina pătrată a statisticii) sau numele distribuției (caz în care statistica se mapează direct pe axă). Testarea empirică a $ \ text {p-value} = 1 – CDF $ în comparație cu tabelele confirmă aceasta din urmă.
- Valoarea p a $ x ^ 2_k $ este calculată prin CDF folosind: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, care implică calculul o serie de putere cu numere extrem de mari.
- La valori mari k, distribuțiile $ x ^ 2_k $ aproximează distribuția normală, deci CDF-ul normal se folosește distribuția: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ așa cum este descris de răspuns ($ \ sigma $ și $ \ mu $ substituiți după cum este necesar). Aceasta implică calcularea și a unei serii de energie , deși sunt implicate numere mai mici, iar erf este o componentă standard a multor biblioteci standard.