chi pătrat cu prea multe grade de libertate

Am un generator de numere aleatoare terță parte cu o perioadă de aproximativ mai mare de 63 $ * (2 ^ {63} – 1) $ care generează numere în intervalul $ [0,2 ^ {32} -1] $, adică $ 2 ^ {32} $ numere diferite. Am făcut câteva modificări ușoare și doresc să verific distribuția sa rămâne uniformă. Folosesc testul chi-pătrat al lui Pearson pentru potrivirea unei distribuții, sperăm corect, fără să știu multe despre ea:

Împarte $ 1000 * 2 ^ {32} $ observații pe $ 2 ^ {32} $ celule discrete diferite (calculez că numărul de observații $ n $ ar trebui să fie $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, sau, $ 5 * \ text {range} \ lt n \ lt \ text {periodicitate} $, folosind regula cinci sau mai mult, pentru a câștiga încredere decentă). Frecvența teoretică așteptată $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
reducerea gradelor de libertate este 1.
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
grade de libertate = $ 2 ^ {32} – 1 $.
căutați valoarea p a unui chi -distribuție pătrată ($ x ^ 2 $) dată de $ 2 ^ {32} – 1 $ grade de libertate.

Din câte îmi dau seama, nu există nicio distribuție chi pătrată pentru atâtea grade de libertate. Ce ar trebui să fac?
selectați o valoare de semnificație ~~încredere~~ $ c $ astfel încât $ p > c $ înseamnă că distribuția este probabil uniformă. Am o dimensiune mare a eșantionului, dar din moment ce nu sunt sigur de relația sa cu valoarea p (eșantionarea crescută reduce erorile, dar valoarea de semnificație reprezintă un raport în tipurile de erori) cred că voi rămâne doar cu valoarea standard 0,05. / p>

Editați: întrebări reale cursate mai sus și enumerate mai jos:

Cum se obține un p -valor?
Cum se selectează o valoare de semnificație?

Editați:

Am „pus o întrebare ulterioară la bunătatea chi-pătrat: mărimea efectului și puterea .

Comentarii

Există o distribuție chi-pătrat pentru orice grad pozitiv de libertate. Adică " Nu pot ' să găsesc tabele pentru df foarte mari " sau " unele funcția pe care vreau să o numesc a câștigat ' să nu ia argumente care să fie " sau altceva? Notă faptul că eșecul respingerii nulului nu ' înseamnă în sine că " distribuția este probabil uniformă "
Nu pot ' să găsesc tabele pentru df foarte mari
Nu este ' Nu există diferență mică între cele două? O valoare p reflectă cât de bine se potrivește nulul și, deși nu ' nu implică o altă ipoteză câștigată ' nu se potrivește mai bine, punctul său este de a evidenția observațiile care, probabil, nu ' se potrivesc cu nulul (deși nu neapărat; ar putea fi o valoare anterioară). Așadar, din punct de vedere practic, trebuie să presupun că toate celelalte observații (nereușind să respingă nulul) implică " distribuția este probabil (deși nu neapărat; ar putea fi o valoare anterioară ) uniformă ".
Am ' doar arătând că nu există un " poate " punct intermediar într-un test sau, și nici respingerea sau eșecul respingerii nu implică vreo ipoteză. Și schimbarea nivelului de încredere schimbă doar raportul dintre fals pozitiv și fals negativ.
Dacă numărul de grade de libertate este ' ' foarte mare ' ' atunci $ \ chi ^ 2 $ poate fi aproximat printr-o variabilă aleatorie normală.

Răspuns

Un chi-pătrat cu grade mari de libertate $ \ nu $ este aproximativ normal cu $ \ nu $ și varianță $ 2 \ nu $.

În acest caz, există zece miliarde de grade de libertate; cu excepția cazului în care sunteți interesat de o precizie ridicată la valori p extreme (foarte departe de 0,05), aproximarea normală a chi-pătrat va fi bună.

Aici este o comparație la doar $ \ nu = 2 ^ {12} $ – puteți vedea că aproximarea normală (curba albastră punctată) este aproape indistinctă de chi-pătrat (curba roșu închis solid).

Aproximarea este departe mai bine la un df mult mai mare.

Comentarii

Că ' este un grafic de $ x ^ 2 $ și nu $ x $, nu? Și cu valori p atât de mici, ce nivel de încredere ar trebui să aleg?
Desenul este pur și simplu densitatea unei variabile aleatorii chi-pătrat ($ X $), care densitate este o funcție de $ x $ .' faceți un test de ipoteză, deci nu ' nu aveți un nivel de încredere. Aveți un nivel de semnificație, dar nu ' nu alegeți ca după să vedeți o valoare p, să o alegeți înainte de a începe.
Da, acesta este graficul PDF-ului distribuției $ x ^ 2_k $. Dat fiind numele statisticii testului Pearson ' ($ x ^ 2 $), nu eram ' sigur că $ x $ face referire la axa x (caz în care ar trebui să iau mai întâi rădăcina pătrată a statisticii) sau numele distribuției (caz în care statistica se mapează direct pe axă). Testarea empirică a $ \ text {p-value} = 1 – CDF $ în comparație cu tabelele confirmă aceasta din urmă.
Valoarea p a $ x ^ 2_k $ este calculată prin CDF folosind: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, care implică calculul o serie de putere cu numere extrem de mari.
La valori mari k, distribuțiile $ x ^ 2_k $ aproximează distribuția normală, deci CDF-ul normal se folosește distribuția: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ așa cum este descris de răspuns ($ \ sigma $ și $ \ mu $ substituiți după cum este necesar). Aceasta implică calcularea și a unei serii de energie , deși sunt implicate numere mai mici, iar erf este o componentă standard a multor biblioteci standard.

Comentarii

Răspuns

Comentarii

Lasă un răspuns Anulează răspunsul