Jeg har en tredjeparts tilfeldig tallgenerator med en periode som er omtrent større enn $ 63 * (2 ^ {63} – 1) $ som genererer tall i området $ [0,2 ^ {32} -1] $, dvs. $ 2 ^ {32} $ forskjellige tall. Jeg har gjort noen små modifikasjoner og ønsker å bekrefte at fordelingen forblir ensartet. Jeg bruker Pearsons chi-squared test for tilpasning av en distribusjon, forhåpentligvis riktig, uten å vite mye om det:
-
Del $ 1000 * 2 ^ {32} $ observasjoner over $ 2 ^ {32} $ forskjellige diskrete celler (jeg regner med at antall observasjoner $ n $ skal være $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, eller, $ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $, ved å bruke fem-eller-mer-regelen, for å få anstendig tillit). Den forventede teoretiske frekvensen $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
-
reduksjonen i frihetsgrader er 1.
-
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
-
frihetsgrader = $ 2 ^ {32} – 1 $.
-
slå opp p-verdien til en chi -kvadrat ($ x ^ 2 $) fordeling gitt $ 2 ^ {32} – 1 $ frihetsgrader.
Så vidt jeg kan se, eksisterer ingen chi-kvadratfordeling for så mange frihetsgrader. Hva skal jeg gjøre?
-
velg en
-tillit-verdi $ c $ slik at $ p > c $ betyr at fordelingen sannsynligvis er ensartet. Jeg har en stor utvalgsstørrelse, men siden jeg ikke er sikker på forholdet til p-verdi (økt sampling reduserer feil, men signifikansverdien representerer et forhold i feiltypene), tror jeg at jeg bare vil holde meg til standardverdien 0,05. / p>
Rediger: faktiske spørsmål kursivert ovenfor, og oppregnet nedenfor:
- Hvordan få en p -verdi?
- Hvordan velger du en betydningsverdi?
Rediger:
Jeg har stilt et oppfølgingsspørsmål på chi-squared goodness-of-fit: effektstørrelse og kraft .
Kommentarer
- Det finnes en chi-kvadratfordeling for alle positive frihetsgrader. Mener du " Jeg kan ' t finne tabeller for virkelig store df " eller " noen funksjon jeg vil kalle vant ' t ta argumenter som store " eller noe annet? Merk at unnlatelse av å avvise null betyr ikke ' t av seg selv at " fordelingen sannsynligvis er ensartet "
- Jeg kan ' t finne tabeller for virkelig store df
- Er ikke ' t er det liten forskjell mellom de to? En p-verdi gjenspeiler hvor godt null passer, og selv om den ikke ' t innebærer at en annen hypotese ikke vil ' t passer bedre, er poenget er å markere observasjoner som sannsynligvis ikke ' t passer til null (men ikke nødvendigvis; kan være en outlier). Så omvendt må jeg av praktiske hensyn anta at alle andre observasjoner (unnlater å avvise null) antyder " fordelingen er sannsynligvis (men ikke nødvendigvis; kan være en outlier ) uniform ".
- I ' m bare påpeker at det ikke er en " kanskje " mellomgrunnlag i en enten-eller-test, og heller ikke å avvise eller unnlate å avvise innebærer noen hypotese. Og endring av konfidensnivå endrer bare forholdet mellom falske positive og falske negative.
- Hvis antall frihetsgrader er ' ' veldig stor ' ' så kan $ \ chi ^ 2 $ tilnærmes med en normal tilfeldig variabel.
Svar
Et chi-kvadrat med store frihetsgrader $ \ nu $ er omtrent normalt med gjennomsnittlig $ \ nu $ og varians $ 2 \ nu $.
I dette tilfellet er ti milliarder frihetsgrader nok; med mindre du er interessert i høy nøyaktighet ved ekstreme p-verdier (veldig langt fra 0,05), vil den normale tilnærmingen av chi-firkanten være bra.
Her «er en sammenligning på bare $ \ nu = 2 ^ {12} $ – du kan se at den normale tilnærmingen (stiplet blå kurve) nesten ikke skiller seg fra chi-firkanten (solid mørkerød kurve).
Tilnærmingen er langt bedre til mye større df.
Kommentarer
- At ' en graf på $ x ^ 2 $ og ikke $ x $, ikke sant? Og med så små p-verdier, hvilket konfidensnivå skal jeg velge?
- Tegningen er ganske enkelt tettheten til en chi-kvadrat tilfeldig variabel ($ X $), hvilken tetthet er en funksjon av $ x $ .Du ' gjør en hypotesetest, så du har ikke ' ikke et konfidensnivå. Du har et signifikansnivå, men du ' t velger at etter du ser en p-verdi, du velger det før du begynner.
- Ja, det er grafen til PDF-en for distribusjonen $ x ^ 2_k $. Gitt navnet Pearson ' s teststatistikk ($ x ^ 2 $), var jeg ikke ' ikke sikker på om $ x $ refererer til x-akse (i så fall bør jeg ta kvadratroten til statistikken først) eller distribusjonsnavnet (i så fall tilordnes statistikken direkte til aksen). Empirisk testing av $ \ text {p-verdi} = 1 – CDF $ sammenlignet med tabeller bekrefter sistnevnte.
- P-verdien på $ x ^ 2_k $ beregnes via CDF ved å bruke: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, som innebærer beregning av en kraftserie med ekstremt store tall.
- Ved store k-verdier tilnærmer $ x ^ 2_k $ fordelingen normalfordelingen, så CDF for den normale distribusjon brukes: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ som beskrevet av svaret ($ \ sigma $ og $ \ mu $ erstattet etter behov). Dette innebærer også å beregne en kraftserie , selv om mindre antall er involvert og erf er en standardkomponent i mange standardbiblioteker.