Jag har en tredje parts slumptalsgenerator med en period ungefär större än $ 63 * (2 ^ {63} – 1) $ som genererar nummer i intervallet $ [0,2 ^ {32} -1] $, dvs $ 2 ^ {32} $ olika nummer. Jag har gjort några små modifieringar och vill verifiera att dess fördelning förblir enhetlig. Jag använder Pearsons chi-kvadrat test för att passa en distribution, förhoppningsvis korrekt, utan att veta mycket om det:

  1. Dela $ 1000 * 2 ^ {32} $ observationer över $ 2 ^ {32} $ olika diskreta celler (jag räknar med att antalet observationer $ n $ ska vara $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, eller, $ 5 * \ text {intervall} \ lt n \ lt \ text {periodicitet} $, med hjälp av fem-eller-mer-regeln, för att få anständigt förtroende). Den förväntade teoretiska frekvensen $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.

  2. minskningen av frihetsgrader är 1.

  3. $ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.

  4. frihetsgrader = $ 2 ^ {32} – 1 $.

  5. slå upp p-värdet för en chi -kvadrat ($ x ^ 2 $) fördelning ges $ 2 ^ {32} – 1 $ frihetsgrader.

    Så vitt jag kan säga finns ingen chi-kvadratfördelning för så många frihetsgrader. Vad ska jag göra?

  6. välj ett förtroende betydelsevärde $ c $ så att $ p > c $ betyder att distributionen förmodligen är enhetlig. Jag har en stor provstorlek men eftersom jag är osäker på dess förhållande till p-värde (ökad sampling minskar fel men signifikansvärdet representerar ett förhållande i typ av fel) tror jag att jag bara kommer att hålla mig till standardvärdet 0,05.

Redigera: faktiska frågor kursiverade ovan och räknade nedan:

  1. Hur får jag en p -värde?
  2. Hur väljer man ett betydelsevärde?

Redigera:

Jag har ställt en uppföljningsfråga på chi-squared goodness-of-fit: effektstorlek och kraft .

Kommentarer

  • Det finns en chi-kvadratfördelning för alla positiva frihetsgrader. Menar du " Jag kan ' inte hitta tabeller för riktigt stora df " eller " några funktion jag vill ringa vann ' t tar argument som stora " eller något annat? Obs att underlåtenhet att avvisa noll innebär inte ' t av sig själv att " fördelningen antagligen är enhetlig "
  • Jag kan ' t hitta tabeller för riktigt stora df
  • Är inte ' är det liten skillnad mellan de två? Ett p-värde återspeglar hur bra noll passar, och även om det inte ' t innebär att en annan hypotes inte kommer ' t passar bättre, dess poäng är att markera observationer som förmodligen inte ' t passar noll (men inte nödvändigtvis; kan vara en outlier). Omvänt måste jag av praktiska skäl anta att alla andra observationer (som inte avvisar nollan) antyder " distributionen är förmodligen (men inte nödvändigtvis; kan vara en outlier ) enhetlig ".
  • Jag ' jag bara påpekar att det inte finns en " kanske " mellanliggande mark i ett antingen-eller-test, och antingen avvisar eller underlåter att avvisa antyder att någon hypotes är sant. Och att ändra konfidensnivån ändrar bara förhållandet mellan falska positiva och falska negativ.
  • Om antalet frihetsgrader är ' ' mycket stort ' ' då kan $ \ chi ^ 2 $ approximeras med en normal slumpmässig variabel.

Svar

En chi-kvadrat med stora frihetsgrader $ \ nu $ är ungefär normalt med genomsnittlig $ \ nu $ och varians $ 2 \ nu $.

I detta fall är tio miljarder frihetsgrader gott; om du inte är intresserad av hög noggrannhet vid extrema p-värden (väldigt långt från 0,05), kommer den normala approximationen av chi-kvadraten att vara bra.

Här är en jämförelse på bara $ \ nu = 2 ^ {12} $ – du kan se att den normala approximationen (prickad blå kurva) nästan inte går att skilja från chi-kvadraten (solid mörkröd kurva).

ange bildbeskrivning här

Uppskattningen är långt bättre på mycket större df.

Kommentarer

  • Att ' en graf på $ x ^ 2 $ och inte $ x $, eller hur? Och med så små p-värden, vilken konfidensnivå ska jag välja?
  • Ritningen är helt enkelt densiteten för en chi-kvadrat slumpmässig variat ($ X $), vilken densitet är en funktion av $ x $ .Du ' gör ett hypotesprov så att du inte ' inte har en konfidensnivå. Du har visserligen en signifikansnivå men du ' väljer inte att efter du ser ett p-värde, du väljer det innan du börjar.
  • Ja, det är grafen i PDF-filen för distributionen $ x ^ 2_k $. Med tanke på namnet Pearson ' s teststatistik ($ x ^ 2 $) var jag inte ' inte säker på om $ x $ refererar till x-axel (i vilket fall jag bör ta kvadratroten av statistiken först) eller distributionsnamnet (i vilket fall statistiken mappar direkt till axeln). Empirisk testning av $ \ text {p-värde} = 1 – CDF $ jämfört med tabeller bekräftar den senare.
  • P-värdet på $ x ^ 2_k $ beräknas via CDF med: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, vilket innebär beräkning av en effektserie med extremt stort antal.
  • Vid stora k-värden ungefär $ x ^ 2_k $ -fördelningarna normalfördelningen, så CDF för den normala distribution används: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ enligt beskrivningen av svaret ($ \ sigma $ och $ \ mu $ ersatta efter behov). Det handlar också om att beräkna en kraftserie , även om mindre antal är inblandade och erf är en standardkomponent i många standardbibliotek.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *