Minulla on kolmannen osapuolen satunnaislukugeneraattori, jonka jakso on suunnilleen yli $ 63 * (2 ^ {63} – 1) $, joka tuottaa lukuja välillä $ [0,2 ^ {32} -1] $, eli $ 2 ^ {32} $ eri lukuja. Olen tehnyt joitain muutoksia ja haluaisin varmistaa, että sen jakauma pysyy yhtenäisenä. Käytän Pearsonin khi-neliötestiä jakelun sopivuuteen, toivottavasti oikein, tietämättä siitä paljon:
-
Jaa $ 1000 * 2 ^ {32} $ -havaintoja $ 2 ^ {32} $ -erillisiin erillisiin soluihin (luulen, että havaintojen $ n $ pitäisi olla $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $ tai $ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $ käyttämällä vähintään viisi sääntöä saadaksesi kunnollisen luottamuksen). Odotettu teoreettinen taajuus $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
-
Vapausasteiden lasku on 1.
-
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
-
vapausasteet = $ 2 ^ {32} – 1 $.
-
etsi chi: n p-arvo -squared ($ x ^ 2 $) -jakauma antaa $ 2 ^ {32} – 1 $ vapausasteen.
Sikäli kuin voin kertoa, ei chi-neliön jakaumaa ole olemassa niin monelle vapausasteelle. Mitä minun pitäisi tehdä?
-
valitse
luottamusmerkitsevyysarvo $ c $ siten, että $ p > c $ tarkoittaa, että jakauma on todennäköisesti yhtenäinen. Minulla on suuri otoskoko, mutta koska en ole varma sen suhteesta p-arvoon (lisääntynyt otanta vähentää virheitä, mutta merkitsevyysarvo edustaa suhdetta virhetyypeissä), luulen, että pidän vain vakioarvon 0,05 kanssa. / p>
Muokkaa: todelliset kysymykset, jotka on kursivoitu yllä ja lueteltu alla:
- Kuinka saada p -arvo?
- Kuinka valita merkitsevä arvo?
Muokkaa:
Olen esittänyt jatkokysymyksen osoitteessa chi-neliön sopivuus: vaikutuksen koko ja teho .
Kommentit
- Mahdollisille positiivisille vapausasteille on olemassa khi-neliöjakauma. Tarkoitatko " En osaa ' löytää taulukoita todella suurille df " tai " joillekin funktio, jota haluan kutsua, ei voinut ' t ottaa argumentteja, jotka ovat suuria " tai jotain muuta? että nollan hylkääminen ei ' t itsestään tarkoita, että " jakauma on todennäköisesti yhtenäinen "
- En voi ' löytää taulukoita todella suurille df-tiedostoille
- Isn ' onko näiden kahden välillä pieni ero? P-arvo heijastaa sitä, kuinka hyvin nolla sopii, ja vaikka se ei ' t tarkoita, että toinen hypoteesi voitti ' ei sovi paremmin, sen kohta on tuoda esiin havaintoja, jotka todennäköisesti eivät ' sovi nollalle (vaikkakaan ei välttämättä; voi olla poikkeava). Joten päinvastoin, käytännöllisyyden vuoksi minun on oletettava, että kaikki muut havainnot (jollei hylätä nollaa) tarkoittavat " jakelua todennäköisesti (vaikkakaan ei välttämättä; voi olla outlier ) yhtenäinen ".
- I ' m, joka osoittaa vain, että ehkä " keskitie joko-tai testissä, eikä hylkääminen tai hylkäämisen puuttuminen tarkoita, että jokin hypoteesi on totta. Ja luotettavuustason muuttaminen vain muuttaa väärien positiivisten ja väärien negatiivien suhdetta.
- Jos vapausasteiden määrä on ' ' erittäin suuri ' ', sitten $ \ chi ^ 2 $ voidaan arvioida normaalilla satunnaismuuttujalla.
Vastaus
Suuren vapausasteen omaava chi-neliö $ \ nu $ on suunnilleen normaali, kun keskiarvo $ \ nu $ ja varianssi $ 2 \ nu $.
Tässä tapauksessa kymmenen miljardia vapausastetta on paljon; ellei sinua kiinnosta korkea tarkkuus äärimmäisillä p-arvoilla (hyvin kaukana 0,05: stä), chi-neliön normaali likiarvo on hieno.
Tässä vertailu vain $ \ nu = 2 ^ {12} $ – voit nähdä, että normaali likiarvo (pisteviiva käyrä) on melkein erotettavissa chi-neliöstä (kiinteä tummanpunainen käyrä).
Arvio on kaukana parempi paljon suuremmalla df: llä.
Kommentit
- Että ' on kaavio $ x ^ 2 $ eikä $ x $, eikö? Ja kuinka pienten p-arvojen kanssa minun pitäisi valita luottamustaso?
- Piirustus on yksinkertaisesti chi-neliön satunnaismuuttujan tiheys ($ X $), mikä tiheys on funktion $ x $ .' teet hypoteesitestin, joten sinulla ei ole ' luottamustasoa. Sinulla on merkitsevyystaso, mutta et ' valitse, että sen jälkeen kun näet p-arvon, valitset sen ennen aloittamista.
- Kyllä, tämä on kaavio $ x ^ 2_k $ -jakelun PDF-tiedostosta. Annettuani Pearsonin ' testitestin ($ x ^ 2 $) nimen, en ollut ' varma, viittaako $ x $ x-akseli (tällöin minun pitäisi ensin ottaa tilaston neliöjuuri) tai jakelunimi (jolloin tilasto kartoittaa suoraan akselille). $ \ Text {p-value} = 1 – CDF $: n empiirinen testaus taulukoihin nähden vahvistaa jälkimmäisen.
- $ x ^ 2_k $: n p-arvo lasketaan CDF: n avulla: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, johon sisältyy laskenta tehosarja , jossa on erittäin suuria lukuja.
- Suurilla k-arvoilla $ x ^ 2_k $ -jakaumat likimääräistävät normaalijakauman, joten normaalin CDF jakelua käytetään: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ kuten vastaus kuvaa ($ \ sigma $ ja $ \ mu $ korvataan tarvittaessa). Tähän sisältyy myös tehosarjan laskeminen, vaikka mukana on pienempiä lukuja ja erf on vakiokomponentti monissa vakiokirjastoissa.