chi-négyzet túl sok szabadságfokkal

Van egy harmadik féltől származó véletlenszám-generátorom, amelynek időszaka körülbelül 63 dollárnál nagyobb * (2 ^ {63} – 1) $, amely a $ [0,2 ^ {32} -1] $ tartományban lévő számokat generál, azaz $ 2 ^ {32} $ különböző számokat. Végeztem néhány apró módosítást, és szeretném ellenőrizni, hogy az eloszlása egységes marad-e. Remélhetőleg helyesen, Pearson khi-négyzet tesztjét használom egy disztribúció illeszkedésére, anélkül, hogy sokat tudnék róla:

Oszd meg a $ 1000 * 2 ^ {32} $ megfigyeléseket $ 2 ^ {32} $ különböző különálló cellákon (úgy gondolom, hogy a $ n $ megfigyelések száma $ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, vagy, $ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $, az öt vagy több szabály használatával, a megfelelő bizalom megszerzéséhez). A várható elméleti gyakoriság $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
A szabadság fokainak csökkenése 1.
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
szabadságfok = $ 2 ^ {32} – 1 $.
keres egy chi p-értékét -squared ($ x ^ 2 $) eloszlás adott $ 2 ^ {32} – 1 $ szabadságfokot.

Amennyire meg tudom mondani, ennyi szabadságfokra nincs khi-négyzet eloszlás. Mit kell tennem?
válasszon egy ~~magabiztosság~~ jelentőségi értéket $ c $, hogy $ p > c $ azt jelenti, hogy az eloszlás valószínűleg egyenletes. Nagy mintaméretem van, de mivel nem vagyok biztos abban, hogy kapcsolatban áll-e a p-értékkel (a megnövekedett mintavétel csökkenti a hibákat, de a szignifikancia értéke a hibatípusok arányát képviseli), azt hiszem, “csak ragaszkodni fogok a standard 0,05 értékhez. / p>

Szerkesztés: a fent dőlt betűvel felsorolt és az alábbiakban felsorolt aktuális kérdések:

p érték?
Hogyan válasszuk ki a jelentőségi értéket?

Szerkesztés:

Utána következő kérdést tettem fel a chi-négyzet alakú illeszkedés: effektus mérete és ereje .

Megjegyzések

A khi-négyzet eloszlás létezik a szabadság minden pozitív fokán. Arra gondolsz, hogy " Nem találok táblákat igazán nagy df " vagy " táblákhoz A hívni kívánt függvény nem nyert ' t olyan argumentumokat, amelyek nagyok " vagy valami mást? hogy a null elutasítása nem jelenti önmagában ' t azt, hogy " az eloszlás valószínűleg egyenletes "
Nem találok ' táblákat igazán nagy df esetén
Isn ' t kevés különbség van a kettő között? A p-érték azt tükrözi, hogy a null mennyire jól illeszkedik, és bár nem ' nem jelenti azt, hogy egy másik hipotézis nyert ' nem fog jobban illeszkedni, annak pontja kiemelni azokat a megfigyeléseket, amelyek valószínűleg nem ' illeszkednek a nullához (bár nem feltétlenül; kiugró lehet). Tehát fordítva, a gyakorlatiasság kedvéért azt kell feltételeznem, hogy az összes többi megfigyelés (a null elutasításának elmulasztása esetén) " re utal, hogy az eloszlás valószínűleg (bár nem feltétlenül; kiugró lehet ) uniform ".
I ' m csak rámutatok, hogy nincs " talán " középút egy vagy a tesztben, és sem az elutasítás, sem az elutasítás elmulasztása nem jelenti azt, hogy bármilyen hipotézis igaz lenne. A megbízhatósági szint megváltoztatása pedig csak a hamis pozitív és a hamis negatív arányát változtatja meg.
Ha a szabadság fokozatainak száma ' ' nagyon nagy ' ', akkor a $ \ chi ^ 2 $ megközelíthető normál véletlenszerű változóval.

Válasz

A nagyfokú $ \ nu $ chi-négyzet megközelítőleg normális, átlagosan $ \ nu $ és a variancia $ 2 \ nu $.

Ebben az esetben tízmilliárd szabadságfok bőven elég; hacsak nem érdekel a nagy pontosság extrém p-értékeknél (nagyon távol a 0,05-től), a chi-négyzet normál közelítése rendben lesz.

Itt összehasonlítás csupán $ \ nu = 2 ^ {12} $ – láthatja, hogy a normális közelítés (pontozott kék görbe) szinte megkülönböztethetetlen a chi-négyzettől (egyszínű sötétvörös görbe).

A közelítés messze van jobb sokkal nagyobb df-nél.

Hozzászólások

Ez ' a $ x ^ 2 $ grafikonja és nem $ x $, igaz? És ilyen kicsi p-értékek esetén milyen megbízhatósági szintet válasszak?
A rajz egyszerűen egy chi-négyzet véletlenszerű variáns sűrűsége ($ X $), amely sűrűség $ x $ függvénye .' hipotézis tesztet hajt végre, ezért nincs ' nincs megbízhatósági szintje. Van jelentőségi szintje, de nem ' nem választja ki, hogy miután lát egy p-értéket, ezt meg kell választania, mielőtt elkezdené.
Igen, ez a $ x ^ 2_k $ terjesztés PDF-jének grafikonja. A Pearson ' s tesztstatisztika ($ x ^ 2 $) nevére tekintettel nem voltam ' biztos abban, hogy $ x $ hivatkozik-e a x tengely (ebben az esetben először a statisztika négyzetgyökét kell vennem) vagy az eloszlás neve (ebben az esetben a statisztika közvetlenül a tengelyhez térképez). A $ \ text {p-value} = 1 – CDF $ empirikus tesztelése a táblázatokhoz képest megerősíti az utóbbit.
Az $ x ^ 2_k $ p-értékét a CDF segítségével számítják ki: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, amely a egy hatványsor , rendkívül nagy számokkal.
Nagy k-értékek esetén az $ x ^ 2_k $ eloszlások közelítik a normális eloszlást, tehát a normális CDF disztribúciót használunk: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ a válasz által leírt módon ($ \ sigma $ és $ \ mu $ helyettesítve szükség szerint). Ez magában foglalja a hatványsorozat kiszámítását is, bár kisebb számokról van szó, és az erf számos standard könyvtár standard eleme.

Megjegyzések

Válasz

Hozzászólások

Vélemény, hozzászólás? Kilépés a válaszból