chi carré avec trop de degrés de liberté

Jai un générateur de nombres aléatoires tiers avec une période approximativement supérieure à 63 $ * (2 ^ {63} – 1) $ qui génère des nombres dans lintervalle $ [0,2 ^ {32} -1] $, soit $ 2 ^ {32} $ nombres différents. Jai fait quelques légères modifications et je souhaite vérifier que sa distribution reste uniforme. Jutilise le test du chi carré de Pearson pour lajustement dune distribution, espérons-le correctement, sans en savoir grand-chose:

Divisez 1000 $ * 2 ^ {32} $ observations sur $ 2 ^ {32} $ cellules discrètes différentes (je suppose que le nombre dobservations $ n $ devrait être de 5 $ * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} – 1) $, ou, $ 5 * \ text {range} \ lt n \ lt \ text {périodicité} $, en utilisant la règle des cinq ou plus, pour gagner une confiance décente). La fréquence théorique attendue $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.
la réduction en degrés de liberté est de 1.
$ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.
degrés de liberté = 2 $ ^ {32} – 1 $.
rechercher la valeur p dun chi -squared ($ x ^ 2 $) avec $ 2 ^ {32} – 1 $ degrés de liberté.

Pour autant que je sache, aucune distribution chi-carré nexiste pour autant de degrés de liberté. Que dois-je faire?
sélectionner une valeur de signification de ~~confiance~~ $ c $ telle que $ p > c $ signifie que la distribution est probablement uniforme. Jai une grande taille déchantillon, mais comme je ne suis pas sûr de sa relation avec la valeur p (un échantillonnage accru réduit les erreurs, mais la valeur de signification représente un rapport entre les types derreurs), je pense que je vais simplement men tenir à la valeur standard 0,05. / p>

Modifier: questions réelles en italique ci-dessus et énumérées ci-dessous:

Comment obtenir un p -value?
Comment sélectionner une valeur de signification?

Modifier:

Jai posé une question complémentaire à qualité dajustement du chi carré: taille et puissance de leffet .

Commentaires

Il existe une distribution chi carré pour tout degré de liberté positif. Voulez-vous dire " Je peux ' t trouver des tables pour un très grand df " ou " certains fonction que je veux appeler a gagné ' t prendre des arguments aussi grands " ou autre chose? que le fait de ne pas rejeter la valeur nulle ne ' t en soi implique que " la distribution est probablement uniforme "
Je peux ' t trouver des tables pour un très grand df
Isn ' y a-t-il peu de différence entre les deux? Une valeur de p reflète ladéquation de la valeur nulle, et bien quelle ne ' t implique quune autre hypothèse ne correspond pas ' t mieux, son point est de mettre en évidence les observations qui ne correspondent probablement pas ' à la valeur nulle (mais pas nécessairement; cela pourrait être une valeur aberrante). Donc, à linverse, pour des raisons pratiques, je dois supposer que toutes les autres observations (à défaut de rejeter la valeur nulle) impliquent " que la distribution est probablement (mais pas nécessairement; pourrait être une valeur aberrante ) uniforme ".
Je ' m indiquant simplement quil ny a pas de " peut-être " un terrain dentente dans un test soit-ou, ni le rejet ou léchec de rejet nimplique aucune hypothèse est vraie. Et changer le niveau de confiance ne fait que modifier le rapport des faux positifs et des faux négatifs.
Si le nombre de degrés de liberté est ' ' très grand ' ' alors $ \ chi ^ 2 $ peut être approximé par une variable aléatoire normale.

Réponse

Un chi carré avec de grands degrés de liberté $ \ nu $ est approximativement normal avec une moyenne $ \ nu $ et la variance $ 2 \ nu $.

Dans ce cas, dix milliards de degrés de liberté suffisent; à moins que vous ne soyez intéressé par une précision élevée à des valeurs p extrêmes (très éloignées de 0,05), lapproximation normale du chi carré conviendra.

Voici « une comparaison à un simple $ \ nu = 2 ^ {12} $ – vous pouvez voir que lapproximation normale (courbe bleue pointillée) est presque impossible à distinguer du chi carré (courbe rouge foncé solide).

Lapproximation est loin mieux avec un df beaucoup plus grand.

Commentaires

Que ' est un graphique de $ x ^ 2 $ et pas $ x $, non? Et avec de si petites valeurs p, quel niveau de confiance dois-je choisir?
Le dessin est simplement la densité dune variable aléatoire chi-carré ($ X $), laquelle densité est une fonction de $ x $ .Vous ' faites un test dhypothèse, donc vous navez ' pas un niveau de confiance. Vous avez un niveau de signification mais vous ne choisissez ' que après que vous voyez une valeur p, vous choisissez cela avant de commencer.
Oui, cest le graphique du PDF de la distribution $ x ^ 2_k $. Étant donné le nom de la statistique de test de Pearson ' ($ x ^ 2 $), je n’étais ' pas sûr que $ x $ référence le axe des x (dans ce cas, je devrais prendre la racine carrée de la statistique en premier) ou le nom de la distribution (dans ce cas, la statistique correspond directement à laxe). Le test empirique de $ \ text {p-value} = 1 – CDF $ par rapport aux tables confirme ce dernier.
La valeur p de $ x ^ 2_k $ est calculée via le CDF en utilisant: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, ce qui implique le calcul de une série de puissance avec des nombres extrêmement grands.
Aux grandes valeurs k, les distributions $ x ^ 2_k $ se rapprochent de la distribution normale, donc le CDF de la normale distribution est utilisée: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ comme décrit par la réponse ($ \ sigma $ et $ \ mu $ remplacés si nécessaire). Cela implique également de calculer une série de puissance , bien que des nombres plus petits soient impliqués et que erf soit un composant standard de nombreuses bibliothèques standard.

Commentaires

Réponse

Commentaires

Laisser un commentaire Annuler la réponse