周期が約$ 63 *(2 ^ {63}を超えるサードパーティの乱数ジェネレーターがあります- 1)$は、$ [0,2 ^ {32} -1] $の範囲の数値、つまり$ 2 ^ {32} $の異なる数値を生成します。少し変更を加えて、分布が均一に保たれていることを確認したいと思います。ピアソンのカイ2乗検定を使用して、分布の適合度を、うまくいけば正しく、あまり知らなくても使用しています。

  1. $ 1000 * 2 ^ {32} $の観測値を$ 2 ^ {32} $の異なる離散セルに分割します(観測値の数$ n $は$ 5 * 2 ^ {32} \ lt n \ lt 63 * (2 ^ {63} -1)$、または$ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $、5つ以上のルールを使用して、適切な信頼を得ます)。予想される理論周波数$ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $。

  2. 自由度の減少は1です。

  3. $ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1}(O_i-E_i)^ 2 / E_i $。

  4. 自由度= $ 2 ^ {32} -1 $。

  5. カイのp値を調べる -$ 2 ^ {32} -1 $の自由度が与えられた場合の2乗($ x ^ 2 $)分布。

    私が知る限り、その多くの自由度に対してカイ2乗分布は存在しません。どうすればよいですか?

  6. confidence 有意値 $ c $を選択して、$ p > c $は、分布がおそらく均一であることを示します。サンプルサイズは大きいですが、p値との関係がわからないため(サンプリングを増やすとエラーは減りますが、有意値はエラーの種類の比率を表します)、標準値0.05に固執すると思います。

編集:上でイタリック体で下に列挙された実際の質問:

  1. pを取得する方法-値?
  2. 有意値を選択する方法は?

編集:

カイ2乗適合度:効果量と検出力でフォローアップの質問をしました。

コメント

  • 正の自由度にはカイ二乗分布が存在します。つまり、" '非常に大きなdf "または"のテーブルが見つかりません呼び出したい関数は、'大きな"などの引数を取りませんか?注nullの拒否に失敗しても、'それ自体は、"分布がおそらく均一であることを意味しません"
  • '非常に大きなdfのテーブルが見つかりません
  • Isn ' 2つの間にほとんど違いはありませんか? p値は、nullがどの程度適合しているかを反映し、'別の仮説が'適合しないことを意味しませんが、そのポイントおそらく' nullに適合しない観測値を強調表示することです(必ずしもそうではありませんが、外れ値である可能性があります)。したがって、逆に、実用性のために、他のすべての観測値(nullの棄却に失敗した)は"分布がおそらく(必ずしもではありませんが、外れ値である可能性があります) )ユニフォーム"。
  • I ' mは、"多分"どちらか一方のテストの中間点であり、拒否することも拒否しないことも、仮説が正しいことを意味するものではありません。また、信頼水準を変更すると、誤検出と誤検出の比率が変更されるだけです。
  • 自由度の数が' 非常に大きい' 'の場合、$ \ chi ^ 2 $は通常の確率変数で近似できます。

回答

自由度が大きいカイ2乗$ \ nu $はほぼ正常で、平均は$ \ nu $分散$ 2 \ nu $。

この場合、100億の自由度で十分です。 「極端なp値(0.05から非常に遠い)での高精度に関心がない限り、カイ2乗の正規近似は問題ありません。

ここでは、単なる$ \ nu =での比較を示します。 2 ^ {12} $-正規近似(青い点線の曲線)は、カイ2乗(濃い赤の実線の曲線)とほとんど区別がつかないことがわかります。

ここに画像の説明を入力してください

概算は遠いですはるかに大きいdfでより良い。

コメント

  • その' $ x ^ 2 $のグラフ$ x $ではありませんよね?そして、このような小さなp値では、どの信頼水準を選択する必要がありますか?
  • 図面は、カイ2乗確率変数($ X $)の密度であり、密度は$ x $の関数です。 。'仮説検定を行っているため、'信頼水準がありません。有意水準はありますが、' p値が表示された後に選択せず、開始する前に選択します。
  • はい、それは$ x ^ 2_k $分布のPDFのグラフです。ピアソンの名前'の検定統計量($ x ^ 2 $)を考えると、' $ x $がx軸(この場合、最初に統計の平方根を取る必要があります)または分布名(この場合、統計は軸に直接マップされます)。テーブルと比較した$ \ text {p-value} = 1-CDF $の経験的テストは後者を確認します。
  • $ x ^ 2_k $のp値は、CDFを介して次を使用して計算されます:$ 1- \ frac {1} {\ Gamma(\ frac {k} {2})} * \ gamma(\ frac {k} {2}、\ frac {x} {2})$、これには非常に大きな数のパワーシリーズ。
  • k値が大きい場合、$ x ^ 2_k $分布は正規分布に近似するため、正規分布のCDF分布が使用されます:$ 1- \ frac {1} {2} \ left [1 + \ text {erf $ \ left(\ frac {x –k} {2 * \ sqrt {k}} \ right)$} \ right ] $は回答で説明されています(必要に応じて$ \ sigma $と$ \ mu $に置き換えられます)。これには、べき級数の計算も含まれますが、含まれる数は少なく、erfは多くの標準ライブラリの標準コンポーネントです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です