Ich habe einen Zufallszahlengenerator eines Drittanbieters mit einem Zeitraum von ungefähr mehr als $ 63 * (2 ^ {63} – 1) $, das Zahlen im Bereich $ [0,2 ^ {32} -1] $ erzeugt, dh $ 2 ^ {32} $ verschiedene Zahlen. Ich habe einige geringfügige Änderungen vorgenommen und möchte überprüfen, ob die Verteilung gleichmäßig bleibt. Ich verwende den Chi-Quadrat-Test von Pearson für die Anpassung einer Verteilung, hoffentlich korrekt, ohne viel darüber zu wissen:

  1. Teilen Sie $ 1000 * 2 ^ {32} $ Beobachtungen auf $ 2 ^ {32} $ verschiedene diskrete Zellen (ich schätze, die Anzahl der Beobachtungen $ n $ sollte $ 5 * 2 ^ {32} \ lt n \ lt 63 * sein) (2 ^ {63} – 1) $ oder $ 5 * \ text {range} \ lt n \ lt \ text {periodicity} $ unter Verwendung der Fünf-oder-mehr-Regel, um ein anständiges Vertrauen zu gewinnen). Die erwartete theoretische Häufigkeit $ E_i = 1000 * 2 ^ {32} / 2 ^ {32} = 1000 $.

  2. Die Verringerung der Freiheitsgrade beträgt 1.

  3. $ x ^ 2 = \ sum_ {i = 0} ^ {2 ^ {32} -1} (O_i – E_i) ^ 2 / E_i $.

  4. Freiheitsgrade = $ 2 ^ {32} – 1 $.

  5. sucht den p-Wert eines Chi -quadratische ($ x ^ 2 $) Verteilung bei $ 2 ^ {32} – 1 $ Freiheitsgraden.

    Soweit ich das beurteilen kann, gibt es für so viele Freiheitsgrade keine Chi-Quadrat-Verteilung. Was soll ich tun?

  6. Wählen Sie einen Konfidenzwert Signifikanzwert $ c $, sodass $ p > c $ bedeutet, dass die Verteilung wahrscheinlich einheitlich ist. Ich habe eine große Stichprobengröße, aber da ich mir nicht sicher bin, in welcher Beziehung sie zum p-Wert steht (eine erhöhte Stichprobe reduziert Fehler, aber der Signifikanzwert stellt ein Verhältnis der Fehlertypen dar), denke ich, dass ich mich nur an den Standardwert 0,05 halten werde / p>

Bearbeiten: aktuelle Fragen oben kursiv und unten aufgezählt:

  1. So erhalten Sie eine p -Wert?
  2. Wie wähle ich einen Signifikanzwert aus?

Bearbeiten:

Ich habe eine Folgefrage bei Chi-Quadrat-Anpassungsgüte: Effektgröße und Leistung gestellt.

Kommentare

  • Für alle positiven Freiheitsgrade gibt es eine Chi-Quadrat-Verteilung. Meinen Sie " Ich kann ' keine Tabellen für wirklich große df " oder " finden Funktion, die ich aufrufen möchte, wird ' keine Argumente annehmen, die groß sind " oder etwas anderes? Hinweis Wenn die Null nicht zurückgewiesen wird, bedeutet dies nicht, dass " die Verteilung wahrscheinlich einheitlich ist. "
  • Ich kann ' keine Tabellen für wirklich große df finden
  • Isn ' Gibt es keinen kleinen Unterschied zwischen den beiden? Ein p-Wert gibt an, wie gut die Null passt, und obwohl sie nicht ' impliziert, dass eine andere Hypothese ' nicht besser passt, ist ihr Punkt soll Beobachtungen hervorheben, die wahrscheinlich nicht ' nicht zur Null passen (obwohl nicht unbedingt; könnte ein Ausreißer sein). Umgekehrt muss ich aus praktischen Gründen davon ausgehen, dass alle anderen Beobachtungen (die die Null nicht ablehnen) implizieren, dass " die Verteilung wahrscheinlich (wenn auch nicht unbedingt; könnte ein Ausreißer sein) ) Uniform ".
  • Ich ' Ich möchte nur darauf hinweisen, dass es keine vielleicht " Mittelweg in einem Entweder-Oder-Test, noch bedeutet das Ablehnen oder Nicht-Ablehnen, dass eine Hypothese wahr ist. Durch Ändern des Konfidenzniveaus wird nur das Verhältnis von falsch positiven und falsch negativen Ergebnissen geändert.
  • Wenn die Anzahl der Freiheitsgrade ' sehr groß ' ' dann kann $ \ chi ^ 2 $ durch eine normale Zufallsvariable angenähert werden.

Antwort

Ein Chi-Quadrat mit großen Freiheitsgraden $ \ nu $ ist ungefähr normal mit dem Mittelwert $ \ nu $ und Varianz $ 2 \ nu $.

In diesem Fall sind zehn Milliarden Freiheitsgrade ausreichend; Wenn Sie nicht an einer hohen Genauigkeit bei extremen p-Werten (sehr weit von 0,05) interessiert sind, ist die normale Annäherung des Chi-Quadrats in Ordnung.

Hier ist ein Vergleich bei nur $ \ nu = 2 ^ {12} $ – Sie können sehen, dass die normale Näherung (gepunktete blaue Kurve) fast nicht vom Chi-Quadrat (durchgezogene dunkelrote Kurve) zu unterscheiden ist.

Geben Sie hier die Bildbeschreibung ein.

Die Annäherung ist weit besser bei viel größerem df.

Kommentare

  • Das ' ist ein Diagramm von $ x ^ 2 $ und nicht $ x $, richtig? Und bei so kleinen p-Werten, welches Konfidenzniveau sollte ich wählen?
  • Die Zeichnung ist einfach die Dichte einer Chi-Quadrat-Zufallsvariablen ($ X $), wobei diese Dichte eine Funktion von $ x $ ist .Sie ' führen einen Hypothesentest durch, sodass Sie ' kein Konfidenzniveau haben. Sie haben zwar ein Signifikanzniveau, aber ' wählen Sie dieses nicht aus, nachdem Sie einen p-Wert sehen, sondern wählen Sie dieses aus, bevor Sie beginnen.
  • Ja, das ist das Diagramm der PDF-Datei der Verteilung $ x ^ 2_k $. Angesichts des Namens der Teststatistik von Pearson ' ($ x ^ 2 $) war ich ' nicht sicher, ob $ x $ auf die verweist x-Achse (in diesem Fall sollte ich zuerst die Quadratwurzel der Statistik ziehen) oder der Verteilungsname (in diesem Fall wird die Statistik direkt auf die Achse abgebildet). Das empirische Testen von $ \ text {p-Wert} = 1 – CDF $ im Vergleich zu Tabellen bestätigt letzteres.
  • Der p-Wert von $ x ^ 2_k $ wird über die CDF berechnet mit: $ 1 – \ frac {1} {\ Gamma (\ frac {k} {2})} * \ gamma (\ frac {k} {2}, \ frac {x} {2}) $, wobei eine Potenzreihe mit extrem großen Zahlen.
  • Bei großen k-Werten nähern sich die Verteilungen $ x ^ 2_k $ der Normalverteilung an, also der CDF der Normalverteilung Verteilung wird verwendet: $ 1 – \ frac {1} {2} \ left [1 + \ text {erf $ \ left (\ frac {x – k} {2 * \ sqrt {k}} \ right) $} \ right ] $ wie in der Antwort beschrieben ($ \ sigma $ und $ \ mu $ werden nach Bedarf ersetzt). Dies beinhaltet auch die Berechnung von einer Potenzreihe , obwohl kleinere Zahlen beteiligt sind und erf eine Standardkomponente vieler Standardbibliotheken ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.