Ich möchte eine Beispielkorrelation $ r $ auf Signifikanz testen, indem ich p-Werte verwende, dh
$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $
Ich habe verstanden, dass ich die z-Transformation von Fisher verwenden kann, um dies durch
$ z_ {obs} = \ displaystyle \ frac zu berechnen {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $
und Ermitteln des p-Werts durch
$ p = 2P \ left (Z > z_ {obs} \ right) $
unter Verwendung der Standardnormalverteilung.
Meine Frage lautet: Wie groß sollte $ n $ sein, damit dies eine angemessene Transformation darstellt? Offensichtlich muss $ n $ größer als 3 sein. In meinem Lehrbuch werden keine Einschränkungen erwähnt, aber auf Folie 29 von In dieser Präsentation heißt es, dass $ n $ größer als 10 sein muss. Für die Daten, die ich in Betracht ziehen werde, habe ich so etwas wie $ 5 \ leq n \ leq 10 $.
Kommentare
- Die Wikipedia-Seite listet den Standardfehler von $ z_ {obs auf } $, angegeben durch $ 1 / \ sqrt {N-3} $, wobei $ N $ die Stichprobengröße ist. Sie benötigen also ‚ mindestens 4 vollständige Paare. I Ich kenne keine Einschränkungen, die über die Stichprobengröße hinausgehen.
- Ich bin mir nicht sicher, wie sehr ich einer Präsentation von jemandem vertrauen kann, der ‚ kann t buchstabieren ihren eigenen Universitätsnamen. Im Ernst, hüten Sie sich vor allen Ratschlägen, die implizieren, dass die Dinge über einer bestimmten Stichprobengröße in Ordnung sind und ansonsten schlimm. ‚ ist eine Frage der Approximationsqualität, die mit der Stichprobengröße und auch abhängig von der Verteilung der Daten reibungslos zunimmt. Ein einfacher Rat ist, sehr vorsichtig zu sein, alles zu zeichnen und mit Bootstrap-Konfidenzintervallen zu überprüfen.
- Folie 17 beschreibt einen T-Test für den Sonderfall $ \ rho = 0 $.
- Der Link zu einer Präsentation bei Kurse.education.illinois.edu/EdPsy580/lectures/… ist jetzt unterbrochen ,
Antwort
Bei Fragen wie diesen würde ich einfach eine Simulation ausführen und sehen, ob die $ p $ – Werte verhalten sich so, wie ich es erwarte. Der $ p $ -Wert ist die Wahrscheinlichkeit, zufällig eine Stichprobe zu ziehen, die mindestens so stark von der Nullhypothese abweicht wie die Daten, die Sie beobachtet haben, wenn die Nullhypothese wahr ist. Wenn wir also viele solcher Stichproben hätten und eine von ihnen einen $ p $ -Wert von 0,04 hätte, würden wir erwarten, dass 4% dieser Stichproben einen Wert von weniger als 0,04 haben. Gleiches gilt für alle anderen möglichen $ p $ -Werte.
Nachfolgend finden Sie eine Simulation in Stata. Die Grafiken prüfen, ob die $ p $ -Werte messen, was sie messen sollen, dh sie zeigen, um wie viel der Anteil der Stichproben mit $ p $ -Werten unter dem nominalen $ p $ -Wert vom nominalen $ p abweicht $ -Wert. Wie Sie sehen, ist dieser Test bei einer so geringen Anzahl von Beobachtungen etwas problematisch. Ob es für Ihre Forschung zu problematisch ist oder nicht, ist Ihre Entscheidung.
clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
Kommentare
- Versuchen Sie, 2,5 statt 3 von $ n $ zu subtrahieren :-).
Antwort
FWIW Ich sehe die Empfehlung $ N \ ge 10 $ in Myers & Nun (Forschungsdesign und statistische Analysen, zweite Ausgabe, 2003, S. 492). In der Fußnote heißt es:
Genau genommen ist die $ Z $ -Transformation um einen Betrag $ r / (2 (N-1)) $ voreingenommen: siehe Pearson und Hartley (1954, S. 29). Diese Tendenz ist im Allgemeinen vernachlässigbar, es sei denn, $ N $ ist klein und $ \ rho $ ist groß, und wir ignorieren sie hier.
Kommentare
- Dies scheint mir eine Antwort zu sein.
Antwort
Nicht sicher, ob die $ z $ -Transformation eines Fischers hier geeignet ist. Für $ H_0: \ rho = 0 $ (NB: Die Nullhypothese gilt für die Population $ \ rho $, nicht für die Stichprobe $ r $). Die Stichprobenverteilung des Korrelationskoeffizienten ist bereits symmetrisch, sodass die Schiefe nicht verringert werden muss, was das Ziel von Fishers $ z $ ist Wenn Sie dies tun, können Sie die $ t $ -Näherung von Student verwenden.
Angenommen, Sie meinen $ H_0: \ rho = \ rho_0 \ not = 0 $, dann hängt die Schiefe dieser PDF-Datei vom vorgeschlagenen Wert ab von $ \ rho_0 $, daher würde es keine allgemeine Antwort darauf geben, wie groß $ n $ sein sollte. Außerdem würden Mindestwerte von $ n $ von dem Signifikanzniveau $ \ alpha $ abhängen, auf das Sie hinarbeiten. Sie haben es nicht getan Geben Sie den Wert an.
Der Punkt von Nick ist fair: Die Annäherungen und Empfehlungen gelten immer in einer Grauzone.
Wenn dann Ihre Fisher-App Die Annäherung ist gut (= symmetrisch) genug, ich würde das gebundene $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ verwenden, das für $ t $ -Verteilungen gilt, wobei $ s $ der Beispielstandard ist Abweichung.Wenn es nahe genug an der Normalität liegt, wird dies zu $ n \ geq (1,96 s / \ epsilon) ^ 2 $.
Kommentare
- Ich denke Dies vereinfacht das “ Ziel “ von Fisher ‚ s $ z $, das teilweise ist eine Frage des Zwecks sowie der Mathematik. Schiefe oder nicht ist nur ein Teil des Bildes; $ z $ wandelt eine begrenzte Verteilung in eine unbegrenzte um, was für Konfidenzintervalle wichtig ist. In der Tat würde ich argumentieren, dass die Verwendung von Fisher ‚ s $ z $ für Konfidenzintervalle viel fruchtbarer ist als der Versuch, es sei denn, eine Nullhypothese der Nullkorrelation ist auch die wissenschaftliche Frage Erhalte einen P-Wert.
- I ‚ Es tut mir leid, ich bin neu im Fisher ‚ s $ z $ -Transformation. Sollte ich es nur verwenden, wenn ich $ H_0 testen möchte: \ rho = \ rho_0 \ neq 0 $? Der Grund für die Berechnung der P-Werte ist, dass ich die Holm-Bonferroni-Methode verwenden möchte, um die familienbezogene Fehlerrate bei mehreren Vergleichen zu steuern. Sollte ich lieber P-Werte aus der $ t $ -Verteilung eines Schülers ‚ berechnen?
- Frage ist der falsche Weg, denke ich. Fisher ‚ s $ z $ ist eine bessere Methode für Konfidenzintervalle und für Inferenzen im Allgemeinen. Ich denke, die meiste Software verwendet eine auf $ t $ basierende Berechnung zum Testen von $ \ rho = 0 $. Im Zweifelsfall kann es sehr wichtig sein zu zeigen, ob die Verwendung einer Methode einen Unterschied für Ihre Daten darstellt. Wenn die Methoden übereinstimmen, gibt es kein Problem.
- Weitere Informationen zur $ z $ -Transformation von Fisher ‚ finden Sie hier: stata-journal.com/article.html?article=pr0041
- Ok, danke @NickCox! @Lucozade, was ist das $ \ epsilon $ in der Grenze zu $ n $?