Je souhaite tester un exemple de corrélation $ r $ pour la signification, en utilisant des valeurs p, cest-à-dire
$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $
Jai compris que je peux utiliser la transformation z de Fisher pour calculer cela par
$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $
et trouver la valeur p par
$ p = 2P \ left (Z > z_ {obs} \ right) $
en utilisant la distribution normale standard.
Ma question est la suivante: quelle doit être la taille de $ n $ pour que cette transformation soit appropriée? Évidemment, $ n $ doit être supérieur à 3. Mon manuel ne mentionne aucune restriction, mais sur la diapositive 29 de cette présentation dit que $ n $ doit être plus grand que 10. Pour les données que je vais considérer, jaurai quelque chose comme $ 5 \ leq n \ leq 10 $.
Commentaires
- La page Wikipedia répertorie lerreur standard de $ z_ {obs } $ qui est donné par $ 1 / \ sqrt {N-3} $ où $ N $ est la taille de léchantillon. Donc, vous ‘ aurez besoin dau moins 4 paires complètes. I Je nai connaissance daucune restriction autre que celle concernant la taille de léchantillon.
- Je ne sais pas à quel point faire confiance à une présentation de quelquun qui peut ‘ t épeler le nom de leur propre université. Plus sérieusement, méfiez-vous de tous les conseils qui impliquent que les choses vont bien au-dessus dune certaine taille déchantillon et autrement désastreuses. Cest ‘ une question de qualité dapproximation augmentant en douceur avec la taille de léchantillon et aussi en fonction de la distribution des données. Un conseil simple est dêtre très prudent, de tout tracer et de vérifier avec des intervalles de confiance bootstrap.
- La diapositive 17 décrit un test t pour le cas particulier $ \ rho = 0 $.
- Le lien vers une présentation à courses.education.illinois.edu/EdPsy580/lectures/… est maintenant rompu ,
Réponse
Pour des questions comme celles-ci, je lancerais simplement une simulation et verrais si le $ p $ – les valeurs se comportent comme je l’attends. La valeur $ p $ est la probabilité de tirer au hasard un échantillon qui sécarte au moins autant de lhypothèse nulle que les données que vous avez observées si lhypothèse nulle est vraie. Donc, si nous avions de nombreux échantillons de ce type et que lun deux avait une valeur $ p $ de 0,04, nous nous attendrions à ce que 4% de ces échantillons aient une valeur inférieure à 0,04. Il en va de même pour toutes les autres valeurs $ p $ possibles.
Voici une simulation dans Stata. Les graphiques vérifient si les valeurs $ p $ mesurent ce quelles sont censées mesurer, cest-à-dire quils montrent à quel point la proportion déchantillons avec des valeurs $ p $ inférieures à la valeur nominale $ p $ sécarte de la valeur nominale $ p $ -valeur. Comme vous pouvez le voir, ce test est quelque peu problématique avec un si petit nombre dobservations. Que ce soit ou non trop problématique pour votre recherche, cest votre jugement.
clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal))
Commentaires
- Essayez de soustraire 2,5 au lieu de 3 de $ n $ :-).
Réponse
FWIW Je vois la recommandation $ N \ ge 10 $ dans Myers & Well (plan de recherche et analyses statistiques, deuxième édition, 2003, p. 492). La note de bas de page indique:
Strictement parlant, la transformation $ Z $ est biaisée dun montant $ r / (2 (N-1)) $: voir Pearson et Hartley (1954, p. 29). Ce biais sera généralement négligeable sauf si $ N $ est petit et $ \ rho $ est grand, et nous lignorons ici.
Commentaires
- Cela me semble être une réponse.
Réponse
Je ne sais pas si une transformation $ z $ de Fisher est appropriée ici. Pour $ H_0: \ rho = 0 $ (NB: lhypothèse nulle est pour la population $ \ rho $, pas pour léchantillon $ r $), la distribution déchantillonnage du coefficient de corrélation est déjà symétrique, donc pas besoin de réduire lasymétrie, ce que vise $ z $ de Fisher faire, et vous pouvez utiliser lapproximation $ t $ de Student.
En supposant que vous vouliez dire $ H_0: \ rho = \ rho_0 \ not = 0 $, alors lasymétrie de ce PDF dépendra de la valeur proposée de $ \ rho_0 $, il ny aurait donc pas de réponse générale sur la taille de $ n $. De plus, les valeurs minimales de $ n $ dépendraient du niveau de signification $ \ alpha $ vers lequel vous travaillez. Vous navez pas indiquez sa valeur.
Le point de Nick est juste: les approximations et les recommandations fonctionnent toujours dans une zone grise.
Si, alors, votre Fisher ap la proximité est assez bonne (= symétrique), jutiliserais la borne $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ applicable aux $ t $ -distributions, où $ s $ est lexemple standard déviation.Sil est suffisamment proche de la normalité, cela devient $ n \ geq (1.96 s / \ epsilon) ^ 2 $.
Commentaires
- Je pense cela simplifie à lextrême le » objectif » de Fisher ‘ s $ z $, qui est en partie une question de but ainsi que de mathématiques. Lasymétrie ou non nest quune partie de limage; $ z $ transforme une distribution bornée en une distribution illimitée, ce qui est important pour les intervalles de confiance. En fait, je dirais quà moins quune hypothèse nulle de corrélation nulle soit aussi la question scientifique, lutilisation de $ z $ de Fisher ‘ pour les intervalles de confiance est beaucoup plus fructueuse que dessayer de obtenir une valeur P.
- Je ‘ m désolé, je suis nouveau dans le Fisher ‘ s $ z $ -transform. Dois-je lutiliser uniquement si je veux tester $ H_0: \ rho = \ rho_0 \ neq 0 $? La raison du calcul des valeurs P est que je souhaite utiliser la méthode Holm-Bonferroni pour contrôler le taux derreur au niveau de la famille lors de comparaisons multiples. Dois-je plutôt calculer les valeurs P à partir dune distribution de $ t $ détudiant ‘?
- La question est dans le mauvais sens, je pense. Fisher ‘ s $ z $ est une meilleure méthode pour les intervalles de confiance et pour linférence en général. La plupart des logiciels, je suppose, utilisent un calcul basé sur $ t $ pour tester $ \ rho = 0 $. En cas de doute, il peut être très important de montrer si lutilisation dune méthode fait une différence pour vos données. Donc, si les méthodes sont daccord, il ny a pas de problème.
- Vous pouvez en savoir plus sur la transformation $ z $ de Fisher ‘ ici: stata-journal.com/article.html?article=pr0041
- Ok, merci @NickCox! @Lucozade, quel est le $ \ epsilon $ dans la borne sur $ n $?