Vreau să testez o corelație eșantion $ r $ pentru semnificație, folosind valori p, adică

$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $

Am înțeles că pot folosi transformarea z a lui Fisher pentru a calcula acest lucru cu

$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $

și găsirea valorii p cu

$ p = 2P \ left (Z > z_ {obs} \ right) $

utilizând distribuția normală standard.

Întrebarea mea este: cât de mare ar trebui să fie $ n $ pentru ca aceasta să fie o transformare adecvată? Evident, $ n $ trebuie să fie mai mare de 3. Manualul meu nu menționează nicio restricție, dar în diapozitivul 29 din această prezentare se spune că $ n $ trebuie să fie mai mare de 10. Pentru datele pe care le voi lua în considerare, voi avea ceva de genul $ 5 \ leq n \ leq 10 $.

Comentarii

  • pagina Wikipedia enumeră eroarea standard a $ z_ {obs } $ care este dat de $ 1 / \ sqrt {N-3} $ unde $ N $ este dimensiunea eșantionului. Deci, ‘ veți avea nevoie de cel puțin 4 perechi complete. I Nu știu de restricții dincolo de dimensiunea eșantionului.
  • Nu știu cât de mult să aveți încredere într-o prezentare de la cineva care poate ‘ nu scrie propriul nume de universitate. Mai serios, aveți grijă de toate sfaturile care implică faptul că lucrurile sunt bine peste o anumită dimensiune a eșantionului și sunt în caz contrar. ‘ este o chestiune de calitate a aproximării care crește ușor cu dimensiunea eșantionului și, de asemenea, în funcție de distribuția datelor. Sfatul simplu este să fii foarte precaut, să trasezi totul și să verifici încrucișat cu intervale de încredere bootstrappate.
  • Diapozitivul 17 descrie un test t pentru cazul special $ \ rho = 0 $.
  • Link-ul către o prezentare de la courses.education.illinois.edu/EdPsy580/lectures/… este acum rupt ,

Răspuns

Pentru întrebări de genul ăsta, aș rula doar o simulare și aș vedea dacă $ p $ – valorile se comportă așa cum mă aștept. Valoarea $ p $ este probabilitatea de a extrage aleatoriu un eșantion care se abate cel puțin la fel de mult de la ipoteza nulă ca și datele pe care le-ați observat dacă ipoteza nulă este adevărată. Deci, dacă am avea multe astfel de eșantioane și unul dintre ele ar avea o valoare de $ p $ -04, atunci ne-am aștepta ca 4% din aceste eșantioane să aibă o valoare mai mică de 0,04. Același lucru este valabil pentru toate celelalte valori posibile de $ p $.

Mai jos este o simulare în Stata. Graficele verifică dacă valorile $ p $ măsoară ceea ce ar trebui să măsoare, adică arată cât de mult diferă proporția eșantioanelor cu valori $ p $ mai mici decât valoarea nominală $ p $ -valorată de valoarea nominală $ p valoare-$. După cum puteți vedea, testul este oarecum problematic cu un număr atât de mic de observații. Indiferent dacă este sau nu prea problematic pentru cercetarea dvs., este apelul dvs. de judecată.

clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

introduceți descrierea imaginii aici

simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

introduceți descrierea imaginii aici

Comentarii

  • Încercați să scădeți 2,5 în loc de 3 din $ n $ :-).

Răspundeți

FWIW Văd recomandarea $ N \ ge 10 $ în Myers & Ei bine (proiectarea cercetării și analize statistice, ediția a doua, 2003, p. 492). Nota de subsol afirmă:

Strict vorbind, transformarea $ Z $ este influențată de o sumă $ r / (2 (N-1)) $: vezi Pearson și Hartley (1954, p. 29). Această prejudecată va fi în general neglijabilă, cu excepția cazului în care $ N $ este mic și $ \ rho $ este mare și îl ignorăm aici.

Comentarii

  • Acest lucru pare a fi un răspuns pentru mine.

Răspuns

Nu sunt sigur dacă o transformare $ z $ a lui Fisher este adecvată aici. Pentru $ H_0: \ rho = 0 $ (NB: ipoteza nulă este pentru populația $ \ rho $, nu eșantionul $ r $), distribuția eșantionării coeficientului de corelație este deja simetrică, deci nu este nevoie să reduceți asimetria, ceea ce intenționează Fisher $ s $ faceți și puteți utiliza aproximarea $ t $ a studentului.

Presupunând că vrei să spui $ H_0: \ rho = \ rho_0 \ not = 0 $, atunci asimetria PDF-ului respectiv va depinde de valoarea propusă de $ \ rho_0 $, deci atunci nu ar exista un răspuns general cu privire la cât de mare ar trebui să fie $ n $. De asemenea, valorile minime de $ n $ ar depinde de nivelul de semnificație $ \ alpha $ la care lucrați. Nu ați făcut indicați valoarea acestuia.

Punctul lui Nick este unul corect: aproximările și recomandările funcționează întotdeauna într-o zonă gri.

Dacă, atunci, proximitatea este suficient de bună (= simetrică), aș folosi legatul $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ aplicabil distribuțiilor $ t $, unde $ s $ este eșantionul standard deviere.Dacă este suficient de aproape de normalitate, acesta devine $ n \ geq (1.96 s / \ epsilon) ^ 2 $.

Comentarii

  • Cred acest lucru simplifică în exces ” scopul ” al lui Fisher ‘ s $ z $, care este parțial o chestiune de scop, precum și matematică. Asimetria sau nu este doar o parte a imaginii; $ z $ transformă o distribuție mărginită într-una nelimitată, ceea ce este important pentru intervalele de încredere. De fapt, aș argumenta că, cu excepția cazului în care o ipoteză nulă a corelației zero este și problema științifică, utilizarea lui $ ‘ s $ z $ pentru intervale de încredere este mult mai fructuoasă decât încercarea obțineți o valoare P.
  • Îmi pare rău, ‘ îmi pare rău, sunt nou la Fisher ‘ s $ z $ -transform. Ar trebui să-l folosesc numai dacă vreau să testez $ H_0: \ rho = \ rho_0 \ neq 0 $? Motivul pentru calcularea valorilor P este că doresc să folosesc metoda Holm-Bonferroni pentru a controla rata de eroare din punct de vedere familial atunci când fac comparații multiple. Ar trebui să calculez mai degrabă valorile P dintr-o distribuție $ t $ Student ‘?
  • Întrebarea este greșită, cred. Fisher ‘ s $ z $ este o metodă mai bună pentru intervalele de încredere și pentru inferență în general. Cred că majoritatea software-urilor utilizează un calcul bazat pe $ t $ pentru testarea $ \ rho = 0 $. Dacă aveți dubii, ar putea fi cu adevărat important să arătați dacă utilizarea unei metode face diferența pentru datele dvs. Deci, dacă metodele sunt de acord, nu există nicio problemă.
  • Puteți citi mai multe despre Fisher ‘ s $ z $ transformare aici: stata-journal.com/article.html?article=pr0041
  • Ok, mulțumesc @NickCox! @Lucozade, care este $ \ epsilon $ în limita de $ n $?

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *