Jeg vil teste en prøvekorrelasjon $ r $ for betydning, ved hjelp av p-verdier, det vil si

$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $

Jeg har forstått at jeg kan bruke Fishers z-transform for å beregne dette ved

$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $

og finne p-verdien med

$ p = 2P \ left (Z > z_ {obs} \ right) $

ved bruk av standard normalfordeling.

Spørsmålet mitt er: hvor stor $ n $ skal være for at dette skal være en passende transformasjon? Tydeligvis må $ n $ være større enn 3. Læreboka min nevner ikke noen begrensninger, men på lysbilde 29 av denne presentasjonen står det at $ n $ må være større enn 10. For dataene jeg skal vurdere, vil jeg ha noe sånt som $ 5 \ leq n \ leq 10 $.

Kommentarer

  • Wikipedia-siden viser standardfeilen til $ z_ {obs } $ som er gitt av $ 1 / \ sqrt {N-3} $ hvor $ N $ er prøvestørrelsen. Så du ‘ trenger minst 4 komplette par. Jeg er ikke klar over noen begrensninger utover det som gjelder prøvestørrelse.
  • Ikke sikker på hvor mye jeg skal stole på en presentasjon fra noen som kan ‘ stave sitt eget universitetsnavn. Mer alvorlig, vær oppmerksom på alle råd som innebærer at ting er fine over en viss prøvestørrelse og ellers ille. Det ‘ er et spørsmål om tilnærmingskvalitet som øker jevnt med prøvestørrelsen og også avhengig av fordelingen av dataene. Enkelt råd er å være veldig forsiktig, plotte alt og kryssjekke med bootstrapped konfidensintervaller.
  • Lysbilde 17 beskriver en t-test for spesialtilfellet $ \ rho = 0 $.
  • Koblingen til en presentasjon på courses.education.illinois.edu/EdPsy580/lectures/… er nå brutt ,

Svar

For spørsmål som disse vil jeg bare kjøre en simulering og se om $ p $ – verdier oppfører seg slik jeg forventer at de skal. $ P $ -verdien er sannsynligheten for å tilfeldig tegne et utvalg som avviker minst like mye fra nullhypotesen som dataene du observerte hvis nullhypotesen er sann. Så hvis vi hadde mange slike prøver, og en av dem hadde en $ p $ -verdi på .04, ville vi forvente at 4% av disse prøvene hadde en verdi mindre enn .04. Det samme gjelder for alle andre mulige $ p $ -verdier.

Nedenfor er en simulering i Stata. Grafene sjekker om $ p $ -verdiene måler det de skal måle, det vil si at de viser hvor mye andelen prøver med $ p $ -verdier mindre enn den nominelle $ p $ -verdien avviker fra den nominelle $ p $ -verdi. Som du kan se er testen noe problematisk med så lite antall observasjoner. Hvorvidt det er for problematisk for undersøkelsen din, er ditt skjønn.

clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

skriv inn bildebeskrivelse her

simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

skriv inn bildebeskrivelse her

Kommentarer

  • Prøv å trekke 2,5 i stedet for 3 fra $ n $ :-).

Svar

FWIW Jeg ser anbefalingen $ N \ ge 10 $ i Myers & Vel (forskningsdesign og statistiske analyser, andre utgave, 2003, s. 492). Fotnoten sier:

Strengt tatt er $ Z $ transformasjonen forspent av et beløp $ r / (2 (N-1)) $: se Pearson og Hartley (1954, s. 29). Denne skjevheten vil generelt være ubetydelig med mindre $ N $ er liten og $ \ rho $ er stor, og vi ignorerer den her.

Kommentarer

  • Dette virker som om det er et svar på meg.

Svar

Ikke sikker på om en Fisher $ s $ transform er passende her. For $ H_0: \ rho = 0 $ (NB: nullhypotesen er for populasjonen $ \ rho $, ikke prøven $ r $), samplingsfordelingen av korrelasjonskoeffisienten er allerede symmetrisk, så det er ikke nødvendig å redusere skjevheten, det er det Fishers $ s $ har som mål å gjør, og du kan bruke studentens $ t $ tilnærming.

Forutsatt at du mener $ H_0: \ rho = \ rho_0 \ not = 0 $, vil skjevheten til PDF-filen avhenge av den foreslåtte verdien på $ \ rho_0 $, så det vil da ikke være noe generelt svar på hvor stor $ n $ skal være. Dessuten vil minimumsverdiene på $ n $ avhenge av signifikansnivået $ \ alpha $ som du jobber mot. Du gjorde ikke oppgi verdien.

Nicks poeng er rettferdig: tilnærmingene og anbefalingene fungerer alltid i et grått område.

Hvis Fisher ap tilnærming er god (= symmetrisk) nok, jeg vil bruke den avgrensede $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ som gjelder for $ t $ -fordelinger, hvor $ s $ er prøven standard avvik.Hvis det er nær nok til normalitet, blir dette $ n \ geq (1,96 s / \ epsilon) ^ 2 $.

Kommentarer

  • Jeg tror dette overforenkler » sikte » av Fisher ‘ s $ z $, som delvis er et spørsmål om formål så vel som matematikk. Skjevhet eller ikke er bare en del av bildet; $ z $ forvandler en avgrenset fordeling til en ubegrenset, noe som er viktig for konfidensintervaller. Faktisk vil jeg hevde at med mindre en nullhypotese om null korrelasjon også er det vitenskapelige spørsmålet, er bruken av Fisher ‘ s $ z $ for konfidensintervaller mye mer fruktbar enn å prøve å få en P-verdi.
  • Jeg ‘ m beklager, jeg er ny i Fisher ‘ s $ z $ -transform. Skal jeg bare bruke den hvis jeg vil teste $ H_0: \ rho = \ rho_0 \ neq 0 $? Årsaken til å beregne P-verdier er at jeg vil bruke Holm-Bonferroni-metoden til å kontrollere familiemessig feilrate når jeg gjør flere sammenligninger. Skal jeg heller beregne P-verdier fra en student ‘ s $ t $ fordeling?
  • Spørsmålet er feil vei tror jeg. Fisher ‘ s $ z $ er en bedre metode for konfidensintervaller og for slutning generelt. Jeg antar at den fleste programvare bruker en $ t $ -basert beregning for å teste $ \ rho = 0 $. Hvis du er i tvil, kan det være veldig viktig å vise om bruk av en metode gjør en forskjell for dataene dine. Så hvis metodene er enige, er det ikke noe problem.
  • Du kan lese mer om Fisher ‘ s $ z $ transformasjon her: stata-journal.com/article.html?article=pr0041
  • Ok, takk @NickCox! @Lucozade, hva er $ \ epsilon $ i rammen på $ n $?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *