Voglio testare una correlazione campione $ r $ per la significatività, utilizzando i valori p, ovvero

$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $

Ho capito che posso usare la trasformazione z di Fisher per calcolarlo

$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $

e trovare il valore p con

$ p = 2P \ left (Z > z_ {obs} \ right) $

utilizzando la distribuzione normale standard.

La mia domanda è: quanto dovrebbe essere grande $ n $ perché questa sia una trasformazione appropriata? Ovviamente, $ n $ deve essere maggiore di 3. Il mio libro di testo non menziona alcuna restrizione, ma nella diapositiva 29 di questa presentazione dice che $ n $ deve essere maggiore di 10. Per i dati che prenderò in considerazione, avrò qualcosa come $ 5 \ leq n \ leq 10 $.

Commenti

  • La pagina di Wikipedia elenca lerrore standard di $ z_ {obs } $ che è dato da $ 1 / \ sqrt {N-3} $ dove $ N $ è la dimensione del campione. Quindi ‘ avrai bisogno di almeno 4 coppie complete. I non sono a conoscenza di alcuna restrizione oltre a quella relativa alla dimensione del campione.
  • Non sono sicuro di quanto fidarsi di una presentazione di qualcuno che può ‘ t scrivi il nome delluniversità. Più seriamente, fai attenzione a tutti i consigli che implicano che le cose vanno bene al di sopra di una certa dimensione del campione e altrimenti. ‘ è una questione di qualità dellapprossimazione che aumenta gradualmente con la dimensione del campione e anche a seconda della distribuzione dei dati. Un semplice consiglio è di essere molto cauti, tracciare tutto e fare un controllo incrociato con intervalli di confidenza bootstrap.
  • La diapositiva 17 descrive un test t per il caso speciale $ \ rho = 0 $.
  • Il link a una presentazione in course.education.illinois.edu/EdPsy580/lectures/… è ora interrotto ,

Risposta

Per domande come queste, vorrei semplicemente eseguire una simulazione e vedere se $ p $ – i valori si comportano come mi aspetto che facciano. Il valore $ p $ è la probabilità di estrarre in modo casuale un campione che devia dallipotesi nulla almeno quanto i dati che hai osservato se lipotesi nulla è vera. Quindi, se avessimo molti di questi campioni e uno di essi avesse un valore $ p $ di 0,04, allora ci aspetteremmo che il 4% di quei campioni avesse un valore inferiore a 0,04. Lo stesso vale per tutti gli altri possibili valori $ p $.

Di seguito è riportata una simulazione in Stata. I grafici controllano se i valori $ p $ misurano ciò che dovrebbero misurare, ovvero mostrano quanto la proporzione di campioni con valori $ p $ inferiori al valore $ p $ nominale devia dal valore $ p nominale $ -valore. Come puoi vedere, questo test è alquanto problematico con un numero così ridotto di osservazioni. Che sia o meno troppo problematico per la tua ricerca è il tuo giudizio.

clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

inserisci qui la descrizione dellimmagine

simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

inserisci qui la descrizione dellimmagine

Commenti

  • Prova a sottrarre 2,5 invece di 3 da $ n $ :-).

Risposta

FWIW Vedo la raccomandazione $ N \ ge 10 $ in Myers & Bene (disegno della ricerca e analisi statistiche, seconda edizione, 2003, p. 492). La nota a piè di pagina afferma:

In senso stretto, la trasformazione $ Z $ è influenzata da un importo $ r / (2 (N-1)) $: vedere Pearson e Hartley (1954, p. 29). Questo bias sarà generalmente trascurabile a meno che $ N $ sia piccolo e $ \ rho $ sia grande, e qui lo ignoriamo.

Commenti

  • Mi sembra che sia una risposta.

Risposta

Non sono sicuro che una trasformazione $ z $ di Fisher sia appropriata qui. Per $ H_0: \ rho = 0 $ (NB: lipotesi nulla è per la popolazione $ \ rho $, non per il campione $ r $), la distribuzione campionaria del coefficiente di correlazione è già simmetrica, quindi non è necessario ridurre lasimmetria, che è ciò a cui Fisher “$ z $ mira fare, e puoi usare lapprossimazione s $ t $ di Student.

Supponendo che tu intenda $ H_0: \ rho = \ rho_0 \ not = 0 $, allora lasimmetria di quel PDF dipenderà dal valore proposto di $ \ rho_0 $, quindi non ci sarebbe una risposta generale su quanto dovrebbe essere grande $ n $. Inoltre, i valori minimi di $ n $ dipenderanno dal livello di significatività $ \ alpha $ verso cui stai lavorando. Non lhai fatto dichiararne il valore.

Il punto di vista di Nick è giusto: le approssimazioni e le raccomandazioni operano sempre in una zona grigia.

Se, allora, il tuo app di Fisher la prossimità è abbastanza buona (= simmetrica), userei il limite $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ applicabile a $ t $ -distribuzioni, dove $ s $ è lo standard campione deviazione.Se è abbastanza vicino alla normalità, diventa $ n \ geq (1.96 s / \ epsilon) ^ 2 $.

Commenti

  • Penso questo semplifica eccessivamente l ” obiettivo ” di Fisher ‘ s $ z $, che è in parte una questione di scopo oltre che di matematica. Lasimmetria o meno è solo una parte dellimmagine; $ z $ trasforma una distribuzione limitata in una illimitata, che è importante per gli intervalli di confidenza. In effetti, direi che, a meno che unipotesi nulla di correlazione zero sia anche la questione scientifica, luso di Fisher ‘ s $ z $ per gli intervalli di confidenza è molto più fruttuoso del tentativo di ottenere un valore P.
  • I ‘ scusa, sono nuovo di Fisher ‘ s $ z $ -transform. Dovrei usarlo solo se voglio testare $ H_0: \ rho = \ rho_0 \ neq 0 $? Il motivo per il calcolo dei valori P è che desidero utilizzare il metodo Holm-Bonferroni per controllare il tasso di errore familiare quando si eseguono confronti multipli. Dovrei piuttosto calcolare i valori P da una ‘ s $ t $ distribuzione?
  • La domanda è nel verso sbagliato, credo. Fisher ‘ s $ z $ è un metodo migliore per gli intervalli di confidenza e per linferenza in generale. La maggior parte del software, immagino, utilizza un calcolo basato su $ t $ per testare $ \ rho = 0 $. In caso di dubbio potrebbe essere davvero importante mostrare se lutilizzo di un metodo fa la differenza per i tuoi dati. Quindi, se i metodi sono daccordo, non ci sono problemi.
  • Puoi leggere ulteriori informazioni sulla ‘ s $ z $ trasformazione di Fisher qui: stata-journal.com/article.html?article=pr0041
  • Ok, grazie @NickCox! @Lucozade, qual è $ \ epsilon $ nel limite di $ n $?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *