Jeg har 100 50×50 korrelationsmatricer, som jeg alle har Fisher z-transformeret. Jeg forstod, at dette resulterer i, at alle poster i en matrix tilnærmelsesvis er normalfordelt.
Spørgsmål
-
Nu læste jeg et eller andet sted, at dette også betyder, at hvis vi tager en eller anden indgang (i, j) af alle matricer (så for eksempel indgang (5, 12) for matrix1, matrix2, …, matrix100), er disse værdier også normalt fordelt. Er dette sandt, og hvis ja – hvorfor?
-
Jeg vil klassificere disse 100 matricer i to grupper. Klassificeringen forudsætter, at dataene fra hver gruppe normalt distribueres. Indebærer Fisher z-transformation det? Alternativt, ville det faktum, at hver post (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, fra alle matricer, der er normalt distribueret, antyde, at matricerne i hver gruppe er normalt fordelt?
Svar
Fisher z-transformation garanterer ikke en normal fordeling især ikke inden for en korrelationsmatrix, der bruger forskellige variabler.
- hver af dine 50 inputvariabler $ X_1 … X_ {50} $ skal distribueres normalt
- hvis du gentagne gange tegner prøver fra to variabler $ i $ og $ j $ fra de samme distributioner: $ Y_i \ sim X_i $ og $ Y_j \ sim X_j $ fra disse distributioner, så er de transformerede korrelationskoefficienter $ \ {f_z (\ rho_ {ij}) \} $ omtrent normalfordelt.
Så hvis dine 100 korrelationsmatricer stammer fra den samme fordeling (og den ikke har ændret sig imellem), skal værdierne for hver celle være omtrent normalt fordelt. Men hvis du har to klasser, holder denne antagelse sandsynligvis ikke sig, og posten distribueres ikke længere normalt.
Nøglepunktet er, at du har brug for mange sæt prøver taget fra samme distribution. Formålet med Fisher-transformationen er at estimere konfidensintervaller for korrelationskoefficienten . Da den (utransformerede) korrelationskoefficient er afgrænset af $ -1 … + 1 $, kan den ikke distribueres normalt; men ved hjælp af Fisher-transformation kan du alligevel bruge de kendte statistikker til normale fordelinger.
Så antag at du vil estimere sammenhængen mellem højde og vægt (forudsat at begge er normalt fordelt!) . Du kan tage en enkelt prøve og beregne korrelationen – men hvor store er dine fejlgrænser for korrelationen? I stedet kan du tage 100 uafhængige prøver, for hver af dem beregner dens korrelation, Fisher transformerer korrelationen, estimerer de normale fordelingsfejl og transformerer disse tilbage. Derefter kan du få en gennemsnitlig korrelation af de to variabler og et konfidensinterval.
Kommentarer
- Tak! Så matrixernes rækker og søjler (som naturligvis er de samme) er normalt normalfordelt – derfor følger dit første punkt, at X1, .., X50 er (marginalt) normale. Forstår jeg dit andet punkt korrekt: Hvis jeg prøver at sige fra X_1 og X_10, selvom dette er to normale fordelinger med forskellige parametre, ville de (gentagne gange) samplede data være ca. normal? Hvis imidlertid X_1 og X_10 fra forskellige matricer har forskellige normale fordelinger, gælder dette ikke sandt (?). Thx!
- Faktisk. Det ' er bogstaveligt talt det samme som at tegne fra forskellige normale distributioner. Hvis jeg har en normalfordeling, der bevæger sig over tid, og jeg prøver på forskellige tidspunkter, bliver de resulterende samlede data ' ikke nødvendigvis normalfordelt.
- Jeg har et andet relateret spørgsmål: Hvis jeg ved, at prøverne (i, j) fra X_i, X_j af alle de 100 matricer er tilnærmelsesvis normalfordelt – betyder det, at X_i, X_j af alle disse 100 følger det samme (normalt) distribution?
- Nej. Alle korrelationer kunne være normalfordelt omkring 0, dvs. ikke i gennemsnit korreleret.