Jeg har 100 50×50 korrelasjonsmatriser, som jeg har alle Fisher z-transformert. Jeg forsto at dette resulterer i at alle oppføringene til en matrise blir omtrent normalfordelt.

Spørsmål

  • Nå leste jeg et sted, at dette også betyr at hvis vi tar noen oppføring (i, j) av alle matriser (så for eksempel oppføring (5, 12) for matrise1, matrise2, …, matrise100), blir disse verdiene også normalt fordelt. Er dette sant, og i så fall – hvorfor?

  • Jeg vil klassifisere disse 100 matrisene i to grupper. Klassifiseringen forutsetter at dataene fra hver gruppe er normalt distribuert. Innebærer Fisher z-transformasjon det? Alternativt, ville det faktum at hver oppføring (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, fra alle matriser som er normalt distribuert, innebære at matrisene til hver gruppe er normalt distribuert?

Svar

Fisher z-transformasjon garanterer ikke en normalfordeling; spesielt ikke innenfor en korrelasjonsmatrise som bruker forskjellige variabler.

  • hver av dine 50 inngangsvariabler $ X_1 … X_ {50} $ må være normalt distribuert
  • hvis du gjentatte ganger tegner eksempler fra to variabler $ i $ og $ j $ fra de samme distribusjonene: $ Y_i \ sim X_i $ og $ Y_j \ sim X_j $ fra disse distribusjonene, vil de transformerte korrelasjonskoeffisientene $ \ {f_z (\ rho_ {ij}) \} $ være omtrent normalfordelt.

Så hvis de 100 korrelasjonsmatrisene dine stammer fra den samme fordelingen (og den har ikke endret seg i mellom), bør verdiene til hver celle være omtrent normalfordelt. Men hvis du har to klasser, holder antagelsen sannsynligvis ikke , og oppføringen blir ikke normalt distribuert lenger.

Nøkkelpunktet er at du trenger mange sett med prøver hentet fra samme distribusjon. Formålet med Fisher-transformasjonen er å estimere konfidensintervaller av korrelasjonskoeffisienten . Siden den (ikke-transformerte) korrelasjonskoeffisienten er avgrenset av $ -1 … + 1 $, kan den ikke distribueres normalt; men ved å bruke Fisher-transformasjonen kan du likevel bruke den kjente statistikken for normale fordelinger.

Så antar at du vil estimere korrelasjonen mellom høyde og vekt (forutsatt at begge er normalt fordelt!) . Du kan ta et enkelt utvalg og beregne korrelasjonen – men hvor store er feilgrensene dine på korrelasjonen? I stedet kan du ta 100 uavhengige prøver, for hver av dem beregner korrelasjonen, Fisher transformerer korrelasjonen, estimerer normalfordelingsfeilene og transformerer disse tilbake. Da kan du få en gjennomsnittlig korrelasjon av de to variablene og et konfidensintervall.

Kommentarer

  • Takk! Så radene og kolonnene i matrisene (som er åpenbart de samme) er normalt normalfordelt – derav ditt første punkt om at X1, .., X50 er (marginalt) normale følger. Forstår jeg det andre punktet ditt riktig: Hvis jeg prøver å si fra X_1 og X_10, selv om dette er to normale distribusjoner med forskjellige parametere, vil dataene (flere ganger) samplet være ca. normal? Hvis imidlertid X_1 og X_10 fra forskjellige matriser har forskjellige normalfordelinger, gjelder ikke dette (?). Thx!
  • Faktisk. Det ' er bokstavelig talt det samme som å tegne fra forskjellige normale distribusjoner. Hvis jeg har en normalfordeling som beveger seg over tid, og jeg prøver på forskjellige tidspunkter, vil de resulterende totale dataene ' ikke nødvendigvis være normalfordelt.
  • Jeg har et annet beslektet spørsmål: Hvis jeg vet at prøvene (i, j) fra X_i, X_j av alle de 100 matrisene er tilnærmet normalfordelt – betyr det at X_i, X_j av alle disse 100 følger det samme (normalt) distribusjon?
  • Nei Alle sammenhenger kan være normalfordelt rundt 0, dvs. ikke korrelert i gjennomsnitt.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *