Jag har 100 50×50 korrelationsmatriser, som jag har alla Fisher z-transformerade. Jag förstod att detta resulterar i att alla poster i en matris är ungefärligt normalfördelade.
Frågor
-
Nu läste jag någonstans att detta också betyder att om vi tar en del (i, j) av alla matriser (så till exempel inmatning (5, 12) för matris1, matris2, …, matris100), är dessa värden också normalt fördelade. Är detta sant, och i så fall – varför?
-
Jag vill klassificera dessa 100 matriser i två grupper. Klassificeringen förutsätter att data från varje grupp normalt distribueras. Innebär Fisher z-transformation det? Alternativt skulle det faktum att varje post (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, antyder att matriserna för varje grupp är normalt fördelade?
Svar
Fisher z-transformation garanterar inte en normalfördelning; i synnerhet inte inom en korrelationsmatris som använder olika variabler.
- var och en av dina 50 inmatningsvariabler $ X_1 … X_ {50} $ måste distribueras normalt
- om du upprepade gånger drar exempel från två variabler $ i $ och $ j $ från samma distributioner: $ Y_i \ sim X_i $ och $ Y_j \ sim X_j $ från dessa distributioner, då kommer de transformerade korrelationskoefficienterna $ \ {f_z (\ rho_ {ij}) \} $ att vara ungefär normalt fördelade.
Så om dina 100 korrelationsmatriser härrör från samma fördelning (och det har inte förändrats däremellan), bör värdena för varje cell vara ungefär normalt fördelade. Men om du har två klasser, antar detta antagande troligen inte och posten kommer inte att distribueras normalt längre.
Nyckelpunkten är att du behöver många uppsättningar av prover som tagits från samma distribution. Syftet med Fisher-omvandlingen är att uppskatta konfidensintervall för korrelationskoefficienten . Eftersom den (otransformerade) korrelationskoefficienten begränsas av $ -1 … + 1 $ kan den inte distribueras normalt; men med Fisher-transformationen kan du ändå använda den kända statistiken för normala fördelningar.
Så antar att du vill uppskatta korrelationen mellan höjd och vikt (förutsatt att båda är normalt fördelade!) . Du kan ta ett enda prov och beräkna korrelationen – men hur stora är dina felgränser för korrelationen? Istället kan du ta 100 oberoende prover, för var och en av dem beräknar korrelationen, Fisher transformerar korrelationen, uppskattar normalfördelningsfelen och transformerar dessa tillbaka. Då kan du få en genomsnittlig korrelation mellan de två variablerna och ett konfidensintervall.
Kommentarer
- Tack! Så raderna och kolumnerna i matriserna (som är uppenbara är naturligtvis) är gemensamt normalt fördelade – därav följer din första punkt att X1, .., X50 är (marginellt) normala. Förstår jag din andra punkt korrekt: Om jag samplar säg från X_1 och X_10, även om det här är två normala fördelningar med olika parametrar, skulle de (upprepade gånger) samplade uppgifterna vara ca. vanligt? Om emellertid X_1 och X_10 från olika matriser har olika normalfördelningar, gäller detta inte (?). Thx!
- Faktiskt. Det ' är bokstavligen detsamma som att dra från olika normala distributioner. Om jag har en normalfördelning som rör sig över tiden och jag samplar vid olika tidpunkter, blir den resulterande totala informationen ' inte nödvändigtvis normalfördelad.
- Jag har en annan relaterad fråga: Om jag vet att proverna (i, j) från X_i, X_j av alla de 100 matriserna är ungefär normalfördelade – innebär det att X_i, X_j av alla dessa 100 följer samma (normala) distribution?
- Nej. Alla korrelationer kan vara normalfördelade runt 0, dvs inte korrelerade i genomsnitt.