Mám 100 50×50 korelačních matic, které mám všechny Fisherovy z transformované. Pochopil jsem, že to má za následek, že všechny položky jedné matice jsou přibližně normálně distribuovány.

Dotazy

  • Nyní jsem někde četl, že to také znamená, že pokud vezmeme nějaký záznam (i, j) z všech matice (tedy například položka (5, 12) pro matici1, matici2, …, matici100), jsou tyto hodnoty také normálně distribuovány. Je to pravda, a pokud ano – proč?

  • Chci rozdělit těchto 100 matic do dvou skupin. Klasifikace předpokládá, že data z každé skupiny jsou normálně distribuována. Znamená to Fisherova transformace z? Jinak by skutečnost, že každá položka (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, ze všech matic, které jsou normálně distribuovány, znamenala, že matice každé skupiny jsou normálně distribuovány?

Odpověď

Fisherova transformace nezaručuje normální rozdělení; zejména ne v korelační matici používající různé proměnné.

  • každá z vašich 50 vstupních proměnných $ X_1 … X_ {50} $ musí být normálně distribuováno
  • pokud opakovaně čerpáte vzorky ze dvou proměnných $ i $ a $ j $ ze stejných distribucí: $ Y_i \ sim X_i $ a $ Y_j \ sim X_j $ z těchto distribucí, pak transformované korelační koeficienty $ \ {f_z (\ rho_ {ij}) \} $ budou přibližně normálně distribuovány.

Pokud tedy vaše 100 korelačních matic pochází z stejné distribuce (a mezi tím se nezměnila), pak by hodnoty každé buňky měly být přibližně normálně distribuovány. Pokud však máte dvě třídy, tento předpoklad pravděpodobně neplatí a položka již nebude normálně distribuována.

Klíčovým bodem je, že potřebujete mnoho sady vzorků odebrané ze stejné distribuce. Účelem Fisherovy transformace je odhadnout intervaly spolehlivosti korelačního koeficientu . Protože (netransformovaný) korelační koeficient je omezen $ -1 … + 1 $, nelze jej normálně distribuovat; ale pomocí Fisherovy transformace můžete přesto použít známé statistiky pro normální rozdělení.

Předpokládejme tedy, že chcete odhadnout korelaci výšky a hmotnosti (za předpokladu, že obě jsou normálně rozdělena!) . Můžete si vzít jeden vzorek a vypočítat korelaci – ale jak velké jsou vaše chybové hranice pro korelaci? Místo toho můžete vzít 100 nezávislých vzorků, pro každý z nich vypočítat jeho korelaci, Fisher transformovat korelaci, odhadnout chyby normální distribuce a transformovat je zpět. Pak můžete získat průměrnou korelaci dvou proměnných a interval spolehlivosti.

Komentáře

  • Děkujeme! Takže řádky a sloupce matic (které jsou samozřejmě stejné) jsou společně normálně distribuovány – proto následuje váš první bod, že X1, .., X50 jsou (okrajově) normální. Rozumím vašemu druhému bodu správně: Pokud ukážu vzorky z X_1 a X_10, i když se jedná o dvě normální distribuce s různými parametry, (opakovaně) vzorkovaná data by byla přibližně. normální? Pokud však X_1 a X_10 z různých matic mají různá normální rozdělení, toto neplatí (?). Thx!
  • Skutečně. Je to ' doslova stejné jako kreslení z různých normálních distribucí. Pokud mám normální rozdělení, které se časem pohybuje, a vzorkuji v různých časových bodech, výsledná celková data nebudou ' nutně normální distribuována.
  • Mám další související otázku: Pokud vím, že vzorky (i, j) z X_i, X_j všech 100 matic jsou přibližně normální distribuovány – znamená to, že X_i, X_j všech těchto 100 následují stejně (normální) distribuce?
  • Ne. Všechny korelace by mohly být normálně distribuovány kolem 0, tj. Ne korelovány v průměru.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *