Am 100 de matrici de corelație 50×50, pe care le-am transformat pe toate în Fisher z. Am înțeles că acest lucru are ca rezultat distribuirea aproximativ normală a tuturor intrărilor matricei one .
Întrebări
-
Acum am citit undeva, că asta înseamnă și că dacă luăm o intrare (i, j) din toate matrice (deci de exemplu intrarea (5, 12) pentru matrix1, matrix2, …, matrix100), aceste valori sunt, de asemenea, distribuite în mod normal. Este adevărat și dacă da – de ce?
-
Vreau să clasific aceste 100 de matrice în două grupuri. Clasificarea presupune că datele din fiecare grup sunt distribuite în mod normal. Transformarea z Fisher implică asta? Alternativ, ar fi faptul că fiecare intrare (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, din toate matricele distribuite în mod normal, ar implica faptul că matricile fiecărui grup sunt distribuite în mod normal?
Răspuns
Transformarea Fisher Fisher nu garantează o distribuție normală; în special nu în o matrice de corelație care utilizează variabile diferite .
- fiecare dintre cele 50 de variabile de intrare $ X_1 … X_ {50} $ trebuie distribuit în mod normal
- dacă repetat trageți mostre din două variabile $ i $ și $ j $ din aceleași distribuții: $ Y_i \ sim X_i $ și $ Y_j \ sim X_j $ din aceste distribuții, atunci coeficienții de corelație transformați $ \ {f_z (\ rho_ {ij}) \} $ vor fi distribuiți aproximativ în mod normal.
Deci, dacă cele 100 de matrice de corelație provin din distribuția aceeași (și nu s-a schimbat între ele), atunci valorile fiecărei celule ar trebui distribuite aproximativ în mod normal. Cu toate acestea, dacă aveți două clase, această ipoteză probabil nu nu se menține, iar intrarea nu va mai fi distribuită în mod normal.
Punctul cheie este că aveți nevoie de multe seturi de probe extrase din distribuția același . Scopul al transformării Fisher este de a estima intervalele de încredere ale coeficientului de corelație . Deoarece coeficientul de corelație (netransformat) este delimitat de $ -1 … + 1 $, acesta nu poate fi distribuit în mod normal; dar folosind transformarea Fisher puteți folosi statisticile cunoscute pentru distribuții normale.
Deci, presupuneți că doriți să estimați corelația înălțime și greutate (presupunând că ambele sunt distribuite în mod normal!) . Puteți lua un singur eșantion și puteți calcula corelația – dar cât de mari sunt limitele de eroare ale corelației? În schimb, puteți lua 100 de eșantioane independente, pentru fiecare dintre ele calculați corelația, Fisher transformă corelația, estimați erorile normale de distribuție și le transformați înapoi. Apoi, puteți obține o corelație medie a celor două variabile și un interval de încredere.
Comentarii
- Mulțumesc! Deci rândurile și coloanele matricilor (care sunt aceleași, evident) sunt distribuite în mod normal în comun – de aici primul punct pe care îl urmează X1, .., X50 (marginal) normal. Îți înțeleg corect al doilea punct: Dacă eșantionez din X_1 și X_10, chiar dacă acestea sunt două distribuții normale cu parametri diferiți, datele eșantionate (în mod repetat) ar fi de aprox. normal? Cu toate acestea, dacă X_1 și X_10 din matrici diferite au distribuții normale diferite, acest lucru nu este valabil (?). Thx!
- Într-adevăr. Este ' literalmente la fel ca desenul din distribuții normale diferite. Dacă am o distribuție normală, care se mișcă în timp și probez la diferite momente de timp, datele generale rezultate vor fi ' neapărat distribuite normal.
- Am o altă întrebare legată de asta: dacă știu că eșantioanele (i, j) din X_i, X_j din toate cele 100 de matrice sunt distribuite aproximativ normale – înseamnă asta că X_i, X_j din toate aceste 100 urmează la fel (normal) distribuție?
- Nu. Toate corelațiile ar putea fi distribuite normal în jurul valorii de 0, adică nu sunt corelate în medie.