Ik heb 100 50×50 correlatiematrices, die ik allemaal Fisher z-getransformeerd heb. Ik begreep dat dit ertoe leidt dat alle vermeldingen van de één -matrix ongeveer normaal worden verdeeld.
Vragen
-
Nu lees ik ergens, dat dit ook betekent dat als we een invoer (i, j) van alle matrices (dus bijvoorbeeld entry (5, 12) voor matrix1, matrix2, …, matrix100), deze waarden zijn ook normaal verdeeld. Is dit waar, en zo ja, waarom?
-
Ik wil deze 100 matrices in twee groepen indelen. De classificatie gaat ervan uit dat de gegevens van elke groep normaal verdeeld zijn. Betekent de Fisher z-transformatie dat? Als alternatief, zou het feit dat elke invoer (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, van alle matrices die normaal verdeeld zijn, impliceren dat de matrices van elke groep normaal verdeeld zijn?
Answer
De Fisher z-transformatie garandeert niet een normale verdeling; in het bijzonder niet binnen een correlatiematrix met verschillende variabelen.
- elk van je 50 invoervariabelen $ X_1 … X_ {50} $ moet normaal worden verdeeld
- als je herhaaldelijk steekproeven trekt uit twee variabelen $ i $ en $ j $ uit dezelfde verdelingen: $ Y_i \ sim X_i $ en $ Y_j \ sim X_j $ uit deze distributies, dan zullen de getransformeerde correlatiecoëfficiënten $ \ {f_z (\ rho_ {ij}) \} $ ongeveer normaal worden verdeeld.
Dus als uw 100 correlatiematrices voortkomen uit de dezelfde verdeling (en deze is niet tussendoor veranderd), dan zouden de waarden van elke cel ongeveer normaal verdeeld moeten zijn. Als u echter twee klassen heeft, is deze aanname waarschijnlijk niet geldig, en zal de invoer niet normaal meer worden verdeeld.
Het belangrijkste punt is dat u veel sets van monsters getrokken uit de dezelfde distributie. Het doel van de Fisher-transformatie is het schatten van betrouwbaarheidsintervallen van de correlatiecoëfficiënt . Aangezien de (niet-getransformeerde) correlatiecoëfficiënt wordt begrensd door $ -1 … + 1 $, kan deze niet normaal worden verdeeld; maar als je de Fisher-transformatie gebruikt, kun je toch de bekende statistieken gebruiken voor normale verdelingen.
Dus neem aan dat je de correlatie van lengte en gewicht wilt schatten (ervan uitgaande dat beide normaal verdeeld zijn!) . U kunt een enkele steekproef nemen en de correlatie berekenen, maar hoe groot zijn uw foutengrenzen voor de correlatie? In plaats daarvan kunt u 100 onafhankelijke steekproeven nemen, voor elk van hen zijn correlatie berekenen, Fisher de correlatie transformeren, de normale verdelingsfouten schatten en deze terug transformeren. Dan kun je een gemiddelde correlatie krijgen van de twee variabelen en een betrouwbaarheidsinterval.
Opmerkingen
- Bedankt! Dus de rijen en kolommen van de matrices (die uiteraard hetzelfde zijn) zijn gezamenlijk normaal verdeeld – vandaar dat je eerste punt dat X1, .., X50 (marginaal) normaal zijn volgt. Begrijp ik je tweede punt goed: als ik een steekproef zeg van X_1 en X_10, zelfs als dit twee normale distributies zijn met verschillende parameters, zouden de (herhaaldelijk) bemonsterde gegevens ongeveer zijn. normaal? Als echter de X_1 en X_10 uit verschillende matrices verschillende normale distributies hebben, gaat dit niet op (?). Thx!
- Inderdaad. Het ' is letterlijk hetzelfde als tekenen uit verschillende normale distributies. Als ik een normale verdeling heb die in de loop van de tijd beweegt, en ik steekproef op verschillende tijdstippen, zullen de resulterende algemene gegevens ' niet noodzakelijkerwijs normaal verdeeld zijn.
- Ik heb een andere, gerelateerde vraag: als ik weet dat de monsters (i, j) van X_i, X_j van alle 100 matrices ongeveer normaal verdeeld zijn – betekent dat dan dat de X_i, X_j van al deze 100 hetzelfde (normaal) volgen distributie?
- Nee. Alle correlaties kunnen normaal verdeeld zijn rond 0, d.w.z. gemiddeld niet gecorreleerd.