Jai 100 matrices de corrélation 50×50, que jai toutes transformées en z de Fisher. Jai compris que cela se traduit par une distribution à peu près normale de toutes les entrées de une matrice.

Questions

  • Maintenant, jai lu quelque part, cela signifie également que si nous prenons une entrée (i, j) de tous matrices (par exemple, entrée (5, 12) pour matrice1, matrice2, …, matrice100), ces valeurs sont également distribuées normalement. Est-ce vrai, et si oui – pourquoi?

  • Je veux classer ces 100 matrices en deux groupes. La classification suppose que les données de chaque groupe sont normalement distribuées. Est-ce que la transformation z de Fisher implique cela? Alternativement, le fait que chaque entrée (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, de toutes les matrices étant normalement distribuées, impliquerait que les matrices de chaque groupe soient normalement distribuées?

Réponse

La transformation z de Fisher ne garantit pas une distribution normale; en particulier pas dans une matrice de corrélation utilisant des variables différentes .

  • chacune de vos 50 variables dentrée $ X_1 … X_ {50} $ doit être normalement distribué
  • si vous tirez plusieurs fois des échantillons de deux variables $ i $ et $ j $ des mêmes distributions: $ Y_i \ sim X_i $ et $ Y_j \ sim X_j $ à partir de ces distributions, alors les coefficients de corrélation transformés $ \ {f_z (\ rho_ {ij}) \} $ seront distribués approximativement normalement.

Donc, si vos 100 matrices de corrélation proviennent de la même distribution (et quelle na pas changé entre les deux), alors les valeurs de chaque cellule devraient être distribuées à peu près normalement. Cependant, si vous avez deux classes, cette hypothèse nest probablement pas valable, et lentrée ne sera plus normalement distribuée.

Le point clé est que vous avez besoin de beaucoup ensembles déchantillons tirés de la même distribution. Le but de la transformation de Fisher est destimer les intervalles de confiance du coefficient de corrélation . Puisque le coefficient de corrélation (non transformé) est borné par $ -1 … + 1 $, il ne peut pas être distribué normalement; mais en utilisant la transformation de Fisher, vous pouvez néanmoins utiliser les statistiques connues pour les distributions normales.

Supposons donc que vous vouliez estimer la corrélation entre la taille et le poids (en supposant que les deux sont normalement distribués!) . Vous pouvez prendre un seul échantillon et calculer la corrélation – mais quelle est la taille de vos limites derreur sur la corrélation? Au lieu de cela, vous pouvez prélever 100 échantillons indépendants, pour chacun deux calculer sa corrélation, Fisher transformer la corrélation, estimer les erreurs de distribution normale et les reconvertir. Ensuite, vous pouvez obtenir une corrélation moyenne des deux variables et un intervalle de confiance.

Commentaires

  • Merci! Ainsi, les lignes et les colonnes des matrices (qui sont les mêmes, évidemment) sont normalement distribuées conjointement – doù votre premier point que X1, .., X50 sont (marginalement) normaux suit. Dois-je bien comprendre votre deuxième point: si jéchantillonne, disons à partir de X_1 et X_10, même sil sagit de deux distributions normales avec des paramètres différents, les données échantillonnées (à plusieurs reprises) seraient denv. Ordinaire? Si, cependant, les X_1 et X_10 de matrices différentes ont des distributions normales différentes, cela nest pas vrai (?). Thx!
  • En effet. Cela ' est littéralement identique à dessiner à partir de différentes distributions normales. Si jai une distribution normale qui évolue dans le temps et que jéchantillonne à différents moments, les données globales résultantes ne seront ' pas nécessairement distribuées normalement.
  • Jai une autre question connexe: si je sais que les échantillons (i, j) de X_i, X_j de toutes les 100 matrices sont approximativement distribués normalement – cela implique-t-il que les X_i, X_j de tous ces 100 suivent le même (normal) distribution?
  • Non. Toutes les corrélations peuvent être normalement distribuées autour de 0, cest-à-dire non corrélées en moyenne.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *