Ho 100 matrici di correlazione 50×50, che ho tutte trasformate in z di Fisher. Ho capito che ciò comporta che tutte le voci di una matrice siano distribuite approssimativamente normalmente.

Domande

  • Ora ho letto da qualche parte, che questo significa anche che se prendiamo qualche voce (i, j) di tutto il matrici (quindi per esempio la voce (5, 12) per matrice1, matrice2, …, matrice100), anche questi valori sono normalmente distribuiti. È vero, e se sì, perché?

  • Voglio classificare queste 100 matrici in due gruppi. La classificazione presuppone che i dati di ciascun gruppo siano normalmente distribuiti. La trasformazione z di Fisher lo implica? In alternativa, il fatto che ogni voce (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, da tutte le matrici normalmente distribuite, implicherebbe che le matrici di ciascun gruppo siano normalmente distribuite?

Risposta

La trasformazione z di Fisher non garantisce una distribuzione normale; in particolare non allinterno di una matrice di correlazione che utilizza variabili differenti .

  • ciascuna delle tue 50 variabili di input $ X_1 … X_ {50} $ deve essere normalmente distribuito
  • se ripetutamente si estraggono campioni da due variabili $ i $ e $ j $ dalle stesse distribuzioni: $ Y_i \ sim X_i $ e $ Y_j \ sim X_j $ da queste distribuzioni, quindi i coefficienti di correlazione trasformati $ \ {f_z (\ rho_ {ij}) \} $ saranno distribuiti approssimativamente normalmente.

Quindi, se le tue 100 matrici di correlazione derivano dalla stessa distribuzione (e non è cambiata nel mezzo), i valori di ciascuna cella dovrebbero essere distribuiti approssimativamente normalmente. Tuttavia, se hai due classi, questa supposizione probabilmente non vale e la voce non sarà più distribuita normalmente.

Il punto chiave è che hai bisogno di molte serie di campioni tratti dalla stessa distribuzione. Lo scopo della trasformazione di Fisher è stimare gli intervalli di confidenza del coefficiente di correlazione . Poiché il coefficiente di correlazione (non trasformato) è limitato da $ -1 … + 1 $, non può essere distribuito normalmente; ma usando la trasformazione di Fisher puoi comunque usare le statistiche note per le distribuzioni normali.

Quindi supponi di voler stimare la correlazione tra altezza e peso (supponendo che entrambi siano distribuiti normalmente!) . Puoi prendere un singolo campione e calcolare la correlazione, ma quanto sono grandi i tuoi limiti di errore sulla correlazione? Invece, puoi prendere 100 campioni indipendenti, per ciascuno di essi calcola la sua correlazione, Fisher trasforma la correlazione, stima gli errori di distribuzione normale e trasforma questi di nuovo. Quindi puoi ottenere una correlazione media delle due variabili e un intervallo di confidenza.

Commenti

  • Grazie! Quindi le righe e le colonne delle matrici (che sono le stesse, ovviamente) sono normalmente distribuite congiuntamente – da qui segue il primo punto che X1, .., X50 sono (marginalmente) normali. Capisco correttamente il tuo secondo punto: se prendo esempio da X_1 e X_10, anche se si tratta di due distribuzioni normali con parametri diversi, i dati campionati (ripetutamente) sarebbero ca. normale? Se, tuttavia, X_1 e X_10 di matrici diverse hanno distribuzioni normali diverse, ciò non è vero (?). Grazie!
  • Infatti. ' è letteralmente uguale al disegno da diverse distribuzioni normali. Se ho una distribuzione normale che si sposta nel tempo e campionamento in momenti diversi, i dati complessivi risultanti ' non saranno necessariamente distribuiti normalmente.
  • Ho unaltra domanda correlata: se so che i campioni (i, j) da X_i, X_j di tutte le 100 matrici sono distribuiti approssimativamente nella norma, ciò significa che X_i, X_j di tutte queste 100 seguono lo stesso (normale) distribuzione?
  • No. Tutte le correlazioni potrebbero essere distribuite normalmente intorno a 0, ovvero non correlate in media.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *