Tengo 100 matrices de correlación 50×50, que tengo todas transformadas en z de Fisher. Entiendo que esto da como resultado que todas las entradas de una matriz se distribuyan aproximadamente normalmente.
Preguntas
-
Ahora leí en alguna parte, que esto también significa que si tomamos alguna entrada (i, j) de todos los matrices (por ejemplo, entrada (5, 12) para matriz1, matriz2, …, matriz100), estos valores también se distribuyen normalmente. ¿Es esto cierto y, de ser así, por qué?
-
Quiero clasificar estas 100 matrices en dos grupos. La clasificación asume que los datos de cada grupo se distribuyen normalmente. ¿La transformación z de Fisher implica eso? Alternativamente, ¿el hecho de que cada entrada (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, de todas las matrices con distribución normal, implicaría que las matrices de cada grupo están distribuidas normalmente?
Respuesta
La transformación z de Fisher no garantiza una distribución normal; en particular, no dentro de una matriz de correlación que utilice diferentes variables.
- cada una de sus 50 variables de entrada $ X_1 … X_ {50} $ debe distribuirse normalmente
- si repetidamente extrae muestras de dos variables $ i $ y $ j $ de las mismas distribuciones: $ Y_i \ sim X_i $ y $ Y_j \ sim X_j $ de estas distribuciones, entonces los coeficientes de correlación transformados $ \ {f_z (\ rho_ {ij}) \} $ se distribuirán aproximadamente normalmente.
Entonces, si sus 100 matrices de correlación provienen de la misma distribución (y no ha cambiado en el medio), entonces los valores de cada celda deben tener una distribución aproximadamente normal. Sin embargo, si tiene dos clases, esta suposición probablemente no se cumple, y la entrada ya no se distribuirá normalmente.
El punto clave es que necesita muchas conjuntos de muestras extraídas de la misma distribución. El propósito de la transformación de Fisher es estimar intervalos de confianza del coeficiente de correlación . Dado que el coeficiente de correlación (no transformado) está limitado por $ -1 … + 1 $, no puede distribuirse normalmente; pero al usar la transformación de Fisher, no obstante, puede usar las estadísticas conocidas para distribuciones normales.
Por lo tanto, suponga que desea estimar la correlación de altura y peso (¡asumiendo que ambos están distribuidos normalmente!) . Puede tomar una sola muestra y calcular la correlación, pero ¿qué tan grandes son sus límites de error en la correlación? En su lugar, puede tomar 100 muestras independientes, para cada una de ellas calcular su correlación, Fisher transformar la correlación, estimar los errores de distribución normal y transformarlos nuevamente. Entonces puede obtener una correlación promedio de las dos variables y un intervalo de confianza.
Comentarios
- ¡Gracias! Entonces, las filas y columnas de las matrices (que son las mismas, obviamente) están distribuidas normalmente en conjunto; por lo tanto, su primer punto de que X1, .., X50 son (marginalmente) normales sigue. ¿Entiendo correctamente su segundo punto? Si muestro, digamos de X_1 y X_10, incluso si estas son dos distribuciones normales con diferentes parámetros, los datos muestreados (repetidamente) serían aprox. ¿normal? Sin embargo, si X_1 y X_10 de diferentes matrices tienen diferentes distribuciones normales, esto no es cierto (?). ¡Gracias!
- De hecho. Es ' literalmente lo mismo que dibujar de diferentes distribuciones normales. Si tengo una distribución normal que se mueve a lo largo del tiempo y muestro en diferentes momentos, los datos generales resultantes no ' necesariamente tendrán una distribución normal.
- Tengo otra pregunta relacionada: si sé que las muestras (i, j) de X_i, X_j de las 100 matrices tienen una distribución aproximadamente normal, ¿eso implica que X_i, X_j de todas estas 100 siguen lo mismo (normal)? distribución?
- No. Todas las correlaciones podrían tener una distribución normal alrededor de 0, es decir, no estar correlacionadas en promedio.