Eu tenho 100 matrizes de correlação 50×50, as quais tenho todas as transformadas Z de Fisher. Eu entendi que isso resulta em todas as entradas de uma matriz sendo distribuídas aproximadamente normalmente.

Perguntas

  • Agora eu li em algum lugar, que isso também significa que se pegarmos alguma entrada (i, j) de todos o matrizes (por exemplo, entrada (5, 12) para matriz1, matriz2, …, matriz100), esses valores também são normalmente distribuídos. Isso é verdade e, se for, por quê?

  • Quero classificar essas 100 matrizes em dois grupos. A classificação pressupõe que os dados de cada grupo são normalmente distribuídos. A transformação z de Fisher implica isso? Alternativamente, o fato de que cada entrada (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $, de todas as matrizes sendo normalmente distribuídas, implicaria que as matrizes de cada grupo são normalmente distribuídas?

Resposta

A transformação Z de Fisher não garante uma distribuição normal; em particular, não dentro de uma matriz de correlação usando variáveis diferentes .

  • cada uma de suas 50 variáveis de entrada $ X_1 … X_ {50} $ precisa ser normalmente distribuído
  • se você repetidamente extrair amostras de duas variáveis $ i $ e $ j $ das mesmas distribuições: $ Y_i \ sim X_i $ e $ Y_j \ sim X_j $ dessas distribuições, então os coeficientes de correlação transformados $ \ {f_z (\ rho_ {ij}) \} $ serão aproximadamente normalmente distribuídos.

Portanto, se suas 100 matrizes de correlação derivam da mesma distribuição (e não mudou entre elas), os valores de cada célula devem ser aproximadamente normalmente distribuídos. No entanto, se você tiver duas classes, essa suposição provavelmente não se aplica, e a entrada não será mais distribuída normalmente.

O ponto principal é que você precisa de muitos conjuntos de amostras retiradas da mesma distribuição. O propósito da transformação de Fisher é estimar intervalos de confiança do coeficiente de correlação . Como o coeficiente de correlação (não transformado) é limitado por $ -1 … + 1 $, ele não pode ser distribuído normalmente; mas usando a transformação de Fisher, você pode usar as estatísticas conhecidas para distribuições normais.

Então, suponha que você deseja estimar a correlação de altura e peso (assumindo que ambos são normalmente distribuídos!) . Você pode pegar uma única amostra e calcular a correlação – mas quão grandes são seus limites de erro na correlação? Em vez disso, você pode obter 100 amostras independentes, para cada uma delas computar sua correlação, Fisher transformar a correlação, estimar os erros de distribuição normal e transformá-los de volta. Então você pode obter uma correlação média das duas variáveis e um intervalo de confiança.

Comentários

  • Obrigado! Portanto, as linhas e colunas das matrizes (que são as mesmas, obviamente) são normalmente distribuídas em conjunto – portanto, segue-se o seu primeiro ponto de que X1, .., X50 são (marginalmente) normais. Eu entendi seu segundo ponto corretamente: se eu fizer uma amostra digamos de X_1 e X_10, mesmo que essas sejam duas distribuições normais com parâmetros diferentes, os dados amostrados (repetidamente) seriam de aprox. normal? Se, no entanto, o X_1 e o X_10 de matrizes diferentes têm distribuições normais diferentes, isso não é verdadeiro (?). Obrigado!
  • Certamente. É ' literalmente o mesmo que desenhar de diferentes distribuições normais. Se eu tiver uma distribuição normal que se move ao longo do tempo e eu fizer a amostragem em diferentes pontos no tempo, os dados gerais resultantes não ' t serão necessariamente distribuídos normalmente.
  • Eu tenho outra pergunta relacionada: Se eu souber que as amostras (i, j) de X_i, X_j de todas as 100 matrizes são distribuídas aproximadamente normais – isso implica que X_i, X_j de todas essas 100 seguem o mesmo (normal) distribuição?
  • Não. Todas as correlações podem ter distribuição normal em torno de 0, ou seja, não correlacionadas em média.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *