100 개의 50×50 상관 행렬이 있으며 모든 Fisher z- 변환이 있습니다. 이로 인해 하나 행렬의 모든 항목이 거의 정규 분포를 이루는 것을 이해했습니다.

질문

  • 이제 어딘가에서 읽었습니다. 이것은 또한 all 의 일부 항목 (i, j)을 취하면 행렬 (예 : matrix1, matrix2, …, matrix100의 경우 항목 (5, 12)), 이러한 값도 정규 분포를 따릅니다. 이것이 사실입니까? 그렇다면 그 이유는 무엇입니까?

  • 이 100 개의 행렬을 두 그룹으로 분류하고 싶습니다. 분류는 각 그룹의 데이터가 정규 분포를 따른다고 가정합니다. Fisher z- 변환이 그것을 의미합니까? 또는 정규 분포를 따르는 모든 행렬의 각 항목 (i, j), $ 1 \ le i \ le 200 $, $ 1 \ le j \ le 200 $는 각 그룹의 행렬이 정규 분포를 따른다는 것을 의미합니까?

답변

Fisher z- 변환은 보장하지 않습니다 . 정규 분포; 특히 다른 변수를 사용하는 상관 행렬 가 아닙니다.

  • 50 개의 입력 변수 각각 $ X_1 … X_ {50} $는 일반적으로 분포되어야합니다.
  • 같은 분포에서 두 변수 $ i $ 및 $ j $에서 표본을 반복적으로 추출하는 경우 : $ Y_i \ 이러한 분포에서 sim X_i $ 및 $ Y_j \ sim X_j $, 변환 된 상관 계수 $ \ {f_z (\ rho_ {ij}) \} $는 대략 정규 분포를 따릅니다.

따라서 100 개의 상관 행렬이 동일한 분포에서 비롯되고 그 사이에 변경되지 않은 경우 각 셀의 값은 대략 정규 분포를 따라야합니다. 그러나 두 개의 클래스가있는 경우이 가정은 유지되지 않으며 항목이 더 이상 정상적으로 배포되지 않습니다.

요점은 많은 것이 필요하다는 것입니다. 동일한 분포에서 추출한 샘플 세트입니다. Fisher 변환의 목적은 상관 계수의 신뢰 구간 을 추정하는 것입니다 . (변환되지 않은) 상관 계수는 $ -1 … + 1 $로 제한되기 때문에 정규 분포를 따르지 않습니다. 하지만 Fisher 변환을 사용하면 정규 분포에 대해 알려진 통계를 사용할 수 있습니다.

따라서 키와 체중의 상관 관계를 추정한다고 가정합니다 ( 둘 다 가 정규 분포를 따른다고 가정합니다!). . 단일 샘플을 가져와 상관 관계를 계산할 수 있지만 상관 관계에 대한 오류 한계는 얼마나됩니까? 대신 100 개의 독립적 인 표본을 가져와 각각의 상관 관계를 계산하고 Fisher가 상관 관계를 변환하고 정규 분포 오류를 추정 한 다음 다시 변환 할 수 있습니다. 그런 다음 두 변수 신뢰 구간의 평균 상관 관계를 얻을 수 있습니다.

댓글

  • 감사합니다! 따라서 행렬의 행과 열 (분명히 동일)은 공동으로 정규 분포를 따릅니다. 따라서 X1, .., X50이 (한계 적으로) 정규라는 첫 번째 점이 따릅니다. 두 번째 점을 올바르게 이해 했습니까? X_1과 X_10에서 표본을 추출하면 매개 변수가 다른 두 개의 정규 분포 인 경우에도 (반복적으로) 표본 추출 된 데이터는 대략적입니다. 표준? 그러나 다른 행렬의 X_1과 X_10이 다른 정규 분포를 갖는 경우, 이것은 참 (?)이 아닙니다. Thx!
  • 그렇습니다. ' 다른 정규 분포에서 그리는 것과 문자 그대로 동일합니다. 시간이 지남에 따라 이동하는 정규 분포가 있고 다른 시점에서 샘플링하면 결과 전체 데이터가 반드시 정규 분포가되는 것은 아닙니다 '.
  • 나는 또 다른 관련 질문이 있습니다 : X_i의 샘플 (i, j), 모든 100 행렬의 X_j가 거의 정상 분포되어 있음을 안다면,이 100 개 모두의 X_i, X_j가 동일 (정상)을 따른다는 것을 의미합니까? 배포 하시겠습니까?
  • 아니요. 모든 상관 관계는 0 주위에 정규 분포를 가질 수 있습니다. 즉, 평균 상관 관계가 없습니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다