이산 변수 또는 양적 변수와 이산 변수의 혼합에 대한 PCA (주성분 분석) 프레임 워크의 다양한 변형이 있습니다.

이 책 의 이미지

그러나 이러한 방법이 동일한 데이터 세트에서 PCA와 어떻게 다른지에 대해 완전히 명확하지 않지만 질적 변수의 원-핫 / 더미 변수 인코딩을 사용합니다. 더미 인코딩이 가능하지만 의미가 없다는 모순 된 진술을 읽었습니다.

여기 에서 이해할 수있는 한, 주요 문제는 이산 변수의 경우 개념을 분산-공분산 행렬로 확장합니다. 하지만이 확장이 왜 필요한가요? 더미와 양적 변수 사이의 공분산이 말이되지 않나요? 아니면 두 개의 더미 변수 사이에서 정량적 변수이지만 공식적으로 보여 주려고 애 쓰고 있습니다. 제가 틀렸다면 이유를 설명 할 수 있습니까?

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다