혼합 데이터에 대한 요인 분석 (FAMD)과 질적 변수가 더미 인코딩 된 데이터 세트에 대한 PCA의 차이점은 무엇입니까?

이산 변수 또는 양적 변수와 이산 변수의 혼합에 대한 PCA (주성분 분석) 프레임 워크의 다양한 변형이 있습니다.

이 책 의 이미지

그러나 이러한 방법이 동일한 데이터 세트에서 PCA와 어떻게 다른지에 대해 완전히 명확하지 않지만 질적 변수의 원-핫 / 더미 변수 인코딩을 사용합니다. 더미 인코딩이 가능하지만 의미가 없다는 모순 된 진술을 읽었습니다.

여기 에서 이해할 수있는 한, 주요 문제는 이산 변수의 경우 개념을 분산-공분산 행렬로 확장합니다. 하지만이 확장이 왜 필요한가요? 더미와 양적 변수 사이의 공분산이 말이되지 않나요? 아니면 두 개의 더미 변수 사이에서 정량적 변수이지만 공식적으로 보여 주려고 애 쓰고 있습니다. 제가 틀렸다면 이유를 설명 할 수 있습니까?

답글 남기기 답글 취소하기