Qual é a diferença entre uma análise fatorial para dados mistos (FAMD) e um PCA em um conjunto de dados onde as variáveis qualitativas são codificadas por dummy?

Existem muitas variantes da estrutura de análise de componente principal (PCA) para variáveis discretas ou uma mistura de variáveis quantitativas e discretas.

Imagem deste livro .

No entanto, não estou completamente claro sobre como esses métodos diferem de um PCA no mesmo conjunto de dados, mas com uma codificação de variável one-hot / dummy das variáveis qualitativas. Eu li uma afirmação contraditória sobre a possibilidade de codificação fictícia, mas sem sentido.

Pelo que eu posso entender aqui , o problema principal é estendendo a noção de uma matriz de variância-covariância no caso de variáveis discretas. Mas por que essa extensão é necessária? A covariância entre uma variável dummy e uma variável quantitativa não faz sentido? Ou entre duas variáveis dummy?

Tenho a intuição de que no final a única diferença é sobre o peso relativo das dummies em comparação com as variáveis quantitativas, mas tenho dificuldade em mostrá-las formalmente. E se eu estiver errado, alguém pode explicar por quê?

Deixe uma resposta Cancelar resposta