Existem muitas variantes da estrutura de análise de componente principal (PCA) para variáveis discretas ou uma mistura de variáveis quantitativas e discretas.

Imagem deste livro .

No entanto, não estou completamente claro sobre como esses métodos diferem de um PCA no mesmo conjunto de dados, mas com uma codificação de variável one-hot / dummy das variáveis qualitativas. Eu li uma afirmação contraditória sobre a possibilidade de codificação fictícia, mas sem sentido.

Pelo que eu posso entender aqui , o problema principal é estendendo a noção de uma matriz de variância-covariância no caso de variáveis discretas. Mas por que essa extensão é necessária? A covariância entre uma variável dummy e uma variável quantitativa não faz sentido? Ou entre duas variáveis dummy?

Tenho a intuição de que no final a única diferença é sobre o peso relativo das dummies em comparação com as variáveis quantitativas, mas tenho dificuldade em mostrá-las formalmente. E se eu estiver errado, alguém pode explicar por quê?

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *