Il existe de nombreuses variantes du cadre danalyse en composantes principales (ACP) pour les variables discrètes ou un mélange de variables quantitatives et discrètes.
Image tirée de ce livre .
Cependant, je ne suis pas tout à fait clair sur la façon dont ces méthodes diffèrent dune PCA sur le même ensemble de données mais avec un encodage de variable one-hot / dummy des variables qualitatives. Jai lu une déclaration contradictoire selon laquelle lencodage factice était possible mais dénué de sens.
Pour autant que je puisse comprendre ici , le problème principal est étendre la notion de matrice de variance-covariance dans le cas de variables discrètes. Mais pourquoi cette extension est-elle même nécessaire? La covariance entre une variable fictive et une variable quantitative n’a-t-elle pas de sens? Ou entre deux variables fictives?
J’ai l’intuition qu’à la fin, la seule différence concerne la pondération relative des variables fictives par rapport à les variables quantitatives, mais jai du mal à le montrer formellement. Et si je me trompe, peut-on expliquer pourquoi?