Quelle est la différence entre une analyse factorielle pour données mixtes (FAMD) et une ACP sur un ensemble de données où les variables qualitatives sont codées fictivement?

Il existe de nombreuses variantes du cadre danalyse en composantes principales (ACP) pour les variables discrètes ou un mélange de variables quantitatives et discrètes.

Image tirée de ce livre .

Cependant, je ne suis pas tout à fait clair sur la façon dont ces méthodes diffèrent dune PCA sur le même ensemble de données mais avec un encodage de variable one-hot / dummy des variables qualitatives. Jai lu une déclaration contradictoire selon laquelle lencodage factice était possible mais dénué de sens.

Pour autant que je puisse comprendre ici , le problème principal est étendre la notion de matrice de variance-covariance dans le cas de variables discrètes. Mais pourquoi cette extension est-elle même nécessaire? La covariance entre une variable fictive et une variable quantitative n’a-t-elle pas de sens? Ou entre deux variables fictives?

J’ai l’intuition qu’à la fin, la seule différence concerne la pondération relative des variables fictives par rapport à les variables quantitatives, mais jai du mal à le montrer formellement. Et si je me trompe, peut-on expliquer pourquoi?

Laisser un commentaire Annuler la réponse