Jaký je rozdíl mezi faktoriální analýzou pro smíšená data (FAMD) a PCA v datové sadě, kde jsou kvalitativní proměnné kódovány figuríny?

Existuje mnoho variant rámce analýzy hlavních komponent (PCA) pro diskrétní proměnné nebo směs kvantitativních a diskrétních proměnných.

Obrázek z této knihy .

Nejsem si však zcela jistý, jak se tyto metody liší od PCA na stejné datové sadě, ale s kódováním proměnné one-hot / dummy kvalitativních proměnných. Četl jsem protichůdné prohlášení o tom, že fiktivní kódování je možné, ale bezvýznamné.

Pokud z zde rozumím, hlavní problém spočívá v rozšíření pojmu variance-kovarianční matice v případě diskrétních proměnných. Proč je ale toto rozšíření dokonce nutné? Nemá kovariance mezi figurínou a kvantitativní proměnnou smysl? Nebo mezi dvěma figurínami?

Mám intuici, že na konci je jediný rozdíl v relativním vážení figurín v porovnání s kvantitativní proměnné, ale snažím se to formálně ukázat. A pokud se mýlím, lze vysvětlit proč?

Napsat komentář Zrušit odpověď na komentář