Existuje mnoho variant rámce analýzy hlavních komponent (PCA) pro diskrétní proměnné nebo směs kvantitativních a diskrétních proměnných.
Obrázek z této knihy .
Nejsem si však zcela jistý, jak se tyto metody liší od PCA na stejné datové sadě, ale s kódováním proměnné one-hot / dummy kvalitativních proměnných. Četl jsem protichůdné prohlášení o tom, že fiktivní kódování je možné, ale bezvýznamné.
Pokud z zde rozumím, hlavní problém spočívá v rozšíření pojmu variance-kovarianční matice v případě diskrétních proměnných. Proč je ale toto rozšíření dokonce nutné? Nemá kovariance mezi figurínou a kvantitativní proměnnou smysl? Nebo mezi dvěma figurínami?
Mám intuici, že na konci je jediný rozdíl v relativním vážení figurín v porovnání s kvantitativní proměnné, ale snažím se to formálně ukázat. A pokud se mýlím, lze vysvětlit proč?