Esistono molte varianti del framework di analisi delle componenti principali (PCA) per variabili discrete o un misto di variabili quantitative e discrete.
Immagine tratta da questo libro .
Tuttavia, non sono completamente chiaro in che modo questi metodi differiscano da un PCA sullo stesso set di dati ma con una codifica variabile singola / fittizia delle variabili qualitative. Ho letto affermazioni contraddittorie sul fatto che la codifica fittizia sia possibile ma priva di significato.
Per quanto posso capire da qui , il problema principale riguarda estendendo la nozione di matrice di varianza-covarianza nel caso di variabili discrete. Ma perché è necessaria questa estensione? Non ha senso la covarianza tra una variabile fittizia e una variabile quantitativa? O tra due variabili fittizie?
Ho lintuizione che alla fine lunica differenza riguarda il peso relativo dei manichini rispetto a le variabili quantitative, ma faccio fatica a dimostrarlo formalmente. E se mi sbaglio, si può spiegare perché?