Esistono molte varianti del framework di analisi delle componenti principali (PCA) per variabili discrete o un misto di variabili quantitative e discrete.

Immagine tratta da questo libro .

Tuttavia, non sono completamente chiaro in che modo questi metodi differiscano da un PCA sullo stesso set di dati ma con una codifica variabile singola / fittizia delle variabili qualitative. Ho letto affermazioni contraddittorie sul fatto che la codifica fittizia sia possibile ma priva di significato.

Per quanto posso capire da qui , il problema principale riguarda estendendo la nozione di matrice di varianza-covarianza nel caso di variabili discrete. Ma perché è necessaria questa estensione? Non ha senso la covarianza tra una variabile fittizia e una variabile quantitativa? O tra due variabili fittizie?

Ho lintuizione che alla fine lunica differenza riguarda il peso relativo dei manichini rispetto a le variabili quantitative, ma faccio fatica a dimostrarlo formalmente. E se mi sbaglio, si può spiegare perché?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *