Hay muchas variantes del marco de análisis de componentes principales (PCA) para variables discretas o una combinación de variables cuantitativas y discretas.
Imagen de este libro .
Sin embargo, no tengo del todo claro en qué se diferencian estos métodos de un PCA en el mismo conjunto de datos, pero con una codificación de variable única / ficticia de las variables cualitativas. Leí una declaración contradictoria acerca de que la codificación ficticia es posible pero sin sentido.
Por lo que puedo entender de aquí , el problema principal es ampliando la noción de una matriz de varianza-covarianza en el caso de variables discretas. Pero, ¿por qué es necesaria esta extensión? ¿No tiene sentido la covarianza entre una variable ficticia y una cuantitativa? ¿O entre dos variables ficticias?
Tengo la intuición de que al final la única diferencia es la ponderación relativa de las variables ficticias en comparación las variables cuantitativas, pero me cuesta mostrarlo formalmente. Y si me equivoco, ¿se puede explicar por qué?