Es gibt viele Varianten des PCA-Frameworks (Principal Component Analysis) für diskrete Variablen oder eine Mischung aus quantitativen und diskreten Variablen.
Bild aus diesem Buch .
Mir ist jedoch nicht ganz klar, wie sich diese Methoden von einer PCA im selben Datensatz unterscheiden, sondern mit einer One-Hot / Dummy-Variablencodierung der qualitativen Variablen. Ich habe widersprüchliche Aussagen darüber gelesen, dass Dummy-Codierung möglich, aber bedeutungslos ist.
Soweit ich aus hier verstehen kann, geht es um das Hauptproblem Erweiterung des Begriffs um eine Varianz-Kovarianz-Matrix bei diskreten Variablen. Aber warum wird diese Erweiterung überhaupt benötigt? Ist die Kovarianz zwischen einem Dummy und einer quantitativen Variablen nicht sinnvoll? Oder zwischen zwei Dummy-Variablen?
Ich habe die Intuition, dass am Ende der einzige Unterschied in der relativen Gewichtung der Dummies im Vergleich zu besteht die quantitativen Variablen, aber ich habe Mühe, sie formal zu zeigen. Und wenn ich falsch liege, kann man erklären, warum?