Există multe variante ale cadrului de analiză a componentelor principale (PCA) pentru variabilele discrete sau un amestec de variabile cantitative și discrete.
Imagine din această carte .
Cu toate acestea, nu sunt complet clar despre modul în care aceste metode diferă de un PCA pe același set de date, dar cu o codare a variabilelor one-hot / fictive a variabilelor calitative. Am citit o declarație contradictorie despre codificarea falsă, care este posibilă, dar fără sens.
Din câte înțeleg din aici , problema principală este despre extinzând noțiunea o matrice de varianță-covarianță în cazul variabilelor discrete. Dar de ce este necesară această extensie? Nu are sens covarianța dintre o variabilă fictivă și o variabilă cantitativă? Sau între două variabile fictive?
Am intuiția că la sfârșit singura diferență este legată de ponderarea relativă a manechinelor în comparație cu variabilele cantitative, dar mă lupt să o arăt formal. Și dacă mă înșel, se poate explica de ce?