Care este diferența dintre o analiză factorială pentru date mixte (FAMD) și un PCA pe un set de date în care variabila calitativă este codificată fictiv?

Există multe variante ale cadrului de analiză a componentelor principale (PCA) pentru variabilele discrete sau un amestec de variabile cantitative și discrete.

Imagine din această carte .

Cu toate acestea, nu sunt complet clar despre modul în care aceste metode diferă de un PCA pe același set de date, dar cu o codare a variabilelor one-hot / fictive a variabilelor calitative. Am citit o declarație contradictorie despre codificarea falsă, care este posibilă, dar fără sens.

Din câte înțeleg din aici , problema principală este despre extinzând noțiunea o matrice de varianță-covarianță în cazul variabilelor discrete. Dar de ce este necesară această extensie? Nu are sens covarianța dintre o variabilă fictivă și o variabilă cantitativă? Sau între două variabile fictive?

Am intuiția că la sfârșit singura diferență este legată de ponderarea relativă a manechinelor în comparație cu variabilele cantitative, dar mă lupt să o arăt formal. Și dacă mă înșel, se poate explica de ce?

Lasă un răspuns Anulează răspunsul