Istnieje wiele wariantów schematu analizy głównych składowych (PCA) dla zmiennych dyskretnych lub mieszaniny zmiennych ilościowych i dyskretnych.
Zdjęcie z tej książki .
Nie mam jednak całkowitej jasności co do tego, jak te metody różnią się od PCA na tym samym zestawie danych, ale z jednym gorącym / fikcyjnym kodowaniem zmiennych jakościowych. Przeczytałem sprzeczne stwierdzenie, że kodowanie pozorne jest możliwe, ale bez znaczenia.
O ile mogę zrozumieć z tutaj , główny problem dotyczy rozszerzenie pojęcia macierzy wariancji-kowariancji w przypadku zmiennych dyskretnych. Ale dlaczego to rozszerzenie jest w ogóle potrzebne? Czy kowariancja między zmienną fikcyjną a zmienną ilościową nie ma sensu? Albo między dwiema zmiennymi fikcyjnymi?
Mam przeczucie, że na końcu jedyna różnica dotyczy względnego ważenia manekinów w porównaniu zmienne ilościowe, ale trudno mi je pokazać formalnie. A jeśli się mylę, czy można wyjaśnić, dlaczego?