Istnieje wiele wariantów schematu analizy głównych składowych (PCA) dla zmiennych dyskretnych lub mieszaniny zmiennych ilościowych i dyskretnych.

Zdjęcie z tej książki .

Nie mam jednak całkowitej jasności co do tego, jak te metody różnią się od PCA na tym samym zestawie danych, ale z jednym gorącym / fikcyjnym kodowaniem zmiennych jakościowych. Przeczytałem sprzeczne stwierdzenie, że kodowanie pozorne jest możliwe, ale bez znaczenia.

O ile mogę zrozumieć z tutaj , główny problem dotyczy rozszerzenie pojęcia macierzy wariancji-kowariancji w przypadku zmiennych dyskretnych. Ale dlaczego to rozszerzenie jest w ogóle potrzebne? Czy kowariancja między zmienną fikcyjną a zmienną ilościową nie ma sensu? Albo między dwiema zmiennymi fikcyjnymi?

Mam przeczucie, że na końcu jedyna różnica dotyczy względnego ważenia manekinów w porównaniu zmienne ilościowe, ale trudno mi je pokazać formalnie. A jeśli się mylę, czy można wyjaśnić, dlaczego?

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *