Det er mange varianter av rammeverket for hovedkomponentanalyse (PCA) for diskrete variabler eller en blanding av kvantitative og diskrete variabler.
Bilde fra denne boka .
Jeg er imidlertid ikke helt klar over hvordan disse metodene skiller seg fra en PCA på det samme datasettet, men med en one-hot / dummy-variabel koding av de kvalitative variablene. Jeg leste motstridende uttalelser om at dummy-koding er mulig, men meningsløst.
Så vidt jeg kan forstå fra her , handler hovedproblemet om utvide forestillingen en varians-kovariansmatrise når det gjelder diskrete variabler. Men hvorfor er denne utvidelsen til og med nødvendig? Er ikke kovariansen mellom en dummy og en kvantitativ variabel fornuftig? Eller mellom to dummyvariabler?
Jeg har intuisjonen at på slutten er den eneste forskjellen omtrent den relative vektingen av dummiene i forhold til de kvantitative variablene, men jeg sliter med å vise det formelt. Og hvis jeg tar feil, kan man forklare hvorfor?