Der er mange varianter af PCA-rammen (main component analysis) til diskrete variabler eller en blanding af kvantitative og diskrete variabler.
Billede fra denne bog .
Jeg er imidlertid ikke helt klar over, hvordan disse metoder adskiller sig fra en PCA på det samme datasæt, men med en one-hot / dummy-variabel kodning af de kvalitative variabler. Jeg læste modstridende udsagn om, at dummy-kodning er mulig, men meningsløs.
Så vidt jeg kan forstå fra her , handler hovedproblemet om udvide begrebet en varians-kovariansmatrix i tilfælde af diskrete variabler. Men hvorfor er denne udvidelse endda nødvendig? Er det ikke sammenhængen mellem en dummy og en kvantitativ variabel? Eller mellem to dummy-variabler?
Jeg har intuitionen, at i slutningen er den eneste forskel omkring dummies relative vægtning i forhold til de kvantitative variabler, men jeg kæmper for at vise det formelt. Og hvis jeg tager fejl, kan man forklare hvorfor?