Hvad er forskellen mellem en faktoriel analyse for blandede data (FAMD) og en PCA på et datasæt, hvor kvalitativ variabel er dummy-kodet?

Der er mange varianter af PCA-rammen (main component analysis) til diskrete variabler eller en blanding af kvantitative og diskrete variabler.

Billede fra denne bog .

Jeg er imidlertid ikke helt klar over, hvordan disse metoder adskiller sig fra en PCA på det samme datasæt, men med en one-hot / dummy-variabel kodning af de kvalitative variabler. Jeg læste modstridende udsagn om, at dummy-kodning er mulig, men meningsløs.

Så vidt jeg kan forstå fra her , handler hovedproblemet om udvide begrebet en varians-kovariansmatrix i tilfælde af diskrete variabler. Men hvorfor er denne udvidelse endda nødvendig? Er det ikke sammenhængen mellem en dummy og en kvantitativ variabel? Eller mellem to dummy-variabler?

Jeg har intuitionen, at i slutningen er den eneste forskel omkring dummies relative vægtning i forhold til de kvantitative variabler, men jeg kæmper for at vise det formelt. Og hvis jeg tager fejl, kan man forklare hvorfor?

Skriv et svar Annuller svar