Det finns många varianter av PCA-ramverket (main component analysis) för diskreta variabler eller en blandning av kvantitativa och diskreta variabler.

Bild från den här boken .

Jag är dock inte helt klar över hur dessa metoder skiljer sig från en PCA på samma datamängd men med en one-hot / dummy-variabel kodning av de kvalitativa variablerna. Jag läser motstridiga uttalanden om att dummy-kodning är möjlig men meningslös.

Såvitt jag kan förstå från här , handlar det största problemet om utvidga begreppet en varians-kovariansmatris när det gäller diskreta variabler. Men varför behövs denna förlängning ens? Är inte kovariansen mellan en dummy och en kvantitativ variabel meningsfull? Eller mellan två dummyvariabler?

Jag har intuitionen att i slutet är den enda skillnaden om dummiernas relativa viktning jämfört med de kvantitativa variablerna, men jag kämpar för att visa det formellt. Och om jag har fel, kan man förklara varför?

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *