Er zijn veel varianten van het Principal Component Analysis (PCA) -raamwerk voor discrete variabelen of een combinatie van kwantitatieve en discrete variabelen.

Afbeelding van dit boek .

Ik ben echter niet helemaal duidelijk over hoe deze methoden verschillen van een PCA op dezelfde dataset, maar met een one-hot / dummy variabele codering van de kwalitatieve variabelen. Ik las een tegenstrijdige verklaring dat dummy-codering mogelijk maar zinloos is.

Voor zover ik kan begrijpen van hier , gaat het grootste probleem over uitbreiding van het begrip variantie-covariantiematrix in het geval van discrete variabelen. Maar waarom is deze extensie eigenlijk nodig? Is de covariantie tussen een dummy en een kwantitatieve variabele niet logisch? Of tussen twee dummy-variabelen?

Ik heb de intuïtie dat het enige verschil uiteindelijk gaat over de relatieve weging van de dummys in vergelijking met de kwantitatieve variabelen, maar ik heb er moeite mee om het formeel te tonen. En als ik het mis heb, kan iemand dan uitleggen waarom?

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *