Zdá se, že řada statistických balíčků, které používám, tyto dva koncepty spojuje. Zajímalo by mě, jestli existují jiné předpoklady nebo datové „formality“, které musí být pravdivé, aby bylo možné použít jeden přes druhý. Skutečný příklad by byl neuvěřitelně užitečný.

Komentáře

  • Kapitoly o analýze hlavních komponent a faktorové analýze v následující knize, která je k dispozici ve většině univerzitních knihoven, přesně odpovídají vaší otázce: apa.org/ pubs / books / 4316510.aspx
  • Kromě odpovědí níže si můžete přečíst také toto a tento můj.
  • A další dobrá otázka jako “ mám použít PCA nebo FA „: stats.stackexchange.com/q/123063/3277 .
  • @ttnphns: Doporučuji vám, abyste v tomto vlákně vydali odpověď, která by se mohla skládat z anotovaného seznamu vašich odpovědí v jiných souvisejících vláknech. To by mohlo nahradit vaše komentáře výše (v současné době čtyři odkazy s odkazy) a bylo by to praktičtější, zvláště pokud ke každému odkazu krátce přidáte anotaci. Např. podívejte se zde na vysvětlení tohoto problému, podívejte se na vysvětlení tohoto problému atd. Je to jen návrh, ale věřím, že toto vlákno by z toho mělo velký užitek! Jednou konkrétní výhodou je, že k této odpovědi můžete vždy přidat další odkazy.
  • Podobná otázka byla položena na webu MathOverflow a obdržela odpověď, kterou bych považoval za vynikající: mathoverflow.net/questions/40191/ …

odpověď

Analýza hlavních komponent zahrnuje extrakci lineárních kompozitů pozorovaných proměnných.

Faktorová analýza je založena na formálním modelu predikujícím pozorované proměnné z teoretických latentních faktorů.

V psychologii tyto dva Při konstrukci víceúrovňových testů se často používají techniky k určení, které položky se na které váhy váží. Obvykle přinášejí podobné věcné závěry (diskuse viz Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). To pomáhá vysvětlit, proč se zdá, že je některé balíčky statistik spojují dohromady. Také jsem viděl situace, kdy je „analýza hlavních komponent“ nesprávně označena jako „faktorová analýza“.

Z hlediska jednoduchého pravidla doporučuji vám:

  1. Spustit faktorovou analýzu, pokud předpokládáte nebo chcete otestovat teoretický model latentních faktorů způsobujících pozorované proměnné.

  2. Spustit analýzu hlavních komponent Pokud chcete jednoduše korelované pozorované proměnné omezit na menší sadu důležitých nezávislých složených proměnných.

Komentáře

  • Obecné pravidlo je velmi užitečné. Děkujeme za to.
  • Pokud jde o obecné pravidlo (1): Ne ‚ t Teoretický model latentních faktorů testuji spíše pomocí potvrzující analýzy faktorů než průzkumnou fa?
  • @roman Ano. CFA vám dává mnohem větší kontrolu nad modelem než EFA. Např. můžete omezit zatížení na nulu; vyrovnat zatížení; mít korelovaný zbytek ls; přidat faktory vyššího řádu; atd.
  • @Jeromy Anglim Je opravdu správné říkat, že PCA vytváří “ menší soubor důležitých nezávislých složených proměnných. “ Nebo byste měli skutečně říci “ menší soubor důležitých nekorelovaných složených proměnných „. Pokud podkladová data používaná v PCA nejsou (vícerozměrná) normálně distribuována, redukovaná dimenzionální data budou pouze nesouvisející?
  • Druhý palec pravidla lze snadno získat, ale jak mohu použít první? Zní to možná divně, ale kdy vím, že chci ‚ spustit faktorový model proti pozorovaným proměnným?

Odpovědět

Z mé odpovědi zde:

Je PCA následovaná rotací (například varimax) stále PCA?

Analýza hlavních komponent (PCA) a analýza společných faktorů (CFA) jsou odlišné metody. Často produkují podobné výsledky a PCA se používá jako výchozí metoda extrakce v rutinách SPSS Factor Analysis. To nepochybně vede k velkému zmatku ohledně rozdílu mezi těmito dvěma.

Závěrem je, že se jedná o dva odlišné modely, koncepčně. V PCA jsou komponenty skutečné ortogonální lineární kombinace, které maximalizují celkovou odchylku.V FA jsou faktory lineární kombinace, které maximalizují sdílenou část rozptylu – podkladové „latentní konstrukce“. Proto se FA často nazývá „analýza společných faktorů“. FA používá celou řadu optimalizačních rutin a výsledek, na rozdíl od PCA, závisí na použité optimalizační rutině a výchozích bodech pro tyto rutiny. Jednoduše neexistuje jediné jedinečné řešení.

V R poskytuje funkce factanal () CFA s maximální pravděpodobností extrakce. Takže byste neměli očekávat, že bude reprodukovat výsledek SPSS, který je založen na extrakci PCA. Není to prostě stejný model nebo logika. Nejsem si jistý, zda byste dostali stejný výsledek, kdybyste použili maximální pravděpodobnost SPSS, protože nemusí používat stejný algoritmus.

Pro lepší nebo horší v R, můžete však reprodukovat smíšenou „faktorovou analýzu“, kterou SPSS poskytuje jako výchozí. Zde je proces v R. S tímto kódem jsem schopen reprodukovat hlavní komponentu SPSS “ Výsledek analýzy faktorů „s použitím této datové sady. (S výjimkou znaménka, které je neurčité). Tento výsledek lze také otočit pomocí kterékoli z dostupných metod rotace R.

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors) 

Komentáře

  • Pamatujte, že stejné výsledky získáte s principal(attitude, 2, rotate="none") z psych balíček a toto Kayserovo ‚ s pravidlo (ev > 1) není nejvíce doporučeným způsobem testování pro dimenzionálnost (nadhodnocuje počet faktorů).
  • Ano, znám psych str rincipal to zabalí. Mým cílem bylo ukázat, co SPSS “ faktorová analýza “ dělá při použití metody extrakce hlavních komponent. Souhlasím s tím, že pravidlo vlastních čísel je špatný způsob, jak vybrat počet faktorů. Ale to je přesně to, co SPSS ve výchozím nastavení dělá, a to jsem demonstroval.
  • factanal() poskytuje EFA, ne CFA. Z mých zkušeností by také SPSS ‚ s maximální pravděpodobnost extrakce měla poskytnout stejný výsledek jako factanal() vzhledem k tomu, že nedochází k šikmé rotaci.
  • Co to znamená: ‚ V FA jsou faktory lineární kombinace, které maximalizují sdílenou část rozptylu – základní “ latentní konstrukce „. ‚?
  • Všimněte si také, že CFA může znamenat potvrzující FA (na rozdíl od vysvětlující FA ) místo společné FA .

Odpověď

Existuje mnoho navrhovaných definic web. Tady je jeden z online slovníku statistického učení :

Hlavní komponenta Analýza

Vytváření nových funkcí, které jsou hlavními součástmi datové sady. Hlavními složkami jsou náhodné proměnné maximální odchylky vytvořené z lineárních kombinací vstupních znaků. Ekvivalentně jsou to projekce na osy hlavních komponent, což jsou čáry, které minimalizují průměrnou druhou mocninu vzdálenosti ke každému bodu v datové sadě. Aby byla zajištěna jedinečnost, musí být všechny osy hlavních komponent kolmé. PCA je technika maximální pravděpodobnosti pro lineární regresi v přítomnosti Gaussova šumu na vstupech i výstupech. V některých případech odpovídá PCA Fourierově transformaci, například DCT použitému při kompresi obrázků JPEG. Viz „Eigenfaces for recognition“ (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, „Probabilistic Principal Component Analysis“ a „Automatic choice of dimensionality for PCA „.výběr dimenze pro PCA“.

Faktorová analýza

Zobecnění PCA, které je výslovně založeno na maximální pravděpodobnosti. Stejně jako u PCA se předpokládá, že každý datový bod vychází ze vzorkování bod v podprostoru a poté jej rušit plnorozměrným Gaussovým šumem. Rozdíl spočívá v tom, že faktorová analýza umožňuje, aby hluk měl libovolnou diagonální kovarianční matici, zatímco PCA předpokládá, že hluk je sférický. Kromě odhadu podprostoru lze provést i faktorovou analýzu odhaduje kovarianční matici šumu. Viz „Algoritmus EM pro směsi faktorových analyzátorů“. volba dimenzionality pro PCA “.

Komentáře

  • Popis faktorové analýzy získá hlavní bod (diagonální kovariance), ale historicky wa není vyvinut jako zobecnění PCA.
  • Takže v zásadě je v PCA jedna svd ‚ s kovarianční matice a v FA korelační matice? Vždy je pro mě těžké najít skutečnou matematiku poté, co metody vybudovaly hodně terminologie z oblasti, kde se používají.(mimo téma: jednou mi celé odpoledne trvalo pochopit, jaké je modelování cest, dokud jsem nenašel jeden (1) papír ze 70 ‚ s, který uváděl maticovou rovnici. )

Odpověď

Ve svém prvním bodě máte pravdu, i když v FA obvykle pracujete s oběma (jedinečnost a komunita). Volba mezi PCA a FA je dlouhotrvající debata mezi psychometriky. Nerozumím však vašim názorům. Otáčení hlavních os lze použít bez ohledu na to, jaká metoda je použita pro konstrukci latentních faktorů. Ve skutečnosti se většinou jedná o rotaci VARIMAX (ortogonální rotace, s ohledem na nekorelované faktory), která je z praktických důvodů (nejjednodušší interpretace, nejjednodušší pravidla hodnocení nebo interpretace skóre faktorů atd.), i když šikmá rotace (např. PROMAX) by pravděpodobně lépe odrážela realitu (latentní konstrukty jsou často navzájem korelovány), alespoň v tradice FA, kde předpokládáte, že latentní konstrukt je skutečně jádrem pozorovaných vzájemných korelací mezi vašimi proměnnými. Jde o to, že PCA následovaný rotací VARIMAX poněkud narušuje interpretaci lineárních kombinací původních proměnných v „datech“ tradice analýzy (viz práce Michela Tenenhausa). Z psychometrického hlediska je třeba upřednostňovat modely FA, protože výslovně zohledňují chybu měření s, zatímco PCA se o to nestará. Stručně řečeno, pomocí PCA vyjadřujete každou složku (faktor) jako lineární kombinaci proměnných, zatímco v FA jsou to proměnné, které jsou vyjádřeny jako lineární kombinace faktorů (včetně komunit a složek jedinečnosti, jak jste řekl).

Doporučuji, abyste si nejprve přečetli následující diskuse o tomto tématu:

Komentáře

  • Stačí říct, že moje odpověď může vypadat trochu mimo téma, protože tato otázka byla sloučena s jinou, stats.stackexchange.com/questions/3369/… (na tuto otázku původně odpovídám).
  • Ah, Zajímalo by mě, proč jste se připojili k tomuto hledání, v této otázce … 🙂
  • . Chl, mohl bys to vysvětlit? To ‚ je zajímavé.

Odpověď

Nejlepší odpověď v tomto vlákně naznačuje, že PCA je spíše technikou redukce rozměrů, zatímco FA je spíše technikou latentní proměnné. To je sensu stricto správné. Ale mnoho odpovědí zde a mnoho léčby jinde představují PCA a FA jako dvě zcela odlišné metody, s odlišnými, ne-li opačnými cíli, metodami a výsledky. Nesouhlasím; Domnívám se, že když se PCA považuje za techniku latentní proměnné, je velmi blízká FA a měly by být lépe považovány za velmi podobné metody.

Poskytl jsem vlastní popis podobností a rozdílů mezi PCA a FA v následujícím vlákně: Existuje nějaký dobrý důvod používat PCA místo EFA? Může také být PCA náhradou za faktorovou analýzu? Tvrdím, že z jednoduchých matematických důvodů lze očekávat, že výsledek PCA a FA bude docela podobný, pouze za předpokladu, že počet proměnných není příliš malý (možná více než tucet). Viz moje [dlouhá!] Odpověď v propojeném vlákně pro matematické podrobnosti a simulace Monte Carlo. Mnohem výstižnější verzi mého argumentu naleznete zde: Za jakých podmínek poskytují PCA a FA podobné výsledky?

Tady bych chtěl ukázat to na příkladu. Budu analyzovat soubor dat o víně z úložiště strojového učení UCI. Jedná se o poměrně dobře známou datovou sadu s víny $ n = 178 $ ze tří různých hroznů popsaných proměnnými $ p = 13 $. Takto vypadá korelační matice:

Korelační matice souboru dat o víně

Spustil jsem analýzu PCA i FA a ukázal 2D projekce dat jako biploty pro oba na obrázku níže (PCA vlevo, FA vpravo). Horizontální a vertikální osy ukazují skóre 1. a 2. složky / faktoru. Každá z $ n = 178 $ teček odpovídá jednomu vínu a tečky jsou vybarveny podle skupiny (viz legenda):

PCA a FA analýza souboru dat o víně

Načítání 1. a 2. složky / faktoru do každé z původních proměnných $ p = 13 $ jsou zobrazeny jako černé čáry. Rovnají se korelacím mezi každou z původních proměnných a dvěma složkami / faktory.Korelace samozřejmě nesmí překročit $ 1 $, takže všechny řádky načítání jsou obsaženy uvnitř „korelačního kruhu“, který ukazuje maximální možnou korelaci. Všechna zatížení a kružnice jsou libovolně zmenšeny faktorem 3 $, jinak by byly příliš malé na to, aby byly viditelné (takže poloměr kruhu je $ 3 $ a ne $ 1 $).

Všimněte si, že tam je téměř žádný rozdíl mezi PCA a FA! Sem tam se vyskytnou malé odchylky, ale obecný obrázek je téměř totožný a všechna zatížení jsou velmi podobná a směřují stejným směrem. To je přesně to, co se od teorie očekávalo, a není žádným překvapením; přesto je poučné to dodržovat.

PS. Pro mnohem hezčí biplot PCA stejné datová sada, viz tuto odpověď od @vqv .

PPS. Zatímco výpočty PCA jsou standardní, výpočty FA mohou vyžadovat komentář. Zatížení faktorů byly počítány pomocí algoritmu „iterovaných hlavních faktorů“ až do konvergence (9 iterací), přičemž komunality byly inicializovány částečnými korelacemi. Jakmile se zátěže sblížily, skóre byla vypočítána pomocí Bartlettovy metody. Tím se získá standardizované skóre; zvětšil jsem je podle příslušných variací faktorů (daných délkami zatížení).

Komentáře

  • Který software jste použili k vytvoření grafů PCA a faktorové analýzy?
  • Použil jsem Matlab. Přemýšlel jsem o vložení kódu do své odpovědi (jak je obvykle zvykem) ), ale nechtěl ještě více zaplnit toto rušné vlákno. Ale když na to přijdu, měl bych to zveřejnit na nějakém externím webu a nechat zde odkaz. Udělám to.
  • Je to pravda že PCA a FA někdy a vůbec ne zřídka dávají podobné výsledky (zatížení), a tak lze PCA považovat za konkrétní případ FA, když je provedena faktorová analýza definováno široce. Stále FA (sensu stricto) a PCA jsou teoreticky zcela odlišné.
  • (pokr.) Faktory jsou transcendentní latentní rysy; pr. komponenty jsou imanentní derivace. Přes vaše dvě aplikace načítání grafů ucho prakticky podobné, teoreticky jsou zásadně odlišné. Rovina komponent vlevo byla vytvořena jako podprostor proměnných, které se na ni promítají. Faktorová rovina byla vytvořena jako prostor odlišný od prostoru proměnných, a tak se promítají do “ mimozemšťan “ prostor na správném pozemku.
  • (pokračování) Správný obrázek (FA) však ve skutečnosti není skutečný biplot , jedná se spíše o překrytí dvou odlišných bodových grafů, různých prostorů: načítající graf (kde osy jsou skutečné faktory) a graf skóre objektu (kde osy jsou odhadované faktory jako skóre). Pravý faktorový prostor překoná “ rodičovský “ proměnný prostor, ale faktorový prostor je jeho podprostor. Překryli jste dva heterogenní páry os, ale mají stejné označení (“ factor1 “ a “ factor2 “ v obou párech), která okolnost je silně zavádějící a přesvědčuje nás, abychom si mysleli, že je to bona fide biplot , jako ten levý.

Odpověď

Základní, přesto druh pečlivého vysvětlení Analýza PCA vs Factor pomocí scatterplots v logických krocích. (Děkuji uživateli @amoeba, který mě ve svém komentáři k otázce povzbudil k zveřejnění odpovědi namísto odkazů na jinde. Takže zde je volná a pozdní odpověď.)

PCA jako variabilní shrnutí (extrakce funkcí)

Doufám, že již PCA rozumíte. Chcete-li nyní oživit.

zde zadejte popis obrázku

Předpokládejme, že máme korelační proměnné $ V_1 $ a $ V_2 $ . Vycentrujeme je (odečteme průměr) a provedeme bodový graf. Poté provedeme PCA na těchto centrovaných datech. PCA je forma rotace os , která nabízí osy P1 a P2 namísto V1 a V2. klíčovou vlastností PCA je, že P1 – nazývaná 1. hlavní komponenta – se orientuje tak, aby byla maximalizována varianta datových bodů podél ní. Nové osy jsou nové proměnné, jejichž hodnoty lze vypočítat, pokud známe koeficienty rotace $ a $ (poskytuje je PCA) [ Rov.1 ]:

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

Tyto koeficienty jsou kosiny rotace (= kosiny směru, hlavní směry) a zahrnují takzvané vlastní vektory, zatímco vlastní čísla kovarianční matice jsou odchylky hlavní složky. V PCA obvykle vyřazujeme slabé poslední komponenty: sumarizujeme tedy data několika prvními extrahovanými komponentami s malou ztrátou informací.

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543 

S našimi vynesenými daty P1 hodnoty komponent (skóre) P1 = .73543*V1 + .67761*V2 a komponentu P2 zahodíme. Varianta P1 je 1.75756, první vlastní hodnota kovarianční matice, a proto P1 vysvětluje 86.5% z celkem variance, která se rovná (1.07652+.95534) = (1.75756+.27430).

PCA jako variabilní predikce (“ latentní feature)

Takže jsme zahodili P2 a očekáváme, že samotná P1 může přiměřeně reprezentovat data. To odpovídá tomu, že $ P1 $ dokáže přiměřeně dobře “ rekonstruovat “ předpovědět $ V_1 $ a $ V_2 $ [ Rov.2 ]:

$ V_1 = a1_ {1} P1 + E_1 $

$ V_2 = a1_ {2} P1 + E_2 $

kde koeficienty $ a $ jsou to, co již víme, a $ E $ jsou chyby (nepředvídatelnost). Jedná se vlastně o “ regresní model „, kde pozorované proměnné předpovídá (zpět) latentní proměnná (pokud umožňuje volání komponenty “ latentní “ jedna) P1 extrahovaná ze stejných proměnných. Podívejte se na graf obr. 2 , nejde o nic jiného než obr. .1 , pouze podrobně:

zde zadejte popis obrázku

Osa P1 je zobrazena vedle sebe s jejími hodnotami (skóre P1) zeleně (tyto hodnoty jsou projekcemi datových bodů na P1). Některé libovolné datové body byly označeny A, B, … a jejich odchod (chyba) z P1 jsou tučné černé konektory. U bodu A jsou zobrazeny podrobnosti: souřadnice skóre P1 (zelená A) na osách V1 a V2 jsou P1 rekonstruované hodnoty V1 a V2 podle Rovnice 2 , $ \ hat {V_1} = a1_ {1} P1 $ a $ \ hat {V_2} = a1_ {2} P1 $ . Chyby při rekonstrukci $ E_1 = V_1- \ hat {V_1} $ a $ E_2 = V_2- \ hat {V_2} $ jsou také zobrazeny v béžové barvě. “ chyba “ délka na druhou je podle Pythagoreana součtem dvou na druhou chyb.

Nyní, pro PCA je charakteristické to, že když vypočítáme E1 a E2 pro každý bod v datech a vyneseme tyto souřadnice – tj. samotný scatterplot chyb, cloud “ chybová data “ se budou shodovat s vyřazená komponenta P2. A je to tak: mrak je vykreslen na stejném obrázku jako béžový mrak – a vidíte, že ve skutečnosti tvoří osu P2 ( Obr.1 ) v podobě dlaždic se skóre P2 komponent.

Není divu, můžete říci. Je to tak zřejmé: v PCA se vyřazené juniorské komponenty přesně rozkládají v predikčních chybách E, v modelu, který vysvětluje (obnovuje) původní proměnné V latentním prvkem (y) P1. Chyby E společně tvoří vynechané komponenty. Zde se začíná faktorová analýza lišit od PCA.

Myšlenka společné FA (latentní funkce) )

Model formálně předpovídající proměnné manifestu pomocí extrahovaných latentních znaků je stejný v FA jako v PCA; [ Rov. 3 ]:

$ V_1 = a_ {1} F + E_1 $

$ V_2 = a_ {2} F + E_2 $

kde F je latentní společný faktor extrahovaný z dat a nahrazující to, co bylo P1 v Rovnice 2 .Rozdíl v modelu spočívá v tom, že v FA jsou na rozdíl od PCA vyžadovány chybové proměnné (E1 a E2) vzájemně nesouvisí .

Odstup . Tady chci najednou přerušit příběh a udělat si představu o tom, co jsou koeficienty $ a $ . V PCA jsme řekli, že se jednalo o vstupy vlastních vektorů nalezených v PCA (prostřednictvím rozkladu vlastních nebo singulárních hodnot). Zatímco latentní P1 měla svou přirozenou odchylku. Pokud se rozhodneme standardizovat P1 na rozptyl jednotek , musíme to kompenzovat vhodným zvětšením koeficientů $ a $ , abychom podpořili rovnice. Tato škálovaná $ a $ s se nazývají načítání ; zajímají se numericky, protože jsou kovariancemi (nebo korelacemi) mezi latentními a pozorovatelnými proměnnými, a proto mohou pomoci interpretovat latentní rys. V obou modelech – Rov.2 div id = „10376600ba“>

a Eq.3 – můžete se svobodně rozhodnout, aniž byste poškodili rovnici , jakým způsobem jsou výrazy zmenšeny. Pokud je F (nebo P1) považováno za měřítko jednotek, načítá se $ a $ ; zatímco pokud F (P1) musí mít svůj nativní scale (variance), pak $ a $ by mělo být odpovídajícím způsobem zmenšeno – v PCA, které se bude rovnat položkám vlastního vektoru, b v FA budou odlišné a obvykle nejsou nazývány “ vlastní vektory „. Ve většině textů o faktorové analýze se F předpokládá jednotková odchylka, takže $ a $ jsou načítání . V literatuře PCA se o P1 obvykle hovoří s jeho skutečnou odchylkou, takže $ a $ jsou vlastní vektory.

Dobře, zpět na vlákno. E1 a E2 nejsou ve faktorové analýze korelované; měly by tedy tvořit oblak chyb, buď kulatý nebo eliptický, ale ne diagonálně orientovaný. Zatímco v PCA jejich mrak tvořil přímku shodnou s úhlopříčně probíhající P2. Obě myšlenky jsou ukázány na obrázku:

zde zadejte popis obrázku

Všimněte si, že chyby jsou v FA kulaté (ne šikmo podlouhlé) mračno. Faktor (latentní) v FA je poněkud odlišný, tj. Není správné první hlavní složkou, kterou je “ latentní “ v PCA . Na obrázku je faktorová linie trochu podivně kónická – nakonec bude jasné, proč.

Jaký je význam tohoto rozdílu mezi PCA a FA? Proměnné korelovaly, což je vidět v úhlopříčně eliptickém tvaru datového mraku. P1 prozkoumala maximální rozptyl, takže elipsa je směrována na P1. Následně P1 sám vysvětlil korelaci; ale dostatečně to nevysvětlilo stávající míru korelace ; zdálo se, že to vysvětluje variaci v datových bodech, ne korelaci. Ve skutečnosti to přeceňovalo korelaci, jejímž výsledkem byl vzhled diagonálního, korelovaného oblaku chyb, které kompenzují nadměrný účet. P1 samotná nedokáže komplexně vysvětlit sílu korelace / kovariace. Faktor F může to udělat sám; a podmínka, kdy to bude možné, je přesně tam, kde chyby mohou být vynuceny, aby byly nekorelované. Vzhledem k tomu, že chybový mrak je kulatý, po extrakci faktoru nezůstala žádná korelace – pozitivní ani negativní – proto je to faktor, který to vše prohledal.

Jako redukce dimenze PCA vysvětluje odchylku , korelace však vysvětluje nepřesně. FA vysvětluje korelace , ale nemůže zohlednit (podle běžných faktorů) tolik datových variací, kolik dokáže PCA. Faktory v FA tvoří část variability, kterou je čistá korelační část, nazývaná komunita ; a proto lze faktory interpretovat jako skutečné, ale nepozorovatelné síly / rysy / vlastnosti, které skrývají “ v “ nebo “ za “ vstupními proměnnými, které je uvedou do korelace. Protože matematicky dobře vysvětlují korelaci. Hlavní komponenty (několik prvních) to nevysvětlují matematicky tak dobře, takže lze nazvat “ latentní znak “ (nebo podobně) pouze v určitém úseku a předběžně .

Násobení načítání vysvětluje (obnovuje) korelaci nebo korelaci v forma kovariance – pokud byla analýza založena na kovarianční matici (jako v předchozím příkladu) spíše než na korelační matici.Faktorová analýza, kterou jsem provedl s daty, přinesl a_1=.87352, a_2=.84528, takže produkt a_1*a_2 = .73837 se téměř rovná kovarianci .73915. Na druhou stranu byla zatížení PCA a1_1=.97497, a1_2=.89832, takže a1_1*a1_2 = .87584 značně nadhodnocuje .73915.

Poté, co jsme vysvětlili hlavní teoretický rozdíl mezi PCA a FA, pojďme se vrátit k našim údajům, abychom tento příklad ilustrovali.

FA: přibližné řešení (skóre faktorů)

Níže je bodový graf zobrazující výsledky analýzy, které provizorně nazýváme “ suboptimální faktorovou analýzou „, Obr.3 .

A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings). 

zde zadejte popis obrázku

Zobrazit odchylky od obr. .2 dohody PCA. Béžový mrak chyb není kulatý, je diagonálně eliptický, – přesto je evidentně mnohem tlustší než tenká diagonální čára, která se vyskytla v PCA. Všimněte si také, že chybové konektory (u některých bodů zobrazené) již nejsou paralelní (v PCA, byly ze své podstaty paralelní s P2). Navíc, pokud se podíváte například na body “ F “ a “ E “ které leží zrcadlem symetricky nad činitelem F osa, neočekávaně zjistíte, že jejich odpovídající skóre faktorů jsou zcela odlišné hodnoty. Jinými slovy, skóre faktorů není jen lineárně transformované skóre hlavních složek: faktor F se nachází svým vlastním způsobem odlišným ze způsobu P1. A jejich osy se úplně neshodují, pokud jsou zobrazeny společně na stejném grafu Obr.4 :

zadat obrázek d escription here

Kromě toho, že jsou trochu odlišně orientovaní, F (jak je u dlaždic se skóre) je kratší, tzn. že představuje menší rozptyl než účty P1. Jak již bylo zmíněno dříve, faktor zohledňuje pouze variabilitu, která je zodpovědná za korelaci V1 V2, tj. Část celkové odchylky, která je dostatečná k tomu, aby proměnné přenesla z původní kovariance 0 do faktické kovariance .73915.

FA: optimální řešení (skutečný faktor)

Optimální řešení faktorem je, když jsou chyby kulaté nebo ne diagonální eliptický mrak : E1 a E2 jsou plně nekorelované . Faktorová analýza ve skutečnosti vrací takové optimální řešení. Neukázal jsem to na jednoduchém scatterplotu, jako jsou ty výše. Proč jsem to udělal – protože by to byla koneckonců nejzajímavější věc.

Důvodem je to, že by nebylo možné dostatečně dostatečně ukázat na scatterplot, dokonce ani přijmout 3D spiknutí. Je to docela zajímavý bod teoreticky. Aby byly E1 a E2 zcela nekorelované, zdá se, že všechny tyto tři proměnné, F, E1, E2 musí ležet ne v prostoru (rovině) definovaném V1, V2; a tři musí vzájemně nekorelovat . Věřím, že je možné nakreslit takový scatterplot v 5D (a možná s nějakým trikem – ve 4D), ale žijeme ve 3D světě, bohužel. Faktor F musí být nekorelovaný jak s E1, tak s E2 (zatímco oba také nesouvisejí), protože F má být pouze (čistý) a úplný zdroj korelace v pozorovaných datech. Faktorová analýza rozděluje celkovou odchylku p vstupních proměnných na dvě nekorelované (nepřekrývající se) ) části: komunita část (m -dimenzionální, kde m vládnou společné faktory) a jedinečnost část (p -dimenzionální, kde jsou chyby, nazývané také jedinečné faktory, vzájemně nesouvisející).

Omlouvám se za nezobrazení skutečného faktoru naše data na scatterplot zde. Dalo by se to docela adekvátně vizualizovat pomocí vektorů v “ předmětovém prostoru “ tak, jak zde bez zobrazení datových bodů.

Nahoře v sekci “ Myšlenka společného FA (latentní funkce) “ Zobrazil jsem faktor (osa F) jako klín, abych varoval, že skutečná osa faktoru ne leží v rovině V1 V2. To znamená, že na rozdíl od hlavní složky P1 není faktor F jako osa rotací osy V1 nebo V2 v jejich prostoru a F jako proměnná není lineární kombinací proměnných V1 a V2.Proto je F modelováno (extrahováno z proměnných V1 v2), jako by to byla vnější nezávislá proměnná, nikoli jejich derivace. Rovnice jako Rov.1 od místa, kde začíná PCA, nelze pro výpočet true (optimálního) faktoru použít ve faktorové analýze, zatímco formálně izomorfní rovnice Rovnice 2 a Rovnice 3 jsou platné pro obě analýzy. To znamená, že v proměnných PCA generovat komponenty a komponenty zpět předpovídat proměnné; v FA faktorech generovat / předpovídat proměnné, a ne zpět – společný faktorový model koncepčně předpokládá tak , i když jsou technicky faktory získány ze sledovaných proměnných.

Nejen faktor true není funkcí proměnných manifestu, faktor true „S hodnoty nejsou jednoznačně definovány . Jinými slovy, jsou prostě neznámé. To vše je způsobeno skutečností, že my“ jsme v nadměrném 5D analytickém prostoru a ne v našem domácím 2D prostoru dat. Pouze dobré aproximace (existuje řada metod ) ke skutečným hodnotám faktorů, nazývaným skóre faktorů , jsou tam pro nás. Skóre faktorů leží v rovině V1 V2, stejně jako skóre hlavních složek, jsou počítána jako lineární funkce V1, V2 a byly které jsem vynesl v sekci “ FA: přibližné řešení (skóre faktoru) „. Skóre hlavních komponent jsou skutečné hodnoty komponent; skóre faktorů jsou pouze rozumnou aproximací k neurčeným skutečným hodnotám faktorů.

FA: shrnutí postupu

Shromáždit v jedné malé sraženině, co řekly dvě předchozí části, a přidat poslední tahy . Ve skutečnosti může FA ( pokud to udělat správně a viz také předpoklady dat ) najít skutečné řešení faktorů (pomocí “ true “ Myslím tím optimální pro vzorek dat). Existují však různé metody extrakce (liší se v některých sekundárních omezeních, která kladou). Skutečné faktorové řešení je pouze na načítání $ a $ . Zatížení jsou tedy optimálními a skutečnými faktory. Faktorové skóre – pokud je potřebujete – lze z těchto načtení vypočítat různými způsoby a vrátit aproximace na hodnoty faktoru.

Proto je “ faktorové řešení “ zobrazeno mnou v sekci “ FA: přibližné řešení (skóre faktoru) “ bylo ve skutečnosti založeno na optimálním zatížení, tj. Na skutečných faktorech. Ale skóre nebylo podle osudu optimální. Skóre se počítá jako lineární funkce pozorovaných proměnných, jako jsou skóre komponent, takže obě lze porovnat pomocí scatterplot a já jsem to udělal v didaktické snaze ukázat jako postupný přechod od nápadu PCA k nápadu FA.

Při vykreslování stejných biplotových faktorových načtení se skóre faktorů v “ prostoru faktorů , mějte na paměti, že načítání se týká skutečných faktorů, zatímco skóre se týká náhradních faktorů (viz moje komentáře k této odpovědi v tomto vlákně).

Rotace faktorů (načítání) pomáhá interpretovat latentní rysy. Otáčení načítání lze provádět také v PCA , pokud používáte PCA jako faktorovou analýzu (tj. Viz PCA jako predikce proměnné). S rostoucím počtem proměnných má PCA tendenci konvergovat do výsledků s FA (praktické a koncepční podobnosti a rozdíly mezi těmito dvěma metodami viz extrémně bohaté vlákno ). Podívejte se na můj seznam rozdílů mezi PCA a FA na konci této odpovědi . Podrobné výpočty PCA vs FA na iris datové sadě najdete zde . Existuje značné množství dobrých odkazů na odpovědi ostatních účastníků na toto téma mimo toto vlákno; omlouvám se, že jsem v aktuální odpovědi použil jen několik z nich.

Viz také seznam odrážek rozdílů mezi PCA a FA zde .

Komentáře

  • +1. Je ‚ skvělé, že jste to napsali, tomuto vláknu rozhodně chyběla vaše odpověď. Před čtením jsem hlasoval (což zřídkakdy dělám) a další čtení si určitě užil. Mohl bych se k tomu vyjádřit později, ale zatím jeden malý nitpick: několikrát jste psali, že v FA by měl být chybový cloud “ kulatý “ .Ve skutečnosti by to ale mohlo být eliptické (protože jedinečnosti pro V1 a V2 mohou mít různé odchylky), prostě to musí mít nulové korelace. Myslím, že jste nechtěli čtenáře zmást tímto detailem.
  • @amoeba Mám naivní pochybnosti o matematické nemožnosti reprezentovat optimální F, E1, E2 v prostoru (rovině) definovaném V1, V2. Napadá mě příklad počítadla: Řekněme $ V_1 = a_ {1} F + E_1 $ a $ V_2 = a_ {2} F + E_2 $, kde $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $ – Nyní použijte tyto vztahy ke generování vzorků V1 a V2. Jakmile se vygenerují V1 a V2, pokud bychom měli provést optimální FA, měli bychom získat zpět téměř přesné odhady (E1, E2) a vytvoří eliptický mrak. Navíc nyní F, E1, E2 mohou být reprezentovány ve stejné rovině jako V1 a V2.
  • @kasa, pokud váš komentář vítá mou odpověď nebo améba ‚ s komentář? Pokud je váš komentář v rozporu s mým hlavním tvrzením, že v FA tři latentní proměnné neleží v původním prostoru a můžete je ukázat, proč nevydat odpověď, která by to ukázala? Upozorňujeme však, že v optimálním FA jsou chyby přesně nekorelující, ne že by si je bylo možné představit jako pocházející z normální nekorelované populace.
  • @ttnphns : Omlouvám se za zmatek, pochyboval jsem o vašem hlavním požadavku. Pokusím se to ukázat jako odpověď za pár dní. Děkujeme!

Odpověď

Rozdíly mezi faktorovou analýzou a analýzou hlavních komponent jsou:

• Ve faktorové analýze existuje strukturovaný model a některé předpoklady. V tomto ohledu jde o statistickou techniku, která se nevztahuje na analýzu hlavních složek, což je čistě matematická transformace.

• Cílem analýzy hlavních složek je vysvětlit rozptyl, zatímco faktorová analýza vysvětluje kovarianci mezi proměnné.

Jedním z největších důvodů záměny těchto dvou činitelů je skutečnost, že jedna z metod extrakce faktorů v analýze faktorů se nazývá „metoda hlavních komponent“. Jedna věc je však použít PCA a druhá věc použít metodu hlavních komponent v FA. Názvy mohou být podobné, ale existují značné rozdíly. První z nich je nezávislá analytická metoda, zatímco druhý je pouze nástrojem pro extrakci faktorů.

Odpověď

Pro mě (a doufám, že je to užitečné) je faktorová analýza mnohem užitečnější než PCA.

Nedávno jsem měl to potěšení analyzovat měřítko pomocí faktorové analýzy. Toto měřítko (i když je v průmyslu široce používáno) bylo vyvinuto pomocí PCA a podle mých znalostí měl nikdy nebyla analyzována faktorem.

Když jsem provedl faktorovou analýzu (hlavní osa), zjistil jsem, že komunality u tří položek byly menší než 30%, což znamená, že více než 70% rozptylu položek nebylo analyzováno. PCA jen transformuje data do nové kombinace a nestará se o komunality. Můj závěr byl, že škála nebyla z psychometrického hlediska moc dobrá a potvrdil jsem to na jiném vzorku.

Pokud chcete v zásadě předpovědět pomocí faktorů, použijte PCA , zatímco pokud chcete porozumět latentním faktorům, použijte analýzu faktorů.

Odpověď

Rozšíření odpovědi @StatisticsDocConsulting: rozdíl v zatížení mezi EFA a PCA je netriviální s malým počtem proměnných. Zde je ukázka simulační funkce v R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X} 

Ve výchozím nastavení tato funkce provádí 100 Iterations, v každé produkuje náhodné, normálně distribuované vzorky (Sample.Size $ = 1000 $) tří proměnných a extrahuje jeden faktor pomocí PCA a ML-EFA. Výstupem je seznam dvou Iterations -dlouhé vektory složené ze středních velikostí zatížení simulovaných proměnných na neotočenou první složku z PCA a obecný faktor z EFA. Umožňuje vám pohrát si s velikostí vzorku a počtem proměnných a faktorů, které vyhovují vaší situaci, v mezích principal() a factanal() funkce a váš počítač.

Pomocí tohoto kódu jsem simuloval vzorky 3–100 proměnných s 500 iteracemi pro vytvoření dat:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)} 

… pro vykreslení citlivosti průměrných zatížení (napříč proměnnými a iteracemi) na počet proměnných:

To ukazuje, jak odlišně musí interpretovat sílu zátěží v PCA vs. EFA. Obě do jisté míry závisí na počtu proměnných, ale zátěže jsou v PCA předurčeny směrem nahoru mnohem silněji. Rozdíl mezi průměrnými zátěžemi tyto metody klesá s rostoucím počtem proměnných, ale i 100 proměnných, zatížení PCA v průměru o 0,677 $ vyšší než zatížení EFA v náhodných normálních datech.Všimněte si však, že průměrné zatížení bude obvykle vyšší ve skutečných aplikacích, protože jeden obecně používá tyto metody na více korelovaných proměnných. Nejsem si jistý, jak by to mohlo ovlivnit rozdíl průměrných zatížení.

Odpovědět

Citát z opravdu pěkné učebnice ( Brown, 2006, s. 22, zvýraznění přidáno).
PCA = analýza hlavních komponent
EFA = průzkumná faktorová analýza
CFA = potvrzovací faktorová analýza

Ačkoli souvisí s EFA, analýza hlavních komponent (PCA) je často chybně zařazena jako metoda odhadu společné faktorové analýzy. Na rozdíl od odhadů diskutovaných v předchozím odstavci (ML, PF) se PCA opírá o jinou sadu kvantitativních metody, které nejsou založeny na modelu společného faktoru. PCA nerozlišuje běžnou a jedinečnou rozptyl. Cílem PCA je spíše zohlednit rozptyl ve sledovaných opatřeních, než vysvětlit vzájemné korelace. PCA se tedy vhodněji používá jako technika redukce dat k redukci většího souboru měr na menší a lépe zvládnutelný počet složených proměnných, které se mají použít v následných analýzách. Někteří metodici však tvrdili, že PCA je rozumnou nebo snad lepší alternativou k EFA, vzhledem k tomu, že PCA má několik žádoucích statistických vlastností (např. Výpočetně jednodušší, nepodléhající nevhodným řešením, často přináší podobné výsledky jako EFA , schopnost PCA vypočítat skóre účastníka na hlavní složce, zatímco neurčitá povaha EFA tyto výpočty komplikuje). Ačkoli debata o tomto problému pokračuje, Fabrigar et al. (1999) uvádějí několik důvodů na rozdíl od argumentu pro místo PCA ve faktorové analýze. Tito autoři podtrhují situace, kdy EFA a PCA přinášejí odlišné výsledky; například když jsou komunality nízké nebo když existuje jen několik indikátorů daného faktoru (srov. Widaman, 1993). Bez ohledu na to, že jsou-li převládající důvody a empirické cíle analýzy v souladu se společným faktorovým modelem, je provedení PCA koncepčně i matematicky nekonzistentní; to znamená, že EFA je vhodnější, pokud je stanoveným cílem reprodukovat vzájemné korelace sady indikátorů s menším počtem latentních rozměrů, rozpoznat existenci chyby měření ve sledovaných opatřeních. Floyd a Widaman (1995) uvádějí související bod, že odhady založené na EFA se pravděpodobně zobecňují na CFA než odhady získané z PCA, protože na rozdíl od PCA jsou EFA a CFA založeny na modelu společného faktoru. Toto je pozoruhodná úvaha ve světle skutečnosti, že EFA se často používá jako předchůdce CFA při vývoji měřítka a ověřování konstrukce. Podrobnou ukázku výpočtových rozdílů mezi PCA a EFA lze najít v multivariačních a faktorově analytických učebnicích (např. Tabachnick & Fidell, 2001).

Brown, TA (2006). Potvrzovací faktorová analýza pro aplikovaný výzkum. New York: Guilford Press.

Odpověď

Lze si myslet PCA jako FA, ve kterém se předpokládá, že komunita se rovná 1 pro všechny proměnné. V praxi to znamená, že položky, které by měly relativně nízké faktorové zatížení v FA kvůli nízké komunitě, budou mít vyšší zatížení v PCA. To není žádoucí vlastnost, pokud je primárním účelem analýzy snížit délku položky a vyčistit baterii položek s nízkým nebo nejednoznačným zatížením nebo identifikovat koncepty, které nejsou ve fondu položek dobře zastoupeny.

Odpověď

V příspěvku Tippinga a Bischopa je diskutován těsný vztah mezi probabalistickou PCA (PPCA) a faktorovou analýzou. PPCA je blíže FA než klasický PCA. Společný model je

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

kde $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ a $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.

  • Faktorová analýza předpokládá, že $ \ mathbf {\ Psi} $ je úhlopříčka.
  • PPCA předpokládá $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Journal of the Royal Statistical Society, svazek 61, číslo 3, strany 611–622

Komentáře

  • + 1. Ano. Věřím, že pochopení PPCA je nezbytné k pochopení vztahu mezi PCA a FA. Svou odpověď byste však mohli vylepšit projednáním vztahu PCA / PPCA.

Odpověď

Žádná z těchto odpovědí není perfektní. FA nebo PCA má některé varianty. Musíme jasně poukázat na to, které varianty jsou porovnávány. Porovnal bych analýzu faktoru maximální pravděpodobnosti a PCA Hotelling.První předpokládají, že latentní proměnná se řídí normálním rozdělením, ale PCA takový předpoklad nemá. To vedlo k rozdílům, jako je řešení, vnoření komponent, jedinečnost řešení, optimalizační algoritmy.

Komentáře

  • Zajímalo by mě, jestli byste to mohli trochu rozšířit – řekli jste, že v poslední větě jsou rozdíly, ale neuvádíte mnoho informací o tom, co by tyto rozdíly mohly být, nebo v čem by tyto rozdíly mohly být důležité?
  • Vybrat dvě nejvzdálenější metody a tvrdit, že se skutečně liší – stejně jako vy – není dokonalá logika . Jeden by pravděpodobně měl najít a nahlásit, jak jsou si tito dva podobní. Alternativně lze zvolit nejpodobnější metody (například prostý PCA vs. PAF ) a nahlásit, v čem se liší.
  • Hotelling ‚ s PCA předpokládá latentní gaussiány.

Odpověď

Existuje mnoho skvělých odpovědí na tento příspěvek, ale nedávno jsem narazil na další rozdíl.

Klastrování je jedna aplikace, kde PCA a FA přinášejí odlišné výsledky. Pokud je v datech mnoho funkcí, je možné se pokusit najít hlavní směry počítače a promítnout data na těchto počítačích a poté pokračovat v klastrování. To často narušuje inherentní shluky v datech – to je dobře osvědčený výsledek. Výzkumníci navrhují pokračovat v metodách shlukování subprostoru, které v modelu hledají nízkodimenzionální latentní faktory.

Pro ilustraci tohoto rozdílu zvažte Crabs datovou sadu v R. Krabí datová sada má 200 řádků a 8 sloupců, což popisuje 5 morfologických měření na 50 krabech, každé ze dvou barev formy a obě pohlaví druhu – v zásadě existují 4 (2×2) různé třídy krabů.

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23) 

Klastrování pomocí PC1 a PC2: zde zadejte popis obrázku

Klastrování pomocí PC2 a PC3: zde zadejte popis obrázku

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2 

Jak je patrné z výše uvedených grafů, PC2 a PC3 obsahují více diskriminačních informací než PC1.

Pokud se pokusíte seskupit pomocí latentních faktorů pomocí směsi faktorových analyzátorů, uvidíme mnohem lepší výsledek ve srovnání s použitím prvních dvou počítačů.

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5 

Komentáře

  • Musím říci, že pochybuji, že tato odpověď na otázku skutečně odpovídá. Odpověď je o klastrové analýze po PCA nebo FA, nikoli o samotných PCA a FA. Ale i v tomto ohledu je odpověď matná nebo nedokončená. Jak je třeba vysvětlit rozdíl, který zobrazujete?
  • @ttnphns Souhlasím s odpovědí o klastrové analýze. OP však také požádal o scénář z reálného života s PCA / FA, kde je třeba použít jeden nad druhým. PCA nebo FA obvykle nejsou konečným cílem – například V sociálních vědách by konečným cílem bylo segmentování subjektů do různých klastrů / skupin. Moje odpověď tyto scénáře řeší. V případě, že si myslíte, že lze moji odpověď vylepšit, neváhejte na to poukázat.
  • Myslím, že vaše odpověď může být skutečně relevantní, pokud vysvětlíte své zjištění. Tvrdíte, že rozdíly mezi PCA a FA jsou vnitřní rozdíly pro tyto dvě metody (pouze se projeví při shlukování). Myslím, že byste měli ukázat nebo alespoň spekulovat, jak a proč rozdíly teoreticky vznikají z rozdílů metod ‚ modelů.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *