Se pare că o serie de pachete statistice pe care le folosesc înfășoară aceste două concepte împreună. Cu toate acestea, mă întreb dacă există diferite ipoteze sau „formalități” de date care trebuie să fie adevărate pentru a le folosi una peste alta. Un exemplu real ar fi incredibil de util.

Comentarii

  • Principalele capitole de analiză a componentelor și analiza factorială din următoarea carte, care sunt disponibile în majoritatea bibliotecilor colegiului, abordează întrebarea dvs. exact: apa.org/ pubs / books / 4316510.aspx
  • În plus față de răspunsurile de mai jos, puteți citi și aceasta și aceasta a mea.
  • Și o altă întrebare bună ca ” ar trebui să o folosesc PCA sau FA „: stats.stackexchange.com/q/123063/3277 .
  • @ttnphns: v-aș încuraja să emiteți un răspuns în acest thread, constând poate dintr-o listă adnotată a răspunsurilor dvs. în alte fire conexe. Acest lucru ar putea înlocui comentariile dvs. de mai sus (în prezent patru co comentarii cu linkuri) și ar fi mai practic, mai ales dacă ați adnotat pe scurt fiecare link. De exemplu. căutați aici explicația acestei probleme, căutați o explicație a problemei respective, etc. Este doar o sugestie, dar cred că acest fir ar beneficia foarte mult de ea! Un avantaj deosebit este că puteți adăuga oricând mai multe linkuri la acel răspuns.
  • O întrebare similară a fost pusă pe MathOverflow și a primit ceea ce aș considera un răspuns excelent: mathoverflow.net/questions/40191/ …

Răspuns

Analiza componentelor principale implică extragerea compozitelor liniare ale variabilelor observate.

Analiza factorilor se bazează pe un model formal care prezice variabilele observate din factori teoretici latenți.

În psihologie aceste două tehnicile sunt adesea aplicate în construcția de teste pe mai multe scale pentru a determina ce articole se încarcă pe care scale. În mod obișnuit, acestea dau concluzii de fond similare (pentru o discuție a se vedea Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Acest lucru ajută la explicarea de ce unele pachete de statistici par să le grupeze. De asemenea, am văzut situații în care „analiza componentelor principale” este etichetată incorect „analiză factorială”.

În ceea ce privește o regulă simplă , aș sugera să:

  1. Rulați analiza factorilor dacă presupuneți sau doriți să testați un model teoretic al factorilor latenți care cauzează variabile observate.

  2. Rulați analiza componentelor principale Dacă doriți să reduceți pur și simplu variabilele corelate observate la un set mai mic de variabile compozite independente importante.

Comentarii

  • Regula generală este foarte utilă. Vă mulțumim pentru asta.
  • În ceea ce privește regula generală (1): nu ar fi ‘ t Testez un model teoretic al factorilor latenți, mai degrabă cu o analiză a factorilor de confirmare decât cu o față exploratorie?
  • @roman Da. Un CFA vă oferă mult mai mult control asupra modelului decât EFA. De exemplu, puteți constrânge încărcările la zero; echivalați încărcările; aveți reziduuri corelate ls; adăugați factori de ordin superior; etc.
  • @Jeromy Anglim Este cu adevărat corect să spunem că PCA face un ” set mai mic de variabile compozite independente importante. ” Sau ar trebui să spui cu adevărat ” set mai mic de variabile compozite necorelate importante „. Dacă datele de bază utilizate în PCA nu sunt distribuite (multivariate) în mod normal, datele dimensionale reduse vor fi necorelate doar?
  • Al doilea deget mare al regulii este ușor de obținut, dar cum pot aplica primul? Sună poate ciudat, dar când știu că vreau ‘ să rulez un model de factor împotriva variabilelor observate?

Răspuns

Din răspunsul meu aici:

Este PCA urmată de o rotație (cum ar fi varimax) încă PCA?

Analiza componentelor principale (PCA) și analiza factorilor comuni (CFA) sunt metode distincte. Adesea, produc rezultate similare, iar PCA este folosit ca metodă implicită de extracție în rutinele de analiză a factorului SPSS. Acest lucru duce fără îndoială la o mulțime de confuzie cu privire la distincția dintre cele două.

Concluzia este că acestea sunt două modele diferite, conceptual. În PCA, componentele sunt combinații liniare ortogonale reale care maximizează varianța totală.În FA, factorii sunt combinații liniare care maximizează porțiunea partajată a varianței – „constructele latente” subiacente. Acesta este motivul pentru care FA este adesea numită „analiză factor comună”. FA utilizează o varietate de rutine de optimizare și rezultatul, spre deosebire de PCA, depinde de rutina de optimizare utilizată și de punctele de pornire pentru aceste rutine. Pur și simplu nu există o singură soluție unică.

În R, funcția factanal () oferă CFA o extracție de probabilitate maximă. Deci, nu trebuie să vă așteptați să reproducă un rezultat SPSS care se bazează pe o extracție PCA. Pur și simplu nu este același model sau logică. Nu sunt sigur dacă ați obține același rezultat dacă ați folosi extragerea maximă a probabilității SPSS, întrucât este posibil să nu folosească același algoritm.

mai bine sau mai rău în R, puteți, totuși, să reproduceți „analiza factorială” amestecată pe care SPSS o oferă ca implicită. Iată procesul în R. Cu acest cod, sunt „capabil să reproduc componenta principală SPSS” Analiza factorială „rezultă folosind acest set de date. (Cu excepția semnului, care este nedeterminat). Acest rezultat ar putea fi apoi rotit utilizând oricare dintre metodele de rotație disponibile ale lui R.

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors) 

Comentarii

  • Rețineți că veți obține aceleași rezultate cu principal(attitude, 2, rotate="none") din psych și că regula Kayser ‘ (ev > 1) nu este cel mai recomandat mod de testare pentru dimensionalitate (supraestimează numărul de factori).
  • Da, știu ps. ps principala încheie acest lucru. Scopul meu a fost să arăt ce făcea SPSS ” analiza factorului ” atunci când se utilizează metoda principală de extragere a componentelor. Sunt de acord că regula valorii proprii este un mod slab de a selecta numărul de factori. Dar, exact asta face SPSS în mod implicit și asta demonstram.
  • factanal() oferă EFA nu CFA. De asemenea, din experiența mea, extragerea maximă a probabilității SPSS ‘ ar trebui să dea același rezultat ca factanal() având în vedere că nu există o rotație oblică.
  • Ce înseamnă următoarele: ‘ În FA, factorii sunt combinații liniare care maximizează porțiunea partajată a varianței – subiacentă ” constructii latente „. ‘?
  • Rețineți, de asemenea, că CFA poate reprezenta FA confirmativă (spre deosebire de FA explicativă ) în loc de FA comun .

Răspuns

Există numeroase definiții sugerate pe web. Iată unul dintr-un glosar on-line privind învățarea statistică :

Componenta principală Analiză

Construirea de noi caracteristici care sunt principalele componente ale unui set de date. Componentele principale sunt variabile aleatorii ale varianței maxime construite din combinații liniare ale caracteristicilor de intrare. În mod echivalent, acestea sunt proiecțiile pe axele componente principale, care sunt linii care minimizează distanța medie pătrată până la fiecare punct din setul de date. Pentru a asigura unicitatea, toate axele componente principale trebuie să fie ortogonale. PCA este o tehnică de maximă probabilitate pentru regresia liniară în prezența zgomotului gaussian atât la intrări, cât și la ieșiri. În unele cazuri, PCA corespunde unei transformări Fourier, cum ar fi DCT utilizat în compresia de imagine JPEG. A se vedea „Eigenfaces pentru recunoaștere” (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, „Probabilistic Principal Component Analysis” și „Automatic choice of dimensionality for PCA „.Alegerea dimensionalității pentru PCA”.

Analiza factorilor

O generalizare a PCA care se bazează în mod explicit pe probabilitatea maximă. La fel ca PCA, se presupune că fiecare punct de date provine din eșantionare un punct dintr-un subspațiu și apoi perturbându-l cu zgomot gaussian complet. Diferența este că analiza factorială permite zgomotului să aibă o matrice de covarianță diagonală arbitrară, în timp ce PCA presupune că zgomotul este sferic. În plus față de estimarea subspațiului, analiza factorială estimează matricea de covarianță a zgomotului. A se vedea „Algoritmul EM pentru amestecuri de analizoare de factori”. alegerea dimensionalității pentru PCA „.

Comentarii

  • Descrierea Analizei factorului capătă punctul principal (covarianța diagonală), dar istoric wa nu s-a dezvoltat ca o generalizare a PCA.
  • Deci, practic, în PCA, un singur svd ‘ este matricea de covarianță și în FA matricea de corelație? Este întotdeauna greu pentru mine să găsesc matematica reală după ce metodele au construit o mulțime de terminologie din domeniul în care sunt aplicate.(off-topic: odată mi-a luat o după-amiază întreagă înțelegând care este modelarea căii până când am găsit o (1) lucrare din 70 ‘ s în care se indica ecuația matricei din spatele ei. )

Răspuns

Ai dreptate în legătură cu primul tău punct, deși în FA lucrezi în general cu ambele (unicitate și comunalitate). Alegerea dintre PCA și FA este o dezbatere de lungă durată în rândul psihometricienilor. Totuși, nu vă respect punctele. Rotirea axelor principale poate fi aplicată indiferent de metoda utilizată pentru a construi factori latenți. De fapt, de cele mai multe ori aceasta este rotația VARIMAX (rotație ortogonală, având în vedere factorii necorelați), care este utilizate, din motive practice (cea mai ușoară interpretare, cele mai ușoare reguli de notare sau interpretarea scorurilor factorilor etc.), deși rotația oblică (de exemplu, PROMAX) ar putea reflecta mai bine realitatea (constructele latente sunt adesea corelate între ele), cel puțin în tradiția FA în care presupuneți că un construct latent se află într-adevăr în centrul inter-corelațiilor observate între variabilele dvs. Ideea este că PCA urmată de rotația VARIMAX distorsionează oarecum interpretarea combinațiilor liniare ale variabilelor originale din „date” analiza „tradiției (a se vedea opera lui Michel Tenenhaus). Dintr-o perspectivă psihometrică, modelele FA trebuie preferate, deoarece explică în mod explicit eroarea de măsurare În timp ce PCA nu-i pasă de asta. Afirmat pe scurt, folosind PCA exprimați fiecare componentă (factor) ca o combinație liniară a variabilelor, în timp ce în FA acestea sunt variabilele care sunt exprimate ca combinații liniare ale factorilor (inclusiv elementele de comunitate și unicitate, după cum ați spus).

Vă recomand să citiți mai întâi următoarele discuții despre acest subiect:

Comentarii

  • Doar pentru a spune că răspunsul meu ar putea părea de fapt puțin subiect, deoarece această întrebare a fost îmbinată cu alta, stats.stackexchange.com/questions/3369/… (inițial răspund la acesta din urmă).
  • Ah, Mă întrebam de ce v-ați legat de această misiune, în această întrebare … 🙂
  • . Chl, ai putea să-l explici? ‘ este interesant.

Răspuns

Răspunsul de sus în acest fir sugerează că PCA este mai mult o tehnică de reducere a dimensionalității, în timp ce FA este mai mult o tehnică variabilă latentă. Acest lucru este sensu stricto corect. Dar multe răspunsuri aici și multe tratamente în altă parte prezintă PCA și FA ca două metode complet diferite, cu obiective, metode și rezultate diferite, dacă nu opuse. Nu sunt de acord; Cred că atunci când PCA este considerată o tehnică variabilă latentă, este destul de apropiată de FA și ar trebui să fie privite mai bine ca metode foarte similare.

Am furnizat propriul meu raport despre asemănările și diferențele dintre PCA și FA în următorul fir: Există vreun motiv bun pentru a utiliza PCA în locul EFA? De asemenea, poate PCA să înlocuiască analiza factorială? Acolo susțin că, din motive matematice simple, rezultatul PCA și FA poate fi de așteptat să fie destul de similar, dat fiind doar că numărul de variabile nu este foarte mic (probabil peste o duzina). Vedeți răspunsul meu [lung!] În firul legat pentru detalii matematice și simulări Monte Carlo. Pentru o versiune mult mai concisă a argumentului meu, consultați aici: În ce condiții PCA și FA dau rezultate similare?

Aici aș dori pentru a o arăta pe un exemplu. Voi analiza setul de date despre vin din UCI Machine Learning Repository. Este un set de date destul de cunoscut, cu $ n = 178 $ vinuri din trei struguri diferiți descriși de variabile $ p = 13 $. Iată cum arată matricea de corelație:

Matricea de corelație a setului de date de vin

Am rulat atât analiza PCA, cât și analiza FA și am arătat Proiecții 2D ale datelor ca biplots pentru ambele pe figura de mai jos (PCA în stânga, FA în dreapta). Axele orizontale și verticale arată primul și al doilea scor / componentă. Fiecare dintre $ n = 178 $ puncte corespunde unui singur vin, iar punctele sunt colorate în funcție de grup (vezi legenda):

Analiza PCA și FA a setului de date de vin

Încărcările componentei / factorului 1 și 2 pe fiecare dintre variabilele originale $ p = 13 $ sunt afișate ca linii negre. Acestea sunt egale cu corelațiile dintre fiecare dintre variabilele originale și cele două componente / factori.Desigur, corelațiile nu pot depăși $ 1 $, deci toate liniile de încărcare sunt conținute în interiorul „cercului de corelație” care arată corelația maximă posibilă. Toate încărcările și cercul sunt scalate în mod arbitrar cu un factor de 3 $, altfel ar fi prea mici pentru a fi văzute (deci raza cercului este de 3 $ și nu de 1 $).

Rețineți că există nu există nici o diferență între PCA și FA! Există mici abateri ici și colo, dar imaginea generală este aproape identică și toate încărcările sunt foarte similare și indică în aceleași direcții. Este exact ceea ce se aștepta de la teorie și nu este o surpriză; totuși, este instructiv să se respecte.

PS. Pentru un biplot PCA mult mai frumos din același set de date, consultați acest răspuns de @vqv .

PPS. În timp ce calculele PCA sunt standard, calculele FA ar putea necesita un comentariu. Încărcările factoriale au fost calculate de un algoritm „factori principali iterați” până la convergență (9 iterații), cu comunități inițializate cu corelații parțiale. Odată ce încărcările au convergut, scorurile au fost calculate folosind metoda lui Bartlett. Acest lucru dă scoruri standardizate; le-am mărit în funcție de variațiile factorului respectiv (date de lungimile încărcărilor).

Comentarii

  • Ce software ați folosit pentru a crea graficele PCA și de analiză a factorilor?
  • Am folosit Matlab. Mă gândeam să lipesc codul în răspunsul meu (așa cum este de obicei obiceiul meu ), dar nu am vrut să aglomerați și mai mult acest fir ocupat. Dar, gândindu-mă la asta, ar trebui să-l postez pe un site extern și să las un link aici. Voi face asta.
  • Este adevărat că PCA și FA uneori și deloc rareori dau rezultate similare (încărcări), și astfel PCA poate fi văzut ca un caz specific al FA, atunci când analiza factorilor este definite pe scară largă. Totuși FA (sensu stricto) și PCA sunt teoretic destul de diferite.
  • (continuare) Factorii sunt trăsături latente transcendente; de exemplu, componentele sunt derivări imanente. urechea practic similară, teoretic sunt fundamental diferite. Planul componentelor din stânga a fost produs ca subspai al variabilelor care se proiectează pe el. Planul factorial a fost produs ca un spațiu diferit de spațiul variabilelor și astfel se proiectează pe un ” alien ” spațiu pe graficul potrivit.
  • (continuare) Dar imaginea corectă (FA) nu este de fapt un adevărat biplot , este mai degrabă o suprapunere a două grafice de împrăștiere distincte, spații diferite: graficul de încărcare (unde axele sunt factori adevărați) și graficul scorurilor obiectului (unde axele sunt factorii estimați ca scoruri). Spațiul adevărat al factorului depășește ” parental ” spațiul variabil, dar spațiul punctajului factorului este subspaiul său. Ați suprapus două perechi eterogene de axe, dar acestea poartă aceleași etichete (” factor1 ” și ” factor2 ” în ambele perechi) circumstanță care este foarte înșelătoare și ne convinge să credem că este un biplot de bună-credință, la fel ca cel din stânga.

Răspuns

O explicație de bază, dar un fel de minuțioasă, a PCA vs Factor analysis cu ajutorul diagramelor scatter, în pași logici. (Îi mulțumesc lui @amoeba care, în comentariul său la întrebare, m-a încurajat să postez un răspuns în loc să fac legături către altundeva. Deci, iată un răspuns tardiv, tardiv.)

PCA ca rezumat variabil (extragerea caracteristicilor)

Sper că ați înțeles deja PCA. Pentru a revigora acum.

introduceți descrierea imaginii aici

Să presupunem că avem variabile corelate $ V_1 $ și $ V_2 $ . Le centrăm (scădem media) și facem un diagramă de dispersie. Apoi efectuăm PCA pe aceste date centrate. PCA este o formă de rotire a axelor care oferă axe P1 și P2 în loc de V1 și V2. Proprietatea cheie a PCA este că P1 – numită prima componentă principală – se orientează astfel încât varianța punctelor de date de-a lungul acesteia să fie maximizată. Noile axe sunt variabile noi ale căror valori sunt calculabile atâta timp cât știm coeficienții de rotație $ a $ (PCA le furnizează) [ Ec.1 ]:

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

Acești coeficienți sunt cosinusii de rotație (= cosinuzii de direcție, direcții principale) și cuprind ceea ce se numesc vectori proprii, în timp ce valorile proprii ale matricei de covarianță sunt variațiile componente principale. În PCA, în mod obișnuit aruncăm ultimele componente slabe: rezumăm astfel datele prin câteva componente extrase, cu pierderi reduse de informații.

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543 

Cu datele noastre reprezentate, P1 valorile componentelor (scoruri) P1 = .73543*V1 + .67761*V2 și componenta P2 le eliminăm. Varianța lui P1 este 1.75756, prima valoare proprie a matricei de covarianță și astfel P1 explică 86.5% a totalului varianță care este egal cu (1.07652+.95534) = (1.75756+.27430).

PCA ca predicție variabilă (” latent ” caracteristică)

Deci, am eliminat P2 și ne așteptăm ca P1 singur să poată reprezenta în mod rezonabil datele. Asta este echivalent cu a spune că $ P1 $ poate în mod rezonabil ” reconstrui ” sau prezice $ V_1 $ și $ V_2 $ [ Eq.2 ]:

$ V_1 = a1_ {1} P1 + E_1 $

$ V_2 = a1_ {2} P1 + E_2 $

unde coeficienți $ a $ sunt ceea ce știm deja și $ E $ sunt erorile (imprevizibilitatea). Acesta este de fapt un ” model regresional ” în care variabilele observate sunt prezise (înapoi) de variabila latentă (dacă se permite apelarea unei componente a ” latent ” one) P1 extras din aceleași variabile. Uită-te la complot Fig.2 , nu este altceva decât Fig .1 , doar detaliat:

introduceți descrierea imaginii aici

Axa P1 este afișată în dale cu valorile sale (scorurile P1) în verde (aceste valori sunt proiecțiile punctelor de date pe P1). Unele puncte de date arbitrare au fost etichetate A, B, …, iar plecarea (eroarea) lor de la P1 sunt conectori negri îndrăzneți. Pentru punctul A, sunt prezentate detaliile: coordonatele scorului P1 (verde A) pe axele V1 și V2 sunt valorile reconstituite P1 ale V1 și V2 conform Eq.2 , $ \ hat {V_1} = a1_ {1} P1 $ și $ \ hat {V_2} = a1_ {2} P1 $ . Erorile de reconstrucție $ E_1 = V_1- \ hat {V_1} $ și $ E_2 = V_2- \ hat {V_2} $ sunt, de asemenea, afișate, în bej. Conectorul ” eroare ” lungimea pătrată este suma celor două erori pătrate, în conformitate cu Pythagorean.

Acum, ceea ce este caracteristic PCA este că dacă calculăm E1 și E2 pentru fiecare punct din date și trasăm aceste coordonate – adică facem diagrama de dispersie a erorilor, cloud ” datele de eroare ” vor coincide cu componenta P2 aruncată. Și da: norul este reprezentat pe aceeași imagine cu norul bej – și vedeți că formează de fapt axa P2 (din Fig.1 ) sub formă de plăci cu scoruri componente P2.

Nu e de mirare, ai putea spune. Este atât de evident: în PCA , componentele junior aruncate este exact ceea ce descompune (s) în erorile de predicție E, în modelul care explică (restabilește) variabilele originale V de caracteristica (latențele) latentă (e) P1. Erorile E împreună constituie componenta (componentele) exclusă (i). Iată unde analiza factorului începe să difere de PCA.

Ideea FA comună (caracteristică latentă )

În mod formal, modelul care prezice variabilele manifest prin caracteristica (caracteristicile) latentă extrasă este același în FA ca în PCA; [ Eq.3 ]:

$ V_1 = a_ {1} F + E_1 $

$ V_2 = a_ {2} F + E_2 $

unde F este latentul comun factor extras din date și înlocuind ceea ce a fost P1 în Eq.2 .Diferența în model este că în FA, spre deosebire de PCA, sunt necesare variabile de eroare (E1 și E2) să fie necorelat între ele .

Digresiune . Aici vreau să întrerup brusc povestea și să fac o noțiune despre ce sunt coeficienții $ a $ . În PCA, am spus, acestea erau intrări ale vectorilor proprii găsiți în PCA (prin descompunerea valorii proprii sau singulare). În timp ce P1 latent a avut varianța sa nativă. Dacă alegem să standardizăm P1 la varianța unității va trebui să compensăm prin mărirea corespunzătoare a coeficienților $ a $ , pentru a sprijini ecuație. Acele $ a $ mărite sunt numite încărcări ; sunt de interes numeric, deoarece sunt covarianțele (sau corelațiile) dintre variabilele latente și observabile și, prin urmare, pot ajuta la interpretarea caracteristicii latente. În ambele modele – Eq.2 și Eq.3 – sunteți liber să decideți, fără a afecta ecuația , în ce mod se scalează termenii. Dacă F (sau P1) este considerat unitar scalat, se încarcă $ a $ ; în timp ce dacă F (P1) trebuie să aibă nativitatea scala (varianță), atunci $ a $ ar trebui să fie redimensionată corespunzător – în PCA care va egaliza intrările vectorului propriu, b în FA vor fi diferite și de obicei nu numite ” vectori proprii „. În majoritatea textelor despre analiza factorială, F se presupune ca varianță de unitate, astfel încât $ a $ sunt încărcări . În literatura PCA, P1 este de obicei discutat având varianța sa reală și astfel $ a $ sunt vectori proprii.

OK, înapoi la fir. E1 și E2 sunt necorelate în analiza factorilor; astfel, acestea ar trebui să formeze un nor de erori rotunde sau eliptice, dar nu orientate diagonal. În timp ce în PCA, norul lor a format o linie dreaptă, care coincide cu diagonala P2. Ambele idei sunt prezentate în imagine:

introduceți descrierea imaginii aici

Rețineți că erorile sunt cloud rotunde (nu alungite în diagonală) în FA. Factorul (latent) în FA este orientat oarecum diferit, adică nu este corect prima componentă principală care este ” latentă ” în PCA . În imagine, linia factorului este ciudat conică – va deveni clar de ce la final.

Care este semnificația acestei diferențe între PCA și FA? Variabile corelate, care se vede în forma eliptică diagonală a norului de date. P1 a depășit varianța maximă, astfel încât elipsa este co-direcționată către P1. În consecință, P1 a explicat de la sine corelația; dar nu a explicat cantitatea existentă de corelație în mod adecvat; a căutat să explice variația în punctele de date, nu corelarea. De fapt, a contabilizat excesiv corelația, al cărei rezultat a fost apariția norului diagonal, corelat de erori care compensează supracontul. P1 singur nu poate explica puterea corelației / covariației în mod cuprinzător. Factorul F poate o face singur; iar condiția în care devine capabilă să o facă este exact unde erorile pot fi forțate să fie necorelate. Deoarece norul de eroare este rotund, nu a rămas nicio corelare – pozitivă sau negativă – după ce factorul a fost extras, deci este factorul care l-a supraviețuit pe tot.

Ca reducere a dimensionalității, PCA explică varianța , dar explică corelațiile imprecis. FA explică corelațiile , dar nu poate explica (în funcție de factorii obișnuiți) o variație de date cât poate PCA. Factorii (factorii) din FA reprezintă acea porțiune de variabilitate care este porțiunea corelațională netă, numită comunalitate ; și, prin urmare, factorii pot fi interpretați ca forțe / caracteristici / trăsături reale dar neobservabile care ascund ” în ” sau ” în spatele ” variabilele de intrare pentru a le aduce la corelare. Pentru că explică bine corelația matematic. Componentele principale (câteva dintre ele) explică matematic nu la fel de bine și astfel poate fi numit ” trăsătură latentă (sau așa) numai la o anumită întindere și în mod provizoriu .

Multiplicarea încărcărilor este ceea ce explică (restabilește) corelația sau corelarea în formă de covarianță – dacă analiza s-a bazat pe matricea de covarianță (ca în exemplul de mai jos), mai degrabă decât pe matricea de corelație.Analiza factorială pe care am făcut-o cu datele a dat a_1=.87352, a_2=.84528, astfel încât produsul a_1*a_2 = .73837 este aproape egal cu covarianța .73915. Pe de altă parte, încărcările PCA au fost a1_1=.97497, a1_2=.89832, deci a1_1*a1_2 = .87584 supraestimează considerabil .73915.

După ce am explicat principala distincție teoretică între PCA și FA, să revenim la datele noastre pentru a exemplifica ideea.

FA: soluție aproximativă (scorurile factorilor)

Mai jos este diagrama de dispersie care arată rezultatele analizei pe care o vom numi provizoriu ” analiză sub-optimă a factorilor „, Fig.3 .

A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings). 

introduceți descrierea imaginii aici

Vedeți plecările din Fig .2 din PCA. Norul bej al erorilor nu este rotund, este diagonal eliptic – totuși este evident mult mai gras decât linia diagonală subțire care a apărut în PCA. Rețineți, de asemenea, că conectorii de eroare (afișați pentru unele puncte) nu mai sunt paraleli (în PCA, erau prin definiție paralele cu P2). Mai mult, dacă te uiți, de exemplu, la punctele ” F ” și ” E ” care se află oglindă simetric peste factorul „s F , veți găsi, în mod neașteptat, scorurile lor corespunzătoare ale factorilor ca fiind valori destul de diferite. Cu alte cuvinte, scorurile factorilor nu sunt doar scorurile componentelor principale transformate liniar: factorul F se găsește în felul său diferit din direcția P1. Și axele lor nu coincid pe deplin dacă sunt afișate împreună pe același grafic Fig.4 :

introduceți imaginea d descriere aici

În afară de faptul că sunt un pic diferit orienterd, F (ca plăcută cu scoruri) este mai scurtă, adică reprezintă o varianță mai mică decât pentru conturile P1. După cum s-a menționat mai devreme, factorul reprezintă doar variabilitatea, care este responsabilă pentru corelarea V1 V2, adică porțiunea de varianță totală care este suficientă pentru a aduce variabilele de la covarianța primară 0 la covarianța de fapt. .73915.

FA: soluție optimă (factor adevărat)

O soluție de factor optim este atunci când erorile sunt rotunde sau nor eliptice non-diagonale : E1 și E2 sunt complet necorelate . Analiza factorială de fapt returnează o astfel de soluție optimă. Nu l-am arătat pe un simplu diagramă de dispersie ca cele de mai sus. De ce am făcut-o? – pentru că ar fi fost cel mai interesant lucru, la urma urmei.

Motivul este că ar fi imposibil să se afișeze suficient de adecvat pe un diagramă de dispersie, chiar adoptând un complot 3D. Este un punct destul de interesant teoretic. Pentru a face E1 și E2 complet necorelate, se pare că toate aceste trei variabile, F, E1, E2 nu trebuie să mintă în spațiul (planul) definit de V1, V2; și cele trei trebuie să fie necorelate între ele . Cred că este posibil să desenăm o astfel de diagramă de împrăștiere în 5D (și poate cu ceva truc – în 4D), dar trăim în lumea 3D, din păcate. Factorul F trebuie necorelat atât la E1 cât și la E2 (în timp ce și ei doi sunt necorelați), deoarece F se presupune că este doar (curat) și complet sursă de corelare în datele observate. Analiza factorială împarte varianța totală a p variabile de intrare în două necorelate (non-suprapuse) ) părți: comunalitate parte (m -dimensională, unde m regulă a factorilor comuni) și unicitate parte (p -dimensională, unde erorile sunt, de asemenea, numite factori unici, necorelați reciproc).

Deci, scuzați-vă că nu arată adevăratul factor al datele noastre pe un diagramă de dispersie aici. Poate fi vizualizat destul de adecvat prin intermediul vectorilor din ” spațiu subiect ” ca realizat aici fără a afișa puncte de date.

Mai sus, în secțiunea ” Ideea FA comună (caracteristică latentă) ” Am afișat factorul (axa F) ca pană pentru a avertiza că axa factorului adevărat nu se află pe planul V1 V2. Asta înseamnă că – spre deosebire de componenta principală P1 – factorul F ca axă nu este o rotație a axei V1 sau V2 în spațiul lor, iar F ca variabilă nu este o combinație liniară de variabile V1 și V2.Prin urmare, F este modelat (extras din variabilele V1 v2) ca și cum ar fi o variabilă externă, independentă, nu o derivare a acestora. Ecuațiile precum Eq.1 de unde începe PCA, nu sunt aplicabile pentru a calcula factorul adevărat (optim) în analiza factorială, în timp ce ecuațiile formal izomorfe Eq.2 și Eq. 3 sunt valabile pentru ambele analize. Adică, în PCA, variabilele generează componente și componentele prezintă variabile înapoi; în FA factor (i) generează / prezice variabile, și nu înapoi – modelul factorilor comuni presupune conceptual așa , chiar dacă factorii tehnici sunt extrasați din variabilele observate.

Nu numai factorul adevărat nu este o funcție a variabilelor manifest, factorul adevărat „s valori nu sunt definite în mod unic . Cu alte cuvinte, sunt pur și simplu necunoscute. Toate acestea se datorează faptului că noi” ne aflăm în spațiul analitic 5D excesiv și nu în spațiul 2D acasă al datelor. Doar aproximări bune (există un număr de metode ) la valorile adevărate ale factorilor, numite scoruri ale factorilor , sunt acolo pentru noi. Scorurile factorilor se află în planul V1 V2, la fel ca scorurile componente principale, sunt calculate și ca funcții liniare ale lui V1, V2, și au fost acestea pe care le-am reprezentat în secțiunea ” FA: soluție aproximativă (scoruri ale factorilor) „. Scorurile componente principale sunt valori adevărate ale componentelor; scorurile factorilor sunt doar o aproximare rezonabilă la valorile factorilor adevărați nedeterminați.

FA: rotunjirea procedurii

Pentru a aduna într-un singur cheag ce au spus cele două secțiuni anterioare și pentru a adăuga lovituri finale . De fapt, FA poate ( dacă o faceți corect și vedeți și ipoteze de date ) să găsească adevăratul factor de soluție (de ” true ” Adică aici optim pentru eșantionul de date). Cu toate acestea, există diverse metode de extracție (acestea diferă în anumite constrângeri secundare pe care le pun). Adevăratul factor de soluție este până la încărcări $ a $ . Astfel, încărcările sunt factori optimi, adevărați. Scorurile factorilor – dacă aveți nevoie de ele – sunt calculabile din acele încărcări în diferite moduri și returnează aproximări la valorile factorilor.

Astfel, ” soluție factor ” afișată de mine în secțiunea ” FA: soluție aproximativă (scoruri de factori) ” sa bazat de fapt pe încărcări optime, adică pe factori adevărați. Dar scorurile nu au fost optime, după destin. Scorurile sunt calculate pentru a fi o funcție liniară a variabilelor observate, la fel ca scorurile componentelor, așa că amândouă ar putea fi comparate pe un diagramă scatter și am făcut-o în căutarea didactică pentru a arăta ca o trecere treptată de la ideea PCA la ideea FA.

Trebuie să fii precaut atunci când trasezi pe aceleași încărcări de factori biplot cu scoruri de factor în spațiul ” al factorilor „, fiți conștienți de faptul că încărcările se referă la factori adevărați în timp ce scorurile se referă la factori surogat (consultați comentariile mele către acest răspuns în acest fir).

Rotația a factorilor (încărcări) ajută la interpretarea caracteristicilor latente. Rotirea încărcărilor se poate face și în PCA dacă utilizați PCA ca și cum ar fi analiza factorilor (adică, vedeți PCA ca predicție variabilă). PCA tinde să convergă în rezultate cu FA pe măsură ce numărul variabilelor crește (vezi firul extrem de bogat privind asemănările și diferențele practice și conceptuale dintre cele două metode). Vedeți lista mea de diferențe între PCA și FA la sfârșitul acest răspuns . Calculele pas cu pas ale PCA vs FA pe setul de date iris se găsesc aici . Există un număr considerabil de legături bune către răspunsurile altor participanți la subiectul din afara acestui fir; îmi pare rău că am folosit doar câteva dintre ele în răspunsul curent.

Vezi și o listă cu diferențe a diferențelor între PCA și FA aici .

Comentarii

  • +1. Este ‘ minunat că l-ați scris, acestui fir îi lipsea cu siguranță un răspuns de la dvs. Am votat înainte de lectură (ceea ce fac rar) și, cu siguranță, mi-a plăcut lectura ulterioară. S-ar putea să comentez mai multe mai târziu, dar un mic pic de moment: ați scris de mai multe ori că în FA norul de eroare ar trebui să fie ” rotund ” .Dar, de fapt, ar putea fi eliptică (deoarece unicitățile pentru V1 și V2 pot avea variații diferite), trebuie doar să aibă corelații zero. Cred că nu ați vrut să confundați cititorii cu acest detaliu.
  • @amoeba Am o îndoială naivă cu privire la imposibilitatea matematică de a reprezenta F, E1, E2 optime în spațiul (planul) definit de V1, V2. Îmi vine în minte un exemplu de contra: Spuneți $ V_1 = a_ {1} F + E_1 $ și $ V_2 = a_ {2} F + E_2 $, unde $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $ – Acum utilizați aceste relații pentru a genera mostre de V1 și V2. Odată ce V1 și V2 sunt generate, dacă ar fi să realizăm FA optimă, ar trebui să revenim la estimări aproape exacte ale (E1, E2) și va forma un nor eliptic. Mai mult, acum F, E1, E2 pot fi reprezentate în același plan ca și V1 și V2.
  • @kasa, comentariul tău a primit răspunsul meu sau amoeba ‘ comentariu? Dacă comentariul dvs. este împotriva principiului meu, potrivit căruia în FA cele trei variabile latente nu se află în spațiul original și puteți să-l arătați, de ce să nu dați un răspuns care să îl arate? Vă rugăm să rețineți că în FA optimă, erorile sunt exact necorelate, nu că ar putea fi imaginate ca provenind din populația normală necorelată.
  • @ttnphns : Îmi pare rău pentru confuzie, mă îndoiam de revendicarea dvs. principală. Voi încerca să-l arăt ca răspuns în câteva zile. Mulțumim!

Răspuns

Diferențele dintre analiza factorilor și analiza componentelor principale sunt:

• În analiza factorială există un model structurat și câteva ipoteze. În acest sens, este o tehnică statistică care nu se aplică analizei componente principale, care este o transformare pur matematică.

• Scopul analizei componente principale este de a explica varianța, în timp ce analiza factorială explică covarianța dintre variabile.

Unul dintre cele mai mari motive pentru confuzia dintre cele două are legătură cu faptul că una dintre metodele de extracție a factorilor din Analiza factorială se numește „metoda componentelor principale”. Cu toate acestea, este un lucru să folosești PCA și alt lucru să folosești metoda componentelor principale în FA. Numele pot fi similare, dar există diferențe semnificative. Prima este o metodă analitică independentă în timp ce acesta din urmă este doar un instrument pentru extragerea factorilor.

Răspuns

Pentru mine (și sper că acest lucru este util) analiza factorilor este mult mai util decât PCA.

Recent, am avut plăcerea de a analiza o scară prin analiza factorială. Această scară (deși este utilizată pe scară largă în industrie) a fost dezvoltată folosind PCA și, din cunoștințele mele, a avut niciodată nu a fost analizat factorul.

Când am efectuat analiza factorială (axa principală) am descoperit că comunitățile pentru trei dintre articole erau mai mici de 30%, ceea ce înseamnă că peste 70% din varianța articolelor nu a fost analizată. doar transformă datele într-o nouă combinație și nu-i pasă de comunități. Concluzia mea a fost că scara nu a fost una foarte bună din punct de vedere psihometric și „am confirmat acest lucru cu un eșantion diferit.

În esență, dacă doriți să preziceți utilizând factorii, utilizați PCA , în timp ce dacă doriți să înțelegeți factorii latenți, utilizați Analiza factorilor.

Răspuns

Extinderea răspunsului @StatisticsDocConsulting: diferența de încărcări între EFA și PCA nu este banală, cu un număr mic de variabile. Aici „o funcție de simulare pentru a demonstra acest lucru în R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X} 

În mod implicit, această funcție îndeplinește 100 Iterations, în fiecare dintre care produce probe distribuite aleatoriu, în mod normal (Sample.Size $ = 1000 $) din trei variabile și extrage un factor folosind PCA și ML-EFA. Afișează o listă de două Iterations -vectori lungi compuși din mărimile medii ale sarcinilor variabilelor simulate pe prima componentă nerotată din PCA și, respectiv, factorul general din EFA. Vă permite să jucați cu dimensiunea eșantionului și numărul de variabile și factori care să se potrivească situației dvs., în limitele principal() și factanal() funcții și computerul dvs.

Folosind acest cod, am simulat mostre de 3–100 variabile cu câte 500 de iterații fiecare pentru a produce date:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)} 

… pentru un grafic al sensibilității încărcărilor medii (între variabile și iterații) la numărul de variabile:

Acest lucru demonstrează cât de diferit este unul trebuie să interpreteze puterea încărcărilor în PCA vs. EFA. Ambele depind oarecum de numărul de variabile, dar încărcările sunt înclinate în sus mult mai puternic în PCA. Diferența dintre încărcările medii aceste metode scade odată cu creșterea numărului de variabile, dar chiar și cu 100 de variabile, încărcările PCA sunt în medie de 0,067 $ mai mari decât încărcările EFA în datele normale aleatorii.Cu toate acestea, rețineți că încărcările medii vor fi de obicei mai mari în aplicațiile reale, deoarece în general se utilizează aceste metode pe variabile mai corelate. Nu sunt sigur cum ar putea afecta acest lucru diferența de încărcări medii.

Răspuns

Un citat dintr-un manual foarte frumos ( Brown, 2006, pp. 22, accent adăugat).
PCA = analiza componentelor principale
EFA = analiza factorilor exploratori
CFA = analiza factorului confirmator

Deși este legat de EFA, analiza componentelor principale (PCA) este frecvent clasificată greșit ca metodă de estimare a analizei factorilor comuni. Spre deosebire de estimatorii discutați în paragraful precedent (ML, PF), PCA se bazează pe un set diferit de cantitative metodele care nu se bazează pe modelul factorilor comuni. PCA nu diferențiază varianța comună și unică. Mai degrabă, PCA își propune să țină cont de varianța măsurilor observate, mai degrabă decât să explice corelațiile dintre acestea. Astfel, PCA este utilizat mai adecvat ca tehnica de reducere a datelor pentru a reduce un set mai mare de măsuri la un număr mai mic și mai ușor de gestionat de variabile compozite de utilizat în analizele ulterioare. Cu toate acestea, unii metodologi au susținut că PCA este o alternativă rezonabilă sau poate superioară EFA, având în vedere faptul că PCA posedă mai multe proprietăți statistice dezirabile (de exemplu, mai simplă din punct de vedere al calculului, nu este susceptibilă la soluții necorespunzătoare, de multe ori produce rezultate similare cu cele ale EFA , capacitatea PCA de a calcula scorul unui participant pe o componentă principală, în timp ce natura nedeterminată a EFA complică astfel de calcule). Deși dezbaterea pe această temă continuă, Fabrigar și colab. (1999) oferă mai multe motive în opoziție cu argumentul pentru locul PCA în analiza factorială. Acești autori subliniază situațiile în care EFA și APC produc rezultate diferite; de exemplu, atunci când comunitățile sunt scăzute sau când există doar câțiva indicatori ai unui factor dat (cf. Widaman, 1993). Indiferent dacă rațiunea imperativă și obiectivele empirice ale unei analize sunt în concordanță cu modelul factorilor comuni, atunci este conceptual și matematic incompatibil să se realizeze PCA; adică EFA este mai adecvat dacă obiectivul declarat este de a reproduce intercorelațiile unui set de indicatori cu un număr mai mic de dimensiuni latente, recunoscând existența unei erori de măsurare în măsurile observate. Floyd și Widaman (1995) afirmă faptul că estimările bazate pe EFA sunt mai susceptibile să se generalizeze la CFA decât sunt cele obținute de la PCA, deoarece, spre deosebire de PCA, EFA și CFA se bazează pe modelul factorilor comuni. Aceasta este o considerație demnă de remarcat în lumina faptului că EFA este adesea utilizat ca precursor al CFA în dezvoltarea scalei și validarea constructelor. O demonstrație detaliată a diferențelor de calcul dintre PCA și EFA poate fi găsită în manualele analitice multivariate și factoriale (de exemplu, Tabachnick & Fidell, 2001).

Brown, TA (2006). Analiza factorilor confirmatori pentru cercetarea aplicată. New York: Guilford Press.

Răspuns

Se poate gândi a unui PCA ca fiind ca un FA în care se presupune că comunitățile sunt egale cu 1 pentru toate variabilele. În practică, acest lucru înseamnă că articolele care ar avea sarcini de factor relativ scăzute în FA din cauza comunității reduse vor avea încărcări mai mari în PCA. Aceasta nu este o caracteristică de dorit în cazul în care scopul principal al analizei este de a reduce lungimea articolului și de a curăța o baterie de articole ale celor cu sarcini reduse sau echivoce sau de a identifica concepte care nu sunt bine reprezentate în grupul de articole.

Răspuns

Într-o lucrare de Tipping și Bischop se discută relația strânsă dintre PCA probabalistică (PPCA) și analiza factorială. PPCA este mai aproape de FA decât PCA clasic. Modelul comun este

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

unde $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ și $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.

  • Analiza factorilor presupune că $ \ mathbf {\ Psi} $ este diagonală.
  • PPCA presupune $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Journal of the Royal Statistical Society, Volumul 61, Numărul 3, Pagini 611-622

Comentarii

  • + 1. Da. Cred că înțelegerea PPCA este necesară pentru a înțelege relația dintre PCA și FA. Dar puteți să vă îmbunătățiți răspunsul discutând relația PCA / PPCA.

Răspuns

Niciunul dintre aceste răspunsuri nu este perfect. Fie FA, fie PCA are câteva variante. Trebuie să subliniem clar ce variante sunt comparate. Aș compara analiza factorului de maximă probabilitate și PCA-ul Hotelling.Primii presupun că variabila latentă urmează o distribuție normală, dar PCA nu are o astfel de presupunere. Acest lucru a dus la diferențe, cum ar fi soluția, cuibărirea componentelor, unicitatea soluției, algoritmii de optimizare.

Comentarii

  • Mă întreb dacă ați putea explica puțin acest lucru – ați spus că există diferențe în ultima propoziție, dar nu ați dat prea multe informații despre ceea ce ar putea fi aceste diferențe sau în ce mod aceste diferențe ar putea fi importante?
  • A selecta două metode cele mai îndepărtate și a pretinde că sunt într-adevăr diferite – la fel ca dvs. – nu este nici o logică perfectă . Probabil că cineva ar trebui să găsească și să raporteze cum aceste două sunt similare. Alternativ, s-ar putea alege cele mai multe metode similare (cum ar fi PCA simplă vs PAF ) și să raporteze în ce mod sunt diferite.
  • Hotelling ‘ s PCA își asumă gaussienii latenți.

Răspuns

Există multe răspunsuri grozave pentru această postare, dar recent am întâlnit o altă diferență.

Clusterarea este o aplicație în care PCA și FA dau rezultate diferite. Când există multe caracteristici în date, se poate încerca să găsiți cele mai bune direcții ale PC-ului și să proiectați datele pe aceste PC-uri, apoi să continuați cu clusterizarea. Adesea, acest lucru deranjează grupurile inerente din date – Acesta este un rezultat bine dovedit. Cercetătorii sugerează să procedeze cu metode de clusterizare sub-spațiale, care caută factori latenți cu dimensiuni reduse în model.

Doar pentru a ilustra această diferență, luați în considerare setul de date Crabs din setul de date R. Crabs are 200 de rânduri și 8 coloane, descriind 5 măsurători morfologice pe 50 de crabi fiecare din două forme și ambele sexe, ale speciei – În esență, există 4 (2×2) clase diferite de crabi.

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23) 

Clusterizarea utilizând PC1 și PC2: introduceți descrierea imaginii aici

Clustering folosind PC2 și PC3: introduceți descrierea imaginii aici

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2 

După cum putem vedea din diagramele de mai sus, PC2 și PC3 poartă informații mai discriminante decât PC1.

Dacă cineva încearcă să grupeze utilizând factorii latenți folosind un amestec de analizoare de factori, vedem rezultate mult mai bune comparativ cu utilizarea primelor două computere.

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5 

Comentarii

  • Trebuie să spun că mă îndoiesc că acest răspuns răspunde cu adevărat la întrebare. Răspunsul este despre analiza clusterelor după PCA sau FA, nu despre PCA și FA în sine. Dar chiar și în această privință, răspunsul este slab sau neterminat. Cum trebuie explicată diferența pe care o afișați?
  • @ttnphns Sunt de acord cu răspunsul referitor la analiza clusterelor. Cu toate acestea, OP a cerut, de asemenea, un scenariu din viața reală cu PCA / FA, în care unul trebuie folosit peste celălalt. În mod obișnuit PCA sau FA nu sunt niciodată scopul final – De ex. În științele sociale, obiectivul final ar fi segmentarea subiectelor în diferite grupuri / grupuri. Răspunsul meu abordează astfel de scenarii. În cazul în care credeți că răspunsul meu poate fi îmbunătățit, nu ezitați să indicați.
  • Cred că răspunsul dvs. poate deveni cu adevărat relevant dacă explicați constatarea dvs. Afirmați că diferențele dintre PCA și FA sunt intrinseci pentru cele două metode (doar ele devin evidente în grupare). Cred că ar trebui să arăți sau cel puțin să speculezi cum sau de ce diferențele apar teoretic din diferențele dintre metodele ‘ modele.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *