Sembra che molti dei pacchetti statistici che uso racchiudano questi due concetti insieme. Tuttavia, mi chiedo se ci siano diverse ipotesi o “formalità” sui dati che devono essere vere per essere utilizzate una sullaltra. Un esempio reale sarebbe incredibilmente utile.

Commenti

  • I capitoli dellanalisi dei componenti principali e dellanalisi fattoriale nel seguente libro, disponibile nella maggior parte delle biblioteche universitarie, rispondono esattamente alla tua domanda: apa.org/ pubs / books / 4316510.aspx
  • Oltre alle risposte riportate di seguito, potresti leggere anche questo e questo dei miei.
  • E unaltra bella domanda come ” dovrei usare PCA o FA “: stats.stackexchange.com/q/123063/3277 .
  • @ttnphns: ti incoraggio a fornire una risposta in questo thread, magari costituito da un elenco annotato delle tue risposte in altri thread correlati. Questo potrebbe sostituire i tuoi commenti sopra (attualmente quattro co mments con link), e sarebbe più pratico, soprattutto se annotassi brevemente ogni link. Per esempio. cerca qui la spiegazione di questo problema, cerca lì una spiegazione di quel problema, ecc. È solo un suggerimento, ma credo che questo thread ne trarrebbe grandi benefici! Un vantaggio particolare è che puoi sempre aggiungere più link a quella risposta.
  • Una domanda simile è stata posta su MathOverflow e ha ricevuto quella che considererei una risposta eccellente: mathoverflow.net/questions/40191/ …

Risposta

Lanalisi dei componenti principali implica lestrazione di composizioni lineari di variabili osservate.

Lanalisi fattoriale si basa su un modello formale che prevede le variabili osservate da fattori latenti teorici.

In psicologia questi due Le tecniche sono spesso applicate nella costruzione di test multi-scala per determinare quali elementi vengono caricati su quali scale. Tipicamente producono conclusioni sostanziali simili (per una discussione vedere Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Questo aiuta a spiegare perché alcuni pacchetti di statistiche sembrano raggrupparli insieme. Ho anche visto situazioni in cui “analisi delle componenti principali” è etichettata erroneamente “analisi fattoriale”.

In termini di semplice regola pratica , ti suggerirei di:

  1. Esegui lanalisi fattoriale se presumi o desideri testare un modello teorico di fattori latenti che causano variabili osservate.

  2. Eseguire lanalisi delle componenti principali Se si desidera ridurre semplicemente le variabili osservate correlate a un insieme più piccolo di importanti variabili composite indipendenti.

Commenti

  • La regola pratica è molto utile. Grazie per questo.
  • Per quanto riguarda la regola pratica (1): ‘ t Provo un modello teorico di fattori latenti con unanalisi fattoriale di conferma piuttosto che una fa esplorativa?
  • @roman Sì. Un CFA ti dà molto più controllo sul modello rispetto a EFA Ad esempio, è possibile vincolare i carichi a zero, uguagliare i carichi, avere residui correlati ls; aggiungere fattori di ordine superiore; ecc.
  • @Jeromy Anglim È davvero corretto dire che PCA costituisce un ” insieme più piccolo di importanti variabili composite indipendenti. ” O dovresti davvero dire ” insieme più piccolo di importanti variabili composite non correlate “. Se i dati sottostanti utilizzati in PCA non sono (multivariati) normalmente distribuiti, i dati dimensionali ridotti saranno solo non correlati?
  • Il secondo pollice della regola è facile da ottenere, ma come applico il primo? Può sembrare strano, ma quando so che voglio ‘ eseguire un modello fattoriale rispetto alle variabili osservate?

Risposta

Dalla mia risposta qui:

La PCA è seguita da una rotazione (come varimax) ancora PCA?

Principal Component Analysis (PCA) e Common Factor Analysis (CFA) sono metodi distinti. Spesso producono risultati simili e la PCA viene utilizzata come metodo di estrazione predefinito nelle routine di analisi fattoriale SPSS. Ciò indubbiamente si traduce in molta confusione sulla distinzione tra i due.

La conclusione è che si tratta di due modelli diversi, concettualmente. In PCA, i componenti sono effettive combinazioni lineari ortogonali che massimizzano la varianza totale.In FA, i fattori sono combinazioni lineari che massimizzano la parte condivisa della varianza – i “costrutti latenti” sottostanti. Ecco perché la FA è spesso chiamata “analisi dei fattori comuni”. FA utilizza una varietà di routine di ottimizzazione e il risultato, a differenza della PCA, dipende dalla routine di ottimizzazione utilizzata e dai punti di partenza per tali routine. Semplicemente non esiste ununica soluzione unica.

In R, la funzione factanal () fornisce a CFA unestrazione di massima verosimiglianza, quindi non dovresti aspettarti che riproduca un risultato SPSS basato su unestrazione PCA. Semplicemente non è lo stesso modello o logica. Non sono sicuro che si otterrebbe lo stesso risultato se si utilizzasse lestrazione della massima verosimiglianza di SPSS perché potrebbero non utilizzare lo stesso algoritmo.

Per meglio o in peggio in R, è tuttavia possibile riprodurre l “analisi fattoriale” confusa che SPSS fornisce come impostazione predefinita. Ecco il processo in R. Con questo codice, sono “in grado di riprodurre il componente principale SPSS” Risultato dellanalisi fattoriale utilizzando questo set di dati. (Ad eccezione del segno, che è indeterminato). Il risultato potrebbe anche essere ruotato utilizzando uno dei metodi di rotazione disponibili di R “.

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors) 

Commenti

  • Tieni presente che otterrai gli stessi risultati con principal(attitude, 2, rotate="none") dal psych e che la ‘ regola di Kayser (ev > 1) non è il modo più consigliato per eseguire il test per la dimensionalità (sovrastima il numero di fattori).
  • Sì, lo so psych p rincipal conclude questo. Il mio scopo era mostrare cosa stava facendo SPSS ” analisi fattoriale ” quando si utilizzava il metodo di estrazione dei componenti principali. Sono daccordo che la regola degli autovalori è un modo scadente per selezionare il numero di fattori. Ma questo è esattamente ciò che SPSS fa per impostazione predefinita ed era ciò che stavo dimostrando.
  • factanal() fornisce EFA non CFA. Inoltre, in base alla mia esperienza, lestrazione di SPSS ‘ s Maximum Likelihood dovrebbe dare lo stesso risultato di factanal() dato che non cè rotazione obliqua.
  • Che cosa significa: ‘ In FA, i fattori sono combinazioni lineari che massimizzano la parte condivisa della varianza – sottostante ” costrutti latenti “. ‘?
  • Tieni presente inoltre che CFA può stare per FA confermativo (al contrario di FA esplicativo ) invece di FA comune .

Risposta

Ci sono numerose definizioni suggerite sul ragnatela. Eccone uno tratto da un glossario in linea sullapprendimento statistico :

Componente principale Analisi

Costruire nuove funzionalità che sono i componenti principali di un set di dati. Le componenti principali sono variabili casuali di varianza massima costruite da combinazioni lineari delle caratteristiche di input. Allo stesso modo, sono le proiezioni sugli assi dei componenti principali, che sono linee che minimizzano la distanza quadratica media da ciascun punto nel set di dati. Per garantire lunicità, tutti gli assi dei componenti principali devono essere ortogonali. La PCA è una tecnica di massima verosimiglianza per la regressione lineare in presenza di rumore gaussiano sia in ingresso che in uscita. In alcuni casi, la PCA corrisponde a una trasformata di Fourier, come la DCT utilizzata nella compressione delle immagini JPEG. Vedere “Eigenfaces for recognition” (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, “Probabilistic Principal Component Analysis” e “Automatic choice of dimensionality for PCA “.choice of dimensionality for PCA”.

Analisi fattoriale

Una generalizzazione della PCA che si basa esplicitamente sulla massima verosimiglianza. Come PCA, si presume che ogni punto dati derivi dal campionamento un punto in un sottospazio e quindi perturbarlo con rumore gaussiano a dimensione intera. La differenza è che lanalisi fattoriale consente al rumore di avere una matrice di covarianza diagonale arbitraria, mentre PCA assume che il rumore sia sferico. Oltre a stimare il sottospazio, analisi fattoriale stima la matrice di covarianza del rumore. Vedere “Lalgoritmo EM per miscele di analizzatori di fattori”. scelta della dimensionalità per PCA “.

Commenti

  • La descrizione dellanalisi fattoriale ottiene il punto principale (covarianza diagonale), ma storicamente Non è sviluppato come una generalizzazione della PCA.
  • Quindi, in pratica, in PCA uno svd ‘ è la matrice di covarianza e in FA la matrice di correlazione? È sempre difficile per me trovare la matematica effettiva dopo che i metodi hanno costruito molta terminologia dal campo in cui vengono applicati.(fuori tema: una volta mi ci è voluto un intero pomeriggio per capire cosa sia la modellazione del percorso finché non ho trovato un (1) articolo dei 70 ‘ che dichiarava lequazione di matrice dietro di esso. )

Risposta

Hai ragione sul tuo primo punto, sebbene in FA generalmente lavori con entrambi (unicità e comunanza). La scelta tra PCA e FA è un dibattito di vecchia data tra gli psicometrici. Non seguo i tuoi punti, però. La rotazione degli assi principali può essere applicata qualunque sia il metodo utilizzato per costruire fattori latenti. Infatti, il più delle volte questa è la rotazione VARIMAX (rotazione ortogonale, considerando fattori non correlati) che è utilizzato, per ragioni pratiche (interpretazione più semplice, regole di punteggio più semplici o interpretazione dei punteggi dei fattori, ecc.), sebbene la rotazione obliqua (ad esempio PROMAX) potrebbe probabilmente riflettere meglio la realtà (i costrutti latenti sono spesso correlati tra loro), almeno nel tradizione di FA in cui si assume che un costrutto latente sia davvero al centro delle inter-correlazioni osservate tra le variabili. Il punto è che la PCA seguita dalla rotazione VARIMAX distorce in qualche modo linterpretazione delle combinazioni lineari delle variabili originali nei “dati analisi “tradizione (vedi il lavoro di Michel Tenenhaus). Da una prospettiva psicometrica, i modelli FA sono da preferire poiché spiegano esplicitamente lerrore di misurazione s, mentre PCA non se ne cura. In breve, usando PCA stai esprimendo ogni componente (fattore) come una combinazione lineare delle variabili, mentre in FA queste sono le variabili che sono espresse come combinazioni lineari dei fattori (comprese le comunanze e le componenti di unicità, come hai detto).

Ti consiglio di leggere prima le seguenti discussioni su questo argomento:

Commenti

  • Solo per dire che la mia risposta potrebbe effettivamente sembrare un po fuori tema poiché questa domanda è stata fusa con unaltra, stats.stackexchange.com/questions/3369/… (inizialmente rispondo a questultimo).
  • Ah, Mi chiedevo perché ti sei collegato a questa ricerca, in questa domanda … 🙂
  • . Chl, potresti spiegarlo? È ‘ interessante.

Risposta

La risposta migliore in questo thread suggerisce che la PCA è più una tecnica di riduzione della dimensionalità, mentre la FA è più una tecnica a variabile latente. Questo è sensu stricto corretto. Ma molte risposte qui e molti trattamenti altrove presentano PCA e AF come due metodi completamente diversi, con obiettivi, metodi e risultati dissimili se non opposti. Non sono daccordo; Credo che quando la PCA è considerata una tecnica a variabile latente, è abbastanza vicina alla FA, e dovrebbero essere visti come metodi molto simili.

Ho fornito il mio resoconto delle somiglianze e delle differenze tra PCA e FA nel seguente thread: Cè qualche buona ragione per usare PCA invece di EFA? Inoltre, la PCA può essere un sostituto dellanalisi fattoriale? Qui sostengo che per semplici ragioni matematiche ci si può aspettare che il risultato di PCA e FA sia abbastanza simile, dato solo che il numero di variabili non è molto piccolo (forse più di una dozzina). Vedi la mia risposta [lunga!] Nel thread collegato per dettagli matematici e simulazioni Monte Carlo. Per una versione molto più concisa del mio argomento, vedere qui: In quali condizioni PCA e FA danno risultati simili?

Qui vorrei per mostrarlo su un esempio. Analizzerò il set di dati sul vino da UCI Machine Learning Repository. È un set di dati abbastanza noto con $ n = 178 $ vini di tre diverse uve descritte da $ p = 13 $ variabili. Ecco come appare la matrice di correlazione:

Matrice di correlazione del set di dati sul vino

Ho eseguito sia analisi PCA che FA e ho mostrato Proiezioni 2D dei dati come biplot per entrambi nella figura sottostante (PCA a sinistra, FA a destra). Gli assi orizzontale e verticale mostrano i punteggi del 1 ° e 2 ° componente / fattore. Ciascuno dei punti $ n = 178 $ corrisponde a un vino e i punti sono colorati in base al gruppo (vedi legenda):

Analisi PCA e FA del set di dati del vino

I carichi del 1 ° e 2 ° componente / fattore su ciascuna delle variabili originali $ p = 13 $ sono mostrati come linee nere. Sono uguali alle correlazioni tra ciascuna delle variabili originali e le due componenti / fattori.Ovviamente le correlazioni non possono superare $ 1 $, quindi tutte le linee di caricamento sono contenute allinterno del “cerchio di correlazione” che mostra la massima correlazione possibile. Tutti i carichi e il cerchio sono scalati arbitrariamente di un fattore di $ 3 $, altrimenti sarebbero troppo piccoli per essere visti (quindi il raggio del cerchio è $ 3 $ e non $ 1 $).

Notare che lì non cè quasi nessuna differenza tra PCA e FA! Ci sono piccole deviazioni qua e là, ma il quadro generale è quasi identico e tutti i carichi sono molto simili e puntano nelle stesse direzioni. Questo è esattamente ciò che ci si aspettava dalla teoria e non è una sorpresa; tuttavia, è istruttivo osservare.

PS. Per un biplot PCA molto più carino dello stesso set di dati, consulta questa risposta di @vqv .

PPS. Mentre i calcoli PCA sono standard, i calcoli FA potrebbero richiedere un commento. I caricamenti dei fattori sono stati calcolati da un algoritmo “fattori principali iterati” fino alla convergenza (9 iterazioni), con comunalità inizializzate con correlazioni parziali. Una volta che i carichi convergevano, i punteggi sono stati calcolati utilizzando il metodo di Bartlett. Questo produce punteggi standardizzati; li ho scalati in base alle rispettive varianze dei fattori (date dalle lunghezze dei carichi).

Commenti

  • Quale software hai usato per creare i grafici PCA e analisi fattoriale?
  • Ho usato Matlab. Stavo pensando di incollare il codice nella mia risposta (come normalmente è mia abitudine ), ma non volevo ingombrare ancora di più questo thread occupato. Ma ora che ci penso, dovrei pubblicarlo su qualche sito web esterno e lasciare un link qui. Lo farò.
  • È vero che PCA e FA a volte e per niente raramente danno risultati simili (caricamenti), e quindi PCA può essere visto come un caso specifico di FA, quando lanalisi fattoriale è definito in senso ampio. Tuttavia FA (sensu stricto) e PCA sono teoricamente abbastanza diversi.
  • (cont.) I fattori sono tratti latenti trascendenti; i componenti pr. sono derivazioni immanenti. Nonostante le tue due app di caricamento dei grafici orecchio praticamente simili, teoricamente sono fondamentalmente differenti. Il piano dei componenti a sinistra è stato prodotto come sottospazio delle variabili che si proiettano su di esso. Il piano fattoriale è stato prodotto come uno spazio diverso dallo spazio delle variabili, quindi si proiettano su un ” alien ” spazio sul grafico a destra.
  • (segue) Ma limmagine a destra (FA) non è in realtà un vero biplot , è piuttosto una sovrapposizione di due grafici a dispersione distinti, spazi diversi: il grafico di caricamento (dove gli assi sono veri fattori) e il grafico dei punteggi degli oggetti (dove gli assi sono i fattori stimati come punteggi). Lo spazio dei fattori reali supera lo spazio delle variabili ” parental “, ma lo spazio dei punteggi dei fattori è il suo sottospazio. Hai sovrapposto due coppie di assi eterogenee, ma portano le stesse etichette (” factor1 ” e ” factor2 ” in entrambe le coppie) quale circostanza è fortemente fuorviante e ci convince a pensare che sia un biplot autentico, come quello sinistro.

Risposta

Una spiegazione di base, ma un po scrupolosa, di PCA vs analisi fattoriale con laiuto di grafici a dispersione, in passaggi logici. (Ringrazio @amoeba che, nel suo commento alla domanda, mi ha incoraggiato a pubblicare una risposta invece di creare collegamenti ad altrove. Quindi ecco una risposta tardiva e di svago.)

PCA come riepilogo delle variabili (estrazione delle funzionalità)

Spero che tu abbia già compreso la PCA. Per rivivere ora.

inserisci qui la descrizione dellimmagine

Supponiamo di avere variabili di correlazione $ V_1 $ e $ V_2 $ . Li centriamo (sottraiamo la media) e facciamo uno scatterplot. Quindi eseguiamo la PCA su questi dati centrati. PCA è una forma di rotazione degli assi che offre gli assi P1 e P2 invece di V1 e V2. La proprietà chiave di PCA è che P1 – chiamato 1 ° componente principale – viene orientato in modo da massimizzare la varianza dei punti dati lungo di esso. I nuovi assi sono nuove variabili i cui valori sono calcolabili purché conosciamo i coefficienti di rotazione $ a $ (li fornisce PCA) [ Eq.1 ]:

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

Questi coefficienti sono coseni di rotazione (= direzione coseni, direzioni principali) e comprendono quelli che vengono chiamati autovettori, mentre gli autovalori della matrice di covarianza sono le varianze delle componenti principali. In PCA, in genere scartiamo gli ultimi componenti deboli: riassumiamo quindi i dati in base a pochi componenti estratti per primi, con poca perdita di informazioni.

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543 

Con i dati tracciati, P1 valori dei componenti (punteggi) P1 = .73543*V1 + .67761*V2 e componente P2 scartiamo. La varianza di P1 “è 1.75756, il primo autovalore della matrice di covarianza, quindi P1 spiega 86.5% del totale varianza che è uguale a (1.07652+.95534) = (1.75756+.27430).

PCA come previsione variabile (” latente “)

Quindi, abbiamo scartato P2 e ci aspettiamo che P1 da solo possa ragionevolmente rappresentare i dati. Ciò equivale a dire che $ P1 $ può ragionevolmente ” ricostruire ” o prevedere $ V_1 $ e $ V_2 $ [ Eq.2 ]:

$ V_1 = a1_ {1} P1 + E_1 $

$ V_2 = a1_ {2} P1 + E_2 $

dove coefficienti $ a $ sono ciò che già sappiamo e $ E $ sono gli errori (imprevedibilità). Questo è in realtà un ” modello di regressione ” dove le variabili osservate sono previste (indietro) dalla variabile latente (se per consentire di chiamare un componente un ” latente ” one) P1 estratto dalle stesse variabili. Guarda la trama Fig.2 , non è altro che Fig .1 , solo dettagli:

inserisci qui la descrizione dellimmagine

Lasse P1 è mostrato piastrellato con i suoi valori (punteggi P1) in verde (questi valori sono le proiezioni dei punti dati su P1). Alcuni punti dati arbitrari sono stati etichettati come A, B, … e la loro partenza (errore) da P1 sono connettori neri in grassetto. Per il punto A, vengono mostrati i dettagli: le coordinate del punteggio P1 (A verde) sugli assi V1 e V2 sono i valori ricostruiti P1 di V1 e V2 secondo Eq.2 , $ \ hat {V_1} = a1_ {1} P1 $ e $ \ hat {V_2} = a1_ {2} P1 $ . Gli errori di ricostruzione $ E_1 = V_1- \ hat {V_1} $ e $ E_2 = V_2- \ hat {V_2} $ sono anche visualizzati, in beige. La lunghezza del connettore ” errore ” al quadrato è la somma dei due errori al quadrato, secondo Pitagora.

Ora, ciò che è caratteristico di PCA è che se calcoliamo E1 ed E2 per ogni punto nei dati e tracciamo queste coordinate, ad es. solo il grafico a dispersione degli errori, cloud ” dati di errore ” coinciderà con il componente P2 scartato. E lo fa: la nuvola è tracciata sulla stessa immagine della nuvola beige – e vedi che in realtà forma lasse P2 (di Fig.1 ) come piastrellato con i punteggi dei componenti P2.

Non cè da stupirsi, potresti dire. È così ovvio: in PCA , i componenti junior scartati sono ciò che precisamente si decompongono (s) negli errori di previsione E, nel modello che spiega (ripristina) le variabili originali V con le caratteristiche latenti P1. Gli errori E insieme costituiscono solo il / i componente / i escluso / i. È qui che l analisi fattoriale inizia a differire dalla PCA.

Lidea di FA comune (caratteristica latente )

Formalmente, il modello che prevede le variabili manifeste in base alle caratteristiche latenti estratte è lo stesso in FA e in PCA; [ Eq.3 ]:

$ V_1 = a_ {1} F + E_1 $

$ V_2 = a_ {2} F + E_2 $

dove F è il fattore comune latente estratto dai dati e che sostituisce ciò che era P1 in Eq.2 .La differenza nel modello è che in FA, a differenza di PCA, variabili di errore (E1 ed E2) sono obbligatorie non sono correlati tra loro .

Digressione . Qui voglio improvvisamente interrompere la storia e fare unidea di cosa sono i coefficienti $ a $ . In PCA, abbiamo detto, si trattava di voci di autovettori trovati allinterno di PCA (tramite decomposizione a valore autentico o singolare). Mentre P1 latente aveva la sua varianza nativa. Se scegliamo di standardizzare P1 in varianza unitaria dovremo compensare aumentando adeguatamente i coefficienti $ a $ , al fine di supportare il equazione. Quelle $ a $ ridimensionate sono chiamate caricamenti ; sono numericamente interessanti perché sono le covarianze (o correlazioni) tra le variabili latenti e osservabili e quindi possono aiutare a interpretare la caratteristica latente. In entrambi i modelli – Eq.2 e Eq.3 – sei libero di decidere, senza danneggiare lequazione , in che modo vengono ridimensionati i termini. Se F (o P1) è considerato in scala di unità, $ a $ sta caricando; mentre se F (P1) deve avere il suo valore nativo scale (varianza), quindi $ a $ dovrebbe essere ridimensionato di conseguenza – in PCA che sarà uguale a voci di autovettori, b ut in FA saranno diversi e di solito non si chiamano ” autovettori “. Nella maggior parte dei testi sullanalisi fattoriale, F si assume la varianza unitaria, quindi $ a $ sono caricamenti . Nella letteratura PCA, P1 è tipicamente discusso in base alla sua reale varianza e quindi $ a $ sono autovettori.

OK, torniamo al thread. E1 ed E2 non sono correlati nellanalisi fattoriale; quindi, dovrebbero formare una nuvola di errori rotondi o ellittici ma non orientati diagonalmente. Mentre in PCA la loro nuvola formava una linea retta che coincideva con P2 in diagonale. Entrambe le idee sono dimostrate nellimmagine:

inserisci qui la descrizione dellimmagine

Nota che gli errori sono nuvole rotonde (non allungate in diagonale) in FA. Il fattore (latente) in FA è orientato in modo leggermente diverso, cioè non è corretto il primo componente principale che è il ” latente ” in PCA . Nella foto, la linea del fattore è un po stranamente conica: alla fine diventerà chiaro il motivo.

Qual è il significato di questa differenza tra PCA e FA? Variabili correlate, che si vedono nella forma diagonalmente ellittica della nuvola di dati. P1 ha scremato la varianza massima, quindi lellisse è co-diretta a P1. Di conseguenza P1 ha spiegato da solo la correlazione; ma non spiegava adeguatamente la quantità di correlazione esistente ; sembrava spiegare la variazione nei punti dati, non la correlazione. In realtà, ha sovrastimato la correlazione, il cui risultato è stata la comparsa della nuvola di errori diagonali e correlati che compensano leccesso di considerazione. P1 da solo non è in grado di spiegare la forza della correlazione / covariazione in modo completo. Il fattore F può farlo da solo; e la condizione in cui diventa in grado di farlo è esattamente quella in cui gli errori possono essere costretti a non essere correlati. Poiché la nuvola di errore è rotonda, nessuna correlazione, positiva o negativa, è rimasta dopo che il fattore è stato estratto, quindi è il fattore che ha scremato tutto.

Come riduzione della dimensionalità, PCA spiega la varianza ma spiega le correlazioni in modo impreciso. FA spiega le correlazioni ma non può tenere conto (in base a fattori comuni) della variazione di dati di PCA. I fattori in FA rappresentano quella porzione di variabilità che è la porzione correlativa netta, chiamata comunalità ; e quindi i fattori possono essere interpretati come forze / caratteristiche / tratti reali ma non osservabili che nascondono ” in ” o ” dietro ” le variabili di input per portarle in correlazione. Perché spiegano bene la correlazione matematicamente. I componenti principali (pochi primi) lo spiegano matematicamente non altrettanto bene, quindi può essere chiamato ” tratto latente ” (o simili) solo in un certo periodo e provvisoriamente .

La moltiplicazione dei carichi è ciò che spiega (ripristina) la correlazione, o correlazione nel forma di covarianza – se lanalisi era basata sulla matrice di covarianza (come nellesempio fuori) piuttosto che sulla matrice di correlazione.Lanalisi fattoriale che ho fatto con i dati ha prodotto a_1=.87352, a_2=.84528, quindi il prodotto a_1*a_2 = .73837 è quasi uguale alla covarianza .73915. Daltra parte, i caricamenti PCA erano a1_1=.97497, a1_2=.89832, quindi a1_1*a1_2 = .87584 sovrastima .73915 notevolmente.

Dopo aver spiegato la principale distinzione teorica tra PCA e FA, torniamo ai nostri dati per esemplificare lidea.

FA: soluzione approssimativa (punteggi fattoriali)

Di seguito è riportato il grafico a dispersione che mostra i risultati dellanalisi che chiameremo provvisoriamente ” analisi fattoriale subottimale “, Fig.3 .

A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings). 

inserisci qui la descrizione dellimmagine

Vedi partenze da Fig .2 di PCA. La nuvola beige degli errori non è rotonda, è diagonalmente ellittica, – tuttavia è evidentemente molto più grassa della sottile linea diagonale che si è verificata in PCA. Si noti inoltre che i connettori di errore (mostrati per alcuni punti) non sono più paralleli (in PCA, erano per definizione paralleli a P2). Inoltre, se guardi, ad esempio, i punti ” F ” e ” E ” che si specchiano simmetricamente sul fattore “s F , scoprirai inaspettatamente che i punteggi dei fattori corrispondenti sono valori abbastanza diversi. In altre parole, i punteggi dei fattori non sono solo i punteggi delle componenti principali trasformati linearmente: il fattore F si trova a suo modo diverso dal modo P1. E i loro assi non coincidono completamente se mostrati insieme sullo stesso grafico Fig.4 :

inserisci immagine d escription qui

A parte il fatto che sono orientati in modo leggermente diverso, F (in quanto piastrellato con punteggi) è più breve, cioè rappresenta una varianza minore rispetto a P1. Come notato in precedenza, il fattore tiene conto solo della variabilità che è responsabile della correlazione di V1 V2, cioè la porzione della varianza totale che è sufficiente per portare le variabili dalla covarianza primordiale 0 alla covarianza fattuale .73915.

FA: soluzione ottimale (fattore vero)

Una soluzione fattoriale ottimale è quando gli errori sono tondi o nuvole ellittiche non diagonali : E1 ed E2 sono completamente non correlati . Lanalisi fattoriale in realtà restituisce una tale soluzione ottimale. Non lho mostrato su un semplice grafico a dispersione come quelli sopra. Perché lho fatto? – perché sarebbe stata la cosa più interessante, dopotutto.

Il motivo è che sarebbe impossibile mostrare su un grafico a dispersione abbastanza adeguatamente, anche adottando una trama 3D. È un punto piuttosto interessante in teoria. Per rendere E1 ed E2 completamente non correlati, sembra che tutte queste tre variabili, F, E1, E2 non debbano mentire nello spazio (piano) definito da V1, V2; e i tre non devono essere correlati tra loro . Credo che sia possibile disegnare un tale grafico a dispersione in 5D (e forse con qualche espediente – in 4D), ma viviamo in un mondo 3D, ahimè. Il fattore F deve essere non correlato a E1 ed E2 (mentre anche loro due non sono correlati) perché F dovrebbe essere solo (pulito) e completo fonte di correlazione nei dati osservati. Lanalisi fattoriale divide la varianza totale delle p variabili di input in due non correlate (non sovrapposte ) parti: parte comunalità (m -dimensional, dove regola m fattori comuni) e unicità parte (p -dimensionale, dove gli errori sono, chiamati anche fattori unici, reciprocamente non correlati).

Quindi scusate per non aver mostrato il vero fattore di i nostri dati su uno scatterplot qui. Potrebbe essere visualizzato in modo abbastanza adeguato tramite vettori nello ” spazio soggetto ” come fatto qui senza mostrare i punti dati.

Sopra, nella sezione ” Lidea di FA comune (caratteristica latente) ” Ho visualizzato il fattore (asse F) come cuneo per avvertire che il vero asse del fattore non giace sul piano V1 V2. Ciò significa che – a differenza della componente principale P1 – il fattore F come asse non è una rotazione dellasse V1 o V2 nel loro spazio, e F come variabile è non una combinazione lineare delle variabili V1 e V2.Pertanto F è modellato (estratto dalle variabili V1 v2) come se fosse una variabile esterna, indipendente, non una loro derivazione. Equazioni come Eq.1 da cui inizia PCA, non sono applicabili per calcolare il fattore vero (ottimale) nellanalisi fattoriale, mentre formalmente le equazioni isomorfe Eq.2 e Eq. 3 sono validi per entrambe le analisi. In altre parole, in PCA le variabili generano componenti e le componenti prevedono le variabili; in FA i fattori generano / prevedono variabili e non indietro – il modello a fattori comuni assume concettualmente così , anche se tecnicamente i fattori vengono estratti dalle variabili osservate.

Non solo il fattore true non è una funzione delle variabili manifest, il fattore true “s valori sono non definiti in modo univoco . In altre parole, sono semplicemente sconosciuti. Tutto è dovuto al fatto che noi” re nelleccessivo spazio analitico 5D e non nel nostro spazio 2D domestico dei dati. Solo le approssimazioni buone (esistono un numero di metodi ) ai veri valori dei fattori, chiamati punteggi dei fattori , sono lì per noi. I punteggi dei fattori si trovano nel piano V1 V2, come lo sono i punteggi delle componenti principali, sono calcolati come funzioni lineari di V1, V2, ed è erano che ho tracciato nella sezione ” FA: soluzione approssimativa (punteggi fattoriali) “. I punteggi delle componenti principali sono valori reali dei componenti; i punteggi dei fattori sono solo unapprossimazione ragionevole ai valori dei fattori veri indeterminati.

FA: riepilogo della procedura

Per raccogliere in un piccolo grumo ciò che hanno detto le due sezioni precedenti e aggiungere i tratti finali . In realtà, FA può ( se lo fai bene, e vedi anche ipotesi sui dati ) trovare la vera soluzione fattoriale (da ” true ” Intendo qui ottimale per il campione di dati). Tuttavia, esistono vari metodi di estrazione (differiscono per alcuni vincoli secondari che impongono). La soluzione del fattore vero dipende solo dai caricamenti $ a $ . Pertanto, i carichi sono fattori ottimali e veri. I punteggi dei fattori – se ne hai bisogno – sono calcolabili da quei carichi in vari modi e restituiscono approssimazioni ai valori dei fattori.

Pertanto, ” soluzione fattoriale ” visualizzata da me nella sezione ” FA: soluzione approssimativa (punteggi fattoriali) ” si basava effettivamente su carichi ottimali, cioè su fattori veri. Ma i punteggi non erano ottimali, per destino. I punteggi sono calcolati per essere una funzione lineare delle variabili osservate, come lo sono i punteggi dei componenti, quindi entrambi potrebbero essere confrontati su un grafico a dispersione e lho fatto in una ricerca didattica per mostrare come un passaggio graduale dallidea PCA allidea FA.

Bisogna stare attenti quando si traccia sullo stesso biplot caricamenti dei fattori con punteggi dei fattori nello spazio ” dei fattori “, sii consapevole che i caricamenti riguardano fattori veri mentre i punteggi riguardano fattori surrogati (vedi i miei commenti a questa risposta in questo thread).

La rotazione dei fattori (carichi) aiuta a interpretare le caratteristiche latenti. La rotazione dei carichi può essere eseguita anche in PCA se si utilizza PCA come se fosse lanalisi fattoriale (ovvero, vedere PCA come previsione delle variabili). La PCA tende a convergere nei risultati con FA man mano che il numero di variabili cresce (vedere il thread ricco sulle somiglianze e differenze pratiche e concettuali tra i due metodi). Consulta il mio elenco di differenze tra PCA e FA alla fine di questa risposta . I calcoli passo passo di PCA e FA sul set di dati iris si trovano qui . Esiste un numero considerevole di buoni link alle risposte di altri partecipanti sullargomento al di fuori di questo thread; Mi dispiace di averne utilizzati solo pochi nella risposta attuale.

Vedi anche un elenco puntato delle differenze tra PCA e FA qui .

Commenti

  • +1. ‘ è fantastico che tu labbia scritto, a questo thread mancava decisamente una risposta da parte tua. Ho votato positivamente prima di leggere (cosa che faccio raramente) e sicuramente mi è piaciuto leggere le successive. Potrei commentare più tardi, ma per ora un piccolo pignolo: hai scritto più volte che in FA il cloud degli errori dovrebbe essere ” round ” .Ma in realtà, potrebbe essere ellittico (perché le unicità per V1 e V2 possono avere varianze diverse), deve solo avere correlazioni zero. Immagino tu non volessi confondere i lettori con questo dettaglio.
  • @amoeba Ho un dubbio ingenuo sullimpossibilità matematica di rappresentare lottimo F, E1, E2 nello spazio (piano) definito da V1, V2. Posso pensare a un esempio di contatore per questo: Dire $ V_1 = a_ {1} F + E_1 $ e $ V_2 = a_ {2} F + E_2 $, dove $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $ – Ora usa queste relazioni per generare campioni di V1 e V2. Una volta generati V1 e V2, se dovessimo eseguire la FA ottimale, dovremmo ottenere stime quasi accurate di (E1, E2) e formerà una nuvola ellittica. Inoltre, ora F, E1, E2 possono essere rappresentati sullo stesso piano di V1 e V2.
  • @kasa, dove il tuo commento ha salutato la mia risposta o ameba ‘ commento di s? Se il tuo commento è contrario alla mia affermazione principale secondo cui in FA le tre variabili latenti non si trovano nello spazio originale e puoi mostrarlo, perché non dare una risposta mostrandolo? Ma tieni presente che in un FA ottimale, gli errori sono esattamente non correlati, non che potrebbero essere immaginati come provenienti da una popolazione normale non correlata.
  • @ttnphns : Scusa per la confusione, dubitavo della tua affermazione principale. Proverò a mostrarlo come risposta tra un paio di giorni. Grazie!

Risposta

Le differenze tra analisi fattoriale e analisi delle componenti principali sono:

• Nellanalisi fattoriale cè un modello strutturato e alcune ipotesi. A questo proposito è una tecnica statistica che non si applica allanalisi delle componenti principali che è una trasformazione puramente matematica.

• Lo scopo dellanalisi delle componenti principali è spiegare la varianza mentre lanalisi fattoriale spiega la covarianza tra variabili.

Una delle ragioni principali per la confusione tra i due ha a che fare con il fatto che uno dei metodi di estrazione fattoriale in Factor Analysis è chiamato “metodo dei componenti principali”. Tuttavia, una cosa è usare la PCA e unaltra usare il metodo dei componenti principali in FA. I nomi possono essere simili, ma ci sono differenze significative. Il primo è un metodo analitico indipendente mentre questultimo è semplicemente uno strumento per lestrazione dei fattori.

Risposta

Per me (e spero sia utile) lanalisi fattoriale è molto più utile della PCA.

Recentemente ho avuto il piacere di analizzare una scala tramite lanalisi fattoriale. Questa scala (sebbene sia ampiamente utilizzata nellindustria) è stata sviluppata utilizzando la PCA e, per quanto ne so, era mai stato analizzato in base ai fattori.

Quando ho eseguito lanalisi fattoriale (asse principale) ho scoperto che le comunanze per tre degli articoli erano inferiori al 30%, il che significa che oltre il 70% della varianza degli articoli non veniva analizzata. PCA si limita a trasformare i dati in una nuova combinazione e non si preoccupa delle comunità. La mia conclusione è stata che la scala non era molto buona da un punto di vista psicometrico e lho confermato con un campione diverso.

Essenzialmente, se vuoi prevedere utilizzando i fattori, usa la PCA , mentre se vuoi capire i fattori latenti, usa lAnalisi fattoriale.

Risposta

Espandendo la risposta di @StatisticsDocConsulting “: la differenza nei carichi tra EFA e PCA non è banale con un piccolo numero di variabili. Ecco “una funzione di simulazione per dimostrarlo in R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X} 

Per impostazione predefinita, questa funzione esegue 100 Iterations, in ciascuna delle quali produce campioni casuali, normalmente distribuiti (Sample.Size $ = 1000 $) di tre variabili ed estrae un fattore utilizzando PCA e ML-EFA. Produce un elenco di due Iterations -vettori lunghi composti dalle grandezze medie dei carichi “variabili simulate” sul primo componente non ruotato da PCA e fattore generale da EFA, rispettivamente. Ti consente di giocare con la dimensione del campione e il numero di variabili e fattori adatti alla tua situazione, entro i limiti di principal() e factanal() funzioni e il tuo computer.

Utilizzando questo codice, ho simulato campioni di 3-100 variabili con 500 iterazioni ciascuna per produrre dati:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)} 

… per un grafico della sensibilità dei carichi medi (attraverso variabili e iterazioni) al numero di variabili:

Questo dimostra quanto uno deve interpretare la forza dei carichi in PCA rispetto a EFA. Entrambi dipendono in qualche modo dal numero di variabili, ma i carichi sono influenzati verso lalto molto più fortemente nella PCA. La differenza tra i carichi medi di questi metodi diminuisce allaumentare del numero di variabili, ma anche con 100 variabili, i caricamenti PCA hanno una media di $ 0,067 $ superiore ai caricamenti EFA in dati normali casuali.Tuttavia, si noti che i carichi medi saranno solitamente più elevati nelle applicazioni reali, perché generalmente si utilizzano questi metodi su variabili più correlate. Non sono sicuro di come questo possa influenzare la differenza dei carichi medi.

Risposta

Una citazione da un libro di testo davvero carino ( Brown, 2006, pp. 22, enfasi aggiunta).
PCA = analisi delle componenti principali
EFA = analisi fattoriale esplorativa
CFA = analisi fattoriale confermativa

Sebbene correlata allEFA, lanalisi delle componenti principali (PCA) è spesso classificata erroneamente come metodo di stima dellanalisi fattoriale comune. A differenza degli stimatori discussi nel paragrafo precedente (ML, PF), PCA si basa su un diverso insieme di metodi che non sono basati sul modello dei fattori comuni. PCA non differenzia la varianza comune e unica. Piuttosto, PCA mira a tenere conto della varianza nelle misure osservate piuttosto che spiegare le correlazioni tra di loro. Pertanto, PCA è più appropriatamente utilizzato come un tecnica di riduzione dei dati per ridurre un insieme più ampio di misure a un numero più piccolo e più gestibile di variabili composite da utilizzare nelle analisi successive. Tuttavia, alcuni metodologi hanno sostenuto che la PCA è unalternativa ragionevole o forse superiore allEFA, in considerazione del fatto che la PCA possiede diverse proprietà statistiche desiderabili (p. Es., Computazionalmente più semplice, non suscettibile a soluzioni improprie, spesso produce risultati simili a quelli dellEFA , capacità della PCA di calcolare il punteggio di un partecipante su una componente principale mentre la natura indeterminata di EFA complica tali calcoli). Sebbene il dibattito su questo tema continui, Fabrigar et al. (1999) forniscono diversi motivi in opposizione allargomento a favore del ruolo dellAPC nellanalisi fattoriale. Questi autori sottolineano le situazioni in cui EFA e PCA producono risultati dissimili; per esempio, quando le comunità sono basse o quando ci sono solo pochi indicatori di un dato fattore (cfr. Widaman, 1993). Indipendentemente da ciò, se la logica fondamentale e gli obiettivi empirici di unanalisi sono in accordo con il modello fattoriale comune, allora è concettualmente e matematicamente incoerente condurre la PCA; cioè, lEFA è più appropriato se lobiettivo dichiarato è riprodurre le intercorrelazioni di un insieme di indicatori con un numero minore di dimensioni latenti, riconoscendo lesistenza di errori di misurazione nelle misure osservate. Floyd e Widaman (1995) sottolineano che le stime basate su EFA hanno maggiori probabilità di generalizzarsi a CFA rispetto a quelle ottenute da PCA in quanto, a differenza di PCA, EFA e CFA si basano sul modello dei fattori comuni. Questa è una considerazione degna di nota alla luce del fatto che lEFA è spesso utilizzato come precursore del CFA nello sviluppo su scala e nella convalida dei costrutti. Una dimostrazione dettagliata delle differenze computazionali tra PCA ed EFA può essere trovata nei libri di testo multivariati e di analisi fattoriale (ad es. Tabachnick & Fidell, 2001).

Brown, TA (2006). Analisi fattoriale di conferma per la ricerca applicata. New York: Guilford Press.

Risposta

Si può pensare di un PCA come come un FA in cui si presume che le comunità siano uguali a 1 per tutte le variabili. In pratica, questo significa che gli articoli che avrebbero carichi di fattore relativamente bassi in FA a causa della bassa comunalità avranno carichi più alti in PCA. Questa non è una caratteristica desiderabile se lo scopo principale dellanalisi è quello di tagliare la lunghezza degli articoli e pulire una batteria di articoli con carichi bassi o equivoci, o per identificare i concetti che non sono ben rappresentati nel pool di articoli.

Risposta

In un articolo di Tipping e Bischop viene discussa la stretta relazione tra Probabalistic PCA (PPCA) e Factor analysis. Il PPCA è più vicino alla FA rispetto al classico PCA. Il modello comune è

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

dove $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ e $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.

  • Lanalisi fattoriale presume che $ \ mathbf {\ Psi} $ sia diagonale.
  • PPCA presuppone $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Journal of the Royal Statistical Society, Volume 61, Numero 3, Pagine 611–622

Commenti

  • + 1. Sì. Credo che la comprensione della PPCA sia necessaria per comprendere la relazione tra PCA e AF. Ma potresti migliorare la tua risposta discutendo della relazione PCA / PPCA.

Risposta

Nessuna di queste risposte è Perfetto. O FA o PCA ha alcune varianti. Dobbiamo indicare chiaramente quali varianti vengono confrontate. Confronterei lanalisi fattoriale di massima verosimiglianza e il PCA di Hotelling.I primi assumono che la variabile latente segua una distribuzione normale, ma la PCA non ha tale ipotesi. Ciò ha portato a differenze, come la soluzione, lannidamento dei componenti, lunicità della soluzione, gli algoritmi di ottimizzazione.

Commenti

  • Mi chiedo se potresti approfondire un po questo – hai detto che ci sono differenze nellultima frase, ma non hai fornito molte informazioni su quali potrebbero essere queste differenze, o in che modo queste differenze potrebbero essere importanti?
  • Selezionare due metodi più distanti e affermare che sono effettivamente diversi – come fai tu – non è neanche una logica perfetta . Probabilmente si dovrebbe trovare e segnalare come questi due sono simili. In alternativa, è possibile scegliere metodi più simili (come semplice PCA rispetto a PAF ) e riportare in che modo sono diversi.
  • Hotelling ‘ s PCA presuppone gaussiane latenti.

Risposta

Ci sono molte ottime risposte per questo post, ma di recente mi sono imbattuto in unaltra differenza.

Il clustering è unapplicazione in cui PCA e FA producono risultati diversi. Quando sono presenti molte funzionalità nei dati, si può tentare di trovare le direzioni superiori del PC e proiettare i dati su questi PC, quindi procedere con il raggruppamento. Spesso questo disturba i cluster intrinseci nei dati: questo è un risultato ben collaudato. I ricercatori suggeriscono di procedere con metodi di clustering subspaziale, che cercano fattori latenti a bassa dimensione nel modello.

Solo per illustrare questa differenza, si consideri il Crabs set di dati nel set di dati R. Crabs ha 200 righe e 8 colonne, che descrivono 5 misurazioni morfologiche su 50 granchi ciascuno di due colori forme ed entrambi i sessi, della specie – Essenzialmente ci sono 4 (2×2) diverse classi di granchi.

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23) 

Clustering utilizzando PC1 e PC2: inserisci qui la descrizione dellimmagine

Clustering utilizzando PC2 e PC3: inserisci qui la descrizione dellimmagine

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2 

Come possiamo vedere dai grafici precedenti, PC2 e PC3 trasportano informazioni più discriminanti di PC1.

Se si cerca di raggruppare utilizzando i fattori latenti utilizzando una miscela di analizzatori di fattori, vediamo risultati molto migliori rispetto allutilizzo dei primi due PC.

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5 

Commenti

  • Devo dire che dubito che questa risposta risponda davvero alla domanda. La risposta riguarda lanalisi dei cluster dopo PCA o FA, non la PCA e la FA stessi. Ma anche sotto questo aspetto la risposta è vaga o incompiuta. Come si spiega la differenza che mostri?
  • @ttnphns Sono daccordo con la risposta sullanalisi dei cluster. Tuttavia, OP aveva anche chiesto uno scenario di vita reale con PCA / AF in cui uno deve essere utilizzato sullaltro. Tipicamente PCA o FA non sono mai lobiettivo finale, ad es. Nelle scienze sociali, lobiettivo finale sarebbe segmentare gli argomenti in diversi cluster / gruppi. La mia risposta affronta tali scenari. Nel caso in cui pensi che la mia risposta possa essere migliorata, sentiti libero di segnalarlo.
  • Penso che la tua risposta possa diventare davvero rilevante se spieghi la tua scoperta. Affermi che le differenze tra PCA e FA sono intrinseche per i due metodi (solo che diventano evidenti sotto il raggruppamento). Penso che dovresti mostrare o almeno ipotizzare come o perché le differenze derivino teoricamente dalle differenze dei metodi ‘ modelli.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *