Kommentare
- Die Kapitel zur Hauptkomponentenanalyse und Faktoranalyse im folgenden Buch, die in den meisten Hochschulbibliotheken verfügbar sind, behandeln Ihre Frage genau: apa.org/ pubs / books / 4316510.aspx
- Zusätzlich zu den folgenden Antworten können Sie auch dieses und dies von mir.
- Und eine weitere gute Frage wie “ sollte ich verwenden PCA oder FA „: stats.stackexchange.com/q/123063/3277 .
- @ttnphns: Ich möchte Sie ermutigen, in diesem Thread eine Antwort zu geben, die möglicherweise aus einer kommentierten Liste Ihrer Antworten in anderen verwandten Threads besteht. Dies könnte Ihre obigen Kommentare ersetzen (derzeit vier co mit Links) und wäre praktischer, insbesondere wenn Sie jeden Link kurz kommentieren würden. Z.B. suchen Sie hier nach einer Erklärung für dieses Problem, suchen Sie dort nach einer Erklärung für dieses Problem usw. Es ist nur ein Vorschlag, aber ich glaube, dieser Thread würde stark davon profitieren! Ein besonderer Vorteil ist, dass Sie dieser Antwort jederzeit weitere Links hinzufügen können.
- Eine ähnliche Frage wurde in MathOverflow gestellt und erhielt eine meiner Meinung nach hervorragende Antwort: mathoverflow.net/questions/40191/ …
Antwort
Die Hauptkomponentenanalyse umfasst das Extrahieren linearer Komposite beobachteter Variablen.
Die Faktoranalyse basiert auf einem formalen Modell, das beobachtete Variablen aus theoretischen latenten Faktoren vorhersagt.
In der Psychologie diese beiden Bei der Erstellung von Tests mit mehreren Maßstäben werden häufig Techniken angewendet, um festzustellen, welche Elemente auf welche Maßstäbe geladen werden. Sie liefern typischerweise ähnliche inhaltliche Schlussfolgerungen (für eine Diskussion siehe Comrey (1988) Faktoranalytische Methoden zur Skalenentwicklung in der Persönlichkeits- und klinischen Psychologie). Dies hilft zu erklären, warum einige Statistikpakete sie zu bündeln scheinen. Ich habe auch Situationen gesehen, in denen „Hauptkomponentenanalyse“ fälschlicherweise als „Faktoranalyse“ bezeichnet wird.
In Bezug auf eine einfache Faustregel , ich würde vorschlagen, dass Sie:
-
Faktoranalyse durchführen, wenn Sie ein theoretisches Modell latenter Faktoren annehmen oder testen möchten, die beobachtete Variablen verursachen.
-
Hauptkomponentenanalyse ausführen Wenn Sie Ihre korrelierten beobachteten Variablen einfach auf einen kleineren Satz wichtiger unabhängiger zusammengesetzter Variablen reduzieren möchten.
Kommentare
- Die Faustregel dort ist sehr nützlich. Danke dafür.
- In Bezug auf die Faustregel (1): Würde nicht ‚ t Ich teste ein theoretisches Modell latenter Faktoren mit einer Bestätigungsfaktoranalyse anstelle einer explorativen Fa?
- @roman Ja. Ein CFA gibt Ihnen viel mehr Kontrolle über das Modell als EFA. ZB können Sie Belastungen auf Null beschränken, Belastungen gleichsetzen und Residuen korrelieren ls; Faktoren höherer Ordnung hinzufügen; usw.
- @Jeromy Anglim Ist es wirklich richtig zu sagen, dass PCA einen “ kleineren Satz wichtiger unabhängiger zusammengesetzter Variablen erstellt. “ Oder sollten Sie wirklich “ kleinere Menge wichtiger unkorrelierter zusammengesetzter Variablen “ sagen. Wenn die zugrunde liegenden Daten, die in PCA verwendet werden, nicht (multivariat) normalverteilt sind, werden die reduzierten Dimensionsdaten nur unkorreliert?
- Der zweite Daumen der Regel ist leicht zu erhalten, aber wie wende ich den ersten an? Klingt vielleicht seltsam, aber wann weiß ich, dass ich ‚ ein Faktormodell für beobachtete Variablen ausführen möchte?
Antwort
Aus meiner Antwort hier:
Wird auf PCA eine Rotation (z. B. Varimax) noch PCA folgen?
Hauptkomponentenanalyse (PCA) und Common Factor Analysis (CFA) sind unterschiedliche Methoden. Oft führen sie zu ähnlichen Ergebnissen, und PCA wird als Standardextraktionsmethode in den SPSS-Faktoranalyse-Routinen verwendet. Dies führt zweifellos zu großer Verwirrung über die Unterscheidung zwischen den beiden.
] Unter dem Strich handelt es sich konzeptionell um zwei verschiedene Modelle. In PCA sind die Komponenten tatsächliche orthogonale Linearkombinationen, die die Gesamtvarianz maximieren.In FA sind die Faktoren lineare Kombinationen, die den gemeinsamen Teil der Varianz maximieren – zugrunde liegende „latente Konstrukte“. Aus diesem Grund wird FA häufig als „Common Factor Analysis“ bezeichnet. FA verwendet eine Vielzahl von Optimierungsroutinen. Das Ergebnis hängt im Gegensatz zu PCA von der verwendeten Optimierungsroutine und den Ausgangspunkten für diese Routinen ab. Es gibt einfach keine einzige eindeutige Lösung.
In R bietet die Funktion factanal () CFA eine Extraktion mit maximaler Wahrscheinlichkeit. Sie sollten also nicht erwarten, dass ein SPSS-Ergebnis reproduziert wird, das auf einer PCA-Extraktion basiert. Es ist einfach nicht dasselbe Modell oder dieselbe Logik. Ich bin mir nicht sicher, ob Sie dasselbe Ergebnis erzielen würden, wenn Sie die Maximum Likelihood-Extraktion von SPSS verwenden würden, da sie möglicherweise nicht denselben Algorithmus verwenden.
Für besser oder schlechter in R, Sie können jedoch die gemischte „Faktoranalyse“ reproduzieren, die SPSS als Standard bereitstellt. Hier ist der Prozess in R. Mit diesem Code kann ich „die SPSS-Hauptkomponente reproduzieren“. Ergebnis der Faktoranalyse unter Verwendung dieses Datensatzes (mit Ausnahme des Vorzeichens, das unbestimmt ist). Dieses Ergebnis kann dann auch mit einer der verfügbaren Rotationsmethoden von R gedreht werden.
data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)
Kommentare
- Beachten Sie, dass Sie mit
principal(attitude, 2, rotate="none")
dieselben Ergebnisse wie mitpsych
-Paket und die Regel von Kayser ‚ (ev > 1) ist nicht die am meisten empfohlene Methode zum Testen für die Dimensionalität (es überschätzt die Anzahl der Faktoren). - Ja, ich weiß, psych p Rincipal schließt dies ab. Mein Ziel war es zu zeigen, was die SPSS “ -Faktoranalyse “ bei Verwendung der Extraktionsmethode für Hauptkomponenten tat. Ich stimme zu, dass die Eigenwertregel ein schlechter Weg ist, um die Anzahl der Faktoren auszuwählen. Aber genau das macht SPSS standardmäßig und das habe ich demonstriert.
-
factanal()
bietet EFA, nicht CFA. Nach meiner Erfahrung sollte die Maximum Likelihood-Extraktion von SPSS ‚ das gleiche Ergebnis liefern wiefactanal()
, da keine schräge Rotation vorliegt. - Was bedeutet Folgendes: ‚ In FA sind die Faktoren lineare Kombinationen, die den gemeinsamen Teil der Varianz maximieren – zugrunde liegend “ latente Konstrukte „. ‚?
- Beachten Sie auch, dass CFA möglicherweise für Bestätigungs-FA steht (im Gegensatz zu Erklärungs-FA ). anstelle von allgemeinem FA .
Antwort
Es gibt zahlreiche vorgeschlagene Definitionen auf der Netz. Hier ist eines aus einem Online-Glossar zum statistischen Lernen :
Hauptkomponente Analyse
Erstellen neuer Features, die die Hauptkomponenten eines Datensatzes sind. Die Hauptkomponenten sind Zufallsvariablen maximaler Varianz, die aus linearen Kombinationen der Eingabemerkmale aufgebaut sind. Entsprechend sind dies die Projektionen auf die Hauptkomponentenachsen, bei denen es sich um Linien handelt, die den durchschnittlichen quadratischen Abstand zu jedem Punkt im Datensatz minimieren. Um die Eindeutigkeit sicherzustellen, müssen alle Hauptkomponentenachsen orthogonal sein. PCA ist eine Maximum-Likelihood-Technik für die lineare Regression bei Vorhandensein von Gaußschem Rauschen sowohl an den Ein- als auch an den Ausgängen. In einigen Fällen entspricht PCA einer Fourier-Transformation, wie beispielsweise der bei der JPEG-Bildkomprimierung verwendeten DCT. Siehe „Eigengesichter zur Erkennung“ (Turk & Pentland, J. Cognitive Neuroscience 3 (1), 1991), Bishop, „Probabilistic Principal Component Analysis“ und „Automatic Choice of Dimensionality for PCA“ „.Wahl der Dimensionalität für PCA“.
Faktoranalyse
Eine Verallgemeinerung von PCA, die explizit auf der maximalen Wahrscheinlichkeit basiert. Wie bei PCA wird angenommen, dass jeder Datenpunkt aus der Abtastung stammt Ein Punkt in einem Unterraum, der dann durch volldimensionales Gaußsches Rauschen gestört wird. Der Unterschied besteht darin, dass die Faktoranalyse es dem Rauschen ermöglicht, eine beliebige diagonale Kovarianzmatrix zu haben, während PCA davon ausgeht, dass das Rauschen sphärisch ist schätzt die Rauschkovarianzmatrix. Siehe „Der EM-Algorithmus für Gemische von Faktoranalysatoren“. Wahl der Dimensionalität für PCA „.
Kommentare
- Die Beschreibung der Faktoranalyse erhält den Hauptpunkt (diagonale Kovarianz), aber historisch gesehen wa s nicht als Verallgemeinerung von PCA entwickelt.
- Im Grunde genommen ist in PCA svd ‚ die Kovarianzmatrix und in FA die Korrelationsmatrix? Es ist immer schwierig für mich, die eigentliche Mathematik zu finden, nachdem Methoden eine Menge Terminologie aus dem Bereich aufgebaut haben, in dem sie angewendet werden.(Off-Topic: Ich habe einmal einen ganzen Nachmittag gebraucht, um zu verstehen, was die Pfadmodellierung ist, bis ich ein (1) Papier aus den 70 ‚ s gefunden habe, in dem die dahinter stehende Matrixgleichung angegeben ist. )
Antwort
Sie haben Recht mit Ihrem ersten Punkt, obwohl Sie in FA im Allgemeinen mit beiden arbeiten (Eindeutigkeit und Gemeinschaft). Die Wahl zwischen PCA und FA ist eine langjährige Debatte unter Psychometrikern. Ich folge Ihren Punkten jedoch nicht ganz. Die Rotation der Hauptachsen kann unabhängig von der Methode angewendet werden, mit der latente Faktoren konstruiert werden. In der Tat ist dies meistens die VARIMAX-Rotation (orthogonale Rotation unter Berücksichtigung unkorrelierter Faktoren) verwendet aus praktischen Gründen (einfachste Interpretation, einfachste Bewertungsregeln oder Interpretation von Faktorbewertungen usw.), obwohl die schräge Rotation (z. B. PROMAX) wahrscheinlich die Realität besser widerspiegeln könnte (latente Konstrukte sind oft miteinander korreliert), zumindest in der Tradition der FA, bei der Sie davon ausgehen, dass ein latentes Konstrukt wirklich das Herzstück der beobachteten Wechselbeziehungen zwischen Ihren Variablen ist. Der Punkt ist, dass PCA gefolgt von VARIMAX-Rotation die Interpretation der linearen Kombinationen der ursprünglichen Variablen in den „Daten etwas verzerrt Analyse „Tradition (siehe die Arbeit von Michel Tenenhaus). Aus psychometrischer Sicht sind FA-Modelle zu bevorzugen, da sie explizit Messfehler berücksichtigen s, während PCA sich nicht darum kümmert. Kurz gesagt, mit PCA drücken Sie jede Komponente (Faktor) als lineare Kombination der Variablen aus, während dies in FA die Variablen sind, die als lineare Kombinationen der Faktoren ausgedrückt werden (einschließlich Kommunalitäten und Eindeutigkeitskomponenten, wie Sie sagten) / p>
Ich empfehle Ihnen, zuerst die folgenden Diskussionen zu diesem Thema zu lesen:
- Was sind die Unterschiede zwischen Faktoranalyse und Prinzipal? Komponentenanalyse
- Zur Verwendung der Schrägrotation nach PCA – siehe Referenz darin
Kommentare
- Nur um zu sagen, dass meine Antwort möglicherweise ein wenig vom Thema abweicht, da diese Frage mit einer anderen zusammengeführt wurde, stats.stackexchange.com/questions/3369/… (ich antworte zunächst auf Letzteres).
- Ah, Ich habe mich gefragt, warum Sie in dieser Frage auf diese Quest verlinkt haben … 🙂
- . Chl, könntest du es erklären? Das ‚ ist interessant.
Antwort
Die Top-Antwort In diesem Thread wird vorgeschlagen, dass PCA eher eine Technik zur Reduzierung der Dimensionalität ist, während FA eher eine Technik für latente Variablen ist. Dies ist sensuesso korrekt. Aber viele Antworten hier und viele Behandlungen anderswo stellen PCA und FA als zwei völlig unterschiedliche Methoden dar, mit unterschiedlichen, wenn nicht entgegengesetzten Zielen, Methoden und Ergebnissen. Ich stimme dir nicht zu; Ich glaube, wenn PCA als latente variable Technik angesehen wird, kommt es FA ziemlich nahe, und sie sollten besser als sehr ähnliche Methoden angesehen werden.
] Ich habe meinen eigenen Bericht über die Ähnlichkeiten und Unterschiede zwischen PCA und FA im folgenden Thread bereitgestellt: Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein? Dort argumentiere ich, dass aus einfachen mathematischen Gründen erwartet werden kann, dass das Ergebnis von PCA und FA ziemlich ähnlich ist, nur weil die Anzahl der Variablen nicht sehr gering ist (vielleicht über ein Dutzend). Siehe meine [lange!] Antwort im verlinkten Thread für mathematische Details und Monte-Carlo-Simulationen. Eine viel präzisere Version meines Arguments finden Sie hier: Unter welchen Bedingungen liefern PCA und FA ähnliche Ergebnisse?
Hier möchte ich um es an einem Beispiel zu zeigen. Ich werde den Wein-Datensatz aus dem UCI Machine Learning Repository analysieren. Es ist ein ziemlich bekannter Datensatz mit $ n = 178 $ Weinen aus drei verschiedenen Trauben, beschrieben durch $ p = 13 $ Variablen. So sieht die Korrelationsmatrix aus:
Ich habe sowohl PCA- als auch FA-Analyse durchgeführt und gezeigt 2D-Projektionen der Daten als Biplots für beide in der folgenden Abbildung (PCA links, FA rechts). Horizontale und vertikale Achsen zeigen die 1. und 2. Komponenten- / Faktorwerte. Jeder der $ n = 178 $ -Punkte entspricht einem Wein, und die Punkte werden entsprechend der Gruppe gefärbt (siehe Legende):
Die Ladungen der 1. und 2. Komponente / des 1. Faktors auf jede der ursprünglichen Variablen $ p = 13 $ werden als schwarze Linien angezeigt. Sie entsprechen den Korrelationen zwischen jeder der ursprünglichen Variablen und den beiden Komponenten / Faktoren.Natürlich können Korrelationen $ 1 $ nicht überschreiten, daher sind alle Ladelinien innerhalb des „Korrelationskreises“ enthalten, der die maximal mögliche Korrelation zeigt. Alle Ladungen und der Kreis werden willkürlich um den Faktor $ 3 $ skaliert, andernfalls wären sie zu klein, um gesehen zu werden (der Radius des Kreises beträgt also $ 3 $ und nicht $ 1 $).
Beachten Sie, dass dort ist kaum ein Unterschied zwischen PCA und FA! Hier und da gibt es kleine Abweichungen, aber das allgemeine Bild ist fast identisch, und alle Belastungen sind sehr ähnlich und zeigen in die gleichen Richtungen. Dies ist genau das, was von der Theorie erwartet wurde und ist keine Überraschung; Dennoch ist es lehrreich zu beobachten.
PS. Für einen viel schöneren PCA-Biplot desselben Datensatz, siehe diese Antwort von @vqv .
PPS. Während PCA-Berechnungen Standard sind, erfordern FA-Berechnungen möglicherweise einen Kommentar. Faktorladungen wurden durch einen „iterierten Hauptfaktor“ -Algorithmus bis zur Konvergenz (9 Iterationen) berechnet, wobei Kommunalitäten mit partiellen Korrelationen initialisiert wurden. Sobald die Ladungen konvergierten, wurden die Bewertungen unter Verwendung der Bartlett-Methode berechnet. Dies ergibt standardisierte Bewertungen; ich habe sie um die jeweiligen Faktorvarianzen (gegeben durch Ladungslängen) skaliert.
Kommentare
- Mit welcher Software haben Sie die PCA- und Faktoranalyse-Diagramme erstellt?
- Ich habe Matlab verwendet. Ich habe darüber nachgedacht, den Code in meine Antwort einzufügen (wie es normalerweise meine Gewohnheit ist ), wollte diesen geschäftigen Thread aber nicht noch mehr überladen. Aber wenn ich darüber nachdenke, sollte ich ihn auf einer externen Website veröffentlichen und hier einen Link hinterlassen. Ich werde das tun.
- Es ist wahr dass PCA und FA manchmal und überhaupt nicht selten ähnliche Ergebnisse (Ladungen) liefern, und daher kann PCA als ein spezifischer Fall von FA angesehen werden, wenn eine Faktoranalyse vorliegt FA (sensu stricto) und PCA sind theoretisch ziemlich unterschiedlich.
- (Forts.) Faktoren sind transzendente latente Merkmale, pr. Komponenten sind immanente Ableitungen. Trotz Ihrer App mit zwei Ladediagrammen Ohr praktisch ähnlich, theoretisch sind sie grundlegend unterschiedlich. Die Komponentenebene links wurde als Unterraum der Variablen erzeugt, die sich darauf projizieren. Die Faktorebene wurde als ein Raum erzeugt , der sich vom Raum der Variablen unterscheidet, und projiziert sich daher auf einen “ alien “ Platz auf dem rechten Plot.
- (Forts.) Aber das richtige Bild (FA) ist eigentlich kein echter Biplot , es ist eher eine Überlagerung von zwei unterschiedlichen Streudiagrammen, unterschiedlichen Räumen: dem Belastungsdiagramm (wobei Achsen wahre Faktoren sind) und dem Objektbewertungsdiagramm (wobei Achsen die geschätzten Faktoren als Bewertungen sind). Der wahre Faktorraum überschreitet den “ elterlichen “ Variablenraum, aber der Faktorbewertungsraum ist sein Unterraum. Sie haben zwei heterogene Achsenpaare überlagert, die jedoch die gleichen Bezeichnungen tragen (“ factor1 “ und “ factor2 “ in beiden Paaren) Dieser Umstand ist stark irreführend und überzeugt uns zu der Annahme, dass es sich um einen echten Biplot handelt, wie den linken.
Antwort
Eine grundlegende, aber sorgfältige Erklärung von PCA vs Faktor-Analyse mit Hilfe von Streudiagrammen in logischen Schritten. (Ich danke @amoeba, der mich in seinem Kommentar zu der Frage ermutigt hat, eine Antwort zu veröffentlichen, anstatt Links zu anderen Stellen zu erstellen. Hier ist also eine freie, späte Antwort.)
PCA als variable Zusammenfassung (Merkmalsextraktion)
Ich hoffe, Sie haben bereits Verständnis für PCA. Um jetzt wieder zu beleben.
Angenommen, wir haben korrelierende Variablen $ V_1 $ und $ V_2 $ . Wir zentrieren sie (subtrahieren den Mittelwert) und machen ein Streudiagramm. Dann führen wir eine PCA für diese zentrierten Daten durch. PCA ist eine Form der Achsendrehung , die die Achsen P1 und P2 anstelle von V1 und V2 bietet. Die Schlüsseleigenschaft von PCA ist, dass P1 – als 1. Hauptkomponente bezeichnet – so ausgerichtet wird, dass die Varianz der Datenpunkte entlang der PCA maximiert wird. Die neuen Achsen sind neue Variablen, deren Werte berechenbar sind, solange wir die Rotationskoeffizienten kennen. $ a $ (PCA stellt sie bereit) [ Gl.1 ]:
$ P1 = a1_1V_1 + a1_2V_2 $
$ P2 = a2_1V_1 + a2_2V_2 $
Diese Koeffizienten sind Rotationskosinus (= Richtungskosinus, Hauptrichtung) und umfassen sogenannte Eigenvektoren Eigenwerte der Kovarianzmatrix sind die Hauptkomponentenvarianzen. In PCA verwerfen wir normalerweise schwache letzte Komponenten: Daher fassen wir Daten mit wenigen ersten extrahierten Komponenten mit geringem Informationsverlust zusammen.
Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543
Mit unseren aufgezeichneten Daten P1 Komponentenwerte (Scores) P1 = .73543*V1 + .67761*V2
und Komponente P2 werden verworfen. Die Varianz von P1 ist 1.75756
, der 1. Eigenwert der Kovarianzmatrix, und daher erklärt P1 86.5%
der Summe Varianz, die (1.07652+.95534) = (1.75756+.27430)
entspricht.
PCA als variable Vorhersage (“ latent “ -Funktion)
Wir haben P2 verworfen und erwarten, dass P1 allein die Daten angemessen darstellen kann. Dies entspricht $ P1 $ kann “ “ rekonstruieren oder
$ V_1 = a1_ {1} P1 + E_1 $
$ V_2 = a1_ {2} P1 + E_2 $
wobei die Koeffizienten $ a $ sind das, was wir bereits wissen und $ E $ sind die Fehler (Unvorhergesehenheit). Dies ist tatsächlich ein “ Regressionsmodell „, bei dem beobachtete Variablen von der latenten Variablen vorhergesagt werden (zurück), wenn eine Komponente a aufgerufen werden soll “ latent “ eins) P1, extrahiert aus denselben Variablen. Schauen Sie sich das Diagramm an Abb.2 , es ist nichts anderes als Abb .1 , nur detailliert:
Die P1-Achse ist mit ihren Werten (P1-Bewertungen) in grün gekachelt dargestellt (diese Werte sind die Projektionen von Datenpunkten auf P1). Einige beliebige Datenpunkte wurden mit A, B, … gekennzeichnet, und ihre Abweichung (Fehler) von P1 sind fett schwarze Anschlüsse. Für Punkt A werden Details gezeigt: Die Koordinaten des P1-Scores (grün A) auf den Achsen V1 und V2 sind die P1-rekonstruierten Werte von V1 und V2 gemäß Gl. 2 , $ \ hat {V_1} = a1_ {1} P1 $ und $ \ hat {V_2} = a1_ {2} P1 $ . Die Rekonstruktionsfehler $ E_1 = V_1- \ hat {V_1} $ und $ E_2 = V_2- \ hat {V_2} $ werden ebenfalls in Beige angezeigt. Der Connector “ Fehler “ Länge im Quadrat ist die Summe der beiden Fehler im Quadrat gemäß Pythagorean.
Nun, Was für PCA charakteristisch ist ist, dass wenn wir E1 und E2 für jeden Punkt in den Daten berechnen und diese Koordinaten zeichnen – dh machen Das Streudiagramm der Fehler allein, die Cloud “ Fehlerdaten “ stimmen überein die verworfene Komponente P2. Und das tut es: Die Wolke wird auf demselben Bild wie die beige Wolke dargestellt – und Sie sehen, dass sie tatsächlich die Achse P2 (von Abb.1 ), gekachelt mit P2-Komponentenwerten.
Kein Wunder, können Sie sagen. Es ist so offensichtlich: in PCA zerlegen die verworfenen Junior-Komponenten genau (s) in den Vorhersagefehlern E, in dem Modell, das die ursprünglichen Variablen V durch die latenten Merkmale P1 erklärt (wiederherstellt). Fehler E bilden zusammen nur die ausgelassene (n) Komponente (n). Hier beginnt sich die Faktoranalyse von PCA zu unterscheiden.
Die Idee der gemeinsamen FA (latentes Merkmal) )
Formal ist das Modell, das Manifestvariablen durch die extrahierten latenten Merkmale vorhersagt, in FA dasselbe wie in PCA; [ Gleichung 3 ]:
$ V_1 = a_ {1} F + E_1 $
$ V_2 = a_ {2} F + E_2 $
wobei F der latente gemeinsame Faktor ist, der aus den Daten extrahiert wurde und P1 in Gleichung 2 .Der Unterschied im Modell besteht darin, dass in FA im Gegensatz zu PCA Fehlervariablen (E1 und E2) erforderlich sind. , um nicht miteinander korreliert zu sein .
Exkurs . Hier möchte ich plötzlich die Geschichte unterbrechen und eine Vorstellung davon machen, was Koeffizienten $ a $ sind. In PCA, sagten wir, waren dies Einträge von Eigenvektoren, die in PCA gefunden wurden (über Eigen- oder Singularwertzerlegung). Während latentes P1 seine native Varianz hatte. Wenn wir P1 auf Einheitsvarianz standardisieren, müssen wir dies durch geeignete Skalierung der Koeffizienten $ a $ kompensieren, um das zu unterstützen Gleichung. Diese vergrößerten $ a $ s werden als loadings bezeichnet. Sie sind numerisch von Interesse, da sie die Kovarianzen (oder Korrelationen) zwischen den latenten und den beobachtbaren Variablen darstellen und daher zur Interpretation des latenten Merkmals beitragen können. In beiden Modellen – Gl. 2 und Gleichung 3 – Sie können frei entscheiden, ohne die Gleichung zu beschädigen Wenn F (oder P1) als Einheitsskalierung betrachtet wird, wird $ a $ geladen, während F (P1) seine native Form haben muss skalieren (Varianz), dann sollte $ a $ entsprechend de-skaliert werden – in PCA, die den Eigenvektoreinträgen entspricht, b In FA sind sie jedoch unterschiedlich und werden normalerweise nicht “ Eigenvektoren “ genannt. In den meisten Texten zur Faktoranalyse wird F als Einheitsvarianz angenommen, sodass $ a $ Ladungen sind. In der PCA-Literatur wird P1 typischerweise mit seiner realen Varianz diskutiert und so sind $ a $ Eigenvektoren.
] OK, zurück zum Thread. E1 und E2 sind in der Faktoranalyse nicht korreliert; daher sollten sie eine Fehlerwolke bilden, die entweder rund oder elliptisch, aber nicht diagonal ausgerichtet ist. Während der PCA bildete ihre Wolke eine gerade Linie, die mit dem diagonal verlaufenden P2 zusammenfiel. Beide Ideen werden auf dem Bild demonstriert:
Beachten Sie, dass Fehler in FA runde (nicht diagonal verlängerte) Wolken sind. Der Faktor (latent) in FA ist etwas anders ausgerichtet, dh es ist nicht richtig, dass die erste Hauptkomponente die “ latente “ in PCA ist . Auf dem Bild ist die Faktorlinie etwas konisch – es wird am Ende klar, warum.
Was bedeutet dieser Unterschied zwischen PCA und FA? Korrelierte Variablen, was in der diagonal elliptischen Form der Datenwolke zu sehen ist. P1 überflog die maximale Varianz, so dass die Ellipse auf P1 gerichtet ist. Folglich erklärte P1 selbst die Korrelation; aber es erklärte das vorhandene Ausmaß der Korrelation nicht angemessen; Es schien Variation in Datenpunkten zu erklären, nicht Korrelation. Tatsächlich wurde die Korrelation überbewertet, was zum Auftreten der diagonalen, korrelierten Fehlerwolke führte, die die Überrechnung kompensierte. P1 allein kann die Stärke der Korrelation / Kovariation nicht umfassend erklären. Faktor F kann es alleine tun; und die Bedingung, wenn es dazu in der Lage ist, ist genau dort, wo Fehler gezwungen werden können, unkorreliert zu werden. Da die Fehlerwolke rund ist, ist nach dem Extrahieren des Faktors keine Korrelation – positiv oder negativ – geblieben, daher ist es der Faktor, der alles überflogen hat.
Als Dimensionsreduktion ist PCA erklärt die Varianz , erklärt jedoch die Korrelationen ungenau. FA erklärt Korrelationen , kann jedoch (aufgrund der gemeinsamen Faktoren) nicht so viele Datenvariationen berücksichtigen wie PCA. Faktor (en) in FA erklären den Teil der Variabilität, der der Nettokorrelationsanteil ist, der als Kommunalität bezeichnet wird; und daher können Faktoren als reale, aber nicht beobachtbare Kräfte / Merkmale / Merkmale interpretiert werden, die “ in “ oder hinter “ den Eingabevariablen, damit sie korrelieren. Weil sie die Korrelation mathematisch gut erklären. Hauptkomponenten (wenige erste) erklären es mathematisch nicht so gut und so kann als “ latentes Merkmal (oder so) nur bei einer gewissen Dehnung und vorläufig .
Die Multiplikation von Ladungen erklärt (stellt) die Korrelation oder Korrelation in der Form der Kovarianz – wenn die Analyse eher auf der Kovarianzmatrix (wie in unserem Beispiel) als auf der Korrelationsmatrix basiert.Die Faktorenanalyse, die ich mit den Daten durchgeführt habe, ergab a_1=.87352, a_2=.84528
, sodass das Produkt a_1*a_2 = .73837
fast der Kovarianz .73915
. Andererseits waren die PCA-Ladungen a1_1=.97497, a1_2=.89832
, sodass a1_1*a1_2 = .87584
.73915
erheblich überschätzt.
Nachdem wir die theoretische Hauptunterscheidung zwischen PCA und FA erläutert haben, kehren wir zu unseren Daten zurück, um die Idee zu veranschaulichen.
FA: ungefähre Lösung (Faktorwerte)
Unten ist das Streudiagramm, das die Ergebnisse der Analyse zeigt, die wir vorläufig “ suboptimale Faktoranalyse „, Abb.3 .
A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings).
Siehe Abweichungen von Abb .2 von PCA. Die beige Wolke der Fehler ist nicht rund, sie ist diagonal elliptisch, aber offensichtlich viel dicker als die dünne diagonale Linie, die in PCA aufgetreten ist. Beachten Sie auch, dass die Fehleranschlüsse (für einige Punkte gezeigt) nicht mehr parallel sind (in PCA waren sie per Definition parallel zu P2). Wenn Sie sich beispielsweise die Punkte “ F “ und “ E „, die spiegelsymmetrisch über dem Faktor „s F -Achse werden Sie unerwartet feststellen, dass die entsprechenden Faktorbewertungen ganz unterschiedliche Werte sind. Mit anderen Worten, Faktorbewertungen sind nicht nur linear transformierte Hauptkomponentenbewertungen: Faktor F wird auf seine eigene Weise unterschiedlich gefunden und ihre Achsen stimmen nicht vollständig überein, wenn sie zusammen auf demselben Diagramm gezeigt werden. Abb. 4 :
] Abgesehen davon, dass sie etwas anders orientiert sind, ist F (wie mit Punktzahlen gekachelt) kürzer, d. h. es erklärt eine geringere Varianz als P1. Wie bereits erwähnt, berücksichtigt der Faktor nur die Variabilität, die für die Korrelation von V1 V2 verantwortlich ist, dh den Teil der Gesamtvarianz, der ausreicht, um die Variablen von der Urkovarianz 0
zur tatsächlichen Kovarianz zu bringen .73915
.
FA: optimale Lösung (wahrer Faktor)
Eine optimale Faktorlösung ist, wenn Fehler rund oder nicht diagonal elliptisch sind : E1 und E2 sind vollständig unkorreliert . Die Faktorenanalyse liefert eine solche optimale Lösung. Ich habe es nicht auf einem einfachen Streudiagramm wie den oben gezeigten gezeigt. Warum habe ich? – denn es wäre schließlich das interessanteste gewesen.
er Grund ist, dass es unmöglich wäre, auf einem Streudiagramm ausreichend genug zu zeigen, selbst wenn ein 3D-Diagramm übernommen würde. Theoretisch ist das ein ziemlich interessanter Punkt. Um E1 und E2 vollständig unkorreliert zu machen, müssen alle diese drei Variablen F, E1, E2 nicht liegen in dem durch V1, V2 definierten Raum (Ebene); und die drei müssen nicht miteinander korreliert sein . Ich glaube, es ist möglich, ein solches Streudiagramm in 5D zu zeichnen (und vielleicht mit etwas Spielerei – in 4D), aber wir leben leider in einer 3D-Welt. Faktor F muss sowohl mit E1 als auch mit E2 unkorreliert sein (während beide ebenfalls nicht korreliert sind), da F nur die (sauber) und vollständige Korrelationsquelle in den beobachteten Daten. Die Faktoranalyse teilt die Gesamtvarianz der p
-Eingabevariablen in zwei nicht korrelierte (nicht überlappende) Variablen auf ) Teile: Kommunalität Teil (m
-dimensional, wobei m
gemeinsame Faktoren regieren) und Eindeutigkeit part (p
-dimensional, wobei Fehler, auch eindeutige Faktoren genannt, nicht miteinander korreliert sind).
Verzeihung, dass der wahre Faktor von nicht angezeigt wird unsere Daten auf einem Streudiagramm hier. Es könnte ziemlich angemessen über Vektoren im “ Themenbereich “ visualisiert werden, wie hier gemacht wird ohne Datenpunkte anzuzeigen.
Oben im Abschnitt “ Die Idee eines gemeinsamen FA (latentes Merkmal) “ Ich habe den Faktor (Achse F) als Keil angezeigt, um zu warnen, dass die wahre Faktorachse nicht auf der Ebene V1 V2 liegt. Dies bedeutet, dass – im Gegensatz zur Hauptkomponente P1 – der Faktor F als Achse keine Drehung der Achse V1 oder V2 in ihrem Raum ist und F als Variable keine lineare Kombination der Variablen V1 und V2 ist.Daher wird F modelliert (aus den Variablen V1 v2 extrahiert), als ob es sich um eine äußere, unabhängige Variable handelt, nicht um eine Ableitung davon. Gleichungen wie Gleichung 1 , von wo aus PCA beginnt, sind nicht anwendbar, um den wahren (optimalen) Faktor zu berechnen in der Faktoranalyse, während formal isomorphe Gleichungen Gleichung 2 und Gl. 3 gelten für beide Analysen. Das heißt, in PCA-Variablen werden Komponenten generiert und Komponenten prognostizieren Variablen zurück. in FA Faktor (en) generieren / prognostizieren Variablen und nicht zurück – das Common-Factor-Modell geht konzeptionell von so , obwohl technisch Faktoren aus den beobachteten Variablen extrahiert werden.
Nicht nur der true -Faktor ist keine Funktion der Manifestvariablen, sondern der true -Faktor „s -Werte sind nicht eindeutig definiert . Mit anderen Worten, sie sind einfach unbekannt. Das alles liegt an der Tatsache, dass wir“ Sie befinden sich im übermäßigen 5D-Analyseraum und nicht in unserem 2D-Heimraum der Daten. Es gibt nur gute Annäherungen (es gibt eine Reihe von -Methoden ) an echte Faktorwerte, die als Faktor-Scores bezeichnet werden für uns da. Faktorwerte liegen in der Ebene V1 V2, wie Hauptkomponentenwerte, sie werden auch als lineare Funktionen von V1, V2 berechnet, und es sind sie, die ich im Abschnitt “ FA: ungefähre Lösung (Faktorwerte) „. Hauptkomponentenbewertungen sind wahre Komponentenwerte; Faktorwerte sind nur eine vernünftige Annäherung an die unbestimmten wahren Faktorwerte.
FA: Zusammenfassung der Prozedur
Um in einem kleinen Gerinnsel zu sammeln, was in den beiden vorherigen Abschnitten gesagt wurde, und letzte Striche hinzuzufügen . Tatsächlich kann FA ( wenn Sie es richtig machen und auch Datenannahmen ) die wahre Faktorlösung finden (durch “ true “ Ich meine hier optimal für das Datenmuster). Es gibt jedoch verschiedene Extraktionsmethoden (sie unterscheiden sich in einigen sekundären Einschränkungen). Die True-Factor-Lösung hängt nur von $ a $ ab . Somit sind Belastungen von optimalen, wahren Faktoren. Faktorwerte – falls erforderlich – können aus diesen Ladungen auf verschiedene Weise berechnet und zurückgegeben werden Annäherungen an Faktorwerte.
Somit wird “ Faktorlösung “ von mir in Abschnitt FA: ungefähre Lösung (Faktorwerte) “ basierte tatsächlich auf optimalen Belastungen, dh auf wahren Faktoren. Aber die Punktzahlen waren vom Schicksal her nicht optimal. Die Scores werden wie die Komponenten-Scores als lineare Funktion der beobachteten Variablen berechnet, sodass beide auf einem Streudiagramm verglichen werden können, und ich habe es in didaktischer Verfolgung getan, um zu zeigen, wie sich die PCA-Idee allmählich zur FA-Idee entwickelt.
Man muss vorsichtig sein, wenn man auf denselben Biplot -Faktorladungen mit Faktorwerten im “ -Faktorraum , sei dir bewusst, dass Ladungen wahre Faktoren betreffen, während Punktzahlen Ersatzfaktoren betreffen (siehe meine Kommentare zu dieser Antwort in diesem Thread).
Die Drehung von Faktoren (Belastungen) hilft bei der Interpretation der latenten Merkmale. Die Drehung der Ladungen kann auch in PCA erfolgen, wenn Sie PCA als Faktoranalyse verwenden (dh PCA als variable Vorhersage). PCA tendiert dazu, mit zunehmender Anzahl von Variablen zu Ergebnissen mit FA zu konvergieren (siehe den extrem reichen Thread zu praktischen und konzeptionellen Ähnlichkeiten und Unterschieden zwischen den beiden Methoden). Siehe meine Liste der Unterschiede zwischen PCA und FA am Ende von dieser Antwort . Schrittweise Berechnungen von PCA gegen FA im iris -Datensatz finden Sie hier . Es gibt eine beträchtliche Anzahl guter Links zu den Antworten anderer Teilnehmer zu diesem Thema außerhalb dieses Threads. Es tut mir leid, dass ich in der aktuellen Antwort nur wenige davon verwendet habe.
Siehe auch eine Aufzählungsliste der Unterschiede zwischen PCA und FA hier .
Kommentare
- +1. ‚ ist großartig, dass Sie es geschrieben haben. In diesem Thread fehlte definitiv eine Antwort von Ihnen. Ich habe vor dem Lesen gestimmt (was ich selten mache) und habe es auf jeden Fall genossen, später zu lesen. Ich könnte später mehr dazu sagen, aber ein kleiner Trottel für den Moment: Sie haben mehrmals geschrieben, dass in FA die Fehlerwolke “ rund “ sein sollte .Tatsächlich könnte es jedoch elliptisch sein (da Eindeutigkeiten für V1 und V2 unterschiedliche Varianzen aufweisen können), es muss lediglich keine Korrelation aufweisen. Ich denke, Sie wollten die Leser nicht mit diesem Detail verwechseln.
- @amoeba Ich habe einen naiven Zweifel an der mathematischen Unmöglichkeit, das optimale F, E1, E2 in dem durch V1 definierten Raum (Ebene) darzustellen. V2. Ich kann mir ein Gegenbeispiel dafür vorstellen: Sagen Sie $ V_1 = a_ {1} F + E_1 $ und $ V_2 = a_ {2} F + E_2 $, wobei $ (E_1, E_2) = \ mathcal {N} (0) , \ Bbb {I}) $ – Verwenden Sie nun diese Beziehungen, um Stichproben von V1 und V2 zu generieren. Sobald V1 und V2 erzeugt sind, sollten wir, wenn wir die optimale FA durchführen wollen, nahezu genaue Schätzungen von (E1, E2) zurückerhalten, und es wird eine elliptische Wolke bilden. Darüber hinaus können jetzt F, E1, E2 in derselben Ebene wie V1 und V2 dargestellt werden.
- @kasa, war Ihr Kommentar meine Antwort oder Amöbe ‚ s Kommentar? Wenn Ihr Kommentar gegen meine Hauptbehauptung verstößt, dass in FA die drei latenten Variablen nicht im ursprünglichen Raum liegen und Sie ihn zeigen können, warum nicht eine Antwort geben, die ihn zeigt? Beachten Sie jedoch, dass bei optimaler FA die Fehler genau unkorreliert sind und nicht als aus normaler unkorrelierter Population stammend.
- @ttnphns : Entschuldigung für die Verwirrung, ich habe an Ihrer Hauptforderung gezweifelt. Ich werde versuchen, es in ein paar Tagen als Antwort zu zeigen. Danke!
Antwort
Die Unterschiede zwischen der Faktoranalyse und der Hauptkomponentenanalyse sind:
• In der Faktoranalyse gibt es ein strukturiertes Modell und einige Annahmen. In dieser Hinsicht handelt es sich um eine statistische Technik, die nicht für die Hauptkomponentenanalyse gilt, bei der es sich um eine rein mathematische Transformation handelt.
• Ziel der Hauptkomponentenanalyse ist es, die Varianz zu erklären, während die Faktoranalyse die Kovarianz zwischen den Komponenten erklärt Variablen.
ichtung Einer der Hauptgründe für die Verwechslung zwischen beiden hat damit zu tun, dass eine der Methoden zur Faktorextraktion in der Faktoranalyse als „Methode der Hauptkomponenten“ bezeichnet wird. Es ist jedoch eine Sache, PCA zu verwenden, und eine andere Sache, die -Methode der Hauptkomponenten in FA zu verwenden. Die Namen mögen ähnlich sein, aber es gibt signifikante Unterschiede. Ersteres ist eine unabhängige Analysemethode Letzteres ist lediglich ein Werkzeug zur Faktorextraktion.
Antwort
Für mich (und ich hoffe, das ist nützlich) ist die Faktoranalyse viel nützlicher als PCA.
Vor kurzem hatte ich das Vergnügen, eine Skala durch Faktoranalyse zu analysieren. Diese Skala (obwohl sie in der Industrie weit verbreitet ist) wurde unter Verwendung von PCA entwickelt und meines Wissens nach wurde noch nie faktoranalysiert.
Als ich die Faktoranalyse (Hauptachse) durchführte, stellte ich fest, dass die Kommunalitäten für drei der Elemente weniger als 30% betrugen, was bedeutet, dass über 70% der „Varianz der Elemente“ nicht analysiert wurden. PCA wandelt einfach die Daten in eine neue Kombination um und kümmert sich nicht um Kommunalitäten. Mein Fazit war, dass die Skala aus psychometrischer Sicht nicht sehr gut war, und ich habe dies mit einer anderen Stichprobe bestätigt.
Wenn Sie anhand der Faktoren vorhersagen möchten, verwenden Sie im Wesentlichen PCA Wenn Sie die latenten Faktoren verstehen möchten, verwenden Sie die Faktoranalyse.
Antwort
Erweitern der Antwort von @StatisticsDocConsulting: Der Unterschied in den Belastungen zwischen EFA und PCA ist bei einer kleinen Anzahl von Variablen nicht trivial. Hier ist eine Simulationsfunktion, um dies in R zu demonstrieren:
simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}
Standardmäßig führt diese Funktion 100 Iterations
aus. in jeder von ihnen werden zufällige, normalverteilte Stichproben (Sample.Size
$ = 1000 $) von drei Variablen erzeugt und ein Faktor unter Verwendung von PCA und ML-EFA extrahiert. Es wird eine Liste von zwei ausgegeben Iterations
-lange Vektoren, die sich aus den mittleren Größen der simulierten Variablen zusammensetzen, belasten die nicht gedrehte erste Komponente von PCA bzw. den allgemeinen Faktor von EFA. Sie können damit mit der Stichprobengröße und der Anzahl der Variablen und Faktoren herumspielen, die Ihrer Situation entsprechen, und zwar innerhalb der Grenzen von principal()
und factanal()
Funktionen und Ihr Computer.
Mit diesem Code habe ich Stichproben von 3 bis 100 Variablen mit jeweils 500 Iterationen simuliert, um Daten zu erzeugen:
Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}
… für eine grafische Darstellung der Empfindlichkeit der mittleren Belastungen (über Variablen und Iterationen hinweg) gegenüber der Anzahl der Variablen:
Dies zeigt, wie unterschiedlich eine ist muss die Stärke der Belastungen in PCA gegenüber EFA interpretieren. Beide hängen etwas von der Anzahl der Variablen ab, aber die Belastungen sind in PCA viel stärker nach oben vorgespannt. Der Unterschied zwischen den mittleren Belastungen dieser Methoden nimmt mit zunehmender Anzahl der Variablen ab, aber auch mit 100 Variablen, PCA-Ladungen durchschnittlich $ .067 $ höher als EFA-Ladungen in zufälligen normalen Daten.Beachten Sie jedoch, dass die mittleren Belastungen in realen Anwendungen normalerweise höher sind, da diese Methoden im Allgemeinen für stärker korrelierte Variablen verwendet werden. Ich bin mir nicht sicher, wie sich dies auf den Unterschied der mittleren Belastungen auswirken könnte.
Antwort
Ein Zitat aus einem wirklich schönen Lehrbuch ( Brown, 2006, S. 22, Hervorhebung hinzugefügt).
PCA = Hauptkomponentenanalyse
EFA = explorative Faktoranalyse
CFA = bestätigende Faktoranalyse
Obwohl mit EFA verwandt, wird die Hauptkomponentenanalyse (PCA) häufig als Schätzmethode für die Analyse gemeinsamer Faktoren falsch eingestuft. Im Gegensatz zu den im vorhergehenden Absatz (ML, PF) erörterten Schätzern stützt sich PCA auf einen anderen quantitativen Satz Methoden, die nicht auf dem Common-Factor-Modell basieren. PCA unterscheidet nicht zwischen gemeinsamer und eindeutiger Varianz. PCA zielt vielmehr darauf ab, die Varianz in den beobachteten Maßen zu berücksichtigen, anstatt die Korrelationen zwischen ihnen zu erklären. Daher wird PCA geeigneter als Datenreduktionstechnik, um einen größeren Satz von Maßnahmen auf eine kleinere, überschaubarere Anzahl von zu verwendenden zusammengesetzten Variablen zu reduzieren in nachfolgenden Analysen. Einige Methodologen haben jedoch argumentiert, dass PCA eine vernünftige oder vielleicht überlegene Alternative zu EFA ist, da PCA mehrere wünschenswerte statistische Eigenschaften besitzt (z. B. rechnerisch einfacher, nicht anfällig für falsche Lösungen, und häufig ähnliche Ergebnisse wie EFA liefert Fähigkeit der PCA, die Punktzahl eines Teilnehmers für eine Hauptkomponente zu berechnen, während die Unbestimmtheit der EFA solche Berechnungen erschwert). Obwohl die Debatte zu diesem Thema fortgesetzt wird, haben Fabrigar et al. (1999) liefern mehrere Gründe gegen das Argument für den Platz von PCA in der Faktoranalyse. Diese Autoren unterstreichen die Situationen, in denen EFA und PCA unterschiedliche Ergebnisse liefern. zum Beispiel, wenn die Kommunalitäten gering sind oder wenn es nur wenige Indikatoren für einen bestimmten Faktor gibt (vgl. Widaman, 1993). Unabhängig davon, ob die übergeordneten Gründe und empirischen Ziele einer Analyse mit dem Common-Factor-Modell übereinstimmen, ist die Durchführung einer PCA konzeptionell und mathematisch inkonsistent. Das heißt, EFA ist besser geeignet, wenn das angegebene Ziel darin besteht, die Wechselbeziehungen einer Reihe von Indikatoren mit einer geringeren Anzahl latenter Dimensionen zu reproduzieren und das Vorhandensein von Messfehlern in den beobachteten Messungen zu erkennen. Floyd und Widaman (1995) weisen darauf hin, dass Schätzungen, die auf EFA basieren, eher auf CFA verallgemeinern als solche, die von PCA erhalten wurden, da EFA und CFA im Gegensatz zu PCA auf dem Common-Factor-Modell basieren. Dies ist eine bemerkenswerte Überlegung angesichts der Tatsache, dass EFA häufig als Vorstufe für CFA bei der Skalenentwicklung und Konstruktvalidierung verwendet wird. Eine detaillierte Demonstration der rechnerischen Unterschiede zwischen PCA und EFA findet sich in multivariaten und faktoranalytischen Lehrbüchern (z. B. Tabachnick & Fidell, 2001).
Brown, TA (2006). Bestätigungsfaktoranalyse für angewandte Forschung. New York: Guilford Press.
Antwort
Man kann denken einer PCA als FA, bei der angenommen wird, dass die Kommunalitäten für alle Variablen gleich 1 sind. In der Praxis bedeutet dies, dass Gegenstände, die aufgrund geringer Kommunalität relativ geringe Faktorladungen in FA aufweisen würden, höhere Ladungen in PCA aufweisen. Dies ist keine wünschenswerte Funktion, wenn der Hauptzweck der Analyse darin besteht, die Artikellänge zu verringern und eine Batterie von Artikeln mit geringer oder nicht eindeutiger Belastung zu reinigen oder Konzepte zu identifizieren, die im Artikelpool nicht gut vertreten sind.
Antwort
In einem Artikel von Tipping und Bischop wird die enge Beziehung zwischen probabalistischer PCA (PPCA) und Faktoranalyse diskutiert. PPCA ist näher an FA als die klassische PCA. Das übliche Modell ist
$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$
wobei $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ und $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.
- Bei der Faktoranalyse wird davon ausgegangen, dass $ \ mathbf {\ Psi} $ diagonal ist.
- PPCA geht von $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $
Michael E. Tipping, Christopher M. Bishop aus (1999). Probabilistische Hauptkomponentenanalyse , Journal der Royal Statistical Society, Band 61, Ausgabe 3, Seiten 611–622
Kommentare
- + 1. Ja. Ich glaube, dass das Verständnis von PPCA notwendig ist, um die Beziehung zwischen PCA und FA zu verstehen. Sie können Ihre Antwort jedoch verbessern, indem Sie die PCA / PPCA-Beziehung diskutieren.
Antwort
Keine dieser Antworten ist perfekt. Entweder FA oder PCA hat einige Varianten. Wir müssen klar darauf hinweisen, welche Varianten verglichen werden. Ich würde die Maximum-Likelihood-Faktor-Analyse und die PCA des Hotellings vergleichen.Die ersteren nehmen an, dass die latente Variable einer Normalverteilung folgt, aber PCA hat keine solche Annahme. Dies hat zu Unterschieden geführt, wie z. B. der Lösung, dem Verschachteln der Komponenten, der Einzigartigkeit der Lösung, den Optimierungsalgorithmen.
Kommentare
- Ich frage mich, ob Sie dies etwas erweitern könnten – Sie haben gesagt, dass es Unterschiede im letzten Satz gibt, aber nicht viele Informationen gegeben Wie diese Unterschiede aussehen könnten oder inwiefern diese Unterschiede wichtig sein könnten?
- Zwei am weitesten entfernte Methoden auszuwählen und zu behaupten, dass sie tatsächlich unterschiedlich sind – wie Sie – ist ebenfalls keine perfekte Logik . Man sollte wahrscheinlich herausfinden und berichten, wie ähnlich diese beiden sind. Alternativ kann man die ähnlichsten Methoden auswählen (z. B. PCA vs PAF ) und angeben, auf welche Weise sie sich unterscheiden.
- Hotelling ‚ s PCA nimmt latente Gaußsche an.
Antwort
Es gibt viele gute Antworten für diesen Beitrag, aber kürzlich bin ich auf einen anderen Unterschied gestoßen.
Clustering ist eine Anwendung, bei der PCA und FA unterschiedliche Ergebnisse liefern. Wenn die Daten viele Funktionen enthalten, kann versucht werden, die wichtigsten PC-Richtungen zu finden und die Daten auf diese PCs zu projizieren. Anschließend wird mit dem Clustering fortgefahren. Oft stört dies die inhärenten Cluster in den Daten – Dies ist ein bewährtes Ergebnis. Forscher schlagen vor, mit Subraum-Clustering-Methoden fortzufahren, die nach niedrigdimensionalen latenten Faktoren im Modell suchen.
Um diesen Unterschied zu veranschaulichen, betrachten Sie den Datensatz Crabs
in R. Der Datensatz von Crabs enthält 200 Zeilen und 8 Spalten, in denen 5 morphologische Messungen an 50 Krabben mit jeweils zwei Farben beschrieben werden Formen und beide Geschlechter der Art – Im Wesentlichen gibt es 4 (2×2) verschiedene Klassen von Krabben.
library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23)
#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2
Wie aus den obigen Darstellungen ersichtlich ist, enthalten PC2 und PC3 mehr diskriminierende Informationen als PC1.
Wenn man versucht, mithilfe einer Mischung von Faktoranalysatoren mithilfe der latenten Faktoren zu clustern, sehen wir im Vergleich zu den ersten beiden PCs ein viel besseres Ergebnis.
mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5
Kommentare
- Ich muss sagen, dass ich bezweifle, dass diese Antwort die Frage wirklich beantwortet. Die Antwort bezieht sich auf die Clusteranalyse nach PCA oder FA, nicht auf PCA und FA selbst. Aber auch in dieser Hinsicht ist die Antwort dunkel oder unvollendet. Wie ist der Unterschied, den Sie anzeigen, zu erklären?
- @ttnphns Ich stimme der Antwort zu, die sich auf die Clusteranalyse bezieht. OP hatte jedoch auch nach einem realen Szenario mit PCA / FA gefragt, in dem eines über das andere verwendet werden muss. Typischerweise ist PCA oder FA niemals das Endziel – z. In den Sozialwissenschaften wäre das Endziel die Unterteilung der Fächer in verschiedene Cluster / Gruppen. Meine Antwort befasst sich mit solchen Szenarien. Wenn Sie der Meinung sind, dass meine Antwort verbessert werden kann, können Sie darauf hinweisen.
- Ich denke, dass Ihre Antwort wirklich relevant werden kann, wenn Sie Ihre Ergebnisse erläutern. Sie behaupten, dass die Unterschiede zwischen PCA und FA für beide Methoden intrinsisch sind (nur sie werden beim Clustering deutlich). Ich denke, Sie sollten zeigen oder zumindest spekulieren, wie oder warum sich die Unterschiede theoretisch aus den Unterschieden der Methoden ‚ ergeben.