因子分析と主成分分析の違いは何ですか？

Question

私が使用している統計パッケージの多くは、これら2つの概念をまとめているようです。ただし、一方を他方に使用するために真でなければならないさまざまな仮定またはデータの「形式」があるかどうか疑問に思っています。実際の例は非常に役立ちます。

心理学ではこれら2つマルチスケールテストの構築には、どのアイテムがどのスケールにロードされるかを判断するための手法がよく適用されます。それらは通常、同様の実質的な結論をもたらします（議論については、Comrey（1988）Pactor-Analytic Methods of Scale Development in Personality and Clinical Psychologyを参照してください）。これは、一部の統計パッケージがそれらをバンドルしているように見える理由を説明するのに役立ちます。また、「主成分分析」が誤って「因子分析」とラベル付けされている状況も見ました。

簡単な経験則、次のことをお勧めします。

観測された変数を引き起こす潜在因子の理論モデルを想定またはテストする場合は、因子分析を実行します。
主成分分析を実行する相関する観測変数を、重要な独立した複合変数のより小さなセットに単純に削減する場合。

経験則は非常に便利です。ありがとうございます。
経験則（1）について：Wouldn ‘ t探索的因子分析ではなく、確認的因子分析を使用して潜在因子の理論モデルをテストしますか？
@romanはい。CFAを使用すると、モデルをより細かく制御できます。 EFAよりも。たとえば、負荷をゼロに制限したり、負荷を等しくしたり、残差を相関させたりすることができます。 ls;高階係数を追加します。など
@Jeromy AnglimPCAが”重要な独立した複合変数のより小さなセットを作成すると言うのは本当に正しいですか。”または、本当に”重要な無相関複合変数のより小さなセット”と言う必要があります。 PCAで使用されている基になるデータが（多変量）正規分布していない場合、縮小された次元のデータは無相関になりますか？
経験則の2番目の親指は簡単に取得できますが、最初の経験則を適用するにはどうすればよいですか？奇妙に聞こえるかもしれませんが、’観測された変数に対して因子モデルを実行したいのはいつですか？

Answer 2

ここでの私の回答から：

PCAの後にローテーション（バリマックスなど）が続くのはまだPCAですか？

主成分分析（PCA）と共通因子分析（CFA）は別個の方法です。多くの場合、それらは同様の結果を生成し、PCAはSPSS因子分析ルーチンのデフォルトの抽出方法として使用されます。これは間違いなく、2つの違いについて多くの混乱を招きます。

肝心なのは、これらは概念的には2つの異なるモデルであるということです。 PCAでは、成分は、分散全体を最大化する実際の直交線形結合です。FAでは、因子は分散の共有部分を最大化する線形結合であり、基礎となる「潜在構造」です。そのため、FAは「共通因子分析」と呼ばれることがよくあります。FAはさまざまな最適化ルーチンを使用し、PCAとは異なり、結果は使用する最適化ルーチンとそれらのルーチンの開始点に依存します。単一の一意のソリューションはありません。

Rでは、factanal（）関数がCFAに最尤抽出を提供します。したがって、PCA抽出に基づくSPSS結果を再現することを期待するべきではありません。これは単に同じモデルまたはロジックではありません。SPSSの最尤抽出を使用した場合でも、同じアルゴリズムを使用していない可能性があるため、同じ結果が得られるかどうかはわかりません。

Forただし、Rで良くも悪くも、SPSSがデフォルトとして提供する混合された「因子分析」を再現できます。これがRでのプロセスです。このコードを使用すると、「SPSS主成分を再現できます」このデータセットを使用した「因子分析」の結果（不確定な符号を除く）。この結果は、Rの使用可能な回転方法のいずれかを使用して回転することもできます。

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

主成分分析

データセットの主成分である新機能の構築。主成分は、入力特徴の線形結合から構築された最大分散の確率変数です。同様に、これらは主成分軸への射影であり、データセット内の各ポイントまでの平均二乗距離を最小化する線です。一意性を確保するには、すべての主成分軸が直交している必要があります。 PCAは、入力と出力の両方にガウスノイズが存在する場合の線形回帰の最尤法です。場合によっては、PCAは、JPEG画像圧縮で使用されるDCTなどのフーリエ変換に対応します。「認識のための固有顔」（Turk & Pentland、J Cognitive Neuroscience 3（1）、1991）、Bishop、「確率的主成分分析」、および「PCAの次元の自動選択」を参照してください。「.PCAの次元の選択」。

因子分析

最尤法に明示的に基づくPCAの一般化。PCAと同様に、各データポイントはサンプリングから生じると想定されます。部分空間内の点と、それを全次元ガウスノイズで摂動する違いは、因子分析では、ノイズが任意の対角共分散行列を持つことができるのに対し、PCAは、ノイズが球形であると想定していることです。部分空間の推定に加えて、因子分析ノイズ共分散行列を推定します。「因子分析器の混合のためのEMアルゴリズム」を参照してください。PCAの次元の選択。

因子分析の説明が要点（対角共分散）を取得しますが、歴史的にはsはPCAの一般化として開発されていません。
基本的に、PCAでは1つのsvd ‘が共分散行列であり、FAでは相関行列ですか？メソッドが適用される分野から多くの用語を構築した後、実際の数学を見つけるのは常に困難です。（トピック外：70 ‘から、その背後にある行列方程式を記述した1つの論文を見つけるまで、パスモデリングとは何かを理解するのに午後がかかりました。）

Answer 4

FAでは一般的に両方で作業しますが、最初のポイントについては正しいです（一意性とコミュニティ）。 PCAとFAのどちらを選択するかは、心理測定学者の間で長年の議論です。しかし、私はあなたの主張に完全には従いません。主軸の回転は、潜在因子を構築するために使用される方法に関係なく適用できます。実際、これはほとんどの場合、VARIMAX回転（無相関因子を考慮した直交回転）です。実用的な理由（最も簡単な解釈、最も簡単なスコアリングルール、または因子スコアの解釈など）で使用されますが、斜め回転（PROMAXなど）はおそらく現実をよりよく反映している可能性があります（潜在構造は互いに相関していることがよくあります）。潜在構造が実際に変数間で観察された相互相関の中心にあると想定するFAの伝統。要点は、PCAとそれに続くVARIMAX回転が、「データ」内の元の変数の線形組み合わせの解釈をいくらか歪めることです。分析」の伝統（Michel Tenenhausの研究を参照）。心理測定の観点から、FAモデルは、測定誤差を明示的に説明するため、優先されます。 s、PCAはそれを気にしませんが。簡単に言えば、PCAを使用すると、各成分（因子）を変数の線形結合として表現しますが、FAでは、これらは因子の線形結合として表現される変数です（あなたが言ったように、コミュニティと一意性成分を含みます）。

このトピックに関する次の説明を最初に読むことをお勧めします。

因子分析と主成分の違いは何ですか。成分分析
PCA後の斜め回転の使用について-その中の参照を参照

この質問は別の質問 stats.stackexchange.com/questions/3369/ … （最初は後者に答えます）。
ああ、この質問で、なぜあなたがこの質問にリンクしたのか疑問に思いました… 🙂
。 Chl、説明してもらえますか？その’は興味深いです。

Answer 5

トップアンサーこのスレッドでは、PCAは次元削減手法であるのに対し、FAは潜在変数手法であることが示唆されています。これは sensu stricto 正解です。しかし、ここでの多くの回答と他の場所での多くの治療法は、PCAとFAを2つの完全に異なる方法として提示し、反対ではないにしても異なる目標、方法、および結果を示します。同意しません; PCAを潜在変数手法と見なすと、FAに非常に近く、非常に類似した手法と見なす必要があると思います。

次のスレッドでPCAとFAの類似点と相違点について独自の説明を提供しました： EFAの代わりにPCAを使用する正当な理由はありますか？また、PCAは因子分析の代わりになりますか？単純な数学的理由から、変数の数がそれほど少なくないことを考えると、PCAとFAの結果は非常に似ていると予想できると私は主張します（おそらくダース以上）。数学の詳細とモンテカルロシミュレーションについては、リンクされたスレッドの私の[long！]の回答を参照してください。私の議論のはるかに簡潔なバージョンについては、ここを参照してください： PCAとFAが同様の結果をもたらす条件はどれですか？

ここで例でそれを示すために。 UCI Machine LearningRepositoryのワインデータセットを分析します。これはかなりよく知られているデータセットであり、$ p = 13 $変数で記述された3つの異なるブドウからの$ n = 178 $ワインが含まれています。相関行列は次のようになります。

ワインデータセットの相関行列

PCA分析とFA分析の両方を実行して、下の図の両方のバイプロットとしてのデータの2D投影（左側のPCA、右側のFA）。横軸と縦軸は、1番目と2番目のコンポーネント/因子スコアを示しています。 $ n = 178 $の各ドットは1つのワインに対応し、ドットはグループに応じて色分けされます（凡例を参照）：

ワインデータセットのPCAおよびFA分析

$ p = 13 $の元の変数のそれぞれへの1番目と2番目のコンポーネント/因子の負荷は黒い線で示されています。これらは、元の変数のそれぞれと2つのコンポーネント/因子の間の相関に等しくなります。もちろん、相関は$ 1 $を超えることはできないため、すべてのロードラインは「相関円」の内側に含まれ、可能な最大の相関を示します。すべての荷重と円は$ 3 $の係数で任意にスケーリングされます。そうでない場合、小さすぎて表示されません（したがって、円の半径は$ 1 $ではなく$ 3 $です）。

そこに注意してください。 PCAとFAの違いはほとんどありません！あちこちで小さな偏差がありますが、全体像はほぼ同じであり、すべての荷重は非常に類似しており、同じ方向を向いています。これはまさに理論から期待されたものであり、驚くことではありません。それでも、観察することは有益です。

PS。同じのはるかにきれいなPCAバイプロットの場合データセットについては、この回答を@vqv で参照してください。

PPS。 PCA計算は標準ですが、FA計算にはコメントが必要な場合があります。因子負荷は、偏相関で初期化されたコミュニティを使用して、収束（9回の反復）まで「反復主因子」アルゴリズムによって計算されました。負荷が収束したら、バートレット法を使用してスコアを計算しました。これにより、標準化されたスコアが得られます。それぞれの因子分散（負荷の長さで指定）によってスコアを拡大しました。

PCAと因子分析のプロットを作成するためにどのソフトウェアを使用しましたか？
Matlabを使用しました。答えにコードを貼り付けることを考えていました（通常は私の習慣です）。）、しかし、この忙しいスレッドをこれ以上乱雑にしたくありませんでした。しかし、考えてみると、外部のWebサイトに投稿して、ここにリンクを残す必要があります。そうします。
本当です。 PCAとFAが同じような結果（負荷）を与えることはめったにない場合もあるため、因子分析が行われる場合、PCA はFAの特定のケースと見なすことができますそれでもFA（sensu stricto）とPCAは理論的にはかなり異なります。
（続き）因子は超越的な潜在特性であり、主成分は永続的な派生物です。2つの負荷プロットアプリにもかかわらず耳は実質的に似ていますが、理論的に根本的に異なります。左側のコンポーネント平面は、その上に投影される変数の部分空間として生成されました。因子平面は、変数の空間とは異なる空間として生成されたため、” alien “右側のプロットのスペース。
（続き）しかし、右側の写真（FA）は実際には真のバイプロット iではありません。 >、それはむしろ2つの異なる散布図、異なるスペースのオーバーレイです：負荷プロット（軸が真の因子である場合）とオブジェクトスコアプロット（軸がスコアとして推定される因子である場合）。真の因子空間は”親”変数空間をオーバーランしますが、因子スコア空間はその部分空間です。 2つの異種の軸のペアを重ね合わせましたが、それらには同じラベル（” factor1 “と” factor2 “（両方のペア））この状況は非常に誤解を招き、左のような正真正銘のバイプロットであると私たちに思わせます。

Answer 6

基本的でありながら、一種の骨の折れる説明 PCAと因子分析は、論理的な手順で散布図を使用します。（質問へのコメントで、他の場所にリンクする代わりに回答を投稿するように勧めてくれた@amoebaに感謝します。それで、ここに余暇の遅い応答があります。）

変数の要約としてのPCA （特徴抽出）

PCAについて既に理解していることを願っています。今すぐ復活します。

相関変数 $ V_1 $ と $ V_2 $ があるとします。それらを中央に配置し（平均を減算）、散布図を作成します。次に、これらの中心データに対してPCAを実行します。 PCAは、V1とV2の代わりに軸P1とP2を提供する軸回転の形式です。 PCAのキープロパティは、 P1（第1主成分と呼ばれる）が、それに沿ったデータポイントの分散が最大になるように方向付けられることです。新しい軸は、回転係数 $ a $ （PCAが提供します）[式1 ]：

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

これらの係数は回転のコサイン（=方向余弦、主方向）であり、固有ベクトルと呼ばれるものを構成します。共分散行列の固有値は、主成分分散です。 PCAでは、通常、弱い最後のコンポーネントを破棄します。したがって、最初に抽出されたいくつかのコンポーネントによってデータを要約し、情報の損失はほとんどありません。

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543

プロットされたデータ、P1コンポーネント値（スコア）P1 = .73543*V1 + .67761*V2とコンポーネントP2を破棄します。 P1 “の分散は共分散行列の最初の固有値である1.75756であるため、P1は合計の86.5%を説明します。 em> (1.07652+.95534) = (1.75756+.27430)に等しい分散。

変数予測としてのPCA（”潜在的”機能）

したがって、P2を破棄し、P1だけでデータを合理的に表すことができると予想します。これは、 $ P1 $ は、 “再構築”または予測 $ V_1 $ および $ V_2 $ [ Eq.2 ]：

$ V_1 = a1_ {1} P1 + E_1 $

$ V_2 = a1_ {2} P1 + E_2 $

ここで、係数 $ a $ は私たちがすでに知っていることであり、 $ E $ はエラー（予測不能）です。これは実際には”回帰モデル”であり、観測された変数は潜在変数によって予測（逆）されます（コンポーネントの呼び出しを許可する場合） “潜在” 1）同じ変数から抽出されたP1。プロット図2 を見てください。これは図に他なりません。 .1 、詳細のみ：

P1軸は、その値（P1スコア）が緑色でタイル状に表示されます（これらの値は、データポイントのP1への投影です）。一部の任意のデータポイントにはA、B、…のラベルが付けられており、P1からの逸脱（エラー）は太字の黒いコネクタです。ポイントAについては、詳細が示されています。V1軸とV2軸上のP1スコア（緑色のA）の座標は、 Eq.2に従ってP1で再構築されたV1とV2の値です。 、 $ \ hat {V_1} = a1_ {1} P1 $ および $ \ hat {V_2} = a1_ {2} P1 $ 。再構築エラー $ E_1 = V_1- \ hat {V_1} $ および $ E_2 = V_2- \ hat {V_2} $ もベージュで表示されます。 Pythagoreanによると、コネクタ”エラー”の長さの二乗は、2つのエラーの二乗の合計です。

PCAの特徴は、データ内のすべての点についてE1とE2を計算し、これらの座標をプロットすると、つまり、エラーのみの散布図、クラウド”エラーデータ”は破棄されたコンポーネントP2。そしてそれはそうです：雲はベージュの雲と同じ画像にプロットされます-そしてそれが実際に軸P2（図1 ）P2コンポーネントスコアでタイル化されています。

不思議ではありません。それは非常に明白です： PCA では、破棄されたジュニアコンポーネントは正確に分解されます（s）予測誤差E、潜在的特徴P1によって元の変数Vを説明（復元）するモデル。エラーEは一緒になって、除外されたコンポーネントを構成します。ここで、因子分析がPCAと異なり始めます。

一般的なFA（潜在機能）の考え方）

正式には、抽出された潜在特徴によってマニフェスト変数を予測するモデルは、FAでもPCAでも同じです。 [ Eq.3 ]：

$ V_1 = a_ {1} F + E_1 $

$ V_2 = a_ {2} F + E_2 $

ここで、Fは、データから抽出され、

Answer 7

因子分析と主成分分析の違いは次のとおりです。

•因子分析には、構造化モデルといくつかの仮定があります。この点で、これは純粋に数学的変換である主成分分析には適用されない統計手法です。

•主成分分析の目的は分散を説明することですが、因子分析は間の共分散を説明します。変数。

2つの間の混乱の最大の理由の1つは、因子分析の因子抽出方法の1つが「主成分分析」と呼ばれるという事実に関係しています。ただし、PCAを使用することと、FAの主成分分析を使用することは別のことです。名前は似ているかもしれませんが、大きな違いがあります。前者は独立した分析方法ですが、後者は因子抽出のための単なるツールです。

Answer 8

私にとって（そしてこれが役立つことを願っています）因子分析はPCAよりもはるかに便利です。

最近、因子分析によってスケールを分析することができました。このスケールは（業界で広く使用されていますが）PCAを使用して開発されたもので、私の知る限りでは因子分析されたことはありません。

因子分析（主軸）を実行したときに、3つのアイテムのコミュニティが30％未満であることがわかりました。これは、アイテムの分散の70％以上が分析されていないことを意味します。PCAデータを新しい組み合わせに変換するだけで、コミュニティは気にしません。私の結論は、スケールは心理測定の観点からはあまり良いものではなかったということでした。これを別のサンプルで確認しました。

基本的に、因子を使用して予測する場合は、PCAを使用します。、潜在的要因を理解したい場合は、因子分析を使用してください。

Answer 9

@StatisticsDocConsultingの回答を拡張する： EFAとPCAの負荷の違いは、変数の数が少ないため重要です。これをRで示すシミュレーション関数は次のとおりです。

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

デフォルトでは、この関数は100 Iterationsを実行します。それぞれで、3つの変数のランダムな正規分布サンプル（Sample.Size $ = 1000 $）を生成し、PCAとML-EFAを使用して1つの因子を抽出します。2つのリストを出力します。 Iterations-シミュレートされた変数の平均の大きさで構成される長いベクトル “PCAからの回転されていない最初のコンポーネントとEFAからの一般的な因子のそれぞれの負荷。 principal()とfactanal()の制限内で、状況に合わせてサンプルのサイズと変数および因子の数を試すことができます。関数とコンピューター。

このコードを使用して、データを生成するために、それぞれ500回の反復で3〜100個の変数のサンプルをシミュレートしました。

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

…変数の数に対する（変数と反復にわたる）平均負荷の感度のプロットの場合：

これは、1つがどれほど異なるかを示しています。 PCAとEFAの負荷の強さを解釈する必要があります。どちらも変数の数に多少依存しますが、PCAでは負荷がはるかに強く上向きにバイアスされます。これらの方法の平均負荷の差は、変数の数が増えるにつれて減少しますが、 100変数、PCA負荷は、ランダムな通常データのEFA負荷よりも平均$ .067 $高くなっています。ただし、実際のアプリケーションでは通常、平均負荷が高くなることに注意してください。これは、通常、より相関のある変数に対してこれらのメソッドを使用するためです。これが平均負荷の違いにどのように影響するかわかりません。

Answer 10

本当に素晴らしい教科書からの引用（ Brown、2006、pp。22、強調を追加）。
PCA =主成分分析
EFA =探索的因子分析
CFA =確認的因子分析

EFAに関連していますが、主成分分析（PCA）は、共通因子分析の推定方法として誤分類されることがよくあります。前の段落で説明した推定器（ML、PF）とは異なり、PCAは異なる定量的セットに依存しています。共通因子モデルに基づかない方法PCAは、共通の分散と一意の分散を区別しません。むしろ、PCAは、観測されたメジャー間の相関を説明するのではなく、観測されたメジャーの分散を説明することを目的としています。したがって、PCAはより適切に使用されます。使用する複合変数の数を減らし、管理しやすいように、より多くのメジャーのセットを削減するデータ削減手法その後の分析で。ただし、一部の方法論者は、PCAがいくつかの望ましい統計的特性を持っているという事実を考慮して、PCAはEFAの合理的またはおそらく優れた代替手段であると主張しています（たとえば、計算が簡単で、不適切なソリューションの影響を受けにくく、EFAと同様の結果が得られることがよくあります、主成分に関する参加者のスコアを計算するPCAの能力に対して、EFAの不確定な性質はそのような計算を複雑にします）。この問題についての議論は続いていますが、Fabrigar etal。（1999）因子分析におけるPCAの位置についての議論に反対するいくつかの理由を提供します。これらの著者は、EFAとPCAが異なる結果を生み出す状況を強調しています。たとえば、コミュニティが低い場合や、特定の要因の指標が少ない場合（Widaman、1993を参照）。とにかく、分析の最優先の理論的根拠と経験的目的が共通因子モデルと一致している場合、PCAを実行することは概念的および数学的に矛盾しています。つまり、EFAは、指定された目的が、観測された測定値の測定誤差の存在を認識して、潜在的な次元の数が少ない一連の指標の相互相関を再現することである場合に、より適切です。 Floyd and Widaman（1995）は、PCAとは異なり、EFAとCFAは共通因子モデルに基づいているという点で、EFAに基づく推定値はPCAから得られる推定値よりもCFAに一般化する可能性が高いという関連点を示しています。これは、EFAがスケール開発および構成概念検証でCFAの前兆として使用されることが多いという事実に照らして、注目に値する考慮事項です。 PCAとEFAの計算上の違いの詳細なデモンストレーションは、多変量および因子分析の教科書に記載されています（例：Tabachnick & Fidell、2001）。

ブラウン、TA（2006）。 応用研究のための確証的因子分析。ニューヨーク：ギルフォードプレス。

Answer 11

考えることができますコミュニティがすべての変数について1に等しいと想定されるFAのようなものとしてのPCAの。実際には、これは、コミュニティ性が低いためにFAでの因子負荷が比較的低いアイテムは、PCAでの負荷が高くなることを意味します。分析の主な目的が、アイテムの長さを短縮し、負荷が低いかあいまいなアイテムのバッテリーをクリーンアップすること、またはアイテムプールで適切に表現されていない概念を特定することである場合、これは望ましい機能ではありません。

Answer 12

Tipping and Bischopの論文では、確率的PCA（PPCA）と因子分析の密接な関係について説明しています。 PPCAは、従来のPCAよりもFAに近いです。一般的なモデルは

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

ここで、$ \ mathbf {W} \ in \ mathbb {R} ^ {p、d} $、$ \ mathbf {x} \ sim \ mathcal {N}（\ mathbf {0}、\ mathbf {I}）$および$ \ epsilon \ sim \ mathcal {N}（ \ mathbf {0}、\ mathbf {\ Psi}）$。

因子分析では、$ \ mathbf {\ Psi} $が対角であると想定しています。
PPCAは$ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping、 Christopher M.Bishopを想定しています（1999）。確率的主成分分析、Journal of the Royal Statistics Society、第61巻、第3号、ページ611–622

これらの回答はいずれも完璧です。 FAまたはPCAのいずれかにいくつかのバリアントがあります。どのバリアントが比較されているかを明確に指摘する必要があります。最尤因子分析とホテリングのPCAを比較します。前者は潜在変数が正規分布に従うと仮定していますが、PCAにはそのような仮定がありません。これにより、ソリューション、コンポーネントのネスト、ソリューションの固有性、最適化アルゴリズムなどの違いが生じています。

これについて少し詳しく説明していただけませんか。最後の文に違いがあるとおっしゃっていましたが、多くの情報は提供されていません。それらの違いが何であるか、またはそれらの違いがどのように重要であるかについて？
2つの最も遠い方法を選択し、それらが実際に異なると主張することは、あなたのように、完全な論理でもありません。。おそらく、これら2つがどのように類似しているかを見つけて報告する必要があります。あるいは、最も類似した方法（単純なPCAと PAF など）を選択し、それらがどのように異なるかを報告することもできます。
ホテリング’のPCAは潜在的なガウス分布を想定しています。

Answer 14

この投稿には多くのすばらしい回答がありますが、最近、別の違いに遭遇しました。

クラスタリングは、PCAとFAが異なる結果をもたらす1つのアプリケーションです。データに多くの特徴がある場合、PCの上位方向を見つけて、これらのPCにデータを投影してから、クラスタリングを続行することができます。多くの場合、これはデータに固有のクラスターを乱します-これは十分に証明された結果です。研究者は、モデル内の低次元の潜在因子を探すサブスペースクラスタリング手法を進めることを提案しています。

この違いを説明するために、RのCrabsデータセットについて考えてみます。カニのデータセットには200行8列があり、2色それぞれ50カニの5つの形態学的測定値を記述しています。種の形態と両性-基本的に4（2×2）の異なるクラスのカニがあります。

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23)

PC1とPC2を使用したクラスタリング：

PC2とPC3を使用したクラスタリング：

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2

上記のプロットからわかるように、PC2とPC3はより多くの識別情報を持っていますPC1。

混合因子アナライザーを使用して潜在因子を使用してクラスター化しようとすると、最初の2つのPCを使用するよりもはるかに良い結果が得られます。

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5

この回答が本当に質問に答えているかどうかは疑わしいと言わざるを得ません。答えは、PCAとFA自体ではなく、PCAまたはFA後のクラスター分析に関するものです。しかし、その点でさえ、答えは薄暗いか未完成です。表示する違いをどのように説明しますか？
@ttnphnsクラスター分析に関する回答に同意します。ただし、OPは、一方を他方よりも使用する必要があるPCA / FAの実際のシナリオも求めていました。通常、PCAまたはFAが最終目標になることはありません。社会科学では、最終的な目的は、被験者をさまざまなクラスター/グループに分割することです。私の答えはそのようなシナリオに対処します。私の答えが改善されると思われる場合は、遠慮なく指摘してください。
あなたの発見を説明すれば、あなたの答えは本当に関連性のあるものになると思います。 PCAとFAの違いは、2つの方法に固有のものであると主張します（クラスタリングで明らかになるのはそれらだけです）。メソッドの違いから理論的に違いが生じる方法や理由を示すか、少なくとも推測する必要があると思います’モデル。

因子分析と主成分分析の違いは何ですか？

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメント

回答

変数の要約としてのPCA （特徴抽出）

変数予測としてのPCA（”潜在的”機能）

一般的なFA（潜在機能）の考え方）

FA：近似解（因子スコア）

FA：最適解（真の因子）

FA：手順のまとめ

コメント

回答

回答

回答

回答

回答

回答

コメント

回答

コメント

回答

コメント

コメントを残すコメントをキャンセル

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメント

回答

コメント

回答

変数の要約としてのPCA （特徴抽出）

変数予測としてのPCA（”潜在的”機能）

一般的なFA（潜在機能）の考え方）

FA：近似解（因子スコア）

FA：最適解（真の因子）

FA：手順のまとめ

コメント

回答

回答

回答

回答

回答

回答

コメント

回答

コメント

回答

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル