내가 사용하는 많은 통계 패키지가이 두 개념을 하나로 묶은 것 같습니다. 그러나 저는 다른 가정이나 데이터 “형식”이 다른 것이 있는지 궁금합니다. 실제 예는 매우 유용 할 것입니다.
댓글
- 대부분의 대학 도서관에서 구할 수있는 다음 책의 주요 구성 요소 분석 및 요인 분석 장은 귀하의 질문을 정확하게 다룹니다. apa.org/ pubs / books / 4316510.aspx
- 아래 답변 외에도 또한 이
를 읽을 수 있습니다. a> 및이 .
답변
주성분 분석 에는 관찰 된 변수의 선형 합성 추출이 포함됩니다.
요인 분석 은 이론적 잠재 요인에서 관찰 된 변수를 예측하는 공식 모델을 기반으로합니다.
심리학에서이 두 가지 기술은 종종 어떤 항목이 어떤 스케일에로드되는지 결정하기 위해 다중 스케일 테스트의 구성에 적용됩니다. 그들은 일반적으로 유사한 실질적인 결론을 내립니다 (논의에 대해서는 Comrey (1988) 인격 및 임상 심리학에서 척도 개발의 요인 분석 방법 참조). 이는 일부 통계 패키지가 함께 번들로 표시되는 이유를 설명하는 데 도움이됩니다. 또한 “주성분 분석”이 “요인 분석”으로 잘못 분류되는 상황도 보았습니다.
간단한 경험 법칙 , 다음과 같이 제안합니다.
-
관찰 된 변수를 유발하는 잠재 요인의 이론적 모델을 가정하거나 테스트하려는 경우 요인 분석을 실행합니다.
-
주성분 분석 실행 상관 관 관찰 된 변수를 더 작은 중요한 독립 복합 변수 세트로 간단히 축소하려는 경우.
댓글
- 경험의 법칙은 매우 유용합니다. 감사합니다.
- 경험의 법칙 (1) : wouldn ‘ 탐험 적 요인 분석이 아닌 확인 적 요인 분석을 통해 잠재 요인의 이론적 모델을 테스트합니까?
- @roman 예. CFA를 사용하면 모델을 훨씬 더 잘 제어 할 수 있습니다. 예를 들어, 로딩을 0으로 제한 할 수 있습니다. ls; 고차 요인 추가; 등
- @Jeromy Anglim PCA가 “보다 작은 중요한 독립 복합 변수 집합을 만든다고 말하는 것이 정말 맞습니까? ” 또는 ” 상관되지 않은 중요한 복합 변수의 작은 집합 “을 정말로 말해야합니까? PCA에서 사용되는 기본 데이터가 (다변량) 정규 분포가 아닌 경우 축소 된 차원 데이터는 상관 관계가 없을 뿐입니 까?
- 두 번째 규칙은 쉽게 얻을 수 있지만 첫 번째 규칙을 어떻게 적용합니까? 이상하게 들릴 수 있지만 ‘ 관찰 된 변수에 대해 요인 모델을 실행하고 싶다는 것을 언제 알 수 있습니까?
답변
여기에 내 응답 :
PCA 다음에 회전 (예 : varimax)이 여전히 PCA입니까?
주성분 분석 (PCA)과 공통 요인 분석 (CFA)은 별개의 방법입니다. 종종 그들은 유사한 결과를 생성하고 PCA는 SPSS 요인 분석 루틴에서 기본 추출 방법으로 사용됩니다. 이것은 의심 할 여지없이 둘 사이의 차이에 대해 많은 혼란을 야기합니다.
요점은 이것이 개념적으로 두 가지 다른 모델이라는 것입니다. PCA에서 성분은 총 분산을 최대화하는 실제 직교 선형 조합입니다.FA에서 요인은 분산의 공유 부분 (기본 “잠재 구성”)을 최대화하는 선형 조합입니다. 이것이 FA를 종종 “공통 요인 분석”이라고 부르는 이유입니다. FA는 다양한 최적화 루틴을 사용하며 PCA와 달리 그 결과는 사용 된 최적화 루틴과 해당 루틴의 시작점에 따라 달라집니다. 단순히 하나의 고유 한 솔루션이 없습니다.
R에서 factanal () 함수는 CFA에 최대 우도 추출을 제공하므로 PCA 추출을 기반으로하는 SPSS 결과를 재현 할 것으로 기 대해서는 안됩니다. 그것은 단순히 동일한 모델이나 논리가 아닙니다. SPSS의 Maximum Likelihood 추출을 사용하면 동일한 알고리즘을 사용하지 않을 수 있으므로 동일한 결과를 얻을 수 있을지 확실하지 않습니다.
For R에서는 좋든 나쁘 든 SPSS가 기본값으로 제공하는 혼합 된 “요인 분석”을 재현 할 수 있습니다. 여기에 R의 프로세스가 있습니다.이 코드를 사용하면 SPSS Principal Component를 재현 할 수 있습니다. 이 데이터 세트를 사용한 요인 분석 결과입니다. (불확정 한 부호는 제외)이 결과는 R의 사용 가능한 회전 방법을 사용하여 회전 할 수도 있습니다.
data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)
댓글
- iv id =에서
principal(attitude, 2, rotate="none")
를 사용하면 동일한 결과를 얻을 수 있습니다. “fd1a96149e”>
패키지와 Kayser ‘의 규칙 (ev > 1)은 테스트에 가장 권장되는 방법이 아닙니다. 차원 성 (요인의 수를 과대 평가 함).
factanal()
는 CFA가 아닌 EFA를 제공합니다. 또한 내 경험상 SPSS ‘의 Maximum Likelihood 추출은 경사 회전이 없다는 점을 감안할 때 factanal()
와 동일한 결과를 제공해야합니다. 답변
편물. 다음은 통계 학습에 대한 온라인 용어집 중 하나입니다.
주요 구성 요소 분석
데이터 세트의 주요 구성 요소 인 새로운 기능 구성. 주성분은 입력 특성의 선형 조합으로 구성된 최대 분산의 랜덤 변수입니다. 마찬가지로, 이는 데이터 세트의 각 지점에 대한 평균 제곱 거리를 최소화하는 선인 주 구성 요소 축에 대한 투영입니다. 고유성을 보장하려면 모든 주요 구성 요소 축이 직교해야합니다. PCA는 입력과 출력 모두에 가우스 잡음이있을 때 선형 회귀를위한 최대 가능성 기법입니다. 경우에 따라 PCA는 JPEG 이미지 압축에 사용되는 DCT와 같은 푸리에 변환에 해당합니다. “인식을위한 고유면”(Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, “확률 적 주성분 분석”및 “PCA를위한 자동 차원 선택”을 참조하십시오. “.PCA에 대한 차원 선택”.
요인 분석
최대 가능성을 명시 적으로 기반으로하는 PCA의 일반화. PCA와 마찬가지로 각 데이터 포인트는 샘플링에서 발생하는 것으로 가정합니다. 부분 공간의 한 지점을 지정한 다음 전체 차원 가우스 노이즈로 섭동합니다. 차이점은 요인 분석을 통해 노이즈가 임의의 대각선 공분산 행렬을 가질 수있는 반면 PCA는 노이즈가 구형이라고 가정합니다. 부분 공간을 추정하는 것 외에도 요인 분석 잡음 공분산 행렬을 추정합니다. “인자 분석기 혼합을위한 EM 알고리즘”.PCA에 대한 차원 선택 “을 참조하십시오.
설명
- 요인 분석 설명은 요점 (대각선 공분산)을 가져 오지만 역사적으로 s는 PCA의 일반화로 개발되지 않았습니다.
- 기본적으로 PCA에서 하나의 svd ‘는 공분산 행렬이고 FA에서는 상관 행렬입니까? 방법이 적용되는 분야에서 많은 용어를 구축 한 후에는 실제 수학을 찾기가 항상 어렵습니다.(주제에서 벗어남 : 경로 모델링이 무엇인지 이해하는 데 한때는 그 뒤에있는 행렬 방정식을 설명하는 70 ‘ 논문 하나를 찾을 때까지 오후 내내 시간이 걸렸습니다. )
답변
FA에서는 일반적으로 두 가지 모두 (고유성 및 공동체 성). PCA와 FA 사이의 선택은 심리학자들 사이에서 오랜 논쟁입니다. 하지만 저는 여러분의 요점을 잘 따르지 않습니다. 주축의 회전은 잠재 요인을 구성하는 방법이 무엇이든 적용 할 수 있습니다. 실제로 이것은 대부분의 경우 VARIMAX 회전 (상관되지 않은 요인을 고려한 직교 회전)입니다. 사위 회전 (예 : PROMAX)이 현실을 더 잘 반영 할 수 있지만 (잠재적 구성은 종종 서로 상관 관계가 있음) 최소한 잠재 구조가 실제로 변수 간의 관찰 된 상호 상관의 핵심이라고 가정하는 FA의 전통입니다. 요점은 PCA 다음에 VARIMAX 회전이 “데이터에서 원래 변수의 선형 조합 해석을 다소 왜곡한다는 것입니다. 분석 “전통 (Michel Tenenhaus의 작업 참조) 심리 측정 관점에서 FA 모델은 측정 오류를 명시 적으로 설명하므로 선호됩니다. s, PCA는 그것에 대해 신경 쓰지 않습니다. 간단히 말해서, PCA를 사용하면 각 성분 (요인)을 변수의 선형 조합으로 표현하는 반면, FA에서는 요인의 선형 조합으로 표현하는 변수입니다 (말했듯이 공통성 및 고유성 성분 포함). / p>
먼저이 주제에 대한 다음 토론을 읽어 보시기 바랍니다.
댓글
- 이 질문이 다른 질문 인 stats.stackexchange.com/questions/3369/ … (처음에는 후자에 대한 답변)
- 아, 이 질문에 왜이 질문에 연결했는지 궁금합니다 … 🙂
- . Chl, 설명해 주시겠습니까? ‘ 흥미 롭습니다.
답변
상위 답변 이 스레드에서 PCA는 차원 감소 기술에 더 가깝고 FA는 잠재 변수 기술에 더 가깝다는 것을 암시합니다. sensu stricto 가 맞습니다. 그러나 여기의 많은 답변과 다른 많은 치료법은 PCA와 FA를 두 가지 완전히 다른 방법으로 제시하며 반대 목표, 방법 및 결과는 다르지 않습니다. 동의하지 않습니다. 나는 PCA가 잠재 변수 기술로 간주 될 때 FA에 매우 가깝고 매우 유사한 방법으로보아야한다고 생각합니다.
다음 스레드에서 PCA와 FA의 유사점과 차이점에 대한 자체 설명을 제공했습니다. EFA 대신 PCA를 사용해야하는 합당한 이유가 있습니까? 또한 PCA가 요인 분석을 대체 할 수 있습니까? 간단한 수학적 이유로 PCA와 FA의 결과는 변수의 수가 그리 적지 않다는 점을 감안할 때 상당히 유사 할 것으로 예상 할 수 있다고 주장합니다 (아마도 12 개 이상). 수학적 세부 사항 및 몬테카를로 시뮬레이션에 대한 링크 된 스레드에서 내 [긴!] 답변을 참조하십시오. 내 주장의 훨씬 더 간결한 버전은 여기를 참조하십시오. PCA와 FA가 비슷한 결과를 생성하는 조건은 무엇입니까?
여기에서 예를 들어 보여줍니다. UCI Machine Learning Repository의 와인 데이터 세트 를 분석하겠습니다. $ p = 13 $ 변수로 설명되는 세 가지 다른 포도의 와인 $ n = 178 $이 포함 된 상당히 잘 알려진 데이터 세트입니다. 상관 매트릭스는 다음과 같습니다.
PCA와 FA 분석을 모두 실행하여 아래 그림에서 둘 모두에 대한 biplots로 데이터의 2D 투영 (왼쪽 PCA, 오른쪽 FA). 가로 및 세로 축은 1 차 및 2 차 성분 / 요인 점수를 보여줍니다. 각 $ n = 178 $ 점은 와인 1 개에 해당하고 점은 그룹에 따라 색상이 지정됩니다 (범례 참조).
각 $ p = 13 $ 원래 변수에 대한 첫 번째 및 두 번째 구성 요소 / 요인의 로딩은 검은 색 선으로 표시됩니다. 각각의 원래 변수와 두 성분 / 요인 간의 상관 관계와 같습니다.물론 상관 관계는 $ 1 $를 초과 할 수 없으므로 모든 로딩 라인은 가능한 최대 상관 관계를 보여주는 “상관 원”내에 포함됩니다. 모든 하중과 원은 $ 3 $의 비율로 임의로 조정됩니다. 그렇지 않으면 너무 작아서 볼 수 없습니다 (원의 반경은 $ 1 $이 아니라 $ 3 $입니다).
PCA와 FA의 차이는 거의 없습니다! 여기저기서 약간의 편차가 있지만 일반적인 그림은 거의 동일하며 모든 하중은 매우 유사하고 같은 방향을 가리 킵니다. 이것은 이론에서 예상했던 것과 정확히 일치하며 놀라운 일이 아닙니다. 그래도 관찰하는 것이 유익합니다.
PS. 훨씬 더 예쁜 PCA biplot의 경우 데이터 세트는 @vqv의이 답변 을 참조하세요.
PPS. PCA 계산은 표준이지만 FA 계산에는 주석이 필요할 수 있습니다. 요인 로딩은 수렴 (9 회 반복)까지 “반복 된 주요 요인”알고리즘에 의해 계산되었으며, 공통성은 부분 상관으로 초기화되었습니다. 부하가 수렴되면 Bartlett의 방법을 사용하여 점수를 계산했습니다. 이렇게하면 표준화 된 점수가 산출됩니다. 각 요인 분산 (적재 길이에 따라 제공됨)에 따라 확장했습니다.
댓글
- PCA 및 요인 분석 플롯을 만드는 데 어떤 소프트웨어를 사용 했습니까?
- Matlab을 사용했습니다. 코드를 제 답변에 붙여 넣을 생각이었습니다 (일반적으로 제 습관처럼 ),하지만이 바쁜 스레드를 더 복잡하게 만들고 싶지는 않았습니다.하지만 생각해 보면 외부 웹 사이트에 게시하고 여기에 링크를 남겨 두어야합니다. 그렇게하겠습니다.
- 사실입니다. PCA와 FA는 때때로 비슷한 결과 (로딩)를 제공하는 경우가 거의 없기 때문에 요인 분석이 다음과 같은 경우 PCA 는 FA의 특정 사례로 볼 수 있습니다. 광범위하게 정의됩니다. Still FA (sensu stricto)와 PCA는 이론적으로 상당히 다릅니다.
- (계속) 요인은 초월 적 잠재 특성이며, 주요 구성 요소는 내재적 파생입니다. 두 개의 로딩 플롯 앱에도 불구하고 귀는 거의 비슷합니다. 이론적으로 근본적으로 다릅니다. 왼쪽의 구성 요소 평면은 자신을 투영하는 변수의 부분 공간으로 생성되었습니다. 요인 평면은 변수 공간과 다른 공간 으로 생성되었으므로 ” 외계인 ” 오른쪽 플롯의 공간.
- (계속) 그러나 오른쪽 그림 (FA)은 실제로 진정한 biplot i이 아닙니다. >, 이것은 서로 다른 공간 인 두 개의 서로 다른 산점도의 오버레이입니다. 즉, 로딩 플롯 (축이 실제 요인 인 경우)과 객체 점수 플롯 (축이 점수로 추정 된 요인 인 경우)입니다. 실제 요소 공간은 ” 상위 ” 변수 공간을 초과하지만 요소 점수 공간은 하위 공간입니다. 두 개의 이기종 축 쌍을 겹 쳤지 만 동일한 레이블 (” factor1 ” 및 ” factor2 ” 두 쌍 모두) 상황이 매우 오해를 불러 일으키고 왼쪽과 같이 진정한 biplot 이라고 생각하도록 설득합니다.
답변
PCA 대 요인 분석 산점도의 도움을 받아 논리적 단계에서. (질문에 대한 그의 의견에서 다른 곳으로 링크를 만드는 대신 답변을 게시하도록 격려해 주신 @amoeba에게 감사드립니다. 여기에 여유가 있고 늦은 답변이 있습니다.)
PCA as variable summarization (특징 추출)
이미 PCA를 이해하고 있기를 바랍니다. 지금 부활하세요.
상관 변수 $ V_1 $ 및 $ V_2 $ 가 있다고 가정합니다. 우리는 그들을 중심에두고 (평균 빼기) 산점도를합니다. 그런 다음 이러한 중심 데이터에 대해 PCA를 수행합니다. PCA는 V1 및 V2 대신 축 P1 및 P2를 제공하는 축 회전 의 한 형태입니다. PCA의 핵심 속성은 P1 (1 차 주성분이라고 함)이 방향을 지정하여 데이터 포인트의 분산이 최대화된다는 것입니다. 새 축은 회전 계수를 알고있는 한 값을 계산할 수있는 새 변수입니다. $ a $ (PCA에서 제공) [ 등식1 ] :
$ P1 = a1_1V_1 + a1_2V_2 $
$ P2 = a2_1V_1 + a2_2V_2 $
이 계수는 회전 코사인 (= 방향 코사인, 주 방향)이며 고유 벡터라고하는 것을 구성합니다. 공분산 행렬의 고유 값은 주성분 분산입니다. PCA에서 우리는 일반적으로 약한 마지막 구성 요소를 삭제합니다. 따라서 정보 손실이 거의없이 처음 추출 된 소수의 구성 요소로 데이터를 요약합니다.
Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543
플로팅 된 데이터 P1을 사용하여 구성 요소 값 (점수) P1 = .73543*V1 + .67761*V2
및 구성 요소 P2는 폐기합니다. P1 “의 분산은 공분산 행렬의 첫 번째 고유 값 인 1.75756
이므로 P1은 총
의86.5%
를 설명합니다. em> 분산은(1.07652+.95534) = (1.75756+.27430)
와 같습니다.
PCA (변수 예측) (” 잠재 ” feature)
그래서 우리는 P2를 버리고 P1만으로도 데이터를 합리적으로 나타낼 수있을 것으로 기대합니다. 즉, $ P1 $ 은 ” 재구성 ” 또는 예측 을 합리적으로 잘 수행 할 수 있습니다. span class = “math-container”> $ V_1 $ 및 $ V_2 $ [ Eq.2 ] :
$ V_1 = a1_ {1} P1 + E_1 $
$ V_2 = a1_ {2} P1 + E_2 $
여기서 계수는 $ a $ 은 우리가 이미 알고 있으며 $ E $ 는 오류입니다 (예측 불가능). 이것은 실제로 ” 회귀 모델 “입니다. 여기서 관찰 된 변수는 잠재 변수에 의해 예측 (뒤로)됩니다 (구성 요소 호출을 허용하는 경우). ” 잠재 ” 1) 동일한 변수에서 추출한 P1. 플롯 그림 2 를보십시오. Fig. .1 , 상세 정보 만 :
P1 축은 해당 값 (P1 점수)이 녹색으로 바둑판 식으로 표시됩니다 (이 값은 P1에 대한 데이터 포인트의 투영 임). 일부 임의의 데이터 포인트에는 A, B, …라는 레이블이 지정되었으며 P1에서의 이탈 (오류)은 굵은 검정색 커넥터입니다. 점 A의 경우 세부 정보가 표시됩니다. V1 및 V2 축에 대한 P1 점수 (녹색 A)의 좌표는 Eq.2에 따라 V1 및 V2의 P1 재구성 값입니다. , $ \ hat {V_1} = a1_ {1} P1 $ 및 $ \ hat {V_2} = a1_ {2} P1 $ . 재구성 오류 $ E_1 = V_1- \ hat {V_1} $ 및 $ E_2 = V_2- \ hat {V_2} $ 도 베이지 색으로 표시됩니다. 피타고라스에 따르면 ” 오류 ” 길이 제곱은 제곱 된 두 오류의 합입니다.
이제, PCA의 특징은 데이터의 모든 지점에 대해 E1과 E2를 계산하고 이러한 좌표를 플로팅하면 오류의 산점도 만, 클라우드 ” 오류 데이터 “가 폐기 된 구성 요소 P2입니다. 그리고 실제로 수행됩니다. 구름은 베이지 색 구름과 같은 그림에 그려져 있습니다. 실제로는 P2 축 ( 그림 1 ) P2 구성 요소 점수가 타일로 표시됩니다.
당연합니다. 너무 분명합니다. PCA에서 , 폐기 된 하위 구성 요소는 정확하게 분해됩니다. (s) 예측 오차 E에서, 잠재 특징 (들) P1에 의해 원래 변수 V를 설명 (복원)하는 모델에서. 오류 E는 함께 누락 된 구성 요소를 구성합니다. 여기서 요인 분석 이 PCA와 다르기 시작합니다.
일반적인 FA의 개념 (잠재 기능 )
공식적으로, 추출 된 잠재 특징 (들)에 의해 매니페스트 변수를 예측하는 모델은 FA에서 PCA에서와 동일합니다. [ Eq.3 ] :
$ V_1 = a_ {1} F + E_1 $
$ V_2 = a_ {2} F + E_2 $
여기서 F는 데이터에서 추출되고 인자 입니다. Eq.2 .모델의 차이점은 FA에서는 PCA와 달리 오류 변수 (E1 및 E2)가 필요하다는 것입니다. 서로 상관이 없습니다 .
탈선 . 여기서 갑자기 이야기를 중단하고 계수 $ a $ 에 대한 개념을 만들고 싶습니다. PCA에서 우리는 이것이 PCA 내에서 발견 된 고유 벡터의 항목 (고유 또는 특이 값 분해를 통해)이라고 말했습니다. 잠복 P1은 고유 분산을 가졌습니다. P1을 단위 분산 으로 표준화하기로 선택한 경우,이를 지원하기 위해 계수 $ a $ 를 적절하게 확장하여 보상해야합니다. 확장 된 $ a $ 를 로드 라고합니다. 잠재 변수와 관찰 가능한 변수 사이의 공분산 (또는 상관)이기 때문에 수치 적으로 관심이 있으며 따라서 잠재 특징을 해석하는 데 도움이 될 수 있습니다. 두 모델 모두에서- Eq.2 및 Eq.3 -방정식을 해치지 않고 자유롭게 결정할 수 있습니다. , 용어가 확장되는 방식입니다. F (또는 P1)가 단위 확장으로 간주되면 $ a $ 가로드되고 F (P1)에 기본 스케일 (분산)을 선택한 다음 그에 따라 $ a $ 의 스케일을 제거해야합니다. PCA에서 고유 벡터 항목과 동일하게 b FA에서는 다르며 일반적으로 ” 고유 벡터 “라고 부르지 않습니다 . 요인 분석에 관한 대부분의 텍스트에서 F는 단위 분산으로 간주되므로 $ a $ 는 로드 입니다. PCA 문헌에서 P1은 일반적으로 실제 분산을 갖는 것으로 논의되므로 $ a $ 는 고유 벡터입니다.
좋아요, 다시 스레드로 돌아갑니다. E1과 E2는 요인 분석에서 상관 관계가 없습니다. 따라서 둥글거나 타원이지만 대각선 방향이 아닌 오류 구름을 형성해야합니다. PCA에있는 동안 그들의 구름은 대각선으로가는 P2와 일치하는 직선을 형성했습니다. 두 가지 아이디어가 모두 사진에 표시됩니다.
오류는 FA에서 둥근 (대각선이 아닌) 구름입니다. FA의 요소 (잠재)는 다소 다른 방향입니다. 즉, PCA에서 ” 잠재 ” 인 첫 번째 주요 구성 요소가 옳지 않습니다. . 그림에서 요소 선은 이상하게 원뿔형입니다. 결국 이유가 명확 해집니다.
PCA와 PCA의 차이점은 무엇입니까? FA? 변수는 상관 관계가 있으며 데이터 클라우드의 대각선 타원형 모양으로 표시됩니다. P1은 최대 분산을 훑어 보았으므로 타원은 P1로 공동 지시됩니다. 결과적으로 P1은 그 자체로 상관 관계를 설명했습니다. 그러나 기존의 상관 관계 양 을 적절하게 설명하지 못했습니다. 상관 관계가 아닌 데이터 포인트의 변동 을 설명하려고했습니다. 사실, 상관 관계를 과도하게 설명했는데, 그 결과 과잉 계정을 보상하는 대각선의 상관 관계 오류 구름이 나타납니다. P1 혼자 는 상관 관계 / 공분산의 강도를 포괄적으로 설명 할 수 없습니다. 요인 F는 혼자서도 할 수 있습니다 . 그리고 그것을 할 수있게되는 조건은 정확히 오류가 연관되지 않게 될 수있는 곳입니다. 오류 구름이 원형이기 때문에 요인이 추출 된 후에도 양수 또는 음수와 같은 상관성이 남아 있지 않으므로 모든 것을 훑어 본 요인이됩니다.
차원 감소로서 PCA는 분산을 설명하지만 상관 관계를 부정확하게 설명합니다. FA는 상관 관계를 설명하지만 PCA가 할 수있는만큼 많은 데이터 변동을 (공통 요인으로) 설명 할 수 없습니다. FA의 요인은 공동성 이라고하는 순 상관 관계 부분 인 변동성 부분을 설명합니다. 따라서 요인은 ” ” 또는 입력 변수 뒤에 ” 상호 연관시킬 수 있습니다. 상관 관계를 수학적으로 잘 설명하기 때문입니다. 주요 구성 요소 (첫 번째 구성 요소는 거의 없음)가 수학적으로 잘 설명하지 않으므로 ” 잠재적 특성 ” (또는 그와 같은) 일시적이고 일시적으로 만 .
로드 의 곱은 상관 관계를 설명 (복원)하는 것입니다. 공분산의 형태-분석이 상관 행렬이 아닌 공분산 행렬 (예제에서와 같이)을 기반으로하는 경우.데이터로 수행 한 요인 분석은 a_1=.87352, a_2=.84528
를 산출하므로 제품 a_1*a_2 = .73837
는 공분산 .73915
. 반면에 PCA 로딩은 a1_1=.97497, a1_2=.89832
이므로 a1_1*a1_2 = .87584
는 .73915
를 상당히 과대 평가합니다.
PCA와 FA의 주요 이론적 차이점을 설명 했으므로 데이터로 돌아가 아이디어를 예시 해 보겠습니다.
FA : 대략적인 솔루션 (요인 점수)
아래는 우리가 잠정적으로 ” 차선 요인 분석이라고 부를 분석 결과를 보여주는 산점도입니다. “, 그림 3 .
A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings).
Fig PCA의 .2 . 오류의 베이지 색 구름은 둥글 지 않고 대각선으로 타원형이지만 PCA에서 발생한 얇은 대각선보다 훨씬 더 뚱뚱합니다. 오류 커넥터 (일부 지점에 표시됨)가 더 이상 평행하지 않습니다. PCA는 정의상 P2와 평행합니다.) 또한 예를 들어 ” F ” 및 ” E ” 요소에 대칭으로 놓인 F 축에서 예상치 않게 해당 요인 점수가 상당히 다른 값임을 알 수 있습니다. 즉, 요인 점수는 단순히 선형으로 변환 된 주성분 점수가 아닙니다. 요인 F는 자체적으로 다른 방식으로 발견됩니다. 동일한 플롯에 함께 표시되면 축이 완전히 일치하지 않습니다. 그림 4 :
약간 방향이 다르다는 점을 제외하고 F (점수 타일로 표시됨)가 더 짧습니다. 즉, P1이 설명하는 것보다 분산이 더 작습니다. 앞서 언급했듯이 요인은 V1 V2의 상관성을 담당하는 변동성 만 설명합니다. 즉, 변수를 원시 공분산 0
에서 사실적 공분산으로 가져 오는 데 충분한 총 분산 부분입니다. .73915
.
FA : 최적 솔루션 (진정한 요인)
최적 요인 솔루션은 오류가 원형 또는 비 대각선 타원 구름 일 때입니다. : E1과 E2는 완전히 상관 관계가 없습니다 . 요인 분석은 실제로 이러한 최적의 솔루션을 반환합니다. 위와 같은 간단한 산점도에서는 표시하지 않았습니다. 내가 왜? -왜냐하면 그것은 결국 가장 흥미로운 일이었을 것입니다.
그 이유는 3D 플롯을 채택하더라도 산점도에 충분히 표시하는 것이 불가능하기 때문입니다. 이론적으로는 꽤 흥미로운 점입니다. E1과 E2의 상관 관계를 완전히 없애기 위해이 세 변수 F, E1, E2 모두 가 거짓말을하면 안됩니다. V1, V2에 의해 정의 된 공간 (평면)에서; 그리고 세 개는 서로 관련이 없어야합니다 . 나는 그러한 산점도를 5D로 그리는 것이 가능하다고 믿지만 (아마도 약간의 기믹으로-4D로) 우리는 3D 세계에 살고 있습니다. F는 만 (깨끗하고) 완전하고 관찰 된 데이터의 상관 관계 소스. 요인 분석은 p
입력 변수의 총 분산을 서로 관련이없는 (겹치지 않는 ) 부분 : 커뮤니티 부분 (m
-차원, 여기서 m
공통 요소 규칙) 및 고유성 부분 (p
-차원, 여기서 오류는 고유 요인이라고도하며 상호 연관성이 없음)
따라서 실제 요인을 표시하지 않은 것에 대해 용서합니다. 여기 산점도에 대한 데이터입니다. 여기에서 수행 된 것처럼 ” 주제 공간 “의 벡터를 통해 상당히 적절하게 시각화 할 수 있습니다. 데이터 포인트를 표시하지 않습니다.
위의 섹션 ” 공통 FA의 개념 (잠재 기능) ” 실제 계수 축이 V1 V2 평면에 있지 않음을 경고하기 위해 계수 (축 F)를 쐐기로 표시했습니다. 즉, 주성분 P1과 달리 축으로서의 계수 F는 공간에서 축 V1 또는 V2의 회전이 아니며 변수로서 F는 변수 V1 및 V2의 선형 조합이 아닙니다 .따라서 F는 파생이 아닌 외부 독립 변수처럼 모델링됩니다 (변수 V1 v2에서 추출 됨). PCA가 시작되는 Eq.1 와 같은 방정식은 참 (최적) 계수를 계산하는 데 적용 할 수 없습니다. 요인 분석에서는 공식적인 동형 방정식 Eq.2 및 Eq. 3 는 두 분석 모두에 유효합니다. 즉, PCA에서 변수는 구성 요소를 생성하고 구성 요소는 다시 예측 변수를 생성합니다. FA에서 요인은 변수를 생성 / 예측하고 역방향이 아닙니다 -공통 요인 모델은 개념적으로 그렇다고 가정합니다. em>, 비록 기술적으로 요인이 관찰 된 변수에서 추출 되더라도
참 요인 만이 매니페스트 변수의 함수가 아닐뿐만 아니라 참 요인 “의 값 은 고유하게 정의되지 않았습니다 . 즉, 단순히 알 수 없습니다. 모든 것은 우리가” 가정의 2D 데이터 공간이 아닌 과도한 5D 분석 공간에 있습니다. 인자 점수 라고하는 실제 요인 값에 대한 좋은 근사치 (많은 방법이 있음 ) 만 있습니다. 우리를 위해 거기. 요인 점수는 주성분 점수와 마찬가지로 V1 V2 평면에 있으며, V1, V2의 선형 함수로도 계산되며 iv id 섹션에 그것 을 표시했습니다. = “2cf0178948”> FA : 대략적인 솔루션 (요인 점수) “. 주요 구성 요소 점수는 실제 구성 요소 값입니다. 요인 점수는 결정되지 않은 실제 요인 값에 대한 합리적인 근사치 일뿐입니다.
FA : 절차 요약
이전 두 섹션에서 말한 내용을 하나의 작은 혈전으로 모으고 최종 스트로크를 추가하려면 . 사실 FA는 ( 만약 올바르게 수행하고 데이터 가정 참조) 진정한 요인 솔루션을 찾을 수 있습니다 (” true ” 여기서는 데이터 샘플에 최적임을 의미합니다.) 그러나 다양한 추출 방법 이 존재합니다 (두 번째 제약 조건에 따라 다릅니다). 진정한 요인 솔루션은 최대 로딩 $ a $ 입니다. . 따라서 적재는 최적의 진정한 요인입니다. 요인 점수 -필요한 경우-다양한 방식으로 이러한 로딩 에서 계산할 수 있으며 반환됩니다. 요인 값에 대한 근사치.
따라서 ” 인수 솔루션 “이 FA : 대략적인 솔루션 (요인 점수) “은 실제로 최적의 로딩, 즉 실제 요인을 기반으로했습니다. 그러나 점수는 운명에 따라 최적이 아니 었습니다. 점수는 구성 요소 점수와 같이 관찰 된 변수의 선형 함수로 계산되므로 둘 다 산점도에서 비교할 수 있고 PCA 아이디어에서 FA 아이디어로의 점진적인 통과처럼 보여주기 위해 교훈적인 추구에서 수행했습니다. / p>
” 요인 공간 iv id = “에서 요인 점수가있는 동일한 biplot 요인 적재에 플로팅 할 때주의해야합니다. 2cf0178948 “> , 로딩은 실제 요인과 관련이있는 반면 점수는 대리 요인과 관련이 있음을 인식하십시오 (이 스레드의 이 답변 에 대한 저의 의견 참조). 요소 (로드)의
회전 은 잠재 특징을 해석하는 데 도움이됩니다. PCA를 요인 분석처럼 사용하는 경우 PCA에서도 하중 회전을 수행 할 수 있습니다 (즉, PCA를 변수 예측으로 참조). PCA는 변수 수가 증가함에 따라 FA와 결과로 수렴하는 경향이 있습니다 (실용적이고 개념적인 유사점과 두 방법 간의 차이점에 대한 풍부한 스레드 참조). 이 답변 끝에서 PCA와 FA의 차이점 목록을 참조하세요. iris 데이터 세트에서 PCA와 FA의 단계별 계산은 여기 에서 찾을 수 있습니다. 이 스레드 외부의 주제에 대한 다른 참가자에 대한 좋은 링크가 상당히 많이 있습니다. “답변은”현재 답변에서 몇 가지만 사용했습니다.
차이점에 대한 글 머리 기호 목록도 참조하세요. PCA와 FA 간의 여기 .
댓글
- +1. 작성해 주셔서 감사합니다. ‘이 스레드에는 확실히 답변이 없었습니다. 나는 읽기 전에 upvoted (나는 거의하지 않는다), 확실히 다음 읽기를 즐겼다. 나중에 더 언급 할 수 있지만 지금은 한 가지 작은 요령이 있습니다. FA에서는 오류 클라우드가 ” 라운드 ” 여야한다고 여러 번 작성했습니다. .그러나 실제로는 타원 일 수 있으며 (V1 및 V2의 고유성은 다른 분산을 가질 수 있기 때문에) 상관 관계가 0이면됩니다. 독자를이 세부 사항과 혼동하고 싶지 않으신 것 같습니다.
- @amoeba V1에 의해 정의 된 공간 (평면)에서 최적의 F, E1, E2를 표현할 수있는 수학적 불가능에 대해 순진한 의구심을 가지고 있습니다. V2. 이에 대한 반대 예를 생각해 볼 수 있습니다. $ V_1 = a_ {1} F + E_1 $ 및 $ V_2 = a_ {2} F + E_2 $, 여기서 $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $-이제 이러한 관계를 사용하여 V1 및 V2의 샘플을 생성합니다. V1과 V2가 생성되면 최적의 FA를 수행하려면 (E1, E2)에 대한 거의 정확한 추정값을 가져와야하며 타원형 구름을 형성합니다. 또한 이제 F, E1, E2는 V1 및 V2와 동일한 평면에 표시 될 수 있습니다.
- @kasa, 내 답변 또는 아메바를 환영하는 귀하의 의견이었습니다 ‘ 의 코멘트? 귀하의 의견이 FA에서 세 가지 잠재 변수가 원래 공간에 있지 않고 그것을 보여줄 수 있다는 내 주된 주장에 반하는 경우, 그것을 보여주는 답변을 발행하지 않으시겠습니까? 그러나 최적의 FA에서 오류는 정확히 상관되지 않으며, 정상 비 상관 모집단에서 발생 한다고 상상할 수 없습니다.
- @ttnphns : 혼동을 드려 죄송합니다. 귀하의 주요 주장이 의심 스럽습니다. 며칠 후 답변으로 보여 드리겠습니다. 감사합니다!
답변
요인 분석과 주성분 분석의 차이점은 다음과 같습니다.
• 요인 분석에는 구조화 된 모델과 몇 가지 가정이 있습니다. 이 점에서 순전히 수학적 변환 인 주성분 분석에는 적용되지 않는 통계 기법입니다.
• 주성분 분석의 목적은 분산을 설명하는 것이고 요인 분석은 두 요소 간의 공분산을 설명하는 것입니다. 변수.
둘 사이에 혼동을 일으키는 가장 큰 이유 중 하나는 요인 분석에서 요인 추출 방법 중 하나가 “주성분의 방법”이라는 사실과 관련이 있습니다. 그러나 PCA를 사용하는 것과 FA에서 주성분의 방법 을 사용하는 것은 다른 것입니다. 이름은 비슷할 수 있지만 상당한 차이가 있습니다. 전자는 독립적 인 분석 방법이지만 후자는 단순히 요인 추출 도구 일뿐입니다.
답변
나에게 (그리고 이것이 유용하기를 바랍니다) 요인 분석은 PCA보다 훨씬 유용합니다.
최근에는 요인 분석을 통해 척도를 분석하는 즐거움을 얻었습니다.이 척도 (산업에서 널리 사용됨)는 PCA를 사용하여 개발되었으며 제 지식은 요인을 분석 한 적이 없습니다.
요인 분석 (주축)을 수행했을 때 세 항목의 공통성이 30 % 미만이라는 것을 발견했습니다. 즉, 항목 분산의 70 % 이상이 분석되지 않았 음을 의미합니다. PCA 데이터를 새로운 조합으로 변환하고 커뮤니티에는 신경 쓰지 않습니다. 내 결론은 척도가 심리 측정 관점에서별로 좋지 않다는 것이었고 다른 샘플로 이것을 확인했습니다.
본질적으로 요인을 사용하여 예측하려면 PCA를 사용하십시오. , 잠재 요인을 이해하려면 요인 분석을 사용하세요.
답변
@StatisticsDocConsulting “의 답변에서 확장 : EFA와 PCA 간의 부하 차이는 변수 수가 적기 때문에 중요하지 않습니다. 다음은 R에서이를 보여주는 시뮬레이션 기능입니다.
simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}
기본적으로이 함수는 100 개의 Iterations
를 수행합니다. 각각에서 3 개의 변수로 구성된 무작위 정규 분포 샘플 (Sample.Size
$ = 1000 $)을 생성하고 PCA 및 ML-EFA를 사용하여 하나의 요소를 추출합니다. 두 개의 목록을 출력합니다. Iterations
-시뮬레이션 된 변수의 평균 크기로 구성된 긴 벡터 “는 각각 PCA의 회전되지 않은 첫 번째 구성 요소에 대한 로딩과 EFA의 일반 요소입니다. principal()
및 factanal()
의 한도 내에서 상황에 맞는 샘플 크기와 변수 및 요인 수를 가지고 놀 수 있습니다. 함수와 컴퓨터입니다.
이 코드를 사용하여 데이터를 생성하기 위해 각각 500 번 반복하는 3 ~ 100 개의 변수 샘플을 시뮬레이션했습니다.
Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}
… 변수 수에 대한 평균 적재 (변수 및 반복에 걸친)의 민감도 플롯 :
이것은 하나의 차이를 보여줍니다. PCA 대 EFA의 로딩 강도를 해석해야합니다. 둘 다 변수 수에 따라 다소 달라 지지만 PCA에서는 로딩이 훨씬 더 강하게 편향됩니다. 이러한 방법의 평균 로딩 차이는 변수 수가 증가함에 따라 감소하지만 100 개의 변수, PCA 로딩은 무작위 정규 데이터에서 EFA 로딩보다 평균 $ .067 $ 더 높습니다.그러나 일반적으로 더 많은 상관 변수에 대해 이러한 방법을 사용하기 때문에 실제 응용 프로그램에서는 평균 로딩이 일반적으로 더 높습니다. 이것이 평균 로딩의 차이에 어떤 영향을 미칠지 잘 모르겠습니다.
답변
정말 멋진 교과서의 인용문 ( Brown, 2006, pp. 22, 강조 추가됨).
PCA = 주성분 분석
EFA = 탐색 적 요인 분석
CFA = 확인 적 요인 분석
EFA와 관련이 있지만 PCA (주성분 분석)는 공통 요인 분석의 추정 방법으로 잘못 분류되는 경우가 많습니다. 앞 단락 (ML, PF)에서 논의한 추정기와 달리 PCA는 다른 정량 분석 세트에 의존합니다. 공통 요인 모델을 기반으로하지 않는 방법입니다. PCA는 공통 분산과 고유 분산을 구분하지 않습니다. 오히려 PCA는 관측 된 측정 값 간의 상관 관계를 설명하는 것이 아니라 분산을 설명하는 것을 목표로합니다. 따라서 PCA는 더 큰 측정 값 세트를 사용하기 위해 더 작고 관리하기 쉬운 수의 복합 변수로 줄이기위한 데이터 감소 기술 후속 분석에서. 그러나 일부 방법 론자들은 PCA가 여러 가지 바람직한 통계적 특성 (예 : 계산적으로 더 간단하고 부적절한 솔루션에 영향을받지 않고 종종 EFA의 결과와 유사한 결과를 생성 함)을 보유하고 있다는 점에서 PCA가 EFA보다 합리적이거나 아마도 우수한 대안이라고 주장했습니다. , PCA가 주요 구성 요소에 대한 참가자의 점수를 계산할 수있는 반면 EFA의 불확실한 특성은 이러한 계산을 복잡하게 만듭니다). 이 문제에 대한 논쟁이 계속되고 있지만 Fabrigar et al. (1999)은 요인 분석에서 PCA의 위치에 대한 주장에 반대하는 몇 가지 이유를 제공합니다. 이 저자들은 EFA와 PCA가 다른 결과를 생성하는 상황을 강조합니다. 예를 들어, 공동체가 낮거나 주어진 요인에 대한 지표가 거의 없을 때 (참조 : Widaman, 1993). 분석의 우선적 근거와 경험적 목표가 공통 요인 모델과 일치한다면 PCA를 수행하는 것이 개념적으로나 수학적으로 일치하지 않습니다. 즉, EFA는 명시된 목표가 더 적은 수의 잠복 차원을 가진 지표 세트의 상호 상관을 재현하고 관찰 된 측정에서 측정 오류의 존재를 인식하는 것이라면 더 적합합니다. Floyd와 Widaman (1995)은 PCA와 달리 EFA 및 CFA가 공통 요인 모델을 기반으로한다는 점에서 EFA를 기반으로 한 추정이 PCA에서 얻은 추정보다 CFA로 일반화 될 가능성이 더 높다는 관련 지적을합니다. 이것은 EFA가 스케일 개발 및 구성 검증에서 CFA의 전구체로 자주 사용된다는 사실을 고려할 때 주목할만한 고려 사항입니다. PCA와 EFA 간의 계산 차이에 대한 자세한 설명은 다변량 및 요인 분석 교과서에서 찾을 수 있습니다 (예 : Tabachnick & Fidell, 2001).
Brown, TA (2006). 응용 연구를위한 확증 요인 분석 뉴욕 : Guilford Press.
답변
생각할 수 있습니다. PCA의 공통성은 모든 변수에 대해 1로 가정되는 FA와 같습니다. 실제로 이것은 낮은 공통성으로 인해 FA에서 상대적으로 낮은 계수 적재를 갖는 항목이 PCA에서 더 높은 적재를 가질 것임을 의미합니다. 분석의 주요 목적이 항목 길이를 줄이고 부하가 낮거나 모호한 항목의 배터리를 정리하거나 항목 풀에서 잘 표현되지 않는 개념을 식별하는 것이라면 이는 바람직한 기능이 아닙니다.
답변
Tipping과 Bischop의 논문에서 Probabalistic PCA (PPCA)와 요인 분석 간의 긴밀한 관계가 논의되었습니다. PPCA는 기존 PCA보다 FA에 더 가깝습니다. 일반적인 모델은 다음과 같습니다.
$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$
여기서 $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ 및 $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.
- 요인 분석에서는 $ \ mathbf {\ Psi} $가 대각선이라고 가정합니다.
- PPCA에서 $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $
Michael E. Tipping, Christopher M. Bishop (1999). 확률 적 주성분 분석 , Journal of the Royal Statistical Society, Volume 61, Issue 3, Pages 611–622
Comments
- + 1. 예. PCA와 FA의 관계를 이해하려면 PPCA를 이해해야한다고 생각합니다. 그러나 PCA / PPCA 관계를 논의하여 답변을 개선 할 수 있습니다.
답변
이 응답 중 어느 것도 해당되지 않습니다. 완전한. FA 또는 PCA에는 몇 가지 변형이 있습니다. 비교되는 변형을 명확하게 지적해야합니다. 나는 최대 가능성 요인 분석과 Hotelling의 PCA를 비교할 것입니다.전자는 잠재 변수가 정규 분포를 따른다고 가정하지만 PCA에는 그러한 가정이 없습니다. 이로 인해 솔루션, 구성 요소의 중첩, 솔루션의 고유성, 최적화 알고리즘과 같은 차이가 발생했습니다.
댓글
- 이 부분에 대해 조금 더 확장 할 수 있는지 궁금합니다. 마지막 문장에 차이가 있다고 말했지만 많은 정보를 제공하지 않았습니다. 그 차이가 무엇인지, 아니면 어떤 방식으로 그 차이가 중요 할 수 있는가?
- 가장 먼 두 가지 방법을 선택하고 실제로 서로 다르다고 주장하는 것도 완벽한 논리가 아닙니다. . 이 두 사람이 어떻게 비슷한 지 찾아보고보고해야합니다. 또는 가장 유사한 방법 (예 : 일반 PCA 대 PAF )을 선택하고 서로 다른 방식을보고 할 수 있습니다.
- 호텔 링 ‘의 PCA는 잠재 가우시안을 가정합니다.
답변
이 게시물에 대한 많은 훌륭한 답변이 있지만 최근에 또 다른 차이점을 발견했습니다.
클러스터링은 PCA와 FA가 다른 결과를 산출하는 하나의 애플리케이션입니다. 데이터에 많은 기능이있는 경우 상위 PC 방향을 찾고 이러한 PC에 데이터를 투사 한 다음 클러스터링을 진행할 수 있습니다. 종종 이것은 데이터의 고유 한 클러스터를 방해합니다. 이것은 잘 입증 된 결과입니다. 연구원 은 모델에서 저 차원 잠재 요인을 찾는 하위 공간 클러스터링 방법을 진행할 것을 제안합니다.
이 차이를 설명하기 위해 R의 Crabs
데이터 세트를 고려해보세요. Crabs 데이터 세트에는 200 개의 행과 8 개의 열이 있으며 각각 두 가지 색상의 게 50 개에 대해 5 개의 형태 학적 측정 값을 설명합니다. 종의 형태와 성별-기본적으로 4 (2×2) 다른 종류의 게가 있습니다.
library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23)
#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2
위 그림에서 볼 수 있듯이 PC2와 PC3는 PC1.
Mixture of Factor Analyzers를 사용하여 잠재 요인을 사용하여 클러스터링하려고하면 처음 두 PC를 사용하는 것에 비해 훨씬 더 나은 결과를 볼 수 있습니다.
mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5
댓글
- 이 답변이 실제로 질문에 대한 답이 아닐까 생각합니다. 대답은 PCA 및 FA 자체가 아니라 PCA 또는 FA 이후의 클러스터 분석에 관한 것입니다. 그러나 그 점에서도 대답은 희미하거나 미완입니다. 당신이 표시하는 차이점은 어떻게 설명되어야합니까?
- @ttnphns 클러스터 분석에 대한 대답에 동의합니다. 그러나 OP는 또한 PCA / FA가있는 실제 시나리오를 요청했으며, 여기서 하나는 다른 것보다 사용해야합니다. 일반적으로 PCA 또는 FA는 최종 목표가 아닙니다. 사회 과학에서 최종 목표는 주제를 다른 클러스터 / 그룹으로 분할하는 것입니다. 내 대답은 그러한 시나리오를 다룹니다. 제 답변이 개선 될 수 있다고 생각하시는 경우, 부담없이 지적 해주십시오.
- 당신이 발견 한 내용을 설명해 주시면 당신의 답변이 정말 관련이있을 수 있다고 생각합니다. PCA와 FA의 차이점은 두 가지 방법에 대한 내재적 차이라고 주장합니다 (클러스터링에서 분명하게 나타남). 이론적으로 차이가 메소드 ‘ 모델의 차이로 인해 어떻게 또는 왜 발생하는지 보여 주거나 추측해야한다고 생각합니다.