요인 분석과 주성분 분석의 차이점은 무엇입니까?

Question

내가 사용하는 많은 통계 패키지가이 두 개념을 하나로 묶은 것 같습니다. 그러나 저는 다른 가정이나 데이터 “형식”이 다른 것이 있는지 궁금합니다. 실제 예는 매우 유용 할 것입니다.

심리학에서이 두 가지 기술은 종종 어떤 항목이 어떤 스케일에로드되는지 결정하기 위해 다중 스케일 테스트의 구성에 적용됩니다. 그들은 일반적으로 유사한 실질적인 결론을 내립니다 (논의에 대해서는 Comrey (1988) 인격 및 임상 심리학에서 척도 개발의 요인 분석 방법 참조). 이는 일부 통계 패키지가 함께 번들로 표시되는 이유를 설명하는 데 도움이됩니다. 또한 “주성분 분석”이 “요인 분석”으로 잘못 분류되는 상황도 보았습니다.

간단한 경험 법칙 , 다음과 같이 제안합니다.

관찰 된 변수를 유발하는 잠재 요인의 이론적 모델을 가정하거나 테스트하려는 경우 요인 분석을 실행합니다.
주성분 분석 실행 상관 관 관찰 된 변수를 더 작은 중요한 독립 복합 변수 세트로 간단히 축소하려는 경우.

경험의 법칙은 매우 유용합니다. 감사합니다.
경험의 법칙 (1) : wouldn ‘ 탐험 적 요인 분석이 아닌 확인 적 요인 분석을 통해 잠재 요인의 이론적 모델을 테스트합니까?
@roman 예. CFA를 사용하면 모델을 훨씬 더 잘 제어 할 수 있습니다. 예를 들어, 로딩을 0으로 제한 할 수 있습니다. ls; 고차 요인 추가; 등
@Jeromy Anglim PCA가 “보다 작은 중요한 독립 복합 변수 집합을 만든다고 말하는 것이 정말 맞습니까? ” 또는 ” 상관되지 않은 중요한 복합 변수의 작은 집합 “을 정말로 말해야합니까? PCA에서 사용되는 기본 데이터가 (다변량) 정규 분포가 아닌 경우 축소 된 차원 데이터는 상관 관계가 없을 뿐입니 까?
두 번째 규칙은 쉽게 얻을 수 있지만 첫 번째 규칙을 어떻게 적용합니까? 이상하게 들릴 수 있지만 ‘ 관찰 된 변수에 대해 요인 모델을 실행하고 싶다는 것을 언제 알 수 있습니까?

Answer 2

여기에 내 응답 :

PCA 다음에 회전 (예 : varimax)이 여전히 PCA입니까?

주성분 분석 (PCA)과 공통 요인 분석 (CFA)은 별개의 방법입니다. 종종 그들은 유사한 결과를 생성하고 PCA는 SPSS 요인 분석 루틴에서 기본 추출 방법으로 사용됩니다. 이것은 의심 할 여지없이 둘 사이의 차이에 대해 많은 혼란을 야기합니다.

요점은 이것이 개념적으로 두 가지 다른 모델이라는 것입니다. PCA에서 성분은 총 분산을 최대화하는 실제 직교 선형 조합입니다.FA에서 요인은 분산의 공유 부분 (기본 “잠재 구성”)을 최대화하는 선형 조합입니다. 이것이 FA를 종종 “공통 요인 분석”이라고 부르는 이유입니다. FA는 다양한 최적화 루틴을 사용하며 PCA와 달리 그 결과는 사용 된 최적화 루틴과 해당 루틴의 시작점에 따라 달라집니다. 단순히 하나의 고유 한 솔루션이 없습니다.

R에서 factanal () 함수는 CFA에 최대 우도 추출을 제공하므로 PCA 추출을 기반으로하는 SPSS 결과를 재현 할 것으로 기 대해서는 안됩니다. 그것은 단순히 동일한 모델이나 논리가 아닙니다. SPSS의 Maximum Likelihood 추출을 사용하면 동일한 알고리즘을 사용하지 않을 수 있으므로 동일한 결과를 얻을 수 있을지 확실하지 않습니다.

For R에서는 좋든 나쁘 든 SPSS가 기본값으로 제공하는 혼합 된 “요인 분석”을 재현 할 수 있습니다. 여기에 R의 프로세스가 있습니다.이 코드를 사용하면 SPSS Principal Component를 재현 할 수 있습니다. 이 데이터 세트를 사용한 요인 분석 결과입니다. (불확정 한 부호는 제외)이 결과는 R의 사용 가능한 회전 방법을 사용하여 회전 할 수도 있습니다.

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

주요 구성 요소 분석

데이터 세트의 주요 구성 요소 인 새로운 기능 구성. 주성분은 입력 특성의 선형 조합으로 구성된 최대 분산의 랜덤 변수입니다. 마찬가지로, 이는 데이터 세트의 각 지점에 대한 평균 제곱 거리를 최소화하는 선인 주 구성 요소 축에 대한 투영입니다. 고유성을 보장하려면 모든 주요 구성 요소 축이 직교해야합니다. PCA는 입력과 출력 모두에 가우스 잡음이있을 때 선형 회귀를위한 최대 가능성 기법입니다. 경우에 따라 PCA는 JPEG 이미지 압축에 사용되는 DCT와 같은 푸리에 변환에 해당합니다. “인식을위한 고유면”(Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, “확률 적 주성분 분석”및 “PCA를위한 자동 차원 선택”을 참조하십시오. “.PCA에 대한 차원 선택”.

요인 분석

최대 가능성을 명시 적으로 기반으로하는 PCA의 일반화. PCA와 마찬가지로 각 데이터 포인트는 샘플링에서 발생하는 것으로 가정합니다. 부분 공간의 한 지점을 지정한 다음 전체 차원 가우스 노이즈로 섭동합니다. 차이점은 요인 분석을 통해 노이즈가 임의의 대각선 공분산 행렬을 가질 수있는 반면 PCA는 노이즈가 구형이라고 가정합니다. 부분 공간을 추정하는 것 외에도 요인 분석 잡음 공분산 행렬을 추정합니다. “인자 분석기 혼합을위한 EM 알고리즘”.PCA에 대한 차원 선택 “을 참조하십시오.

설명

요인 분석 설명은 요점 (대각선 공분산)을 가져 오지만 역사적으로 s는 PCA의 일반화로 개발되지 않았습니다.
기본적으로 PCA에서 하나의 svd ‘는 공분산 행렬이고 FA에서는 상관 행렬입니까? 방법이 적용되는 분야에서 많은 용어를 구축 한 후에는 실제 수학을 찾기가 항상 어렵습니다.(주제에서 벗어남 : 경로 모델링이 무엇인지 이해하는 데 한때는 그 뒤에있는 행렬 방정식을 설명하는 70 ‘ 논문 하나를 찾을 때까지 오후 내내 시간이 걸렸습니다. )

Answer 4

FA에서는 일반적으로 두 가지 모두 (고유성 및 공동체 성). PCA와 FA 사이의 선택은 심리학자들 사이에서 오랜 논쟁입니다. 하지만 저는 여러분의 요점을 잘 따르지 않습니다. 주축의 회전은 잠재 요인을 구성하는 방법이 무엇이든 적용 할 수 있습니다. 실제로 이것은 대부분의 경우 VARIMAX 회전 (상관되지 않은 요인을 고려한 직교 회전)입니다. 사위 회전 (예 : PROMAX)이 현실을 더 잘 반영 할 수 있지만 (잠재적 구성은 종종 서로 상관 관계가 있음) 최소한 잠재 구조가 실제로 변수 간의 관찰 된 상호 상관의 핵심이라고 가정하는 FA의 전통입니다. 요점은 PCA 다음에 VARIMAX 회전이 “데이터에서 원래 변수의 선형 조합 해석을 다소 왜곡한다는 것입니다. 분석 “전통 (Michel Tenenhaus의 작업 참조) 심리 측정 관점에서 FA 모델은 측정 오류를 명시 적으로 설명하므로 선호됩니다. s, PCA는 그것에 대해 신경 쓰지 않습니다. 간단히 말해서, PCA를 사용하면 각 성분 (요인)을 변수의 선형 조합으로 표현하는 반면, FA에서는 요인의 선형 조합으로 표현하는 변수입니다 (말했듯이 공통성 및 고유성 성분 포함). / p>

먼저이 주제에 대한 다음 토론을 읽어 보시기 바랍니다.

상위 답변 이 스레드에서 PCA는 차원 감소 기술에 더 가깝고 FA는 잠재 변수 기술에 더 가깝다는 것을 암시합니다. sensu stricto 가 맞습니다. 그러나 여기의 많은 답변과 다른 많은 치료법은 PCA와 FA를 두 가지 완전히 다른 방법으로 제시하며 반대 목표, 방법 및 결과는 다르지 않습니다. 동의하지 않습니다. 나는 PCA가 잠재 변수 기술로 간주 될 때 FA에 매우 가깝고 매우 유사한 방법으로보아야한다고 생각합니다.

다음 스레드에서 PCA와 FA의 유사점과 차이점에 대한 자체 설명을 제공했습니다. EFA 대신 PCA를 사용해야하는 합당한 이유가 있습니까? 또한 PCA가 요인 분석을 대체 할 수 있습니까? 간단한 수학적 이유로 PCA와 FA의 결과는 변수의 수가 그리 적지 않다는 점을 감안할 때 상당히 유사 할 것으로 예상 할 수 있다고 주장합니다 (아마도 12 개 이상). 수학적 세부 사항 및 몬테카를로 시뮬레이션에 대한 링크 된 스레드에서 내 [긴!] 답변을 참조하십시오. 내 주장의 훨씬 더 간결한 버전은 여기를 참조하십시오. PCA와 FA가 비슷한 결과를 생성하는 조건은 무엇입니까?

여기에서 예를 들어 보여줍니다. UCI Machine Learning Repository의 와인 데이터 세트 를 분석하겠습니다. $ p = 13 $ 변수로 설명되는 세 가지 다른 포도의 와인 $ n = 178 $이 포함 된 상당히 잘 알려진 데이터 세트입니다. 상관 매트릭스는 다음과 같습니다.

와인 데이터 세트의 상관 매트릭스

PCA와 FA 분석을 모두 실행하여 아래 그림에서 둘 모두에 대한 biplots로 데이터의 2D 투영 (왼쪽 PCA, 오른쪽 FA). 가로 및 세로 축은 1 차 및 2 차 성분 / 요인 점수를 보여줍니다. 각 $ n = 178 $ 점은 와인 1 개에 해당하고 점은 그룹에 따라 색상이 지정됩니다 (범례 참조).

와인 데이터 세트의 PCA 및 FA 분석

각 $ p = 13 $ 원래 변수에 대한 첫 번째 및 두 번째 구성 요소 / 요인의 로딩은 검은 색 선으로 표시됩니다. 각각의 원래 변수와 두 성분 / 요인 간의 상관 관계와 같습니다.물론 상관 관계는 $ 1 $를 초과 할 수 없으므로 모든 로딩 라인은 가능한 최대 상관 관계를 보여주는 “상관 원”내에 포함됩니다. 모든 하중과 원은 $ 3 $의 비율로 임의로 조정됩니다. 그렇지 않으면 너무 작아서 볼 수 없습니다 (원의 반경은 $ 1 $이 아니라 $ 3 $입니다).

PCA와 FA의 차이는 거의 없습니다! 여기저기서 약간의 편차가 있지만 일반적인 그림은 거의 동일하며 모든 하중은 매우 유사하고 같은 방향을 가리 킵니다. 이것은 이론에서 예상했던 것과 정확히 일치하며 놀라운 일이 아닙니다. 그래도 관찰하는 것이 유익합니다.

PS. 훨씬 더 예쁜 PCA biplot의 경우 데이터 세트는 @vqv의이 답변 을 참조하세요.

PPS. PCA 계산은 표준이지만 FA 계산에는 주석이 필요할 수 있습니다. 요인 로딩은 수렴 (9 회 반복)까지 “반복 된 주요 요인”알고리즘에 의해 계산되었으며, 공통성은 부분 상관으로 초기화되었습니다. 부하가 수렴되면 Bartlett의 방법을 사용하여 점수를 계산했습니다. 이렇게하면 표준화 된 점수가 산출됩니다. 각 요인 분산 (적재 길이에 따라 제공됨)에 따라 확장했습니다.

PCA 및 요인 분석 플롯을 만드는 데 어떤 소프트웨어를 사용 했습니까?
Matlab을 사용했습니다. 코드를 제 답변에 붙여 넣을 생각이었습니다 (일반적으로 제 습관처럼 ),하지만이 바쁜 스레드를 더 복잡하게 만들고 싶지는 않았습니다.하지만 생각해 보면 외부 웹 사이트에 게시하고 여기에 링크를 남겨 두어야합니다. 그렇게하겠습니다.
사실입니다. PCA와 FA는 때때로 비슷한 결과 (로딩)를 제공하는 경우가 거의 없기 때문에 요인 분석이 다음과 같은 경우 PCA 는 FA의 특정 사례로 볼 수 있습니다. 광범위하게 정의됩니다. Still FA (sensu stricto)와 PCA는 이론적으로 상당히 다릅니다.
(계속) 요인은 초월 적 잠재 특성이며, 주요 구성 요소는 내재적 파생입니다. 두 개의 로딩 플롯 앱에도 불구하고 귀는 거의 비슷합니다. 이론적으로 근본적으로 다릅니다. 왼쪽의 구성 요소 평면은 자신을 투영하는 변수의 부분 공간으로 생성되었습니다. 요인 평면은 변수 공간과 다른 공간 으로 생성되었으므로 ” 외계인 ” 오른쪽 플롯의 공간.
(계속) 그러나 오른쪽 그림 (FA)은 실제로 진정한 biplot i이 아닙니다. >, 이것은 서로 다른 공간 인 두 개의 서로 다른 산점도의 오버레이입니다. 즉, 로딩 플롯 (축이 실제 요인 인 경우)과 객체 점수 플롯 (축이 점수로 추정 된 요인 인 경우)입니다. 실제 요소 공간은 ” 상위 ” 변수 공간을 초과하지만 요소 점수 공간은 하위 공간입니다. 두 개의 이기종 축 쌍을 겹 쳤지 만 동일한 레이블 (” factor1 ” 및 ” factor2 ” 두 쌍 모두) 상황이 매우 오해를 불러 일으키고 왼쪽과 같이 진정한 biplot 이라고 생각하도록 설득합니다.

Answer 6

PCA 대 요인 분석 산점도의 도움을 받아 논리적 단계에서. (질문에 대한 그의 의견에서 다른 곳으로 링크를 만드는 대신 답변을 게시하도록 격려해 주신 @amoeba에게 감사드립니다. 여기에 여유가 있고 늦은 답변이 있습니다.)

PCA as variable summarization (특징 추출)

이미 PCA를 이해하고 있기를 바랍니다. 지금 부활하세요.

상관 변수 $ V_1 $ 및 $ V_2 $ 가 있다고 가정합니다. 우리는 그들을 중심에두고 (평균 빼기) 산점도를합니다. 그런 다음 이러한 중심 데이터에 대해 PCA를 수행합니다. PCA는 V1 및 V2 대신 축 P1 및 P2를 제공하는 축 회전 의 한 형태입니다. PCA의 핵심 속성은 P1 (1 차 주성분이라고 함)이 방향을 지정하여 데이터 포인트의 분산이 최대화된다는 것입니다. 새 축은 회전 계수를 알고있는 한 값을 계산할 수있는 새 변수입니다. $ a $ (PCA에서 제공) [ 등식1 ] :

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

이 계수는 회전 코사인 (= 방향 코사인, 주 방향)이며 고유 벡터라고하는 것을 구성합니다. 공분산 행렬의 고유 값은 주성분 분산입니다. PCA에서 우리는 일반적으로 약한 마지막 구성 요소를 삭제합니다. 따라서 정보 손실이 거의없이 처음 추출 된 소수의 구성 요소로 데이터를 요약합니다.

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543

플로팅 된 데이터 P1을 사용하여 구성 요소 값 (점수) P1 = .73543*V1 + .67761*V2 및 구성 요소 P2는 폐기합니다. P1 “의 분산은 공분산 행렬의 첫 번째 고유 값 인 1.75756이므로 P1은 총

Answer 7

요인 분석과 주성분 분석의 차이점은 다음과 같습니다.

• 요인 분석에는 구조화 된 모델과 몇 가지 가정이 있습니다. 이 점에서 순전히 수학적 변환 인 주성분 분석에는 적용되지 않는 통계 기법입니다.

• 주성분 분석의 목적은 분산을 설명하는 것이고 요인 분석은 두 요소 간의 공분산을 설명하는 것입니다. 변수.

둘 사이에 혼동을 일으키는 가장 큰 이유 중 하나는 요인 분석에서 요인 추출 방법 중 하나가 “주성분의 방법”이라는 사실과 관련이 있습니다. 그러나 PCA를 사용하는 것과 FA에서 주성분의 방법 을 사용하는 것은 다른 것입니다. 이름은 비슷할 수 있지만 상당한 차이가 있습니다. 전자는 독립적 인 분석 방법이지만 후자는 단순히 요인 추출 도구 일뿐입니다.

Answer 8

나에게 (그리고 이것이 유용하기를 바랍니다) 요인 분석은 PCA보다 훨씬 유용합니다.

최근에는 요인 분석을 통해 척도를 분석하는 즐거움을 얻었습니다.이 척도 (산업에서 널리 사용됨)는 PCA를 사용하여 개발되었으며 제 지식은 요인을 분석 한 적이 없습니다.

요인 분석 (주축)을 수행했을 때 세 항목의 공통성이 30 % 미만이라는 것을 발견했습니다. 즉, 항목 분산의 70 % 이상이 분석되지 않았 음을 의미합니다. PCA 데이터를 새로운 조합으로 변환하고 커뮤니티에는 신경 쓰지 않습니다. 내 결론은 척도가 심리 측정 관점에서별로 좋지 않다는 것이었고 다른 샘플로 이것을 확인했습니다.

본질적으로 요인을 사용하여 예측하려면 PCA를 사용하십시오. , 잠재 요인을 이해하려면 요인 분석을 사용하세요.

Answer 9

@StatisticsDocConsulting “의 답변에서 확장 : EFA와 PCA 간의 부하 차이는 변수 수가 적기 때문에 중요하지 않습니다. 다음은 R에서이를 보여주는 시뮬레이션 기능입니다.

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

기본적으로이 함수는 100 개의 Iterations를 수행합니다. 각각에서 3 개의 변수로 구성된 무작위 정규 분포 샘플 (Sample.Size $ = 1000 $)을 생성하고 PCA 및 ML-EFA를 사용하여 하나의 요소를 추출합니다. 두 개의 목록을 출력합니다. Iterations-시뮬레이션 된 변수의 평균 크기로 구성된 긴 벡터 “는 각각 PCA의 회전되지 않은 첫 번째 구성 요소에 대한 로딩과 EFA의 일반 요소입니다. principal() 및 factanal()의 한도 내에서 상황에 맞는 샘플 크기와 변수 및 요인 수를 가지고 놀 수 있습니다. 함수와 컴퓨터입니다.

이 코드를 사용하여 데이터를 생성하기 위해 각각 500 번 반복하는 3 ~ 100 개의 변수 샘플을 시뮬레이션했습니다.

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

… 변수 수에 대한 평균 적재 (변수 및 반복에 걸친)의 민감도 플롯 :

이것은 하나의 차이를 보여줍니다. PCA 대 EFA의 로딩 강도를 해석해야합니다. 둘 다 변수 수에 따라 다소 달라 지지만 PCA에서는 로딩이 훨씬 더 강하게 편향됩니다. 이러한 방법의 평균 로딩 차이는 변수 수가 증가함에 따라 감소하지만 100 개의 변수, PCA 로딩은 무작위 정규 데이터에서 EFA 로딩보다 평균 $ .067 $ 더 높습니다.그러나 일반적으로 더 많은 상관 변수에 대해 이러한 방법을 사용하기 때문에 실제 응용 프로그램에서는 평균 로딩이 일반적으로 더 높습니다. 이것이 평균 로딩의 차이에 어떤 영향을 미칠지 잘 모르겠습니다.

Answer 10

정말 멋진 교과서의 인용문 ( Brown, 2006, pp. 22, 강조 추가됨).
PCA = 주성분 분석
EFA = 탐색 적 요인 분석
CFA = 확인 적 요인 분석

EFA와 관련이 있지만 PCA (주성분 분석)는 공통 요인 분석의 추정 방법으로 잘못 분류되는 경우가 많습니다. 앞 단락 (ML, PF)에서 논의한 추정기와 달리 PCA는 다른 정량 분석 세트에 의존합니다. 공통 요인 모델을 기반으로하지 않는 방법입니다. PCA는 공통 분산과 고유 분산을 구분하지 않습니다. 오히려 PCA는 관측 된 측정 값 간의 상관 관계를 설명하는 것이 아니라 분산을 설명하는 것을 목표로합니다. 따라서 PCA는 더 큰 측정 값 세트를 사용하기 위해 더 작고 관리하기 쉬운 수의 복합 변수로 줄이기위한 데이터 감소 기술 후속 분석에서. 그러나 일부 방법 론자들은 PCA가 여러 가지 바람직한 통계적 특성 (예 : 계산적으로 더 간단하고 부적절한 솔루션에 영향을받지 않고 종종 EFA의 결과와 유사한 결과를 생성 함)을 보유하고 있다는 점에서 PCA가 EFA보다 합리적이거나 아마도 우수한 대안이라고 주장했습니다. , PCA가 주요 구성 요소에 대한 참가자의 점수를 계산할 수있는 반면 EFA의 불확실한 특성은 이러한 계산을 복잡하게 만듭니다). 이 문제에 대한 논쟁이 계속되고 있지만 Fabrigar et al. (1999)은 요인 분석에서 PCA의 위치에 대한 주장에 반대하는 몇 가지 이유를 제공합니다. 이 저자들은 EFA와 PCA가 다른 결과를 생성하는 상황을 강조합니다. 예를 들어, 공동체가 낮거나 주어진 요인에 대한 지표가 거의 없을 때 (참조 : Widaman, 1993). 분석의 우선적 근거와 경험적 목표가 공통 요인 모델과 일치한다면 PCA를 수행하는 것이 개념적으로나 수학적으로 일치하지 않습니다. 즉, EFA는 명시된 목표가 더 적은 수의 잠복 차원을 가진 지표 세트의 상호 상관을 재현하고 관찰 된 측정에서 측정 오류의 존재를 인식하는 것이라면 더 적합합니다. Floyd와 Widaman (1995)은 PCA와 달리 EFA 및 CFA가 공통 요인 모델을 기반으로한다는 점에서 EFA를 기반으로 한 추정이 PCA에서 얻은 추정보다 CFA로 일반화 될 가능성이 더 높다는 관련 지적을합니다. 이것은 EFA가 스케일 개발 및 구성 검증에서 CFA의 전구체로 자주 사용된다는 사실을 고려할 때 주목할만한 고려 사항입니다. PCA와 EFA 간의 계산 차이에 대한 자세한 설명은 다변량 및 요인 분석 교과서에서 찾을 수 있습니다 (예 : Tabachnick & Fidell, 2001).

Brown, TA (2006). 응용 연구를위한 확증 요인 분석 뉴욕 : Guilford Press.

Answer 11

생각할 수 있습니다. PCA의 공통성은 모든 변수에 대해 1로 가정되는 FA와 같습니다. 실제로 이것은 낮은 공통성으로 인해 FA에서 상대적으로 낮은 계수 적재를 갖는 항목이 PCA에서 더 높은 적재를 가질 것임을 의미합니다. 분석의 주요 목적이 항목 길이를 줄이고 부하가 낮거나 모호한 항목의 배터리를 정리하거나 항목 풀에서 잘 표현되지 않는 개념을 식별하는 것이라면 이는 바람직한 기능이 아닙니다.

Answer 12

Tipping과 Bischop의 논문에서 Probabalistic PCA (PPCA)와 요인 분석 간의 긴밀한 관계가 논의되었습니다. PPCA는 기존 PCA보다 FA에 더 가깝습니다. 일반적인 모델은 다음과 같습니다.

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

여기서 $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ 및 $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.

요인 분석에서는 $ \ mathbf {\ Psi} $가 대각선이라고 가정합니다.
PPCA에서 $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping, Christopher M. Bishop (1999). 확률 적 주성분 분석 , Journal of the Royal Statistical Society, Volume 61, Issue 3, Pages 611–622

Comments

+ 1. 예. PCA와 FA의 관계를 이해하려면 PPCA를 이해해야한다고 생각합니다. 그러나 PCA / PPCA 관계를 논의하여 답변을 개선 할 수 있습니다.

Answer 13

이 응답 중 어느 것도 해당되지 않습니다. 완전한. FA 또는 PCA에는 몇 가지 변형이 있습니다. 비교되는 변형을 명확하게 지적해야합니다. 나는 최대 가능성 요인 분석과 Hotelling의 PCA를 비교할 것입니다.전자는 잠재 변수가 정규 분포를 따른다고 가정하지만 PCA에는 그러한 가정이 없습니다. 이로 인해 솔루션, 구성 요소의 중첩, 솔루션의 고유성, 최적화 알고리즘과 같은 차이가 발생했습니다.

이 부분에 대해 조금 더 확장 할 수 있는지 궁금합니다. 마지막 문장에 차이가 있다고 말했지만 많은 정보를 제공하지 않았습니다. 그 차이가 무엇인지, 아니면 어떤 방식으로 그 차이가 중요 할 수 있는가?
가장 먼 두 가지 방법을 선택하고 실제로 서로 다르다고 주장하는 것도 완벽한 논리가 아닙니다. . 이 두 사람이 어떻게 비슷한 지 찾아보고보고해야합니다. 또는 가장 유사한 방법 (예 : 일반 PCA 대 PAF )을 선택하고 서로 다른 방식을보고 할 수 있습니다.
호텔 링 ‘의 PCA는 잠재 가우시안을 가정합니다.

Answer 14

이 게시물에 대한 많은 훌륭한 답변이 있지만 최근에 또 다른 차이점을 발견했습니다.

클러스터링은 PCA와 FA가 다른 결과를 산출하는 하나의 애플리케이션입니다. 데이터에 많은 기능이있는 경우 상위 PC 방향을 찾고 이러한 PC에 데이터를 투사 한 다음 클러스터링을 진행할 수 있습니다. 종종 이것은 데이터의 고유 한 클러스터를 방해합니다. 이것은 잘 입증 된 결과입니다. 연구원 은 모델에서 저 차원 잠재 요인을 찾는 하위 공간 클러스터링 방법을 진행할 것을 제안합니다.

이 차이를 설명하기 위해 R의 Crabs 데이터 세트를 고려해보세요. Crabs 데이터 세트에는 200 개의 행과 8 개의 열이 있으며 각각 두 가지 색상의 게 50 개에 대해 5 개의 형태 학적 측정 값을 설명합니다. 종의 형태와 성별-기본적으로 4 (2×2) 다른 종류의 게가 있습니다.

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23)

PC1 및 PC2를 사용한 클러스터링 :

PC2 및 PC3를 사용한 클러스터링 :

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2

위 그림에서 볼 수 있듯이 PC2와 PC3는 PC1.

Mixture of Factor Analyzers를 사용하여 잠재 요인을 사용하여 클러스터링하려고하면 처음 두 PC를 사용하는 것에 비해 훨씬 더 나은 결과를 볼 수 있습니다.

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5

이 답변이 실제로 질문에 대한 답이 아닐까 생각합니다. 대답은 PCA 및 FA 자체가 아니라 PCA 또는 FA 이후의 클러스터 분석에 관한 것입니다. 그러나 그 점에서도 대답은 희미하거나 미완입니다. 당신이 표시하는 차이점은 어떻게 설명되어야합니까?
@ttnphns 클러스터 분석에 대한 대답에 동의합니다. 그러나 OP는 또한 PCA / FA가있는 실제 시나리오를 요청했으며, 여기서 하나는 다른 것보다 사용해야합니다. 일반적으로 PCA 또는 FA는 최종 목표가 아닙니다. 사회 과학에서 최종 목표는 주제를 다른 클러스터 / 그룹으로 분할하는 것입니다. 내 대답은 그러한 시나리오를 다룹니다. 제 답변이 개선 될 수 있다고 생각하시는 경우, 부담없이 지적 해주십시오.
당신이 발견 한 내용을 설명해 주시면 당신의 답변이 정말 관련이있을 수 있다고 생각합니다. PCA와 FA의 차이점은 두 가지 방법에 대한 내재적 차이라고 주장합니다 (클러스터링에서 분명하게 나타남). 이론적으로 차이가 메소드 ‘ 모델의 차이로 인해 어떻게 또는 왜 발생하는지 보여 주거나 추측해야한다고 생각합니다.

요인 분석과 주성분 분석의 차이점은 무엇입니까?

댓글

답변

댓글

답변

댓글

답변

설명

답변

댓글

답변

댓글

답변

PCA as variable summarization (특징 추출)

PCA (변수 예측) (” 잠재 ” feature)

일반적인 FA의 개념 (잠재 기능 )

FA : 대략적인 솔루션 (요인 점수)

FA : 최적 솔루션 (진정한 요인)

FA : 절차 요약

댓글

답변

답변

답변

답변

답변

답변

Comments

답변

댓글

답변

댓글

답글 남기기 답글 취소하기