Parece que vários pacotes estatísticos que utilizo agrupam esses dois conceitos. No entanto, estou me perguntando se existem diferentes suposições ou “formalidades” de dados que devem ser verdadeiras para serem usadas umas sobre as outras. Um exemplo real seria incrivelmente útil.
Comentários
- Os capítulos de análise de componentes principais e análise de fator no livro a seguir, que está disponível na maioria das bibliotecas universitárias, respondem exatamente à sua pergunta: apa.org/ pubs / books / 4316510.aspx
- Além das respostas abaixo, você pode também ler isto e isso meu.
- E outra boa pergunta como ” devo usar PCA ou FA “: stats.stackexchange.com/q/123063/3277 .
- @ttnphns: Eu encorajo você a emitir uma resposta neste tópico, talvez consistindo em uma lista anotada de suas respostas em outros tópicos relacionados. Isso pode substituir seus comentários acima (atualmente quatro co com links) e seria mais prático, especialmente se você anotasse rapidamente cada link. Por exemplo. procure aqui a explicação desse problema, procure lá uma explicação desse problema, etc. É apenas uma sugestão, mas acredito que este tópico se beneficiaria muito com isso! Uma vantagem particular é que você sempre pode adicionar mais links a essa resposta.
- Uma pergunta semelhante foi feita no MathOverflow e recebeu o que consideraria uma resposta excelente: mathoverflow.net/questions/40191/ …
Resposta
A análise do componente principal envolve a extração de composições lineares de variáveis observadas.
A análise fatorial é baseada em um modelo formal que prevê variáveis observadas a partir de fatores latentes teóricos.
Em psicologia, esses dois as técnicas são frequentemente aplicadas na construção de testes em várias escalas para determinar quais itens são carregados em quais escalas. Eles normalmente produzem conclusões substantivas semelhantes (para uma discussão, ver Comrey (1988) Fator-Analytic Methods of Scale Development in Personality and Clinical Psychology). Isso ajuda a explicar por que alguns pacotes de estatísticas parecem agrupá-los. Também vi situações em que “análise de componente principal” é incorretamente rotulada como “análise fatorial”.
Em termos de uma regra prática simples , eu sugiro que você:
-
Execute a análise fatorial se você assumir ou desejar testar um modelo teórico de fatores latentes que causam variáveis observadas.
-
Execute a análise do componente principal Se você deseja simplesmente reduzir suas variáveis observadas correlacionadas a um conjunto menor de variáveis compostas independentes importantes.
Comentários
- A regra prática é muito útil. Obrigado por isso.
- Em relação à regra prática (1): Não ‘ t Eu testo um modelo teórico de fatores latentes com uma análise fatorial confirmatória em vez de uma fa exploratória?
- @roman Sim. Um CFA oferece muito mais controle sobre o modelo do que o EFA. Por exemplo, você pode restringir as cargas a zero; igualar as cargas; ter resíduos correlacionados ls; adicionar fatores de ordem superior; etc.
- @Jeromy Anglim É realmente correto dizer que o PCA cria um ” conjunto menor de variáveis compostas independentes importantes. ” Ou você deveria realmente dizer ” conjunto menor de variáveis compostas não correlacionadas importantes “. Se os dados subjacentes usados no PCA não forem (multivariados) normalmente distribuídos, os dados dimensionais reduzidos serão apenas não correlacionados?
- A segunda regra é fácil de obter, mas como aplico a primeira? Pode parecer estranho, mas quando sei que quero ‘ executar um modelo de fator em relação às variáveis observadas?
Resposta
Da minha resposta aqui:
O PCA seguido por uma rotação (como varimax) ainda é o PCA?
Análise de componente principal (PCA) e Análise de fator comum (CFA) são métodos distintos. Freqüentemente, eles produzem resultados semelhantes e o PCA é usado como o método de extração padrão nas rotinas de análise de fator do SPSS. Isso, sem dúvida, resulta em muita confusão sobre a distinção entre os dois.
O ponto principal é que esses são dois modelos diferentes, conceitualmente. No PCA, os componentes são combinações lineares ortogonais reais que maximizam a variância total.Em FA, os fatores são combinações lineares que maximizam a porção compartilhada da variância – subjacentes “construções latentes”. É por isso que FA é frequentemente chamado de “análise de fator comum”. FA usa uma variedade de rotinas de otimização e o resultado, ao contrário do PCA, depende da rotina de otimização usada e dos pontos de partida para essas rotinas. Simplesmente não há uma solução única.
Em R, a função factanal () fornece ao CFA uma extração de máxima verossimilhança. Portanto, você não deve esperar que ela reproduza um resultado SPSS baseado em uma extração de PCA. Simplesmente não é o mesmo modelo ou lógica. Não tenho certeza se você obteria o mesmo resultado se usasse a extração de Máxima Verossimilhança do SPSS, pois eles podem não usar o mesmo algoritmo.
Para melhor ou pior em R, você pode, no entanto, reproduzir a “análise fatorial” confusa que o SPSS fornece como padrão. Aqui está o processo em R. Com este código, sou capaz de reproduzir o componente principal do SPSS ” Resultado da Análise Fatorial “usando este conjunto de dados. (Com exceção do sinal, que é indeterminado). Esse resultado também pode ser girado usando qualquer um dos métodos de rotação disponíveis de R.
data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)
Comentários
- Observe que você obterá os mesmos resultados com
principal(attitude, 2, rotate="none")
dopsych
pacote e essa regra de Kayser ‘ s (ev > 1) não é a forma mais recomendada de teste para dimensionalidade (superestima o número de fatores). - Sim, eu sei psic p o principal encerra isso. Meu objetivo era mostrar o que o SPSS ” análise fatorial ” estava fazendo ao usar o método de extração de componentes principais. Concordo que a regra do autovalor é uma maneira inadequada de selecionar o número de fatores. Mas, isso é exatamente o que o SPSS faz por padrão e era isso que eu estava demonstrando.
-
factanal()
fornece EFA, não CFA. Além disso, pela minha experiência, SPSS ‘ s Extração de probabilidade máxima deve dar o mesmo resultado quefactanal()
, dado que não há rotação oblíqua. - O que significa o seguinte: ‘ Em FA, os fatores são combinações lineares que maximizam a parte compartilhada da variância – subjacente ” construções latentes “. ‘?
- Observe também que CFA pode significar FA confirmatório (em oposição a FA explicativo ) em vez de FA comum .
Resposta
Existem várias definições sugeridas no rede. Aqui está um de um glossário on-line sobre aprendizado de estatística :
Componente principal Análise
Construindo novos recursos que são os componentes principais de um conjunto de dados. Os componentes principais são variáveis aleatórias de variância máxima construídas a partir de combinações lineares dos recursos de entrada. Equivalentemente, são as projeções nos eixos do componente principal, que são linhas que minimizam a distância quadrada média de cada ponto no conjunto de dados. Para garantir a exclusividade, todos os eixos do componente principal devem ser ortogonais. PCA é uma técnica de máxima verossimilhança para regressão linear na presença de ruído gaussiano nas entradas e saídas. Em alguns casos, o PCA corresponde a uma transformação de Fourier, como o DCT usado na compactação de imagem JPEG. Veja “Autofaces para reconhecimento” (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, “Probabilistic Principal Component Analysis” e “Automatic choice of dimensionality for PCA “.choice of dimensionality for PCA”.
Análise fatorial
Uma generalização do PCA que se baseia explicitamente na probabilidade máxima. Como o PCA, cada ponto de dados é considerado proveniente da amostragem um ponto em um subespaço e, em seguida, perturbá-lo com ruído gaussiano de dimensão total. A diferença é que a análise fatorial permite que o ruído tenha uma matriz de covariância diagonal arbitrária, enquanto o PCA assume que o ruído é esférico. Além de estimar o subespaço, a análise fatorial estima a matriz de covariância de ruído. Consulte “O Algoritmo EM para Misturas de Analisadores de Fator”. escolha de dimensionalidade para PCA “.
Comentários
- A descrição da Análise Fatorial obtém o ponto principal (covariância diagonal), mas historicamente foi s não foi desenvolvido como uma generalização do PCA.
- Então, basicamente, no PCA um svd ‘ sa matriz de covariância e em FA a matriz de correlação? É sempre difícil para mim encontrar a matemática real, depois que os métodos construíram uma grande quantidade de terminologia do campo onde são aplicados.(fora do tópico: uma vez, levei uma tarde inteira para entender o que é modelagem de caminho até que encontrei um (1) artigo dos 70 ‘ s que declaravam a equação da matriz por trás dele. )
Resposta
Você está certo sobre o seu primeiro ponto, embora no FA você geralmente trabalhe com ambos (exclusividade e comunalidade). A escolha entre PCA e AF é um debate antigo entre os psicometristas. Eu não sigo exatamente seus pontos, no entanto. A rotação dos eixos principais pode ser aplicada qualquer que seja o método usado para construir fatores latentes. Na verdade, na maioria das vezes é a rotação VARIMAX (rotação ortogonal, considerando fatores não correlacionados) que é usado, por razões práticas (interpretação mais fácil, regras de pontuação mais fáceis ou interpretação de pontuações de fator, etc.), embora a rotação oblíqua (por exemplo, PROMAX) possa provavelmente refletir melhor a realidade (construtos latentes são frequentemente correlacionados uns com os outros), pelo menos no tradição de FA, onde você assume que uma construção latente está realmente no centro das inter-correlações observadas entre suas variáveis. O ponto é que PCA seguido pela rotação VARIMAX distorce um pouco a interpretação das combinações lineares das variáveis originais nos “dados análise “tradição (ver o trabalho de Michel Tenenhaus). De uma perspectiva psicométrica, os modelos FA devem ser preferidos, uma vez que explicam explicitamente o erro de medição s, enquanto o PCA não se preocupa com isso. Resumidamente, usando o PCA, você expressa cada componente (fator) como uma combinação linear das variáveis, enquanto no FA essas são as variáveis que são expressas como combinações lineares dos fatores (incluindo comunalidades e componentes de exclusividade, como você disse).
Eu recomendo que você leia primeiro as seguintes discussões sobre este tópico:
- Quais são as diferenças entre Análise Fatorial e Principal Análise de componentes
- Sobre o uso de rotação oblíqua após PCA – consulte a referência aqui
Comentários
- Apenas para dizer que minha resposta pode realmente parecer um pouco fora do tópico, já que esta pergunta foi mesclada com outra, stats.stackexchange.com/questions/3369/… (inicialmente respondo ao último).
- Ah, Eu estava me perguntando por que você vinculou a esta pergunta, nesta pergunta … 🙂
- . Chl, você poderia explicar isso? Isso ‘ é interessante.
Resposta
A melhor resposta neste tópico sugere que PCA é mais uma técnica de redução de dimensionalidade, enquanto FA é mais uma técnica de variável latente. Isso é sensu stricto correto. Mas muitas respostas aqui e muitos tratamentos em outros lugares apresentam PCA e AF como dois métodos completamente diferentes, com objetivos, métodos e resultados diferentes, se não opostos. Discordo; Acredito que quando a PCA é considerada uma técnica de variável latente, ela se aproxima bastante da AF, e devem ser vistas como métodos muito semelhantes.
Forneci meu próprio relato das semelhanças e diferenças entre o PCA e o FA no seguinte tópico: Há algum bom motivo para usar o PCA em vez do EFA? Além disso, a PCA pode ser um substituto para a análise fatorial? Lá, eu argumento que, por razões matemáticas simples, o resultado da PCA e da AF pode ser bastante semelhante, dado apenas que o número de variáveis não é muito pequeno (talvez mais de uma dúzia). Veja minha [longa!] Resposta no tópico vinculado para detalhes matemáticos e simulações de Monte Carlo. Para uma versão muito mais concisa do meu argumento, veja aqui: Sob quais condições o PCA e o FA produzem resultados semelhantes?
Aqui, eu gostaria para mostrá-lo em um exemplo. Vou analisar o conjunto de dados do vinho do UCI Machine Learning Repository. É um conjunto de dados bastante conhecido com $ n = 178 $ vinhos de três uvas diferentes descritas por $ p = 13 $ variáveis. Esta é a aparência da matriz de correlação:
Eu executei a análise PCA e FA e mostrei Projeções 2D dos dados como biplots para ambos na figura abaixo (PCA à esquerda, FA à direita). Os eixos horizontal e vertical mostram as pontuações do primeiro e segundo componente / fator. Cada um dos $ n = 178 $ pontos corresponde a um vinho, e os pontos são coloridos de acordo com o grupo (veja a legenda):
Os carregamentos do 1º e do 2º componente / fator em cada uma das $ p = 13 $ variáveis originais são mostrados como linhas pretas. Eles são iguais às correlações entre cada uma das variáveis originais e os dois componentes / fatores.É claro que as correlações não podem exceder $ 1 $, então todas as linhas de carregamento estão contidas dentro do “círculo de correlação” mostrando a correlação máxima possível. Todos os carregamentos e o círculo são arbitrariamente escalados por um fator de $ 3 $, caso contrário, eles seriam muito pequenos para serem vistos (então o raio do círculo é $ 3 $ e não $ 1 $).
Observe que lá dificilmente há diferença entre PCA e FA! Existem pequenos desvios aqui e ali, mas o quadro geral é quase idêntico, e todos os carregamentos são muito semelhantes e apontam nas mesmas direções. Isso é exatamente o que se esperava da teoria e não é nenhuma surpresa; ainda assim, é instrutivo observar.
PS. Para um PCA biplot muito mais bonito do mesmo conjunto de dados, veja esta resposta por @vqv .
PPS. Considerando que os cálculos PCA são padrão, os cálculos FA podem exigir um comentário. Os carregamentos de fator foram calculados por um algoritmo de “fatores principais iterados” até a convergência (9 iterações), com comunalidades inicializadas com correlações parciais. Assim que as cargas convergiram, as pontuações foram calculadas usando o método de Bartlett. Isso produz pontuações padronizadas; aumentei-as pelas respectivas variâncias dos fatores (dados pelos comprimentos das cargas).
Comentários
- Qual software você usou para criar os gráficos de PCA e de análise fatorial?
- Usei Matlab. Estava pensando em colar o código na minha resposta (como normalmente é meu hábito ), mas não queria bagunçar ainda mais este tópico. Mas, pensando bem, devo postá-lo em algum site externo e deixar um link aqui. Farei isso.
- É verdade que o PCA e o FA às vezes, e não raramente, dão resultados semelhantes (carregamentos), e então o PCA pode ser visto como um caso específico de FA, quando a análise fatorial é definidos de forma ampla. Ainda assim, FA (sensu stricto) e PCA são teoricamente muito diferentes.
- (cont.) Fatores são traços latentes transcendentes; componentes de pr. são derivações imanentes. Apesar de seu aplicativo de dois gráficos de carregamento ouvidos praticamente semelhantes, teoricamente são fundamentalmente diferentes. O plano de componentes à esquerda foi produzido como um subespaço das variáveis que se projetam nele. O plano do fator foi produzido como um espaço diferente do espaço das variáveis e, portanto, elas se projetam em um ” alien ” espaço no gráfico certo.
- (cont.) Mas a imagem certa (FA) não é realmente um biplot , é mais uma sobreposição de dois gráficos de dispersão distintos, espaços diferentes: o gráfico de carregamento (onde os eixos são fatores verdadeiros) e o gráfico de pontuação do objeto (onde os eixos são os fatores estimados como pontuações). O espaço do fator verdadeiro ultrapassa o espaço variável ” parental “, mas o espaço das pontuações do fator é seu subespaço. Você sobrepôs dois pares heterogêneos de eixos, mas eles têm os mesmos rótulos (” fator1 ” e ” fator2 ” em ambos os pares) cuja circunstância é fortemente enganosa e nos persuade a pensar que é um biplot genuíno, como o esquerdo.
Resposta
Uma explicação básica, porém meticulosa, de PCA vs análise de fator com a ajuda de gráficos de dispersão, em etapas lógicas. (Agradeço a @amoeba que, em seu comentário à pergunta, me encorajou a postar uma resposta em vez de fazer links para outro lugar. Portanto, aqui está uma resposta tardia de lazer.)
PCA como resumo variável (extração de recursos)
Espero que você já tenha entendido o PCA. Para reviver agora.
Suponha que temos variáveis correlacionadas $ V_1 $ e $ V_2 $ . Nós os centramos (subtraímos a média) e fazemos um gráfico de dispersão. Em seguida, executamos o PCA nesses dados centralizados. PCA é uma forma de rotação de eixos que oferece os eixos P1 e P2 em vez de V1 e V2. A propriedade-chave do PCA é que P1 – chamado de primeiro componente principal – é orientado de forma que a variação dos pontos de dados ao longo dele seja maximizada. Os novos eixos são novas variáveis cujos valores são computáveis, desde que saibamos os coeficientes de rotação $ a $ (PCA os fornece) [ Eq.1 ]:
$ P1 = a1_1V_1 + a1_2V_2 $
$ P2 = a2_1V_1 + a2_2V_2 $
Esses coeficientes são cossenos de rotação (= cossenos de direção, direções principais) e compreendem os chamados autovetores, enquanto Os autovalores da matriz de covariância são as principais variâncias dos componentes. No PCA, normalmente descartamos os últimos componentes fracos: assim, resumimos os dados por alguns componentes extraídos inicialmente, com pouca perda de informação.
Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543
Com nossos dados plotados, P1 valores de componente (pontuações) P1 = .73543*V1 + .67761*V2
e componente P2 que descartamos. A variância de P1 “é 1.75756
, o primeiro autovalor da matriz de covariância, e então P1 explica 86.5%
do total variação que é igual a (1.07652+.95534) = (1.75756+.27430)
.
PCA como previsão variável (” latente ” feature)
Então, descartamos P2 e esperamos que P1 sozinho possa representar razoavelmente os dados. Isso é equivalente a dizer que $ P1 $ pode razoavelmente bem ” reconstruir ” ou prever $ V_1 $ e $ V_2 $ [ Eq.2 ]:
$ V_1 = a1_ {1} P1 + E_1 $
$ V_2 = a1_ {2} P1 + E_2 $
onde coeficientes $ a $ são o que já sabemos e $ E $ são os erros (imprevisibilidade). Na verdade, este é um ” modelo regressional ” onde as variáveis observadas são previstas (de volta) pela variável latente (se permitir chamar um componente de ” latente ” um) P1 extraído dessas mesmas variáveis. Observe o gráfico Fig.2 , nada mais é do que Fig .1 , apenas detalhado:
O eixo P1 é mostrado lado a lado com seus valores (pontuações P1) em verde (esses valores são as projeções dos pontos de dados em P1). Alguns pontos de dados arbitrários foram rotulados A, B, …, e sua saída (erro) de P1 são conectores pretos em negrito. Para o ponto A, os detalhes são mostrados: as coordenadas da pontuação P1 (A verde) nos eixos V1 e V2 são os valores reconstruídos por P1 de V1 e V2 de acordo com a Eq.2 , $ \ hat {V_1} = a1_ {1} P1 $ e $ \ hat {V_2} = a1_ {2} P1 $ . Os erros de reconstrução $ E_1 = V_1- \ hat {V_1} $ e $ E_2 = V_2- \ hat {V_2} $ também são exibidos, em bege. O conector ” erro ” comprimento ao quadrado do conector é a soma dos dois erros ao quadrado, de acordo com o Pitagórico.
Agora, o que é característico do PCA é que se calcularmos E1 e E2 para cada ponto nos dados e traçarmos essas coordenadas – ou seja, o gráfico de dispersão dos erros sozinho, a nuvem ” dados de erro ” coincidirá com o componente descartado P2. E é: a nuvem é plotada na mesma imagem que a nuvem bege – e você vê que ela realmente forma o eixo P2 (de Fig.1 ) como mosaico com pontuações de componentes P2.
Não é de admirar, você pode dizer. É tão óbvio: no PCA , o (s) componente (s) júnior (s) descartado (s) é o que precisamente se decompõe (s) nos erros de predição E, no modelo que explica (restaura) as variáveis originais V pela (s) característica (s) latente (s) P1. Os erros E juntos constituem apenas os componentes deixados de fora. É aqui que a análise fatorial começa a diferir do PCA.
A ideia de FA comum (característica latente )
Formalmente, o modelo que prevê as variáveis do manifesto pelas características latentes extraídas é o mesmo no FA e no PCA; [ Eq.3 ]:
$ V_1 = a_ {1} F + E_1 $
$ V_2 = a_ {2} F + E_2 $
onde F é o fator comum latente extraído dos dados e substituindo o que era P1 em Eq.2 .A diferença no modelo é que no FA, ao contrário do PCA, variáveis de erro (E1 e E2) são obrigatórias não estejam correlacionados entre si .
Digressão . Aqui eu quero interromper repentinamente a história e fazer uma noção sobre o que são coeficientes $ a $ . No PCA, dissemos, essas eram entradas de autovetores encontrados no PCA (via decomposição de valor próprio ou singular). Enquanto P1 latente teve sua variância nativa. Se escolhermos padronizar P1 para variação de unidade , teremos que compensar aumentando adequadamente os coeficientes $ a $ , a fim de apoiar o equação. Esses $ a $ s aumentados são chamados de carregamentos ; eles são de interesse numericamente porque são as covariâncias (ou correlações) entre as variáveis latentes e observáveis e, portanto, podem ajudar a interpretar a característica latente. Em ambos os modelos – Eq.2 e Eq.3 – você é livre para decidir, sem prejudicar a equação , de que forma os termos são escalados. Se F (ou P1) for considerado com escala unitária, $ a $ está carregando; enquanto se F (P1) tem que ter seu nativo escala (variação), então $ a $ deve ser redimensionado de acordo – no PCA que será igual às entradas de autovetor, b ut em FA eles serão diferentes e geralmente não chamados de ” vetores próprios “. Na maioria dos textos sobre análise fatorial, F são assumidos como variância da unidade, então $ a $ são carregamentos . Na literatura do PCA, P1 é tipicamente discutido tendo sua variação real e, portanto, $ a $ são autovetores.
OK, de volta ao tópico. E1 e E2 não estão correlacionados na análise fatorial; portanto, eles devem formar uma nuvem de erros redondos ou elípticos, mas não orientados diagonalmente. Enquanto em PCA sua nuvem formou uma linha reta coincidindo com P2 diagonalmente. Ambas as ideias são demonstradas na foto:
Observe que os erros são nuvens redondas (não alongadas diagonalmente) em FA. Fator (latente) em FA é orientado um pouco diferente, ou seja, não é correto o primeiro componente principal que é o ” latente ” em PCA . Na foto, a linha do fator é estranhamente cônica um pouco – ficará claro o porquê no final.
Qual é o significado desta diferença entre PCA e FA? Variáveis correlacionadas, o que é visto na forma elíptica diagonalmente da nuvem de dados. P1 desnatou a variância máxima, então a elipse é codirigida para P1. Consequentemente, P1 explicava por si mesmo a correlação; mas não explicou a quantidade existente de correlação adequadamente; parecia explicar a variação nos pontos de dados, não a correlação. Na verdade, ele superestimou a correlação, cujo resultado foi o aparecimento da diagonal, nuvem de erros correlacionada que compensou a superestimativa. P1 sozinho não pode explicar a força da correlação / covariação de forma abrangente. O fator F pode fazer isso sozinho; e a condição em que se torna capaz de fazê-lo é exatamente onde os erros podem ser forçados a não estar correlacionados. Como a nuvem de erro é redonda, nenhuma correlação – positiva ou negativa – permaneceu depois que o fator foi extraído, portanto, é o fator que eliminou tudo.
Como uma redução de dimensionalidade, O PCA explica a variância , mas explica as correlações de maneira imprecisa. FA explica correlações , mas não pode explicar (pelos fatores comuns) tanta variação de dados quanto o PCA pode. O (s) fator (es) em FA contabilizam aquela porção da variabilidade que é a porção correlacional líquida, chamada comunalidade ; e, portanto, os fatores podem ser interpretados como forças / características / características reais, embora não observáveis, que ocultam ” em ” ou ” por trás ” das variáveis de entrada para trazê-las para se correlacionarem. Porque eles explicam a correlação bem matematicamente. Componentes principais (alguns primeiros) explicam matematicamente não tão bem e, portanto, pode ser chamado de ” traço latente ” (ou algo semelhante) apenas em algum trecho e provisoriamente .
A multiplicação de carregamentos é o que explica (restaura) a correlação, ou correlacionado no forma de covariância – se a análise foi baseada na matriz de covariância (como no nosso exemplo) ao invés da matriz de correlação.A análise fatorial que fiz com os dados rendeu a_1=.87352, a_2=.84528
, então o produto a_1*a_2 = .73837
é quase igual à covariância .73915
. Por outro lado, os carregamentos de PCA foram a1_1=.97497, a1_2=.89832
, então a1_1*a1_2 = .87584
superestima .73915
consideravelmente.
Tendo explicado a principal distinção teórica entre PCA e FA, vamos voltar aos nossos dados para exemplificar a ideia.
FA: solução aproximada (pontuação dos fatores)
Abaixo está o gráfico de dispersão mostrando os resultados da análise que “chamaremos provisoriamente de ” análise fatorial subótima “, Fig.3 .
A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings).
Veja as partidas de Fig .2 do PCA. A nuvem bege dos erros não é redonda, é diagonalmente elíptica, – no entanto, é evidentemente muito mais espessa do que a linha diagonal fina que ocorreu no PCA. Observe também que os conectores de erro (mostrados para alguns pontos) não são mais paralelos (em PCA, eles eram, por definição, paralelos a P2). Além disso, se você olhar, por exemplo, os pontos ” F ” e ” E ” que se espelham simetricamente sobre o fator “s F eixo, você descobrirá, inesperadamente, que suas pontuações de fator correspondentes são valores bastante diferentes. Em outras palavras, pontuações de fator não são apenas pontuações de componente principal transformadas linearmente: o fator F é encontrado em sua própria maneira diferente do caminho P1. E seus eixos não coincidem totalmente se mostrados juntos no mesmo gráfico Fig.4 :
Além de serem um pouco diferentes orientados, F (como lado a lado com pontuações) é mais curto, ou seja, é responsável por uma variação menor do que P1. Conforme observado anteriormente, o fator é responsável apenas pela variabilidade, que é responsável pela correlação de V1 V2, ou seja, a porção da variância total que é suficiente para trazer as variáveis da covariância primitiva 0
para a covariância factual .73915
.
FA: solução ótima (fator verdadeiro)
Uma solução de fator ideal é quando os erros são redondos ou nuvens elípticas não diagonais : E1 e E2 são totalmente não correlacionados . A análise fatorial, na verdade, retorna como uma solução ótima. Eu não o mostrei em um gráfico de dispersão simples como os acima. Por que eu fiz? – pois teria sido a coisa mais interessante, afinal.
A razão é que seria impossível mostrar um gráfico de dispersão de forma adequada, mesmo adotando um gráfico 3D. É um ponto bastante interessante teoricamente. Para tornar E1 e E2 completamente não correlacionados, parece que todas essas três variáveis, F, E1, E2 não precisam estar no espaço (plano) definido por V1, V2; e os três não devem estar correlacionados entre si . Acredito que seja possível desenhar esse gráfico de dispersão em 5D (e talvez com algum truque – em 4D), mas vivemos no mundo 3D, infelizmente. O fator F deve ser não correlacionado com E1 e E2 (embora os dois também não estejam correlacionados) porque F deve ser apenas (limpo) e completo fonte de correlação nos dados observados. A análise fatorial divide a variância total das p
variáveis de entrada em duas variáveis não correlacionadas (não sobrepostas ) partes: comunalidade parte (m
-dimensional, onde m
regra de fatores comuns) e exclusividade parte (p
-dimensional, onde os erros são, também chamados de fatores únicos, mutuamente não correlacionados).
Portanto, desculpe por não mostrar o verdadeiro fator de nossos dados em um gráfico de dispersão aqui. Ele poderia ser visualizado de forma bastante adequada por meio de vetores no ” espaço do assunto ” como feito aqui sem mostrar pontos de dados.
Acima, na seção ” A ideia de FA comum (característica latente) ” Eu exibi o fator (eixo F) como cunha para avisar que o verdadeiro eixo do fator não está no plano V1 V2. Isso significa que – em contraste com o componente principal P1 – o fator F como eixo não é uma rotação do eixo V1 ou V2 em seu espaço, e F como variável é não uma combinação linear das variáveis V1 e V2.Portanto, F é modelado (extraído das variáveis V1 v2) como se fosse uma variável externa e independente, não uma derivação delas. Equações como Eq.1 de onde o PCA começa, não são aplicáveis para calcular o fator verdadeiro (ideal) na análise fatorial, enquanto as equações formalmente isomórficas Eq.2 e Eq. 3 são válidos para ambas as análises. Ou seja, no PCA as variáveis geram componentes e os componentes voltam a prever variáveis; em FA fator (es) geram / predizem variáveis, e não para trás – o modelo de fator comum assume conceitualmente então , embora tecnicamente os fatores sejam extraídos das variáveis observadas.
Não só o fator verdadeiro não é uma função das variáveis manifestas, o fator verdadeiro “s valores não são definidos exclusivamente . Em outras palavras, eles são simplesmente desconhecidos. Isso tudo se deve ao fato de que nós” re no espaço analítico 5D excessivo e não em nosso espaço 2D doméstico dos dados. Apenas boas aproximações (existem vários métodos ) para valores de fator verdadeiros, chamados de pontuações de fator , são lá para nós. As pontuações dos fatores estão no plano V1 V2, assim como as pontuações dos componentes principais, são calculadas como as funções lineares de V1, V2, também, e foram que plotei na seção ” FA: solução aproximada (pontuação do fator) “. As pontuações dos componentes principais são valores reais dos componentes; pontuações de fator são apenas uma aproximação razoável para os valores indeterminados de fatores verdadeiros.
FA: resumo do procedimento
Para reunir em um pequeno coágulo o que as duas seções anteriores disseram, e adicionar golpes finais . Na verdade, o FA pode ( se você fizer isso direito, e ver também suposições de dados ) encontrar a solução do fator verdadeiro (por ” true ” Quero dizer aqui ideal para a amostra de dados). No entanto, existem vários métodos de extração (eles diferem em algumas restrições secundárias que colocam). A verdadeira solução do fator depende dos carregamentos $ a $ apenas . Assim, os carregamentos são fatores ideais e verdadeiros. As pontuações do fator – se você precisar delas – são calculáveis a partir dessas cargas de várias maneiras e retornam aproximações para valores de fator.
Assim, ” solução de fator ” exibida por mim na seção ” FA: solução aproximada (pontuações de fator) ” foi baseada na verdade em carregamentos ótimos, ou seja, em fatores verdadeiros. Mas as pontuações não eram ótimas, por destino. As pontuações são calculadas para ser uma função linear das variáveis observadas, como as pontuações dos componentes são, para que ambos pudessem ser comparados em um gráfico de dispersão e fiz isso em uma busca didática para mostrar como uma passagem gradual da ideia de PCA para a ideia de FA.
Deve-se ter cuidado ao plotar no mesmo biplot cargas fatoriais com pontuações de fator no ” espaço de fatores “, esteja ciente de que os carregamentos pertencem a fatores verdadeiros enquanto as pontuações pertencem a fatores substitutos (veja meus comentários a esta resposta neste tópico).
Rotação de fatores (cargas) ajuda a interpretar as características latentes. A rotação de carregamentos pode ser feita também no PCA se você usar o PCA como se a análise fatorial (ou seja, consulte o PCA como previsão de variável). O PCA tende a convergir em resultados com o FA conforme o número de variáveis aumenta (consulte o extremamente thread rico sobre semelhanças e diferenças práticas e conceituais entre os dois métodos). Veja minha lista de diferenças entre PCA e FA no final desta resposta . Cálculos passo a passo de PCA vs FA no conjunto de dados iris podem ser encontrados aqui . Há um número considerável de bons links para respostas de outros participantes sobre o tópico fora deste tópico; Lamento ter usado apenas alguns deles na resposta atual.
Veja também uma lista com marcadores das diferenças entre PCA e FA aqui .
Comentários
- +1. É ‘ ótimo que você escreveu isso, este tópico definitivamente não teve uma resposta sua. Votei positivamente antes de ler (o que raramente faço) e certamente gostei da leitura posterior. Eu poderia comentar mais tarde, mas um pequeno detalhe por agora: você escreveu várias vezes que no FA a nuvem de erros deve ser ” round ” .Mas, na verdade, pode muito bem ser elíptico (porque as singularidades de V1 e V2 podem ter variâncias diferentes), ele só precisa ter correlações zero. Acho que você não quis confundir os leitores com esse detalhe.
- @amoeba Tenho uma dúvida ingênua quanto à impossibilidade matemática de representar o F, E1, E2 ótimo no espaço (plano) definido por V1, V2. Posso pensar em um exemplo de contador para isso: Digamos $ V_1 = a_ {1} F + E_1 $ e $ V_2 = a_ {2} F + E_2 $, onde $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $ – Agora use essas relações para gerar amostras de V1 e V2. Uma vez que V1 e V2 são gerados, se quisermos realizar a FA ideal, devemos obter estimativas quase precisas de (E1, E2), e isso formará uma nuvem elíptica. Além disso, agora F, E1, E2 podem ser representados no mesmo plano que V1 e V2.
- @kasa, seu comentário saudando minha resposta ou ameba ‘ s comentário? Se o seu comentário for contra a minha afirmação principal de que em FA as três variáveis latentes não estão no espaço original e você pode mostrá-lo, por que não emitir uma resposta mostrando isso? Mas observe que no FA ideal, os erros são exatamente não correlacionados, não que eles possam ser imaginados como vindos de população normal não correlacionada.
- @ttnphns : Desculpe pela confusão, eu estava duvidando de sua reivindicação principal. Vou tentar mostrar isso como uma resposta em alguns dias. Obrigado!
Resposta
As diferenças entre a análise fatorial e a análise do componente principal são:
• Na análise fatorial existe um modelo estruturado e alguns pressupostos. A este respeito, é uma técnica estatística que não se aplica à análise de componentes principais, que é uma transformação puramente matemática.
• O objetivo da análise de componentes principais é explicar a variância, enquanto a análise fatorial explica a covariância entre os variáveis.
Uma das maiores razões para a confusão entre os dois tem a ver com o fato de que um dos métodos de extração de fator na Análise Fatorial é denominado “método dos componentes principais”. No entanto, uma coisa é usar PCA e outra é usar o método dos componentes principais em FA. Os nomes podem ser semelhantes, mas existem diferenças significativas. O primeiro é um método analítico independente, enquanto o último é apenas uma ferramenta para extração de fator.
Resposta
Para mim (e espero que seja útil), a análise de fator é muito mais útil do que o PCA.
Recentemente, tive o prazer de analisar uma escala por meio da análise fatorial. Essa escala (embora seja amplamente usada na indústria) foi desenvolvida usando o PCA e, pelo que sei, nunca foi fator analisado.
Quando fiz a análise fatorial (eixo principal), descobri que as comunalidades para três dos itens eram inferiores a 30%, o que significa que mais de 70% da variância dos itens “não estava sendo analisada. PCA apenas transforma os dados em uma nova combinação e não se preocupa com comunalidades. Minha conclusão foi que a escala não era muito boa do ponto de vista psicométrico e eu confirmei isso com uma amostra diferente.
Essencialmente, se você deseja prever usando os fatores, use PCA , enquanto se você quiser entender os fatores latentes, use a Análise Fatorial.
Resposta
Expandindo a resposta de @StatisticsDocConsulting “: a diferença nas cargas entre EFA e PCA não é trivial com um pequeno número de variáveis. Aqui está uma função de simulação para demonstrar isso em R:
simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}
Por padrão, esta função executa 100 Iterations
, em cada um dos quais ele produz amostras aleatórias, normalmente distribuídas (Sample.Size
$ = 1000 $) de três variáveis e extrai um fator usando PCA e ML-EFA. Ele produz uma lista de dois Iterations
vetores longos compostos das magnitudes médias das variáveis simuladas “carregamentos no primeiro componente não girado do PCA e fator geral do EFA, respectivamente. Ele permite que você brinque com o tamanho da amostra e o número de variáveis e fatores para se adequar à sua situação, dentro dos limites de principal()
e factanal()
funções e seu computador.
Usando este código, eu simulei amostras de 3 a 100 variáveis com 500 iterações cada para produzir dados:
Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}
… para um gráfico da sensibilidade dos carregamentos médios (entre variáveis e iterações) ao número de variáveis:
Isso demonstra quão diferente um tem que interpretar a força das cargas em PCA vs. EFA. Ambos dependem um pouco do número de variáveis, mas as cargas são enviesadas para cima com muito mais força na PCA. A diferença entre as cargas médias desses métodos diminui à medida que o número de variáveis aumenta, mas mesmo com 100 variáveis, carregamentos de PCA em média $ 0,067 $ mais elevados do que carregamentos de EFA em dados normais aleatórios.No entanto, observe que os carregamentos médios geralmente serão maiores em aplicações reais, porque geralmente se usa esses métodos em variáveis mais correlacionadas. Não tenho certeza de como isso pode afetar a diferença de cargas médias.
Resposta
Uma citação de um livro realmente bom ( Brown, 2006, pp. 22, ênfase adicionada).
PCA = análise de componentes principais
EFA = análise fatorial exploratória
CFA = análise fatorial confirmatória
Embora relacionada à EFA, a análise de componentes principais (PCA) é frequentemente mal categorizada como um método de estimativa de análise de fator comum. Ao contrário dos estimadores discutidos no parágrafo anterior (ML, PF), a PCA depende de um conjunto diferente de métodos que não são baseados no modelo de fator comum. A PCA não diferencia a variância comum da única. Em vez disso, a PCA visa contabilizar a variância nas medidas observadas em vez de explicar as correlações entre elas. Assim, a PCA é mais apropriadamente usada como um técnica de redução de dados para reduzir um conjunto maior de medidas a um número menor e mais gerenciável de variáveis compostas para usar em análises subsequentes. No entanto, alguns metodologistas argumentaram que o PCA é uma alternativa razoável ou talvez superior ao EFA, em vista do fato de que o PCA possui várias propriedades estatísticas desejáveis (por exemplo, computacionalmente mais simples, não suscetível a soluções inadequadas, muitas vezes produz resultados semelhantes aos do EFA , capacidade do PCA para calcular a pontuação de um participante em um componente principal, enquanto a natureza indeterminada do EFA complica tais cálculos). Embora o debate sobre essa questão continue, Fabrigar et al. (1999) fornecem várias razões em oposição ao argumento para o lugar da PCA na análise fatorial. Esses autores ressaltam as situações em que EFA e PCA produzem resultados diferentes; por exemplo, quando as comunalidades são baixas ou quando existem apenas alguns indicadores de um determinado fator (cf. Widaman, 1993). Independentemente disso, se a justificativa primordial e os objetivos empíricos de uma análise estiverem de acordo com o modelo de fator comum, então é conceitual e matematicamente inconsistente conduzir PCA; ou seja, o AFE é mais adequado se o objetivo declarado for reproduzir as intercorrelações de um conjunto de indicadores com um número menor de dimensões latentes, reconhecendo a existência de erro de medição nas medidas observadas. Floyd e Widaman (1995) afirmam que as estimativas baseadas em EFA são mais propensas a generalizar para CFA do que aquelas obtidas a partir de PCA em que, ao contrário de PCA, EFA e CFA são baseadas no modelo de fator comum. Esta é uma consideração digna de nota à luz do fato de que EFA é frequentemente usado como um precursor para CFA no desenvolvimento de escala e validação de construto. Uma demonstração detalhada das diferenças computacionais entre PCA e EFA pode ser encontrada em livros multivariados e analíticos de fator (por exemplo, Tabachnick & Fidell, 2001).
Brown, TA (2006). Análise fatorial confirmatória para pesquisa aplicada. Nova York: Guilford Press.
Resposta
Alguém pode pensar de um PCA como sendo um FA em que as comunalidades são consideradas iguais a 1 para todas as variáveis. Na prática, isso significa que os itens que teriam cargas fatoriais relativamente baixas na AF devido à baixa comunalidade terão cargas maiores na ACP. Este não é um recurso desejável se o objetivo principal da análise for cortar o comprimento do item e limpar uma bateria de itens com cargas baixas ou duvidosas, ou para identificar conceitos que não estão bem representados no pool de itens.
Resposta
Em um artigo de Tipping e Bischop, a estreita relação entre PCA Probabalística (PPCA) e a análise fatorial é discutida. O PPCA está mais próximo do FA do que o PCA clássico. O modelo comum é
$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$
onde $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ e $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.
- A análise fatorial assume que $ \ mathbf {\ Psi} $ é diagonal.
- PPCA assume $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $
Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Journal of the Royal Statistical Society, Volume 61, Edição 3, Páginas 611-622
Comentários
- + 1 sim. Acredito que entender o PPCA é necessário para entender a relação entre PCA e AF. Mas você poderia melhorar sua resposta discutindo a relação PCA / PPCA.
Resposta
Nenhuma dessas respostas é perfeito. Tanto o FA quanto o PCA têm algumas variantes. Devemos apontar claramente quais variantes são comparadas. Eu compararia a análise do fator de máxima verossimilhança com a PCA de Hotelling.O primeiro assume que a variável latente segue uma distribuição normal, mas o PCA não tem tal suposição. Isso tem levado a diferenças, como a solução, o aninhamento dos componentes, o exclusivo da solução, os algoritmos de otimização.
Comentários
- Gostaria de saber se você poderia expandir um pouco sobre isso – você disse que há diferenças na última frase, mas não deu muitas informações sobre quais podem ser essas diferenças, ou de que maneira essas diferenças podem ser importantes?
- Selecionar dois métodos mais distantes e afirmar que eles são realmente diferentes – como você – também não é uma lógica perfeita . Provavelmente, devemos encontrar e relatar como esses dois são semelhantes. Como alternativa, pode-se escolher os métodos mais semelhantes (como PCA simples vs PAF ) e relatar de que maneira eles são diferentes.
- Hotelling ‘ s PCA assume gaussianas latentes.
Resposta
Há muitas respostas ótimas para este post, mas recentemente, descobri outra diferença.
Clustering é um aplicativo em que PCA e FA produzem resultados diferentes. Quando há muitos recursos nos dados, pode-se tentar encontrar as principais direções do PC e projetar os dados nesses PCs e, em seguida, prosseguir com o agrupamento. Freqüentemente, isso perturba os clusters inerentes aos dados – esse é um resultado comprovado. Pesquisadores sugerem prosseguir com métodos de agrupamento de subespaço, que procuram fatores latentes de baixa dimensão no modelo.
Apenas para ilustrar essa diferença, considere o conjunto de dados Crabs
no conjunto de dados R. Crabs tem 200 linhas e 8 colunas, descrevendo 5 medições morfológicas em 50 caranguejos de duas cores formas e ambos os sexos, da espécie – Existem essencialmente 4 (2×2) classes diferentes de caranguejos.
library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23)
#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2
Como podemos ver nos gráficos acima, PC2 e PC3 carregam mais informações discriminativas do que PC1.
Se alguém tentar agrupar usando os fatores latentes usando uma mistura de analisadores de fator, veremos um resultado muito melhor em comparação com o uso dos dois primeiros PCs.
mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5
Comentários
- Devo dizer que duvido que essa resposta realmente responda à pergunta. A resposta é sobre a análise de cluster após o PCA ou FA, não sobre o PCA e o FA em si. Mas mesmo nesse aspecto a resposta é vaga ou inacabada. Como a diferença que você exibe deve ser explicada?
- @ttnphns Eu concordo com a resposta sendo sobre análise de cluster. No entanto, o OP também solicitou um cenário da vida real com o PCA / FA, em que um precisa ser usado em vez do outro. Normalmente PCA ou FA nunca é o objetivo final – Por exemplo, Nas ciências sociais, o objetivo final seria segmentar as disciplinas em diferentes clusters / grupos. Minha resposta aborda tais cenários. No caso de você achar que minha resposta pode ser melhorada, fique à vontade para apontar.
- Acho que sua resposta pode se tornar realmente relevante se você explicar sua descoberta. Você afirma que as diferenças entre PCA e FA são intrínsecas para os dois métodos (apenas elas se tornam aparentes no agrupamento). Eu acho que você deve mostrar ou pelo menos especular como ou por que as diferenças surgem teoricamente das diferenças dos métodos ‘ modelos.