Wygląda na to, że kilka pakietów statystycznych, których używam, łączy te dwa pojęcia razem. Zastanawiam się jednak, czy istnieją różne założenia lub „formalności” dotyczące danych, które muszą być prawdziwe, aby można było zastosować jedno nad drugim. Prawdziwy przykład byłby niezwykle przydatny.

Komentarze

  • Rozdziały dotyczące analizy głównych składników i analizy czynnikowej w poniższej książce, dostępnej w większości bibliotek uczelnianych, zawierają dokładne odpowiedzi na Twoje pytanie: apa.org/ pubs / books / 4316510.aspx
  • Oprócz poniższych odpowiedzi możesz przeczytać także to i to moje.
  • I jeszcze jedno dobre pytanie, takie jak „, czy powinienem użyć PCA lub FA „: stats.stackexchange.com/q/123063/3277 .
  • @ttnphns: Zachęcam cię do udzielenia odpowiedzi w tym wątku, być może składającej się z listy twoich odpowiedzi z adnotacjami w innych powiązanych wątkach. To mogłoby zastąpić twoje komentarze powyżej (obecnie cztery co komentarze z linkami) i byłoby bardziej praktyczne, zwłaszcza jeśli zwięźle dodasz adnotacje do każdego linku. Na przykład. poszukaj tutaj wyjaśnienia tego problemu, poszukaj tam wyjaśnienia tego problemu, itd. To tylko sugestia, ale uważam, że ten wątek bardzo by na tym skorzystał! Jedną szczególną zaletą jest to, że zawsze możesz dodać więcej linków do tej odpowiedzi.
  • Podobne pytanie zadano MathOverflow i otrzymałem odpowiedź, którą uważam za doskonałą: mathoverflow.net/questions/40191/ …

Odpowiedź

Analiza głównych składowych obejmuje wyodrębnianie liniowych kompozycji obserwowanych zmiennych.

Analiza czynnikowa jest oparta na formalnym modelu przewidującym obserwowane zmienne na podstawie teoretycznych czynników ukrytych.

W psychologii te dwie Techniki są często stosowane przy konstruowaniu testów wieloskalowych w celu określenia, które elementy ładują się na jaką skalę. Zazwyczaj prowadzą do podobnych merytorycznych wniosków (do dyskusji patrz Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Pomaga to wyjaśnić, dlaczego niektóre pakiety statystyk wydają się łączyć je razem. Widziałem również sytuacje, w których „analiza głównych składowych” jest nieprawidłowo oznaczana jako „analiza czynnikowa”.

W kategoriach prostej reguły , proponuję, abyś:

  1. Przeprowadź analizę czynnikową, jeśli zakładasz lub chcesz przetestować model teoretyczny czynników latentnych powodujących obserwowane zmienne.

  2. Uruchom analizę głównych składowych Jeśli chcesz po prostu zredukować skorelowane obserwowane zmienne do mniejszego zestawu ważnych niezależnych zmiennych złożonych.

Komentarze

  • Praktyczna reguła jest bardzo przydatna. Dzięki za to.
  • Odnośnie praktycznej reguły (1): Wouldn ' t Testuję model teoretyczny czynników ukrytych za pomocą konfirmacyjnej analizy czynnikowej zamiast eksploracyjnej fa? Ki?
  • @roman Tak. CFA daje znacznie większą kontrolę nad modelem niż EFA Np. możesz ograniczyć ładunki do zera, zrównać ładunki, skorelować resztę ls; dodaj czynniki wyższego rzędu; itp.
  • @Jeromy Anglim Czy naprawdę słuszne jest stwierdzenie, że PCA tworzy ” mniejszy zestaw ważnych niezależnych zmiennych złożonych. ” A może naprawdę powinieneś powiedzieć ” mniejszy zestaw ważnych nieskorelowanych zmiennych złożonych „. Jeśli dane bazowe używane w PCA nie mają (wielowymiarowego) rozkładu normalnego, zredukowane dane wymiarowe będą tylko nieskorelowane?
  • Drugi kciuk reguły jest łatwy do zdobycia, ale jak zastosować pierwszy? Brzmi może dziwnie, ale kiedy wiem, że chcę ' uruchomić model czynnikowy z obserwowanymi zmiennymi?

Odpowiedź

Z mojej odpowiedzi tutaj:

Czy po PCA następuje rotacja (np. varimax) nadal PCA?

Analiza głównych składników (PCA) i analiza wspólnych czynników (CFA) to odrębne metody. Często dają podobne wyniki, a metoda PCA jest stosowana jako domyślna metoda ekstrakcji w procedurach analizy czynnikowej SPSS. To niewątpliwie powoduje wiele nieporozumień co do rozróżnienia między nimi.

Podsumowując, są to dwa różne modele koncepcyjne. W PCA składowe są rzeczywistymi ortogonalnymi kombinacjami liniowymi, które maksymalizują całkowitą wariancję.W FA czynniki są kombinacjami liniowymi, które maksymalizują wspólną część wariancji – leżące u podstaw „utajonych konstrukcji”. Dlatego FA jest często nazywana „analizą czynników wspólnych”. FA wykorzystuje różnorodne procedury optymalizacji, a wynik, w przeciwieństwie do PCA, zależy od zastosowanej procedury optymalizacji i punktów początkowych tych procedur. Po prostu nie ma jednego unikalnego rozwiązania.

W R funkcja factanal () zapewnia CFA ekstrakcji z maksymalnym prawdopodobieństwem, więc nie należy oczekiwać, że odtworzy wynik SPSS oparty na ekstrakcji PCA. Po prostu nie jest to ten sam model lub logika. Nie jestem pewien, czy uzyskasz taki sam wynik, jeśli użyjesz ekstrakcji maksymalnego prawdopodobieństwa SPSS, ponieważ mogą one nie używać tego samego algorytmu.

lepiej lub gorzej w R, możesz jednak odtworzyć pomieszaną „analizę czynnikową”, którą SPSS dostarcza jako domyślną. Oto proces w R. Z tym kodem mogę odtworzyć główny składnik SPSS ” Analiza czynnikowa ”wynik przy użyciu tego zbioru danych. (Z wyjątkiem znaku, który jest nieokreślony). Wynik ten można również następnie obracać przy użyciu dowolnej z dostępnych metod rotacji R.

data(attitude) # Compute eigenvalues and eigenvectors of the correlation matrix. pfa.eigen <- eigen(cor(attitude)) # Print and note that eigenvalues are those produced by SPSS. # Also note that SPSS will extract 2 components as eigenvalues > 1 = 2. pfa.eigen$values # Set a value for the number of factors (for clarity) kFactors <- 2 # Extract and transform two components. pfa.eigen$vectors[, seq_len(kFactors)] %*% diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors) 

Komentarze

  • Zwróć uwagę, że te same wyniki uzyskasz z principal(attitude, 2, rotate="none") z psych i reguła Kaysera ' (ev > 1) nie jest najbardziej zalecanym sposobem testowania wymiarowości (przecenia liczbę czynników).
  • Tak, znam psych s rincipal kończy to. Moim celem było pokazanie, co robi SPSS ” analiza czynnikowa ” podczas korzystania z metody wyodrębniania głównych składników. Zgadzam się, że reguła wartości własnej jest kiepskim sposobem doboru liczby czynników. Ale to jest dokładnie to, co domyślnie robi SPSS i to właśnie demonstrowałem.
  • factanal() zapewnia EFA, a nie CFA. Ponadto z mojego doświadczenia wynika, że wyodrębnianie maksymalnego prawdopodobieństwa SPSS ' powinno dawać taki sam wynik jak factanal(), biorąc pod uwagę, że nie ma skośnej rotacji.
  • Co to oznacza: ' W FA czynniki są kombinacjami liniowymi, które maksymalizują wspólną część wariancji – podstawowa ” ukryte konstrukcje „. '?
  • Należy również zauważyć, że CFA może oznaczać potwierdzający FA (w przeciwieństwie do objaśniający FA ) zamiast zwykłego FA .

Odpowiedź

Istnieje wiele sugerowanych definicji na sieć. Oto jeden z glosariusza on-line na temat uczenia się statystyki :

Główny składnik Analiza

Konstruowanie nowych cech, które są głównymi składnikami zbioru danych. Głównymi składowymi są zmienne losowe o maksymalnej wariancji, zbudowane z liniowych kombinacji cech wejściowych. Równoważnie są to rzuty na osie głównych składowych, które są liniami, które minimalizują średnią kwadratową odległość do każdego punktu w zestawie danych. Aby zapewnić unikalność, wszystkie główne osie składowe muszą być ortogonalne. PCA jest techniką największej wiarygodności dla regresji liniowej w obecności szumu Gaussa zarówno na wejściu, jak i na wyjściu. W niektórych przypadkach PCA odpowiada transformacji Fouriera, na przykład DCT używanej w kompresji obrazu JPEG. Zobacz „Eigenfaces for Rozpoznawanie” (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Bishop, „Probabilistic Principal Component Analysis” i „Automatic choice of Dimensions for PCA „.wybór wymiarowości dla PCA”.

Analiza czynnikowa

Uogólnienie PCA, które jest wyraźnie oparte na maksymalnym prawdopodobieństwie. Podobnie jak w przypadku PCA, zakłada się, że każdy punkt danych pochodzi z próbkowania punkt w podprzestrzeni, a następnie zaburzenie go pełnowymiarowym szumem gaussowskim. Różnica polega na tym, że analiza czynnikowa pozwala, aby szum miał dowolną ukośną macierz kowariancji, podczas gdy PCA zakłada, że szum jest sferyczny. Oprócz szacowania podprzestrzeni, analiza czynnikowa szacuje macierz kowariancji szumu. Zobacz „Algorytm EM dla mieszanin analizatorów czynnikowych” .choice of Dimensions of PCA ”.

Komentarze

  • Opis analizy czynnikowej zawiera główny punkt (kowariancja diagonalna), ale historycznie nie został opracowany jako uogólnienie PCA.
  • Czy w zasadzie w PCA jeden svd ' jest macierzą kowariancji, aw FA macierz korelacji? Zawsze ciężko jest mi znaleźć prawdziwą matematykę po tym, jak metody zgromadziły wiele terminologii z dziedziny, w której są stosowane.(nie na temat: zrozumienie, czym jest modelowanie ścieżki, zajęło mi kiedyś całe popołudnie, aż znalazłem jedną (1) pracę z 70 ' s, w których podano równanie macierzowe za nim. )

Odpowiedź

Masz rację co do pierwszego punktu, chociaż w FA generalnie pracujesz z obydwoma (niepowtarzalność i wspólnota). Wybór między PCA a FA to długoletnia debata wśród psychometrów. Jednak nie do końca podążam za Twoimi punktami. Obrót głównych osi można zastosować niezależnie od metody używanej do konstruowania czynników ukrytych. W rzeczywistości jest to w większości przypadków rotacja VARIMAX (rotacja ortogonalna, biorąc pod uwagę czynniki nieskorelowane). stosowane, ze względów praktycznych (najłatwiejsza interpretacja, najłatwiejsze reguły punktacji lub interpretacja punktacji czynnikowej itp.), chociaż skośna rotacja (np. tradycja FA, w której zakładasz, że utajony konstrukt jest naprawdę sercem obserwowanych korelacji między zmiennymi. Chodzi o to, że PCA, po którym następuje rotacja VARIMAX, nieco zniekształca interpretację liniowych kombinacji oryginalnych zmiennych w „danych analiza ”(patrz praca Michela Tenenhausa). Z psychometrycznego punktu widzenia preferowane są modele FA, ponieważ wyraźnie wyjaśniają błąd pomiaru s, podczas gdy PCA nie dba o to. Krótko mówiąc, za pomocą PCA wyrażasz każdy składnik (czynnik) jako liniową kombinację zmiennych, podczas gdy w FA są to zmienne, które są wyrażone jako liniowe kombinacje czynników (w tym wspólnoty i komponenty unikalności, jak powiedziałeś).

Zalecam przeczytanie najpierw następujących dyskusji na ten temat:

Komentarze

  • Powiem tylko, że moja odpowiedź może w rzeczywistości wyglądać trochę nie na temat, ponieważ to pytanie zostało połączone z innym, stats.stackexchange.com/questions/3369/… (początkowo odpowiadam na to drugie).
  • Ach, Zastanawiałem się, dlaczego połączyłeś się z tym pytaniemon, w tym pytaniu … 🙂
  • . Chl, czy mógłbyś to wyjaśnić? To ' jest interesujące.

Odpowiedź

Najlepsza odpowiedź w tym wątku sugeruje, że PCA jest bardziej techniką redukcji wymiarowości, podczas gdy FA jest bardziej utajoną techniką zmiennej. To jest sensu stricto poprawne. Ale wiele odpowiedzi tutaj i wiele terapii w innych przedstawia PCA i FA jako dwie zupełnie różne metody, o odmiennych, jeśli nie przeciwnych celach, metodach i wynikach. Nie zgadzam się; Uważam, że kiedy PCA jest traktowana jako technika zmiennej latentnej, jest ona dość bliska FA i lepiej jest postrzegać je jako metody bardzo podobne.

W poniższym wątku przedstawiłem własne zestawienie podobieństw i różnic między PCA i FA: Czy jest jakiś dobry powód, aby używać PCA zamiast EFA? Czy też PCA może zastąpić analizę czynnikową? W tym miejscu argumentuję, że z prostych powodów matematycznych można oczekiwać, że wynik PCA i FA będzie dość podobny, biorąc pod uwagę tylko, że liczba zmiennych nie jest bardzo mała (być może kilkanaście). Zobacz moją [długą!] Odpowiedź w powiązanym wątku, aby poznać szczegóły matematyczne i symulacje Monte Carlo. Aby uzyskać znacznie bardziej zwięzłą wersję mojego argumentu, zobacz tutaj: W jakich warunkach PCA i FA dają podobne wyniki?

Tutaj chciałbym aby pokazać to na przykładzie. Przeanalizuję zbiór danych wina z repozytorium UCI Machine Learning. Jest to dość dobrze znany zbiór danych zawierający $ n = 178 $ win z trzech różnych winogron opisanych zmiennymi $ p = 13 $. Oto jak wygląda macierz korelacji:

Macierz korelacji zbioru danych wina

Przeprowadziłem analizę PCA i FA i pokazałem Rzuty 2D danych w postaci biplotów dla obu na rysunku poniżej (PCA po lewej, FA po prawej). Osie poziome i pionowe pokazują wyniki pierwszego i drugiego składnika / współczynnika. Każda z $ n = 178 $ kropek odpowiada jednemu winu, a kropki są pokolorowane zgodnie z grupą (patrz legenda):

Analiza PCA i FA zbioru danych wina

Ładowanie pierwszego i drugiego składnika / współczynnika na każdą z oryginalnych zmiennych $ p = 13 $ jest pokazane jako czarne linie. Są one równe korelacjom między każdą z pierwotnych zmiennych a dwoma składowymi / czynnikami.Oczywiście korelacje nie mogą przekraczać 1 $, więc wszystkie linie ładowania znajdują się wewnątrz „koła korelacji” pokazującego maksymalną możliwą korelację. Wszystkie ładunki i okrąg są dowolnie skalowane o współczynnik 3 $, w przeciwnym razie byłyby zbyt małe, aby można je było zobaczyć (więc promień koła wynosi 3 $, a nie 1 $).

Zauważ, że tam nie ma prawie żadnej różnicy między PCA i FA! Tu i ówdzie występują niewielkie odchylenia, ale ogólny obraz jest prawie identyczny, a wszystkie obciążenia są bardzo podobne i wskazują te same kierunki. Dokładnie tego oczekiwano od teorii i nie jest to niespodzianką; nadal jest pouczające.

PS. O wiele ładniejszy biplot PCA tego samego zbiór danych, patrz odpowiedź od @vqv .

PPS. Podczas gdy obliczenia PCA są standardowe, obliczenia FA mogą wymagać komentarza. Ładunki czynnikowe zostały obliczone przez algorytm „iterowanych głównych czynników” aż do osiągnięcia zbieżności (9 iteracji), przy czym wspólnoty zostały zainicjowane za pomocą korelacji częściowych. Gdy ładunki się zbiegły, wyniki obliczono metodą Bartletta. Daje to standardowe wyniki; przeskalowałem je w górę o odpowiednie wariancje czynnikowe (określone przez długości ładunków).

Komentarze

  • Z jakiego oprogramowania korzystałeś do tworzenia wykresów PCA i analizy czynnikowej?
  • Użyłem Matlaba. Myślałem o wklejeniu kodu do mojej odpowiedzi (jak zwykle mam ), ale nie chciałem jeszcze bardziej zaśmiecać tego zajętego wątku. Ale jeśli się nad tym zastanowić, powinienem zamieścić go na zewnętrznej stronie internetowej i zostawić tutaj link. Zrobię to.
  • To prawda że PCA i FA czasami i wcale nie rzadko dają podobne wyniki (ładunki), więc PCA można postrzegać jako specyficzny przypadek FA, gdy analiza czynnikowa jest zdefiniowane szeroko. Wciąż FA (sensu stricto) i PCA są teoretycznie całkiem różne.
  • (cd.) Czynniki to transcendentne ukryte cechy; pr. komponenty to immanentne wyprowadzenia. Pomimo twoich dwóch wykresów ładowania aplikacja ucho praktycznie podobne, teoretycznie różnią się zasadniczo. Płaszczyzna komponentów po lewej została utworzona jako podprzestrzeń zmiennych, które się na nią rzutują. Płaszczyzna współczynnika została utworzona jako przestrzeń inna od przestrzeni zmiennych, więc rzutują one na ” obcy ” spacja na prawym wykresie.
  • (cd.) Ale prawy obrazek (FA) w rzeczywistości nie jest prawdziwym biplotem , jest to raczej nakładanie się dwóch odrębnych wykresów rozrzutu, różnych przestrzeni: wykresu obciążenia (gdzie osie są rzeczywistymi czynnikami) i wykresu punktacji obiektu (gdzie osie są oszacowanymi czynnikami jako wyniki). Rzeczywista przestrzeń czynnikowa przekracza ” rodzicielską ” przestrzeń zmiennej, ale jej podprzestrzeń stanowi przestrzeń punktacji współczynnika. Nałożono dwie heterogeniczne pary osi, ale mają one te same etykiety (” współczynnik1 ” i ” factor2 ” w obu parach), która to okoliczność jest mocno myląca i skłania nas do myślenia, że jest to prawdziwy biplot , jak ten po lewej stronie.

Odpowiedź

Podstawowe, ale swego rodzaju żmudne wyjaśnienie Analiza PCA vs Factor za pomocą wykresów rozrzutu, w logicznych krokach. (Dziękuję @amoeba, który w swoim komentarzu do pytania zachęcił mnie do zamieszczenia odpowiedzi zamiast tworzenia linków do innego miejsca. Oto więc czas wolny, spóźniona odpowiedź.)

PCA jako podsumowanie zmiennych (wyodrębnianie funkcji)

Mam nadzieję, że znasz już PCA. Aby ożywić teraz.

tutaj wprowadź opis obrazu

Załóżmy, że mamy skorelowane zmienne $ V_1 $ i $ V_2 $ . Wyśrodkowujemy je (odejmujemy średnią) i wykonujemy wykres rozrzutu. Następnie wykonujemy PCA na tych wyśrodkowanych danych. PCA jest formą obrotu osi , która oferuje osie P1 i P2 zamiast V1 i V2. Główną właściwością PCA jest to, że P1 – zwany pierwszym głównym składnikiem – zostaje zorientowany w taki sposób, że wariancja punktów danych wzdłuż niego jest zmaksymalizowana. Nowe osie to nowe zmienne, których wartości można obliczyć, o ile znamy współczynniki rotacji $ a $ (zapewnia je PCA) [ Eq.1 ]:

$ P1 = a1_1V_1 + a1_2V_2 $

$ P2 = a2_1V_1 + a2_2V_2 $

Te współczynniki są cosinusami obrotu (= cosinusy kierunkowe, główne kierunki) i zawierają tak zwane wektory własne, podczas gdy wartości własne macierzy kowariancji to główne wariancje składowe. W PCA zazwyczaj odrzucamy słabe ostatnie komponenty: w ten sposób podsumowujemy dane przez kilka pierwszych wyodrębnionych komponentów, z niewielką utratą informacji.

Covariances V1 V2 V1 1.07652 .73915 V2 .73915 .95534 ----PCA---- Eigenvalues % P1 1.75756 86.500 P2 .27430 13.500 Eigenvectors P1 P2 V1 .73543 -.67761 V2 .67761 .73543 

Z naszymi wykreślonymi danymi, P1 wartości składników (wyniki) P1 = .73543*V1 + .67761*V2 i składnik P2 odrzucamy. Wariancja P1 to 1.75756, pierwsza wartość własna macierzy kowariancji, więc P1 wyjaśnia 86.5% sumy wariancja, która jest równa (1.07652+.95534) = (1.75756+.27430).

PCA jako zmienna prognoza (” latent „)

Dlatego odrzuciliśmy P2 i spodziewaliśmy się, że samo P1 może rozsądnie reprezentować dane. To jest równoważne stwierdzeniu, że $ P1 $ może dość dobrze ” zrekonstruować ” lub przewidzieć $ V_1 $ i $ V_2 $ [ Równanie 2 ]:

$ V_1 = a1_ {1} P1 + E_1 $

$ V_2 = a1_ {2} P1 + E_2 $

gdzie współczynniki $ a $ to to, co już wiemy, a $ E $ to błędy (nieprzewidywalność). W rzeczywistości jest to ” model regresyjny „, w którym obserwowane zmienne są przewidywane (wstecz) przez zmienną ukrytą (jeśli pozwolić na wywołanie komponentu a ” latent ” one) P1 wyodrębniony z tych samych zmiennych. Spójrz na wykres Rys. 2 , to nic innego jak Rys. .1 , tylko szczegółowe:

tutaj wprowadź opis obrazu

Oś P1 jest pokazana sąsiadująco z jej wartościami (punktami P1) na zielono (wartości te są rzutami punktów danych na P1). Niektóre arbitralne punkty danych zostały oznaczone jako A, B, …, a ich odstępstwo (błąd) od P1 to pogrubione czarne złącza. Dla punktu A pokazane są szczegóły: współrzędne wyniku P1 (zielony A) na osiach V1 i V2 to zrekonstruowane wartości P1 V1 i V2 zgodnie z Równanie 2 , $ \ hat {V_1} = a1_ {1} P1 $ i $ \ hat {V_2} = a1_ {2} P1 $ . Błędy rekonstrukcji $ E_1 = V_1- \ hat {V_1} $ i $ E_2 = V_2- \ hat {V_2} $ są również wyświetlane w kolorze beżowym. Według pitagorejczyka ” błąd ” długość do kwadratu łącznika to suma dwóch błędów do kwadratu.

Teraz, cechą charakterystyczną PCA jest to, że jeśli obliczymy E1 i E2 dla każdego punktu w danych i wykreślimy te współrzędne – tzn. wykres rozrzutu samych błędów, chmura ” dane błędu ” zbiegną się z odrzucony komponent P2. I tak: chmura jest wykreślana na tym samym obrazie co beżowa chmura – i widzisz, że faktycznie tworzy oś P2 (z Rys.1 ) wraz z punktami składowymi P2.

Nic dziwnego, możesz powiedzieć. To takie oczywiste: w PCA , odrzucone młodsze komponenty są tym, co dokładnie rozkłada się (s) w błędach przewidywania E, w modelu, który wyjaśnia (przywraca) oryginalne zmienne V przez ukrytą cechę (cechy) P1. Błędy E razem stanowią po prostu pominięty składnik (i). Tutaj analiza czynnikowa zaczyna się różnić od PCA.

Idea wspólnego FA (utajona cecha )

Formalnie model przewidujący zmienne manifestowe na podstawie wyodrębnionych cech ukrytych jest taki sam w FA jak w PCA; [ Eq.3 ]:

$ V_1 = a_ {1} F + E_1 $

$ V_2 = a_ {2} F + E_2 $

gdzie F to utajony wspólny współczynnik wyodrębniony z danych i zastępujący to, co było P1 w Eq.2 .Różnica w modelu polega na tym, że w FA, w przeciwieństwie do PCA, zmienne błędu (E1 i E2) są wymagane , aby nie były ze sobą skorelowane .

Dygresja . Tutaj chcę nagle przerwać opowieść i wyobrazić sobie, jakie są współczynniki $ a $ . W PCA powiedzieliśmy, że były to wpisy wektorów własnych znalezionych w PCA (poprzez rozkład według wartości własnych lub wartości osobliwych). Podczas gdy utajony P1 miał swoją natywną wariancję. Jeśli zdecydujemy się ustandaryzować P1 na wariancję jednostek , będziemy musieli skompensować przez odpowiednie skalowanie współczynników w górę $ a $ , aby wesprzeć równanie. To przeskalowane w górę $ a $ s nazywane są ładunki ; są one interesujące pod względem liczbowym, ponieważ są kowariancjami (lub korelacjami) między zmiennymi ukrytymi a obserwowalnymi, dlatego mogą pomóc w interpretacji cechy ukrytej. W obu modelach – Równanie 2 i Eq.3 – możesz dowolnie decydować bez szkody dla równania , w jaki sposób skalowane są warunki. Jeśli F (lub P1) jest uważane za skalowane jednostkowo, ładuje się $ a $ , a jeśli F (P1) musi mieć swój własny scale (variance), to $ a $ powinno zostać odpowiednio zdeskalowane – w PCA, które będzie równe wpisom wektora własnego, b ut w FA będą różne i zwykle nie nazywane ” wektory własne „. W większości tekstów dotyczących analizy czynnikowej, F przyjmuje się jako wariancję jednostek, więc $ a $ to ładunki . W literaturze PCA, P1 jest zwykle omawiane jako jego rzeczywista wariancja, więc $ a $ to wektory własne.

OK, wracając do wątku. E1 i E2 są nieskorelowane w analizie czynnikowej; w związku z tym powinny tworzyć chmurę błędów okrągłych lub eliptycznych, ale nie zorientowanych ukośnie. Podczas gdy w PCA ich chmura utworzyła linię prostą zbiegającą się z ukośnie przechodzącym P2. Oba pomysły są pokazane na zdjęciu:

tutaj wprowadź opis obrazu

Zwróć uwagę, że błędy są okrągłe (nie po przekątnej) chmurki w FA. Czynnik (utajony) w FA jest nieco inny, tzn. Nie jest prawidłowy pierwszy główny składnik, którym jest ” utajony ” w PCA . Na rys. Linia czynnika jest nieco dziwnie stożkowa – na końcu stanie się jasne, dlaczego.

Jakie jest znaczenie tej różnicy między PCA a FA? Zmienne skorelowane, co jest widoczne w ukośnie eliptycznym kształcie chmury danych. P1 przeszukał maksymalną wariancję, więc elipsa jest współkierowana do P1. W konsekwencji P1 sam wyjaśnił korelację; ale nie wyjaśniło odpowiednio istniejącej ilości korelacji ; starał się wyjaśnić zmienność w punktach danych, a nie korelację. Właściwie to nadmiernie rozliczyło korelację, czego skutkiem było pojawienie się ukośnej, skorelowanej chmury błędów, które kompensują nadmierne rozliczenie. P1 sam nie jest w stanie wyczerpująco wyjaśnić siły korelacji / kowariancji. Factor F może zrobić to sam; a stan, w którym może to zrobić, jest dokładnie tym, w którym błędy mogą zostać zmuszone do nieskorelowania. Ponieważ chmura błędów jest okrągła, po wyodrębnieniu współczynnika nie pozostała żadna korelacja – dodatnia ani ujemna, dlatego jest to czynnik, który zebrał wszystko.

Jako redukcja wymiarów, PCA wyjaśnia wariancję , ale niedokładnie wyjaśnia korelacje. FA wyjaśnia korelacje , ale nie może uwzględnić (na podstawie wspólnych czynników) tak dużej zmienności danych, jak PCA. Czynniki w FA uwzględniają tę część zmienności, która jest częścią korelacyjną netto, zwaną wspólnotą ; dlatego czynniki można interpretować jako rzeczywiste, ale nieobserwowalne siły / cechy / cechy, które ukrywają ” w ” lub ” za ” zmiennymi wejściowymi w celu ich skorelowania. Ponieważ dobrze wyjaśniają korelację matematycznie. Główne komponenty (kilka pierwszych) wyjaśniają to matematycznie nie tak dobrze, więc można nazwać ” ukrytą cechą ” (lub coś takiego) tylko na pewnym etapie i wstępnie .

Mnożenie ładunków wyjaśnia (przywraca) korelację lub korelację w forma kowariancji – jeśli analiza została oparta na macierzy kowariancji (jak w naszym przykładzie), a nie na macierzy korelacji.Analiza czynnikowa, którą przeprowadziłem z uzyskanymi danymi a_1=.87352, a_2=.84528, więc iloczyn a_1*a_2 = .73837 jest prawie równy kowariancji .73915. Z drugiej strony ładunki PCA były a1_1=.97497, a1_2=.89832, więc a1_1*a1_2 = .87584 przeszacowuje .73915 znacznie.

Po wyjaśnieniu głównej teoretycznej różnicy między PCA i FA, wróćmy do naszych danych, aby zilustrować ten pomysł.

FA: przybliżone rozwiązanie (punktacja czynnikowa)

Poniżej znajduje się wykres rozrzutu przedstawiający wyniki analizy, którą „tymczasowo nazwiemy ” suboptymalną analizą czynnikową „, Rys.3 .

A technical detail (you may skip): PAF method used for factor extraction. Factor scores computed by Regression method. Variance of the factor scores on the plot was scaled to the true factor variance (sum of squared loadings). 

tutaj wprowadź opis zdjęcia

Zobacz odjazdy z Rys. .2 PCA. Beżowa chmura błędów nie jest okrągła, jest ukośnie eliptyczna, ale jest ewidentnie dużo grubsza niż cienka ukośna linia, która pojawiła się w PCA. Należy również zauważyć, że złącza błędów (pokazane dla niektórych punktów) nie są już równoległe (w PCA były z definicji równoległe do P2). Ponadto, jeśli spojrzysz na przykład na punkty ” F ” i ” E „, które znajdują się symetrycznie względem współczynnika „s F osi, nieoczekiwanie zobaczysz, że odpowiadające im wyniki współczynników mają zupełnie inne wartości. Innymi słowy, wyniki czynnikowe to nie tylko liniowo przekształcone wyniki składowych głównych: czynnik F jest na swój sposób inny od P1. A ich osie nie pokrywają się w pełni, jeśli są pokazane razem na tym samym wykresie Rys.4 :

wprowadź obraz d opis tutaj

Poza tym są nieco inaczej orienterd, F (jako kafelki z punktacjami) jest krótsze, tj. odpowiada za mniejszą wariancję niż kont P1. Jak wspomniano wcześniej, czynnik uwzględnia tylko zmienność, która jest odpowiedzialna za korelację V1 V2, tj. Część całkowitej wariancji, która jest wystarczająca do przeniesienia zmiennych z pierwotnej kowariancji 0 do faktycznej kowariancji .73915.

FA: rozwiązanie optymalne (rzeczywisty współczynnik)

Optymalnym rozwiązaniem jest sytuacja, gdy błędy są okrągłe lub nieprzekątne eliptyczne chmury : E1 i E2 są całkowicie nieskorelowane . Analiza czynnikowa faktycznie zwraca takie optymalne rozwiązanie. Nie pokazałem tego na prostym wykresie rozrzutu, takim jak te powyżej. Dlaczego ja? – bo to byłaby w końcu najciekawsza rzecz.

Przyczyna jest taka, że niemożliwe byłoby wystarczająco odpowiednie przedstawienie na wykresie rozrzutu, nawet przyjmując działkę 3D. Teoretycznie jest to dość interesująca kwestia. Wydaje się, że wszystkie te trzy zmienne, F, E1, E2 , nie muszą kłamać , aby całkowicie nieskorelować E1 i E2 w przestrzeni (płaszczyźnie) określonej przez V1, V2; i te trzy elementy muszą być ze sobą nieskorelowane . Wydaje mi się, że taki wykres rozrzutu można narysować w 5D (i może z jakimś chwytem – w 4D), ale niestety żyjemy w świecie 3D. Czynnik F musi być nieskorelowany zarówno z E1, jak i E2 (chociaż oba są również nieskorelowane), ponieważ F ma być tylko (czyste) i zakończone źródło korelacji w obserwowanych danych. Analiza czynnikowa dzieli całkowitą wariancję p zmiennych wejściowych na dwie nieskorelowane (nie pokrywające się) zmienne ) części: wspólnotowość część (m -wymiarowa, gdzie m zasada czynników wspólnych) i wyjątkowość część (p -wymiarowa, gdzie błędy są, zwane również czynnikami unikalnymi, wzajemnie nieskorelowane).

Więc przepraszam za nie pokazanie prawdziwego czynnika nasze dane na wykresie rozrzutu tutaj. Można to dość dobrze zwizualizować za pomocą wektorów w ” przestrzeni tematycznej ” jako tutaj bez pokazywania punktów danych.

Powyżej, w sekcji ” Idea wspólnego FA (funkcja ukryta) ” Wyświetliłem współczynnik (oś F) jako klin, aby ostrzec, że prawdziwa oś czynnika nie leży na płaszczyźnie V1 V2. Oznacza to, że – w przeciwieństwie do składowej głównej P1 – czynnik F jako oś nie jest obrotem osi V1 lub V2 w ich przestrzeni, a F jako zmienna nie jest kombinacją liniową zmiennych V1 i V2.Dlatego F jest modelowane (wyodrębniane ze zmiennych V1 v2) jako zewnętrzna, niezależna zmienna, a nie ich wyprowadzenie. Równania takie jak Eq.1 od miejsca, w którym zaczyna się PCA, nie nadają się do obliczenia prawdziwego (optymalnego) współczynnika w analizie czynnikowej, podczas gdy formalnie równania izomorficzne Eq.2 i Eq. 3 są ważne dla obu analiz. Oznacza to, że zmienne PCA generują komponenty, a komponenty przewidują zmienne; w FA czynnik (i) generują / przewidują zmienne, a nie wstecz – model wspólnego czynnika koncepcyjnie zakłada więc , mimo że technicznie czynniki są wyodrębniane z obserwowanych zmiennych.

Nie tylko prawdziwy czynnik nie jest funkcją zmiennych manifestu, prawdziwy czynnik „s wartości nie są jednoznacznie zdefiniowane . Innymi słowy, są po prostu nieznane. To wszystko wynika z faktu, że my” ponownie w nadmiernej przestrzeni analitycznej 5D, a nie w naszej domowej przestrzeni 2D danych. Tylko dobre przybliżenia (istnieje wiele metod ) do prawdziwych wartości współczynników, zwane punktami czynnikowymi , to tam dla nas. Wyniki czynnikowe leżą na płaszczyźnie V1 V2, podobnie jak wyniki składowych głównych, są one również obliczane jako funkcje liniowe V1, V2 i to czy one narysowałem w sekcji ” FA: przybliżone rozwiązanie (wyniki czynnikowe) „. Wyniki głównych komponentów są prawdziwymi wartościami komponentów; oceny czynników są jedynie rozsądnym przybliżeniem nieokreślonych prawdziwych wartości współczynników.

FA: podsumowanie procedury

Aby zebrać w jeden mały skrzep, co mówiły dwie poprzednie sekcje, i dodać ostatnie uderzenia . Właściwie FA może ( jeśli zrobisz to dobrze i zapoznaj się także z założeniami dotyczącymi danych ) znaleźć rozwiązanie prawdziwego czynnika (przez ” prawda ” Mam tu na myśli optymalne dla próbki danych). Jednak istnieją różne metody wyodrębniania (różnią się one określonymi dodatkowymi ograniczeniami, które nakładają). Prawdziwe rozwiązanie dotyczy tylko załadowań $ a $ . Zatem ładunki mają optymalne, prawdziwe czynniki. Wyniki współczynników – jeśli ich potrzebujesz – można obliczyć z tych ładowań na różne sposoby i zwracają przybliżenia wartości współczynników.

Zatem ” rozwiązanie współczynnika ” wyświetlone przeze mnie w sekcji ” FA: rozwiązanie przybliżone (wyniki czynnikowe) ” zostało faktycznie oparte na optymalnych ładunkach, tj. Na rzeczywistych czynnikach. Ale z przeznaczenia wyniki nie były optymalne. Wyniki są obliczane jako funkcja liniowa obserwowanych zmiennych, podobnie jak wyniki składowe, więc oba można porównać na wykresie rozrzutu. Zrobiłem to w ramach dydaktycznego dążenia do pokazania stopniowego przejścia od idei PCA do idei FA.

Należy zachować ostrożność podczas kreślenia na tym samym biplot ładunków czynnikowych z punktami czynnikowymi w ” przestrzeni czynników „, pamiętaj, że ładunki odnoszą się do prawdziwych czynników, a wyniki do czynników zastępczych (zobacz moje komentarze do tej odpowiedzi w tym wątku).

Rotacja czynników (ładowań) pomaga zinterpretować ukryte cechy. Rotację ładunków można wykonać również w PCA , jeśli używasz PCA tak, jakbyś używał analizy czynnikowej (to znaczy, zobacz PCA jako predykcję zmiennej). PCA ma tendencję do zbieżności wyników z FA w miarę wzrostu liczby zmiennych (patrz niezwykle bogaty wątek na praktyczne i koncepcyjne podobieństwa oraz różnice między tymi dwiema metodami). Zobacz moją listę różnic między PCA i FA na końcu tej odpowiedzi . Krok po kroku obliczenia PCA względem FA w zbiorze danych tęczówki znajdują się tutaj . Istnieje wiele dobrych linków do odpowiedzi innych uczestników na temat poza tym wątkiem; Przykro mi, że użyłem tylko kilku z nich w obecnej odpowiedzi.

Zobacz także listę punktowaną różnic między PCA i FA tutaj .

Komentarze

  • +1. ' wspaniale, że to napisałeś, ten wątek zdecydowanie nie zawierał od Ciebie odpowiedzi. Głosowałem za głosem przed przeczytaniem (co robię rzadko) i na pewno podobało mi się późniejsze czytanie. Mogę skomentować więcej później, ale na razie jeden mały chwytak: kilka razy pisałeś, że w FA chmura błędów powinna być ” okrągła ” .Ale w rzeczywistości może być eliptyczny (ponieważ unikalności dla V1 i V2 mogą mieć różne wariancje), po prostu musi mieć zerową korelację. Chyba nie chciałeś mylić czytelników tym szczegółem.
  • @amoeba Mam naiwną wątpliwość co do matematycznej niemożności uwzględnienia optymalnego F, E1, E2 w przestrzeni (płaszczyźnie) określonej przez V1, V2. Przychodzi mi do głowy przykład licznika: powiedz $ V_1 = a_ {1} F + E_1 $ i $ V_2 = a_ {2} F + E_2 $, gdzie $ (E_1, E_2) = \ mathcal {N} (0 , \ Bbb {I}) $ – Teraz użyj tych relacji do wygenerowania próbek V1 i V2. Po wygenerowaniu V1 i V2, gdybyśmy mieli wykonać optymalne FA, powinniśmy odzyskać prawie dokładne szacunki (E1, E2) i utworzy on eliptyczną chmurę. Co więcej, teraz F, E1, E2 mogą być reprezentowane na tej samej płaszczyźnie co V1 i V2.
  • @kasa, czy Twój komentarz witał moją odpowiedź, czy ameba ' komentarz? Jeśli twój komentarz jest przeciwko mojemu głównemu twierdzeniu, że w FA trzy ukryte zmienne nie znajdują się w pierwotnej przestrzeni i możesz to pokazać, dlaczego nie udzielić odpowiedzi, która to pokazuje? Należy jednak pamiętać, że w optymalnym FA błędy są dokładnie nieskorelowane, nie oznacza to, że można je sobie wyobrazić jako pochodzące z normalnej nieskorelowanej populacji.
  • @ttnphns : Przepraszam za zamieszanie, wątpiłem w twoje główne roszczenie. Postaram się przedstawić to jako odpowiedź za kilka dni. Dzięki!

Odpowiedź

Różnice między analizą czynnikową a analizą głównych składowych są następujące:

• W analizie czynnikowej istnieje ustrukturyzowany model i pewne założenia. Pod tym względem jest to technika statystyczna, która nie ma zastosowania do analizy składowych głównych, która jest czysto matematyczną transformacją.

• Celem analizy składowych głównych jest wyjaśnienie wariancji, podczas gdy analiza czynnikowa wyjaśnia kowariancję między zmienne.

Jednym z największych powodów zamieszania między nimi jest fakt, że jedna z metod ekstrakcji czynników w analizie czynnikowej nazywa się „metodą głównych składników”. Jednak jedną rzeczą jest użycie PCA, a inną jest użycie metody głównych komponentów w FA. Nazwy mogą być podobne, ale istnieją znaczne różnice. Pierwsza jest niezależną metodą analityczną, podczas gdy to ostatnie jest jedynie narzędziem do wyodrębniania czynników.

Odpowiedź

Dla mnie (i mam nadzieję, że jest to przydatne) analiza czynnikowa to znacznie bardziej przydatna niż PCA.

Ostatnio miałem przyjemność analizować skalę za pomocą analizy czynnikowej. Skala ta (choć jest szeroko stosowana w przemyśle) została opracowana przy użyciu metody PCA i według mojej wiedzy miała nigdy nie został poddany analizie czynnikowej.

Kiedy przeprowadziłem analizę czynnikową (główna oś), odkryłem, że wspólności dla trzech pozycji były mniejsze niż 30%, co oznacza, że ponad 70% wariancji pozycji nie było analizowanych. PCA po prostu przekształca dane w nową kombinację i nie dba o wspólnoty. Doszedłem do wniosku, że skala nie była zbyt dobra z psychometrycznego punktu widzenia, a potwierdziłem to na innej próbie.

Zasadniczo, jeśli chcesz przewidywać za pomocą czynników, użyj PCA natomiast jeśli chcesz zrozumieć ukryte czynniki, skorzystaj z analizy czynnikowej.

Odpowiedź

Rozwinięcie odpowiedzi @StatisticsDocConsulting: różnica w ładunkach między EFA i PCA jest nietrywialna przy niewielkiej liczbie zmiennych. Tutaj „funkcja symulacji pokazująca to w R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100) {require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables) for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)} X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1]))) X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X} 

Domyślnie ta funkcja wykonuje 100 Iterations, w każdym z nich generuje losowe próbki o normalnym rozkładzie (Sample.Size $ = 1000 $) trzech zmiennych i wyodrębnia jeden czynnik za pomocą PCA i ML-EFA. Wyprowadza listę dwóch Iterations -długie wektory składające się ze średnich wielkości symulowanych zmiennych „ładunków na nieobrotowanym pierwszym składniku z PCA i ogólnego czynnika z EFA, odpowiednio. Pozwala bawić się rozmiarem próbki oraz liczbą zmiennych i czynników dostosowanych do Twojej sytuacji, w granicach principal() i factanal() funkcje i komputer.

Korzystając z tego kodu, przeprowadziłem symulację próbek 3–100 zmiennych po 500 iteracji każda w celu uzyskania danych:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98)) for(i in 3:100) {X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)} 

… dla wykresu wrażliwości średnich ładunków (między zmiennymi i iteracjami) na liczbę zmiennych:

To pokazuje, jak różnie musi zinterpretować siłę ładunków w PCA w porównaniu z EFA. Obie zależą nieco od liczby zmiennych, ale ładunki są znacznie silniej odchylane w górę w PCA. Różnica między średnimi ładunkami tych metod maleje wraz ze wzrostem liczby zmiennych, ale nawet przy 100 zmiennych, ładunki PCA są średnio 0,067 $ wyższe niż ładunki EFA w losowych danych normalnych.Należy jednak zauważyć, że średnie obciążenia będą zwykle wyższe w rzeczywistych aplikacjach, ponieważ zazwyczaj używa się tych metod w przypadku bardziej skorelowanych zmiennych. Nie jestem pewien, jak to może wpłynąć na różnicę średnich ładunków.

Odpowiedź

Cytat z naprawdę fajnego podręcznika ( Brown, 2006, s. 22, podkreślenie dodane).
PCA = analiza głównych składowych
EFA = eksploracyjna analiza czynnikowa
CFA = konfirmacyjna analiza czynnikowa

Chociaż analiza składowych głównych (PCA) jest powiązana z EFA, jest często błędnie klasyfikowana jako metoda szacowania analizy czynników wspólnych. W przeciwieństwie do estymatorów omówionych w poprzednim akapicie (ML, PF), PCA opiera się na innym zestawie ilościowych metody, które nie są oparte na modelu czynników wspólnych. PCA nie różnicuje wariancji wspólnej i unikalnej. Zamiast tego PCA ma na celu uwzględnienie wariancji w obserwowanych miarach, a nie wyjaśnienie korelacji między nimi. technika redukcji danych w celu zredukowania większego zestawu miar do mniejszej, łatwiejszej w zarządzaniu liczby zmiennych złożonych w kolejnych analizach. Jednak niektórzy metodologowie argumentowali, że PCA jest rozsądną lub być może lepszą alternatywą dla NNKT, biorąc pod uwagę fakt, że PCA posiada kilka pożądanych właściwości statystycznych (np. Prostsze obliczeniowo, niepodatne na niewłaściwe rozwiązania, często daje wyniki podobne do NNKT) , zdolność PCA do obliczenia wyniku uczestnika na głównym składniku, podczas gdy nieokreślony charakter EFA komplikuje takie obliczenia). Chociaż debata na ten temat trwa, Fabrigar i wsp. (1999) podają kilka powodów w przeciwieństwie do argumentu za miejscem PCA w analizie czynnikowej. Autorzy ci podkreślają sytuacje, w których EFA i PCA dają odmienne wyniki; na przykład, gdy wspólnoty są niskie lub gdy jest tylko kilka wskaźników danego czynnika (por. Widaman, 1993). Niezależnie od tego, czy nadrzędne przesłanki i cele empiryczne analizy są zgodne z modelem czynników wspólnych, wówczas przeprowadzenie PCA jest konceptualne i matematycznie niespójne; to znaczy EFA jest bardziej odpowiedni, jeśli deklarowanym celem jest odtworzenie wzajemnych korelacji zbioru wskaźników z mniejszą liczbą ukrytych wymiarów, uznając istnienie błędu pomiaru w obserwowanych miarach. Floyd i Widaman (1995) zwracają uwagę, że szacunki oparte na EFA z większym prawdopodobieństwem uogólniają na CFA niż te uzyskane z PCA, ponieważ w przeciwieństwie do PCA, EFA i CFA są oparte na modelu czynników wspólnych. Jest to godna uwagi uwaga w świetle faktu, że EFA jest często wykorzystywana jako prekursor CFA w rozwoju skali i walidacji konstrukcji. Szczegółową demonstrację obliczeniowych różnic między PCA a EFA można znaleźć w podręcznikach wielowymiarowych i analitycznych (np. Tabachnick & Fidell, 2001).

Brown, TA (2006). Potwierdzająca analiza czynnikowa dla badań stosowanych. New York: Guilford Press.

Odpowiedź

Można pomyśleć PCA jako FA, w której wspólnoty są równe 1 dla wszystkich zmiennych. W praktyce oznacza to, że pozycje, które miałyby stosunkowo niskie ładunki czynnikowe w FA ze względu na małą wspólnotę, będą miały wyższe ładunki w PCA. Nie jest to pożądana cecha, jeśli głównym celem analizy jest skrócenie długości pozycji i wyczyszczenie baterii przedmiotów z niskim lub niejednoznacznym ładunkiem lub zidentyfikowanie pojęć, które nie są dobrze reprezentowane w puli przedmiotów.

Odpowiedź

W artykule autorstwa Tippinga i Bischopa omówiono ścisły związek między probabalistycznym PCA (PPCA) a analizą czynnikową. PPCA jest bliższe FA niż klasyczne PCA. Typowy model to

$$ \ mathbf {y} = \ mu + \ mathbf {Wx} + \ epsilon $$

gdzie $ \ mathbf {W} \ in \ mathbb {R} ^ {p, d} $, $ \ mathbf {x} \ sim \ mathcal {N} (\ mathbf {0}, \ mathbf {I}) $ i $ \ epsilon \ sim \ mathcal {N} ( \ mathbf {0}, \ mathbf {\ Psi}) $.

  • Analiza czynnikowa zakłada, że $ \ mathbf {\ Psi} $ jest przekątna.
  • PPCA zakłada, że $ \ mathbf {\ Psi} = \ sigma ^ 2 \ mathbf {I} $

Michael E. Tipping, Christopher M. Bishop (1999). Probabilistic Principal Component Analysis , Journal of the Royal Statistical Society, tom 61, wydanie 3, strony 611–622

Komentarze

  • + 1. Tak. Uważam, że zrozumienie PPCA jest niezbędne, aby zrozumieć związek między PCA i FA. Ale możesz poprawić swoją odpowiedź, omawiając relację PCA / PPCA.

Odpowiedź

Żadna z tych odpowiedzi nie jest idealny. FA lub PCA ma kilka wariantów. Musimy wyraźnie wskazać, które warianty są porównywane. Porównałbym analizę czynnika największego prawdopodobieństwa z PCA Hotellinga.Pierwsza zakłada, że zmienna latentna ma rozkład normalny, ale PCA nie ma takiego założenia. Doprowadziło to do różnic, takich jak rozwiązanie, zagnieżdżanie komponentów, unikalność rozwiązania, algorytmy optymalizacji.

Komentarze

  • Zastanawiam się, czy mógłbyś trochę to rozwinąć – powiedziałeś, że w ostatnim zdaniu są różnice, ale nie podałeś zbyt wielu informacji o tym, jakie mogą być te różnice lub w jaki sposób te różnice mogą być ważne?
  • Wybranie dwóch najbardziej odległych metod i stwierdzenie, że są one rzeczywiście różne – tak jak Ty – nie jest również doskonałą logiką . Prawdopodobnie należy znaleźć i zgłosić, jak te dwa są podobne. Alternatywnie można wybrać najbardziej podobne metody (takie jak zwykły PCA vs PAF ) i zgłosić różnice między nimi.
  • Hotelling ' s PCA zakłada utajone gaussa.

Odpowiedź

Jest wiele świetnych odpowiedzi na ten post, ale ostatnio natknąłem się na inną różnicę.

Klastrowanie to jedna aplikacja, w której PCA i FA dają różne wyniki. Gdy dane zawierają wiele cech, można spróbować znaleźć najlepsze kierunki dla komputerów PC i wyświetlić dane na tych komputerach, a następnie przystąpić do grupowania. Często zaburza to nieodłączne klastry w danych – to dobrze udowodniony wynik. Badacze sugerują, aby przejść do metod grupowania podprzestrzeni, które szukają w modelu niskowymiarowych czynników ukrytych.

Aby zilustrować tę różnicę, weźmy pod uwagę zbiór danych Crabs w zestawie danych R. Crabs zawierający 200 wierszy i 8 kolumn, opisujących 5 pomiarów morfologicznych na 50 krabach w dwóch kolorach. form i obu płci tego gatunku – Zasadniczo istnieją 4 (2×2) różne klasy krabów.

library(MASS) data(crabs) lbl <- rep(1:4,each=50) pc <- princomp(crabs[,4:8]) plot(pc) # produce the scree plot X <- as.matrix(crabs[,4:8]) %*% pc$loadings library(mclust) res_12 <- Mclust(X[,1:2],G=4) plot(res_12) res_23 <- Mclust(X[,2:3],G=4) plot(res_23) 

Klastrowanie przy użyciu PC1 i PC2: tutaj wprowadź opis obrazu

Klastrowanie przy użyciu PC2 i PC3: tutaj wprowadź opis obrazu

#using PC1 and PC2: 1 2 3 4 1 12 46 24 5 2 36 0 2 0 3 2 1 24 0 4 0 3 0 45 #using PC2 and PC3: 1 2 3 4 1 36 0 0 0 2 13 48 0 0 3 0 1 0 48 4 1 1 50 2 

Jak widać z powyższych wykresów, PC2 i PC3 niosą bardziej rozróżniające informacje niż PC1.

Jeśli ktoś spróbuje skupić się przy użyciu ukrytych czynników za pomocą analizatorów mieszanki czynników, otrzymamy znacznie lepszy wynik w porównaniu z pierwszymi dwoma komputerami.

mfa_model <- mfa(y, g = 4, q = 2) |............................................................| 100% table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50))) 1 2 3 4 1 0 0 0 45 2 16 50 0 0 3 34 0 0 0 4 0 0 50 5 

Komentarze

  • Muszę powiedzieć, że wątpię, aby ta odpowiedź naprawdę odpowiadała na pytanie. Odpowiedź dotyczy analizy skupień po PCA lub FA, a nie samych PCA i FA. Ale nawet pod tym względem odpowiedź jest niewyraźna lub niedokończona. W jaki sposób należy wyjaśnić wyświetlaną różnicę?
  • @ttnphns Zgadzam się z odpowiedzią dotyczącą analizy skupień. Jednak OP poprosił również o realny scenariusz z PCA / FA, w którym jeden musi być użyty nad drugim. Zazwyczaj PCA lub FA nigdy nie są celem końcowym – np. W naukach społecznych ostatecznym celem byłoby podzielenie przedmiotów na różne klastry / grupy. Moja odpowiedź dotyczy takich scenariuszy. Jeśli uważasz, że moją odpowiedź można poprawić, nie wahaj się wskazać.
  • Myślę, że Twoja odpowiedź może stać się naprawdę istotna, jeśli wyjaśnisz swoje odkrycie. Twierdzisz, że różnice między PCA i FA są nierozerwalnie związane z tymi dwiema metodami (tylko, że stają się widoczne w klastrach). Myślę, że powinieneś pokazać lub przynajmniej spekulować, w jaki sposób lub dlaczego różnice wynikają teoretycznie z różnic między metodami ' modelami.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *