Co to jest Gaussian Discriminant Analysis (GDA)? Jakie materiały należy przeczytać, aby zrozumieć, jak działa GDA i skąd się bierze? Spróbuj to wyjaśnić komuś na poziomie szkoły średniej.

Komentarze

  • Zgodnie z Na przykład imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf jest to ogólna etykieta dla Linear DA + Quadratic DA. Możesz więc bezpiecznie przeszukiwać / czytać (w tym tę witrynę) tylko w celu " analizy dyskryminacyjnej ". Będzie odpowiadać GDA. GDA to DA przy założeniu normalnego rozkładu populacji.

Odpowiedź

GDA to metoda klasyfikacji danych powszechnie stosowana, gdy dane można przybliżyć rozkładem normalnym. Pierwszym krokiem będzie zbiór uczący, czyli zbiór danych, które zostały jeszcze sklasyfikowane. Dane te służą do trenowania klasyfikatora i uzyskiwania funkcji dyskryminacyjnej, która powie Ci, do której klasy dane mają większe prawdopodobieństwo przynależności.

Kiedy masz zestaw uczący, musisz obliczyć średnią $ \ mu $ i odchylenie standardowe $ \ sigma ^ 2 $ . Jak wiesz, te dwie zmienne pozwalają opisać rozkład normalny.

Po obliczeniu rozkładu normalnego dla każdej klasy, aby sklasyfikować dane, będziesz musiał obliczyć dla każdej z nich prawdopodobieństwo że te dane należą do niego. Klasa o najwyższym prawdopodobieństwie zostanie wybrana jako klasa powinowactwa.

Więcej informacji o funkcjach dyskryminujących dla gęstości normalnej można znaleźć w podręczniku jako Klasyfikacja wzorców DUDA, HART, SOTRK lub Rozpoznawanie wzorców i uczenie maszynowe BISHOP .

Samouczek dotyczący GDA można również znaleźć tutaj Część 1 i Część 2

Komentarze

  • Pierwsza książka jest autorstwa " Bociana ", a nie " Sotrk ".
  • linki do samouczków są uszkodzone, czy możesz sprawdzić raz ponownie
  • Linki zostały już naprawione.

Odpowiedź

Myślę, że Andrew Ng ” Uwagi na temat GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) są najlepszym wyjaśnieniem tej koncepcji, jakie widziałem, ale chcę " spróbuj wyjaśnić to komuś na poziomie licealnym " zgodnie z żądaniem (i odnieś to z powrotem do notatek Andrew dla tych z Ty, który dbasz o matematykę).

Wyobraź sobie, że masz dwie klasy. Opisz jedną klasę jako $ y = 0 $ , a jedną jako $ y = 1 $ . Może to być na przykład $ jabłka $ vs $ pomarańcze $ .

Masz punkt danych $ x $ , który opisuje obserwację jednej z tych rzeczy. Może to być np. $ [cena, średnica, waga, kolor] $ . Może to być zbiór dowolnych atrybutów, które można zmierzyć, i możesz zmierzyć dowolną liczbę rzeczy, aby opisać $ x $ , jak chcesz. Jeśli zmierzymy 4 różne rzeczy, aby opisać $ x $ , to stwierdzimy, że $ x $ jest czterowymiarowy . Ogólnie będziemy nazywać to $ d $ .

Oto model GDA z notatek Andrzeja:

tutaj wprowadź opis obrazu

W prostym języku angielskim napis:

$ p (y) $ można opisać jako nieuczciwy rzut monetą. Na przykład może to oznaczać, że $ p (y = 0) = 0,4 $ i $ p (y = 1) = 0,6 $ . To znaczy, że istnieje 40% prawdopodobieństwa, że jabłka i 60% szans, że coś jest pomarańczami, kropka, gdzieś na świecie.

Biorąc pod uwagę $ y = 0 $ (czyli jeśli możemy załóżmy, że to jabłko), wszystkie pomiary w x mają rozkład normalny z pewnym zestawem parametrów $ \ mu_0 $ i $ \ Sigma $ . $ \ mu_0 $ to nie jedna wartość – to $ d $ -wymiarowy wektor. Aby zdefiniować rozkład normalny, potrzebujemy $ \ mu $ dla każdego wymiaru x (średnia cena, średnia waga itp.), A także $ d $ x $ d $ macierz kowariancji $ \ Sigma $ , która opisuje jak wymiary odnoszą się do siebie. Dlaczego? Ponieważ pewne rzeczy mogą być skorelowane (np. Duży owoc prawdopodobnie waży więcej).

Zakładamy, że jeśli $ y = 1 $ (rzecz jest pomarańczowa), jej pomiary również zachowują się normalnie. Tyle że ich środki są różne i opisujemy je z $ \ mu_1 $ . Jednak używamy tego samego $ \ Sigma $ . 1

Ok … po całej tej konfiguracji przeprowadź eksperyment myślowy:

Rzuć niesprawiedliwą monetą, która określa, czy coś jest jabłkowe czy pomarańczowe. Następnie na podstawie tego wyniku przejdź do Normal Distribution 0 lub Normal Distribution 1 i wypróbuj punkt danych. Jeśli powtórzysz to wiele razy, „otrzymasz mnóstwo punktów danych w $ d $ -przestrzeni. Rozłożenie tych danych, o ile mamy ich wystarczająco dużo, będzie być " typowym " określonym modelem, z którego generujemy.

(stąd jego notatka nosi nazwę " Generatywne algorytmy uczenia się ")

Ale co, jeśli zrobimy to wstecz? Daję ci sporo danych zamiast tego powiem ci, że został wygenerowany w taki sposób. Możesz wtedy, na odwrót, wrócić i powiedzieć mi o prawdopodobieństwie na monecie, a $ \ mu $ s i $ \ Sigma $ z dwóch rozkładów normalnych, które najlepiej pasują do tych danych. To ćwiczenie wstecz to GDA .


1 Zauważ, że model Andrew używa tej samej macierzy kowariancji $ \ Sigma $ dla obu klas. Oznacza to, że niezależnie od tego, jak wygląda mój rozkład normalny dla jednej klasy – niezależnie od tego, jak wysoki / gruby / niski jest – zakładam, że druga class „macierz kowariancji również wygląda dokładnie tak.

Gdy $ \ Sigma $ jest taka sama między klasami, mamy specjalny przypadek GDA zwana Liniową Analizą Dyskryminacyjną, ponieważ skutkuje liniową granicą decyzji (patrz zdjęcie poniżej z notatek Andrew).

wprowadź tutaj opis obrazu

To założenie z pewnością może być fałszywe, a GDA opisuje to ćwiczenie w najbardziej ogólnym przypadku, gdy $ \ Sigma $ s mogą być różne w różnych klasach.

Odpowiedź

GDA jest formą analizy rozkładu liniowego. Ze znanego $ P (x | y) $, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$

uzyskuje się poprzez zastosowanie Bayesa.

Zasadniczo, jak zauważył @ttnphns, jest używany zwykle jako rodzaj etykieta dla każdej analizy dyskryminacyjnej, która zakłada populację pokazującą rozkład Gaussa. Aby uzyskać bardziej szczegółowe wyjaśnienia, przeczytaj artykuł Fishera z 1936 r. W Annals of Eugenics (tak, tak naprawdę to się nazywało). To „jest trudna i niewdzięczna lektura, ale jest źródłem pomysłu (małe ostrzeżenie: w przeciwieństwie do wina, papiery nie są lepsze, a ten jest bardzo mylący), biorąc pod uwagę, że został napisany w żargonie matematycznym, który „nie używał pojęć takich jak„ modele analizy dystrybucji generatywnej ”, więc istnieje tu pewna niejasność terminologiczna). pochodzi z wspaniałego wykładu Andrew Ng ze Stanford (jeśli to jest twój pomysł na zabawę) , który jest wart obejrzenia (i mówi o tym we współczesnym lingo).

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *