Co je Gaussova diskriminační analýza (GDA)? Jaké materiály by si měl člověk přečíst, aby pochopil, jak GDA funguje a odkud pochází? Zkuste to vysvětlit někomu na střední škole.

Komentáře

  • Podle například imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf je to obecný štítek pro Lineární DA + Kvadratický DA. Můžete tedy bezpečně hledat / číst (včetně tohoto webu) pouze " diskriminační analýzu ". Bude to odpovídat GDA. GDA je DA za předpokladu normálně distribuované populace.

Odpověď

GDA je metoda klasifikace dat, která se běžně používá, když data lze aproximovat normálním rozdělením. Jako první krok budete potřebovat tréninkovou sadu, tj. Spoustu dosud klasifikovaných dat. Tato data se používají k trénování vašeho klasifikátoru a k získání diskriminační funkce, která vám řekne, do které třídy mají data vyšší pravděpodobnost, že k nim bude patřit.

Když máte tréninkovou sadu, musíte vypočítat průměr $ \ mu $ a standardní odchylka $ \ sigma ^ 2 $ . Tyto dvě proměnné vám, jak víte, umožňují popsat normální rozdělení.

Jakmile spočítáte normální rozdělení pro každou třídu, pro klasifikaci dat budete muset vypočítat, pro každou z nich, pravděpodobnost že tato data k tomu patří. Jako třída afinity bude vybrána třída s nejvyšší pravděpodobností.

Více informací o diskriminačních funkcích pro normální hustotu najdete v učebnici jako Klasifikace vzorů DUDA, HART, SOTRK nebo Rozpoznávání vzorů a strojové učení BISHOP .

Výukový program pro GDA najdete také zde Část 1 a Část 2

Komentáře

  • První kniha od autora " Stork ", ne " Sotrk ".
  • odkazy na výukové programy jsou nefunkční, můžete je jednou zkontrolovat znovu
  • Odkazy jsou nyní opraveny.

Odpovědět

Myslím, že Andrew Ng “ Poznámky k GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) jsou nejlepším vysvětlením tohoto konceptu, ale chci " zkuste to vysvětlit někomu na střední škole ", jak je požadováno (a přenést to zpět na Andrewovy poznámky pro ty z vy, kdo se staráte o matematiku).

Představte si, že máte dvě třídy. Popište jednu třídu jako $ y = 0 $ a jednu jako $ y = 1 $ . Může to být například $ jablka $ vs $ oranges $ .

Máte datový bod $ x $ , který popisuje pozorování jedné z těchto věcí. Pozorováním může být např. $ [cena, průměr, hmotnost, barva] $ . Může to být soubor libovolných atributů, které lze měřit, a můžete měřit tolik věcí, abyste popsali $ x $ , jak se vám líbí. Pokud měříme 4 různé věci k popisu $ x $ , říkáme, že $ x $ je 4 dimenzionální . Obecně tomu budeme říkat $ d $ .

Zde je model GDA z Andrewových poznámek:

zde zadejte popis obrázku

V jednoduché angličtině to říká:

$ p (y) $ lze popsat jako nefér coin flip. Může se například jednat o to, že $ p (y = 0) = 0,4 $ a $ p (y = 1) = 0,6 $ . Tedy 40% šance, že věci budou jablka a 60% šance, že věci jsou na světě pomeranče, tečka.

Vzhledem k $ y = 0 $ (tj. pokud můžeme předpokládejme, že jde o jablko), všechna měření v x jsou normálně distribuována s nějakou sadou parametrů $ \ mu_0 $ a $ \ Sigma $ . $ \ mu_0 $ není jedna hodnota – je to $ d $ -dimenzionální vektor. K definování normálního rozdělení potřebujeme $ \ mu $ pro každou dimenzi x (průměrná cena, průměrná hmotnost atd.) A také $ d $ x $ d $ kovarianční matice $ \ Sigma $ , která popisuje jak rozměry spolu souvisejí. Proč? Protože určité věci mohou být ve vzájemném vztahu (tj. Velké ovoce pravděpodobně váží více).

Předpokládáme, že pokud $ y = 1 $ (věc je oranžová), jeho měření se chovají také normálně. Až na to, že se jejich prostředky liší, a my je popisujeme pomocí $ \ mu_1 $ . Používáme stejné $ \ Sigma $ . 1

Dobře … po tom všem nastavení proveďte myšlenkový experiment:

Vyhoďte nespravedlivou minci, která určuje, zda je něco jablko nebo pomeranč. Na základě tohoto výsledku pak přejděte na Normální distribuce 0 nebo Normální distribuce 1 a vyzkoušejte datový bod. Pokud to budete opakovat mnohokrát, „získáte spoustu datových bodů v $ d $ -dimenzionálním prostoru. Distribuce těchto dat, pokud jich máme dostatek, bude být " typický " konkrétního modelu, ze kterého generujeme.

(proto se jeho poznámka nazývá " Generativní výukové algoritmy ")

Ale co když to uděláme obráceně? Poskytnu vám spoustu dat místo toho a já vám říkám, že to bylo vygenerováno takovým způsobem. Mohli byste se pak naopak vrátit a říct mi pravděpodobnost mince a $ \ mu $ sa $ \ Sigma $ s ze dvou normálních distribucí, které co nejlépe vyhovují těmto datům. Toto zpětné cvičení je GDA .


1 Upozorňujeme, že Andrewův model používá stejnou kovarianční matici $ \ Sigma $ pro obě třídy. To znamená, že bez ohledu na to, jak vypadá moje normální rozdělení pro jednu třídu – ať je jakkoli vysoká / tlustá / šikmá – předpokládám druhou přesně tak vypadá i kovarianční matice třídy.

Když je $ \ Sigma $ mezi třídami stejný, máme speciální případ GDA nazývá se Lineární diskriminační analýza, protože má za následek hranici lineárního rozhodování (viz obrázek níže z Andrewových poznámek).

zde zadejte popis obrázku

Tento předpoklad může být určitě nepravdivý a GDA popisuje toto cvičení v nejobecnějším případě, když $ \ Sigma $ se mohou mezi třídami lišit.

Odpověď

GDA je forma analýzy lineární distribuce. Ze známého $ P (x | y) $, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ v Y} P (x | g) P_ {prior} (g)} $$

je odvozeno použitím Bayesových.

Je to v zásadě, jak poznamenal @ttnphns, obvykle jako obecný štítek pro jakoukoli diskriminační analýzu, která předpokládá populaci, která ukazuje Gaussovo rozdělení. Pro podrobnější vysvětlení si přečtěte Fisherův článek z roku 1936 v Annals of Eugenics (ano, přesně tak se tomu říkalo). „Je to těžké a nevděčné čtení, ale je zdrojem nápadu (malé varování: na rozdíl od vína se papíry nezlepšují, a tento je velmi matoucí číst, když uvážíme, že byl napsán matematickým žargonem, který nepoužíval myšlenky jako „modely generativní distribuční analýzy“, takže zde existuje určitý terminologický zmatek). Tímto hanebně připouštím, že jsem většinou samouk a moje vzdělání v GDA má hlavně pocházel z nádherné přednášky (pokud je to váš nápad na zábavu) Andrewa Nga ze Stanfordu , kterou stojí za to sledovat (a hovoří o tématu v současné době žargon).

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *