Wat is een Gaussian Discriminant Analysis (GDA)? Welke materialen moet men lezen om te begrijpen hoe een GDA werkt en waar deze vandaan komt? Probeer dit uit te leggen aan iemand op middelbare schoolniveau.
Opmerkingen
- Volgens imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf is het bijvoorbeeld een generiek label voor Lineaire DA + Kwadratische DA. U kunt dus veilig zoeken / lezen (inclusief deze site) voor slechts " discriminantanalyse ". Het komt overeen met GDA. GDA is DA uitgaande van een normaal verdeelde populatie.
Antwoord
GDA is een methode voor gegevensclassificatie die gewoonlijk wordt gebruikt wanneer gegevens kunnen worden benaderd met een normale verdeling. Als eerste stap heb je een trainingsset nodig, d.w.z. een hoop gegevens die nog geclassificeerd zijn. Deze gegevens worden gebruikt om uw classificator te trainen en om een discriminerende functie te verkrijgen die u zal vertellen tot welke klasse een gegevens de grootste kans heeft om te behoren.
Als u uw trainingsset heeft, moet u de gemiddelde $ \ mu $ en de standaarddeviatie $ \ sigma ^ 2 $ . Met deze twee variabelen kunt u, zoals u weet, een normale verdeling beschrijven.
Als u eenmaal de normale verdeling voor elke klasse heeft berekend, moet u voor elk gegeven de waarschijnlijkheid berekenen. dat die gegevens erbij horen. De klasse met de hoogste waarschijnlijkheid wordt gekozen als de affiniteitsklasse.
Meer informatie over discriminerende functies voor de normale dichtheid is te vinden in het leerboek als Patroonclassificatie DUDA, HART, SOTRK of Patroonherkenning en machine learning BISHOP .
Een tutorial over GDA is ook hier te vinden Part1 en Part2
Reacties
- Het eerste boek is van " Stork ", niet " Sotrk ".
- de tutorial-links zijn verbroken, kunt u dit een keer controleren? opnieuw
- Links zijn nu hersteld.
Antwoord
Ik denk dat Andrew Ng ” s opmerkingen over GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) zijn de beste uitleg die ik van het concept heb gezien, maar ik wil " probeer dit uit te leggen voor iemand op een middelbare school " zoals gevraagd (en relateer het terug aan de aantekeningen van Andrew voor die van jij die om de wiskunde geeft).
Stel je voor dat je twee klassen hebt. Beschrijf een klas als $ y = 0 $ en een klas als $ y = 1 $ . Dit kan bijvoorbeeld $ appels $ vs $ sinaasappels $ zijn.
Je hebt een datapunt $ x $ dat een observatie van een van deze dingen beschrijft. Een observatie kan bijvoorbeeld $ [prijs, diameter, gewicht, kleur] $ zijn. Het kan een verzameling attributen zijn die kunnen worden gemeten, en u kunt zoveel dingen meten om een $ x $ te beschrijven als u wilt. Als we vier verschillende dingen meten om een $ x $ te beschrijven, zeggen we dat $ x $ vierdimensionaal is . In het algemeen “noemen we dit $ d $ .
Hier is het model van GDA uit de opmerkingen van Andrew:
In gewoon Engels zegt dit:
$ p (y) $ kan worden omschreven als een oneerlijke coin-flip. Het kan bijvoorbeeld zijn dat $ p (y = 0) = 0.4 $ en $ p (y = 1) = 0.6 $ . Er is dus een kans van 40% dat dingen zijn appels en 60% kans dat dingen sinaasappels zijn, punt, daarbuiten in de wereld.
Gegeven $ y = 0 $ (dwz als we kunnen neem aan dat het ding een appel is), worden alle metingen in x normaal verdeeld met een aantal parameters $ \ mu_0 $ en $ \ Sigma $ . $ \ mu_0 $ is niet één waarde – het is een $ d $ -dimensionale vector. Om een normale verdeling te definiëren hebben we een $ \ mu $ nodig voor elke dimensie van x (gemiddelde prijs, gemiddeld gewicht, enz.) En ook een $ d $ x $ d $ covariantiematrix $ \ Sigma $ die beschrijft hoe de afmetingen zich tot elkaar verhouden. Waarom? Omdat bepaalde dingen gecorreleerd kunnen zijn (d.w.z. groot fruit weegt waarschijnlijk meer).
We nemen aan dat als $ y = 1 $ (het ding is een sinaasappel), de afmetingen zich ook normaal gedragen. Behalve dat hun middelen verschillend zijn en we die beschrijven met $ \ mu_1 $ . We gebruiken echter dezelfde $ \ Sigma $ . 1
Oké … doe na al die instellingen een gedachte-experiment:
Draai een oneerlijke munt om die bepaalt of iets appel of sinaasappel is. Ga vervolgens op basis van dat resultaat naar Normale distributie 0 of Normale distributie 1 en neem een monster van een datapunt. Als je dit vaak herhaalt, krijg je een heleboel datapunten in $ d $ -dimensionale ruimte. De distributie van deze gegevens, op voorwaarde dat we er genoeg van hebben, " typisch " zijn van het specifieke model waaruit we genereren.
(vandaar waarom zijn notitie wordt genoemd " Generatieve leeralgoritmen ")
Maar wat als we dit achterstevoren doen? Ik geef u een heleboel gegevens in plaats daarvan, en ik zeg je dat het op een dergelijke manier is gegenereerd. Je zou dan, omgekeerd, terug kunnen komen en me de kans op de munt vertellen, en de $ \ mu $ s en $ \ Sigma $ s van de twee normale distributies, die zo goed mogelijk bij deze gegevens passen. Deze achterwaartse oefening is GDA .
1 Merk op dat het model van Andrew dezelfde covariantiematrix gebruikt $ \ Sigma $ voor beide klassen. Dit betekent dat hoe mijn normale distributie er ook uitziet voor de ene klas – hoe lang / dik / slank hij ook is – Ik neem aan dat de andere class “covariantiematrix ziet er ook precies zo uit.
Wanneer $ \ Sigma $ hetzelfde is tussen klassen, hebben we een speciaal geval van GDA heet Lineaire Discriminant Analyse, omdat het resulteert in een lineaire beslissingsgrens (zie onderstaande afbeelding uit de opmerkingen van Andrew).
Deze aanname kan zeker onjuist zijn, en GDA beschrijft deze oefening in het meest algemene geval, wanneer $ \ Sigma $ s kunnen verschillen tussen klassen.
Antwoord
GDA is een vorm van lineaire verdelingsanalyse. Van een bekende $ P (x | y) $, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$
wordt afgeleid door het toepassen van Bayes “s.
Het wordt in feite, zoals @ttnphns opmerkte, gewoonlijk gebruikt als een algemene label voor elke discriminerende analyse die uitgaat van een populatie die de Gauss-verdeling laat zien. Voor een meer diepgaande uitleg, lees Fisher s artikel uit 1936 in de Annals of Eugenics (ja, zo werd het echt genoemd). Het is moeilijk en niet lonend om te lezen, maar het is de bron van het idee (een kleine waarschuwing: in tegenstelling tot wijn worden kranten niet beter, en dit is erg verwarrend om te lezen als je bedenkt dat het werd geschreven in een wiskundig jargon dat “geen ideeën zoals” generatieve distributieanalysemodellen “gebruikte, dus er is hier enige terminologische verwarring). Ik geef hierbij schandelijk toe dat ik grotendeels autodidact ben, en mijn opleiding op GDA heeft voornamelijk afkomstig van een prachtige lezing (als dat jouw idee van plezier is) door Andrew Ng van Stanford die het bekijken waard is (en spreekt over het onderwerp in hedendaagse lingo).