Was ist eine Gaußsche Diskriminanzanalyse (GDA)? Welche Materialien sollte man lesen, um zu verstehen, wie ein GDA funktioniert und woher er kommt? Versuchen Sie, dies jemandem auf Highschool-Ebene zu erklären.
Kommentare
- Laut Imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf ist beispielsweise eine generische Bezeichnung für Linear DA + Quadratic DA. Sie können also sicher (einschließlich dieser Site) nur nach " Diskriminanzanalyse " suchen / lesen. Es wird GDA entsprechen. GDA ist DA unter der Annahme einer normalverteilten Population.
Antwort
GDA ist eine Methode zur Datenklassifizierung, die häufig verwendet wird, wenn Daten können mit einer Normalverteilung angenähert werden. Als ersten Schritt benötigen Sie einen Trainingssatz, d. H. Eine Reihe von Daten, die noch klassifiziert wurden. Diese Daten werden verwendet, um Ihren Klassifikator zu trainieren und eine Diskriminanzfunktion zu erhalten, die Ihnen sagt, zu welcher Klasse Daten mit höherer Wahrscheinlichkeit gehören.
Wenn Sie Ihren Trainingssatz haben, müssen Sie den Mittelwert $ \ mu $ und die Standardabweichung $ \ sigma ^ 2 $ . Wie Sie wissen, können Sie mit diesen beiden Variablen eine Normalverteilung beschreiben.
Nachdem Sie die Normalverteilung für jede Klasse berechnet haben, müssen Sie zur Klassifizierung der Daten für jede Klasse die Wahrscheinlichkeit berechnen dass diese Daten dazu gehören. Die Klasse mit der höchsten Wahrscheinlichkeit wird als Affinitätsklasse ausgewählt.
Weitere Informationen zu Diskriminanzfunktionen für die normale Dichte finden Sie im Lehrbuch als Musterklassifizierung DUDA, HART, SOTRK oder Mustererkennung und maschinelles Lernen BISHOP .
Ein Tutorial zu GDA finden Sie auch hier Part1 und Part2
Kommentare
- Das erste Buch stammt von " Storch ", nicht " Sotrk ".
- Die Tutorial-Links sind defekt. Können Sie dies bitte einmal überprüfen?
- Links wurden jetzt behoben.
Antwort
Ich denke Andrew Ng “ s Anmerkungen zum GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) sind die beste Erklärung, die ich für das Konzept gesehen habe, aber ich möchte " versuchen Sie dies für jemanden auf Highschool-Ebene zu erklären " wie gewünscht (und beziehen Sie es auf Andrews Notizen für diejenigen von Sie, die sich für die Mathematik interessieren).
Stellen Sie sich vor, Sie haben zwei Klassen. Beschreiben Sie eine Klasse als $ y = 0 $ und eine Klasse als $ y = 1 $ . Könnte zum Beispiel $ apples $ vs $ oranges $ sein.
Sie haben Ein Datenpunkt $ x $ , der eine Beobachtung eines dieser Dinge beschreibt. Eine Beobachtung könnte sein, d. H. $ [Preis, Durchmesser, Gewicht, Farbe] $ . Es kann eine Sammlung von Attributen sein, die gemessen werden können, und Sie können beliebig viele Dinge messen, um einen $ x $ zu beschreiben, wie Sie möchten. Wenn wir 4 verschiedene Dinge messen, um einen $ x $ zu beschreiben, dann sagen wir, dass $ x $ 4-dimensional ist . Im Allgemeinen nennen wir dies $ d $ .
Hier ist das Modell des GDA aus Andrews Notizen:
Im Klartext heißt es:
$ p (y) $ kann als unfairer Münzwurf beschrieben werden. Beispielsweise könnte es sein, dass $ p (y = 0) = 0,4 $ und $ p (y = 1) = 0,6 $ . Das heißt, es gibt eine 40% ige Chance, dass Dinge sind Äpfel und eine Wahrscheinlichkeit von 60%, dass es sich bei den Dingen um Orangen handelt,
Gegeben $ y = 0 $ (dh wenn wir können Angenommen, das Ding ist ein Apfel.) Alle Messungen in x werden normalerweise mit einigen Parametern $ \ mu_0 $ und verteilt $ \ Sigma $ . $ \ mu_0 $ ist kein einziger Wert – es ist ein $ d $ -dimensionaler Vektor. Um eine Normalverteilung zu definieren, benötigen wir für jede Dimension von x (Durchschnittspreis, Durchschnittsgewicht usw.) einen $ \ mu $ sowie einen $ d $ x $ d $ Kovarianzmatrix $ \ Sigma $ , die beschreibt wie sich die Dimensionen aufeinander beziehen. Warum? Weil bestimmte Dinge korreliert sein könnten (d. H. Große Früchte wiegen wahrscheinlich mehr).
Wir gehen davon aus, dass sich die Messungen auch normal verhalten, wenn $ y = 1 $ (das Ding ist orange). Nur dass ihre Mittelwerte unterschiedlich sind und wir diejenigen mit $ \ mu_1 $ beschreiben. Wir verwenden jedoch dasselbe $ \ Sigma $ . 1
Ok … mache nach all dem Setup ein Gedankenexperiment:
Wirf eine unfaire Münze, die feststellt, ob etwas Apfel oder Orange ist. Gehen Sie dann basierend auf diesem Ergebnis zu Normalverteilung 0 oder Normalverteilung 1 und probieren Sie einen Datenpunkt aus. Wenn Sie dies viele Male wiederholen, erhalten Sie eine Menge Datenpunkte im $ d $ -dimensionalen Raum. Die Verteilung dieser Daten erfolgt, sofern wir genug davon haben " typisch " des spezifischen Modells sein, aus dem wir generieren.
(daher wird seine Notiz genannt " Generative Lernalgorithmen ")
Aber was ist, wenn wir dies rückwärts tun? Ich gebe Ihnen eine Reihe von Daten Stattdessen, und ich sage Ihnen, dass es auf diese Weise generiert wurde. Sie könnten dann umgekehrt zurückkommen und mir die Wahrscheinlichkeit auf der Münze und den $ \ mu $ s und $ \ Sigma $ s der beiden Normalverteilungen, die so gut wie möglich zu diesen Daten passen. Diese Rückwärtsübung ist GDA .
1 Beachten Sie, dass Andrews Modell dieselbe Kovarianzmatrix $ \ Sigma $ für beide Klassen. Dies bedeutet, dass unabhängig von meiner normalen Verteilung für eine Klasse – wie groß / fett / schlank sie auch sein mag – ich annehme die andere Die Kovarianzmatrix der Klasse „sieht auch genau so aus.
Wenn $ \ Sigma $ zwischen den Klassen gleich ist, haben wir einen Sonderfall von GDA wird als lineare Diskriminanzanalyse bezeichnet, da sie zu einer linearen Entscheidungsgrenze führt (siehe Bild unten aus Andrews Notizen).
Diese Annahme kann sicherlich falsch sein, und der GDA beschreibt diese Übung im allgemeinsten Fall, wenn $ \ Sigma $ s können zwischen Klassen unterschiedlich sein.
Antwort
GDA ist eine Form der linearen Verteilungsanalyse. Aus einem bekannten $ P (x | y) $ ist $$ P (y | x) = \ frac {P (x | y) P_ {vor} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$
wird durch Anwenden von Bayes abgeleitet.
Es wird im Grunde genommen, wie @ttnphns feststellte, normalerweise als Generikum verwendet Etikett für jede Diskriminanzanalyse, die eine Population annimmt, die die Gaußsche Verteilung zeigt. Für eine ausführlichere Erklärung lesen Sie Fischers Artikel von 1936 in den Annals of Eugenics (ja, so wurde es wirklich genannt). Es ist eine harte und unbelohnende Lektüre, aber es ist die Quelle der Idee (eine kleine Warnung: Im Gegensatz zu Wein werden Papiere nicht besser, und diese ist sehr verwirrend zu lesen, wenn man bedenkt, dass sie es ist wurde in einem Mathe-Jargon geschrieben, der keine Ideen wie „generative Verteilungsanalysemodelle“ verwendete, daher gibt es hier ein gewisses Maß an terminologischer Verwirrung. Ich gebe hiermit schändlicherweise zu, dass ich größtenteils Autodidakt bin und meine Ausbildung zum GDA hauptsächlich hat war aus einem wunderbaren Vortrag (wenn das Ihre Vorstellung von Spaß ist) von Andrew Ng aus Stanford , der es wert ist, gesehen zu werden (und über das Thema in der Gegenwart spricht) Jargon).