Quest-ce quune analyse discriminante gaussienne (GDA)? Quels matériaux faut-il lire pour comprendre comment fonctionne un GDA et doù il vient? Essayez dexpliquer cela à une personne de niveau secondaire.

Commentaires

  • Daprès imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf par exemple, cest une étiquette générique pour Linear DA + Quadratic DA. Ainsi, vous pouvez rechercher / lire en toute sécurité (y compris ce site) uniquement " analyse discriminante ". Cela correspondra à GDA. GDA est un DA en supposant une population normalement distribuée.

Réponse

GDA, est une méthode de classification des données couramment utilisée lorsque les données peuvent être approximées avec une distribution normale. Dans un premier temps, vous aurez besoin dun ensemble de formation, cest-à-dire dun ensemble de données encore classifiées. Ces données sont utilisées pour entraîner votre classificateur et obtenir une fonction discriminante qui vous dira à quelle classe une donnée a la plus forte probabilité dappartenir.

Lorsque vous avez votre ensemble dentraînement, vous devez calculer la moyenne $ \ mu $ et lécart type $ \ sigma ^ 2 $ . Ces deux variables, comme vous le savez, vous permettent de décrire une distribution normale.

Une fois que vous avez calculé la distribution normale pour chaque classe, pour classer une donnée, vous devrez calculer, pour chacune, la probabilité que ces données lui appartiennent. La classe avec la probabilité la plus élevée sera choisie comme classe daffinité.

Plus dinformations sur les fonctions discriminantes pour la densité normale peuvent être trouvées dans le manuel sous Classification des modèles DUDA, HART, SOTRK ou BISHOP de reconnaissance de formes et dapprentissage automatique .

Un tutoriel sur GDA peut également être trouvé ici Part1 et Part2

Commentaires

  • Le premier livre est de " Stork ", pas " Sotrk ".
  • les liens du didacticiel sont rompus, pouvez-vous vérifier une fois à nouveau
  • Les liens ont été corrigés.

Réponse

Je pense quAndrew Ng  » Les notes de s sur GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) sont la meilleure explication que jai vue du concept, mais je veux " essayez dexpliquer cela pour quelquun au niveau secondaire " comme demandé (et reliez-le aux notes dAndrew pour celles de vous qui vous souciez des maths).

Imaginez que vous ayez deux classes. Décrivez une classe comme $ y = 0 $ et une classe comme $ y = 1 $ . Pourrait être $ pommes $ vs $ oranges $ , par exemple.

Vous avez un point de donnée $ x $ qui décrit une observation de lune de ces choses. Une observation pourrait être, par exemple, $ [prix, diamètre, poids, couleur] $ . Il peut sagir dun ensemble dattributs mesurables et vous pouvez mesurer autant de choses que vous le souhaitez pour décrire un $ x $ . Si nous mesurons 4 choses différentes pour décrire un $ x $ , alors nous disons que $ x $ est en 4 dimensions . En général, nous appellerons cela $ d $ .

Voici le modèle de GDA daprès les notes dAndrew:

entrez la description de limage ici

En anglais, ceci dit:

$ p (y) $ peut être décrit comme un tirage au sort injuste. Par exemple, il se peut que $ p (y = 0) = 0,4 $ et $ p (y = 1) = 0,6 $ . Cest-à-dire quil y a « 40% de chances que les choses soient des pommes et 60% de chances que les choses soient des oranges, point final, là-bas dans le monde.

Étant donné $ y = 0 $ (cest-à-dire si nous pouvons supposons que la chose est une pomme), toutes les mesures en x sont normalement distribuées avec un ensemble de paramètres $ \ mu_0 $ et $ \ Sigma $ . $ \ mu_0 $ nest pas une valeur unique – cest un vecteur $ d $ -dimensionnel. Pour définir une distribution normale, nous avons besoin dun $ \ mu $ pour chaque dimension de x (prix moyen, poids moyen, etc.) et aussi dun $ d $ x $ d $ matrice de covariance $ \ Sigma $ qui décrit comment les dimensions sont liées les unes aux autres. Pourquoi? Parce que certaines choses peuvent être corrélées (cest-à-dire que les gros fruits pèsent probablement plus).

Nous supposons que si $ y = 1 $ (lobjet est orange), ses mesures se comportent également normalement. Sauf que leurs moyennes sont différentes et que nous décrivons celles avec $ \ mu_1 $ . Nous utilisons cependant le même $ \ Sigma $ . 1

Ok … après toute cette configuration, faites une expérience de réflexion:

Lancez une pièce injuste qui détermine si quelque chose est pomme ou orange. Ensuite, en fonction de ce résultat, accédez à la distribution normale 0 ou à la distribution normale 1 et échantillonnez un point de données. Si vous répétez cela plusieurs fois, vous obtiendrez une tonne de points de données dans lespace dimensionnel $ d $ . La distribution de ces données, à condition que nous en ayons assez, sera être " typique " du modèle spécifique à partir duquel nous générons.

(doù le nom de sa note " Algorithmes dapprentissage génératif ")

Mais que faire si nous procédons à lenvers? Je vous donne un tas de données à la place, et je vous dis quil a été généré de cette manière. Vous pourriez alors, à linverse, revenir me dire la probabilité sur la pièce et le $ \ mu $ s et $ \ Sigma $ des deux distributions normales, qui correspondent le mieux possible à ces données. Cet exercice à rebours est GDA .


1 Notez que le modèle dAndrew utilise la même matrice de covariance $ \ Sigma $ pour les deux classes. Cela signifie que quelle que soit ma distribution normale pour une classe – quelle que soit sa taille / sa taille / son inclinaison – Je suppose que lautre la matrice de covariance de la classe « ressemble exactement à ça aussi.

Quand $ \ Sigma $ est le même entre les classes, nous avons un cas particulier de GDA appelée Analyse Discriminante Linéaire, car elle aboutit à une limite de décision linéaire (voir limage ci-dessous à partir des notes dAndrew).

entrez la description de limage ici

Cette hypothèse peut certainement être fausse, et GDA décrit cet exercice dans le cas le plus général, lorsque $ Les \ Sigma $ peuvent être différents selon les classes.

Réponse

GDA est une forme danalyse de distribution linéaire. A partir dun $ P (x | y) $ connu, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$

est dérivé de lapplication de Bayes « s.

Il est fondamentalement, comme @ttnphns la noté, généralement utilisé comme générique étiquette pour toute analyse discriminante qui suppose une population qui montre la distribution gaussienne. Pour une explication plus approfondie, lisez larticle de 1936 de Fisher dans les Annals of Eugenics (oui, cest vraiment comme ça quil sappelait). Cest une lecture difficile et peu gratifiante, mais est la source de lidée (un petit avertissement: contrairement au vin, les papiers ne saméliorent pas, et celui-ci est très déroutant à lire si lon considère quil a été écrit dans un jargon mathématique qui nutilisait pas didées telles que «modèles danalyse de distribution générative», donc il y a un certain degré de confusion terminologique ici). Jadmets honteusement par la présente que je suis principalement autodidacte, et ma formation sur GDA a principalement tiré dune merveilleuse conférence (si cest votre idée de vous amuser) par Andrew Ng de Stanford qui vaut la peine dêtre regardée (et parle du sujet dans lingo).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *