Ce este o analiză Gaussian Discriminant (GDA)? Ce materiale ar trebui să citiți pentru a înțelege cum funcționează un GDA și de unde provine? Încercați să explicați acest lucru pentru cineva de la liceu.

Comentarii

  • Conform imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf , de exemplu, este o etichetă generică pentru DA liniar + DA quadratic. Deci, puteți căuta / citi în siguranță (inclusiv acest site) doar " analiză discriminantă ". Va corespunde GDA. GDA este DA presupunând o populație distribuită în mod normal.

Răspuns

GDA, este o metodă de clasificare a datelor frecvent utilizată atunci când datele pot fi aproximate cu o distribuție normală. Ca prim pas, veți avea nevoie de un set de antrenament, adică o grămadă de date încă clasificate. Aceste date sunt folosite pentru a vă antrena clasificatorul și pentru a obține o funcție discriminantă care vă va spune cărei clase o probabilitate mai mare să aparțină.

Când aveți setul de antrenament, trebuie să calculați media $ \ mu $ și deviația standard $ \ sigma ^ 2 $ . Aceste două variabile, după cum știți, vă permit să descrieți o distribuție normală.

Odată ce ați calculat distribuția normală pentru fiecare clasă, pentru a clasifica o dată va trebui să calculați, pentru fiecare, probabilitatea că aceste date îi aparțin. Clasa cu cea mai mare probabilitate va fi aleasă ca clasă de afinitate.

Mai multe informații despre funcțiile discriminante pentru densitatea normală pot fi găsite în manual ca Clasificare model DUDA, HART, SOTRK sau Recunoașterea modelelor și învățarea automată BISHOP .

Un tutorial pentru GDA poate fi găsit și aici Part1 și Part2

Comentarii

  • Prima carte este de " Stork ", nu " Sotrk ".
  • linkurile tutoriale sunt rupte, puteți verifica o dată din nou
  • Linkurile au fost acum rezolvate.

Răspuns

Cred că Andrew Ng ” Note despre GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) sunt cea mai bună explicație pe care am văzut-o despre concept, dar vreau să " încercați să explicați acest lucru pentru cineva la nivel de liceu " după cum ați solicitat (și raportați-l la notele lui Andrew pentru tu care îți pasă de matematică).

Imaginează-ți că ai două clase. Descrieți o clasă ca $ y = 0 $ și o clasă ca $ y = 1 $ . Ar putea fi $ mere $ vs $ portocale $ , de exemplu.

Aveți un datapoint $ x $ care descrie o observație a unuia dintre aceste lucruri. O observație ar putea fi, adică, $ [preț, diametru, greutate, culoare] $ . Poate fi o colecție de atribute care pot fi măsurate și puteți măsura câte lucruri doriți să descrieți un $ x $ . Dacă măsurăm 4 lucruri diferite pentru a descrie un $ x $ , atunci spunem că $ x $ este 4 dimensiuni . În general, vom numi acest $ d $ .

Iată modelul GDA din notele lui Andrew:

introduceți descrierea imaginii aici

În engleză simplă, se spune:

$ p (y) $ poate fi descris ca o monedă neloială. De exemplu, s-ar putea ca $ p (y = 0) = 0,4 $ și $ p (y = 1) = 0,6 $ . Adică există 40% șanse ca lucrurile să fie mere și 60% șanse ca lucrurile să fie portocale, punct, acolo în lume.

Dat $ y = 0 $ (adică dacă putem presupunem că lucrul este un măr), toate măsurătorile din x sunt distribuite în mod normal cu un set de parametri $ \ mu_0 $ și $ \ Sigma $ . $ \ mu_0 $ nu este o valoare – este un vector $ d $ . Pentru a defini o distribuție normală, avem nevoie de un $ \ mu $ pentru fiecare dimensiune a lui x (prețul mediu, greutatea medie etc.) și, de asemenea, un $ d $ x $ d $ matrice de covarianță $ \ Sigma $ care descrie modul în care dimensiunile se raportează între ele. De ce? Deoarece anumite lucruri ar putea fi corelate (adică fructele mari cântăresc probabil mai mult).

Presupunem că dacă $ y = 1 $ (chestia este o portocalie), măsurătorile sale se comportă și ele în mod normal. Cu excepția faptului că mijloacele lor sunt diferite și le descriem pe cele cu $ \ mu_1 $ . Folosim același $ \ Sigma $ . 1

Ok … după toată acea configurare, faceți un experiment de gândire:

Întoarceți o monedă nedreaptă care determină dacă ceva este măr sau portocaliu. Apoi, pe baza acestui rezultat, mergeți la Distribuție normală 0 sau Distribuție normală 1 și testați un punct de date. Dacă repetați acest lucru de multe ori, veți obține o tonă de puncte de date în $ d $ spațiu-dimensional. Distribuirea acestor date, cu condiția să avem destule, va fi fi " tipic " al modelului specific din care generăm.

(de aceea nota sa este numită " Algoritmi de învățare generativă ")

Dar dacă facem acest lucru înapoi? Vă ofer o mulțime de date în schimb, și vă spun că a fost generat într-un astfel de mod. Ați putea, apoi, să reveniți și să-mi spuneți probabilitatea pe monedă și $ \ mu $ s și $ \ Sigma $ s din cele două distribuții normale, care se potrivesc cu aceste date cât mai bine posibil. Acest exercițiu invers este GDA .


1 Rețineți că modelul lui Andrew utilizează aceeași matrice de covarianță $ \ Sigma $ pentru ambele clase. Aceasta înseamnă că oricare ar fi distribuția mea normală pentru o clasă – oricât de înaltă / grasă / înclinată este – presupun că cealaltă clasa „matricea de covarianță arată exact așa.

Când $ \ Sigma $ este același între clase, avem un caz special de GDA numită Analiză Discriminantă Liniară, deoarece are ca rezultat o limită de decizie liniară (vezi imaginea de mai jos din notele lui Andrew).

introduceți descrierea imaginii aici

Această presupunere poate fi cu siguranță falsă, iar GDA descrie acest exercițiu în cel mai general caz, când $ \ Sigma $ s poate fi diferit între clase.

Răspuns

GDA este o formă de analiză a distribuției liniare. De la un cunoscut $ P (x | y) $, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$

este derivat prin aplicarea „s. Bayes”.

Practic, așa cum a menționat @ttnphns, folosit de obicei ca generic etichetă pentru orice analiză discriminantă care presupune o populație care arată distribuția gaussiană. Pentru o explicație mai detaliată, citiți Fisher „1936s paper in Annals of Eugenics (da, așa se numea într-adevăr). „Este o lectură dificilă și nerecompensabilă, dar este sursa ideii (un mic avertisment: spre deosebire de vin, hârtiile nu se îmbunătățesc, iar acesta este foarte confuz de citit atunci când considerăm că a fost scris într-o limbă matematică care nu a folosit idei precum „modele de analiză generativă de distribuție”, deci există un anumit grad de confuzie terminologică aici). Recunosc cu rușine că sunt în mare parte autodidact, iar educația mea despre GDA are în principal provenit dintr-o minunată prelegere (dacă asta e ideea ta de distracție) de Andrew Ng din Stanford care merită vizionată (și vorbește despre subiect în contemporan lingo).

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *