Che cosè unanalisi discriminante gaussiana (GDA)? Quali materiali si dovrebbero leggere per capire come funziona una GDA e da dove proviene? Prova a spiegarlo a qualcuno che frequenta le scuole superiori.

Commenti

  • Secondo imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf , ad esempio, è unetichetta generica per DA lineare + DA quadratica. Quindi, puoi cercare / leggere in sicurezza (incluso questo sito) solo " analisi discriminante ". Corrisponderà a GDA. GDA è DA presupponendo una popolazione normalmente distribuita.

Risposta

GDA, è un metodo per la classificazione dei dati comunemente usato quando i dati possono essere approssimati con una distribuzione Normale. Come primo passo, avrai bisogno di un set di allenamento, cioè un mucchio di dati ancora classificati. Questi dati vengono utilizzati per addestrare il tuo classificatore e ottenere una funzione discriminante che ti dirà a quale classe un dato ha una maggiore probabilità di appartenere.

Quando hai il tuo set di addestramento devi calcolare la media $ \ mu $ e la deviazione standard $ \ sigma ^ 2 $ . Queste due variabili, come sai, ti permettono di descrivere una distribuzione Normale.

Una volta calcolata la distribuzione Normale per ogni classe, per classificare un dato dovrai calcolare, per ciascuna, la probabilità che quei dati gli appartengono. La classe con la probabilità più alta verrà scelta come classe di affinità.

Ulteriori informazioni sulle funzioni discriminanti per la densità normale possono essere trovate nel libro di testo come Classificazione del modello DUDA, HART, SOTRK o Riconoscimento di modelli e apprendimento automatico BISHOP .

Un tutorial su GDA può essere trovato anche qui Part1 e Part2

Commenti

  • Il primo libro è di " Stork ", non " Sotrk ".
  • i link del tutorial sono interrotti, puoi controllare una volta di nuovo
  • I collegamenti sono stati corretti.

Risposta

Penso che Andrew Ng ” Le note su GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) sono la migliore spiegazione che ho visto del concetto, ma voglio " prova a spiegare questo a qualcuno a un livello di scuola superiore " come richiesto (e ricollegalo agli appunti di Andrew per quelli di tu che ti interessa la matematica).

Immagina di avere due classi. Descrivi una classe come $ y = 0 $ e una classe come $ y = 1 $ . Ad esempio, potrebbe essere $ mele $ vs $ arance $ .

Hai un datapoint $ x $ che descrive unosservazione di una di queste cose. Unosservazione potrebbe essere, ad esempio, $ [prezzo, diametro, peso, colore] $ . Può essere una raccolta di qualsiasi attributo che può essere misurato e puoi misurare quante cose per descrivere un $ x $ desideri. Se misuriamo 4 cose diverse per descrivere un $ x $ , allora diciamo che $ x $ è quadridimensionale . In generale, lo chiameremo $ d $ .

Ecco il modello di GDA dalle note di Andrew:

inserisci la descrizione dellimmagine qui

In parole povere questo dice:

$ p (y) $ può essere descritto come un lancio di moneta ingiusto. Ad esempio, potrebbe essere che $ p (y = 0) = 0.4 $ e $ p (y = 1) = 0.6 $ . Cioè “cè una probabilità del 40% che le cose stiano mele e il 60% di possibilità che le cose siano arance, punto, là fuori nel mondo.

Dato $ y = 0 $ (cioè se possiamo supponiamo che la cosa sia una mela), tutte le misurazioni in x sono normalmente distribuite con una serie di parametri $ \ mu_0 $ e $ \ Sigma $ . $ \ mu_0 $ non è un valore: è un vettore $ d $ -dimensionale. Per definire una distribuzione normale abbiamo bisogno di un $ \ mu $ per ogni dimensione di x (prezzo medio, peso medio, ecc.) E anche di un $ d $ x $ d $ matrice di covarianza $ \ Sigma $ che descrive come le dimensioni si relazionano tra loro. Perché? Perché alcune cose potrebbero essere correlate (cioè i frutti grandi probabilmente pesano di più).

Partiamo dal presupposto che se $ y = 1 $ (la cosa è unarancia), anche le sue misurazioni si comportano normalmente. Tranne che i loro mezzi sono diversi e li descriviamo con $ \ mu_1 $ . Tuttavia, utilizziamo lo stesso $ \ Sigma $ . 1

Ok … dopo tutta questa configurazione, fai un esperimento mentale:

Lancia una moneta ingiusta che determina se qualcosa è mela o arancia. Quindi, in base a quel risultato, vai a Distribuzione normale 0 o Distribuzione normale 1 e campiona un punto dati. Se lo ripeti molte volte, otterrai un sacco di punti dati nello spazio $ d $ . La distribuzione di questi dati, ammesso che ne abbiamo abbastanza, lo farà essere " tipico " del modello specifico da cui stiamo generando.

(ecco perché la sua nota è chiamata " Algoritmi di apprendimento generativo ")

Ma cosa succede se lo facciamo al contrario? Ti do un sacco di dati invece, e ti dico che è stato generato in questo modo. Potresti, viceversa, tornare indietro e dirmi la probabilità sulla moneta, e il $ \ mu $ se $ \ Sigma $ delle due distribuzioni normali, che si adattano a questi dati nel miglior modo possibile. Questo esercizio allindietro è GDA .


1 Tieni presente che il modello di Andrew utilizza la stessa matrice di covarianza $ \ Sigma $ per entrambe le classi. Ciò significa che qualunque sia la mia distribuzione normale per una classe, per quanto alta / grassa / snella sia – presumo laltra class “anche la matrice di covarianza ha lo stesso aspetto.

Quando $ \ Sigma $ è la stessa tra le classi, abbiamo un caso speciale di GDA chiamata Linear Discriminant Analysis, perché si traduce in un confine decisionale lineare (vedi immagine sotto dalle note di Andrew).

inserisci qui la descrizione dellimmagine

Questa ipotesi può certamente essere falsa e GDA descrive questo esercizio nel caso più generale, quando $ I \ Sigma $ possono essere diversi tra le classi.

Risposta

GDA è una forma di analisi della distribuzione lineare. Da un $ P (x | y) $ noto, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$

è derivato dallapplicazione di “s Bayes”.

È fondamentalmente, come ha notato @ttnphns, usato solitamente come un generico etichetta per qualsiasi analisi discriminante che presuppone una popolazione che mostra la distribuzione gaussiana. Per una spiegazione più approfondita, leggi larticolo di Fisher del 1936 negli Annals of Eugenics (sì, è proprio così che veniva chiamato). È “una lettura difficile e poco gratificante, ma è la fonte dellidea (un piccolo avvertimento: a differenza del vino, le carte non migliorano, e questa è molto confusa da leggere se si considera che è stato scritto in un gergo matematico che non utilizzava idee come “modelli di analisi della distribuzione generativa”, quindi qui cè un certo grado di confusione terminologica). Con la presente ammetto vergognosamente che sono per lo più autodidatta e la mia formazione su GDA è principalmente stato da una meravigliosa conferenza (se questa è la tua idea di divertimento) di Andrew Ng di Stanford che “vale la pena guardare (e parla dellargomento in contemporanea gergo).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *