O que é Análise Discriminante Gaussiana (GDA)? Que materiais devemos ler para entender como funciona um GDA e de onde ele vem? Tente explicar isso para alguém no nível de ensino médio.

Comentários

  • De acordo com imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf por exemplo, é um rótulo genérico para Linear DA + DA Quadrático. Portanto, você pode pesquisar / ler com segurança (incluindo este site) apenas por " análise discriminante ". Ele corresponderá ao GDA. GDA é DA assumindo população normalmente distribuída.

Resposta

GDA, é um método para classificação de dados comumente usado quando os dados podem ser aproximados com uma distribuição normal. Como primeira etapa, você precisará de um conjunto de treinamento, ou seja, um monte de dados ainda classificados. Esses dados são usados para treinar seu classificador e obter uma função discriminante que dirá a qual classe um dado tem maior probabilidade de pertencer.

Quando você tem seu conjunto de treinamento, precisa calcular a média $ \ mu $ e o desvio padrão $ \ sigma ^ 2 $ . Essas duas variáveis, como você sabe, permitem descrever uma distribuição normal.

Depois de calcular a distribuição normal para cada classe, para classificar os dados, você precisará calcular, para cada uma, a probabilidade que esses dados pertencem a ele. A classe com a maior probabilidade será escolhida como a classe de afinidade.

Mais informações sobre Funções Discriminantes para a Densidade Normal podem ser encontradas no livro didático como Classificação de Padrão DUDA, HART, SOTRK ou Reconhecimento de padrões e aprendizado de máquina BISHOP .

Um tutorial do GDA também pode ser encontrado aqui Parte 1 e Parte 2

Comentários

  • O primeiro livro é de " Stork ", não " Sotrk ".
  • os links do tutorial estão quebrados, você pode verificar uma vez novamente
  • os links agora foram corrigidos.

Resposta

Acho que Andrew Ng ” s notas sobre o GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) são a melhor explicação que já vi do conceito, mas quero " tente explicar isso para alguém em um nível de ensino médio " conforme solicitado (e relacione de volta às notas de Andrew para aqueles de você que se preocupa com a matemática).

Imagine que você tenha duas aulas. Descreva uma classe como $ y = 0 $ e uma classe como $ y = 1 $ . Pode ser $ apples $ vs $ oranges $ , por exemplo.

Você tem um ponto de dados $ x $ que descreve uma observação de uma dessas coisas. Uma observação pode ser, ou seja, $ [preço, diâmetro, peso, cor] $ . Pode ser uma coleção de quaisquer atributos que possam ser medidos, e você pode medir quantas coisas quiser para descrever um $ x $ . Se medirmos 4 coisas diferentes para descrever um $ x $ , então diremos que $ x $ é quadridimensional . Em geral, chamaremos isso de $ d $ .

Aqui está o modelo de GDA das notas de Andrew:

insira a descrição da imagem aqui

Em inglês simples, diz:

$ p (y) $ pode ser descrito como um cara ou coroa injusto. Por exemplo, pode ser que $ p (y = 0) = 0,4 $ e $ p (y = 1) = 0,6 $ . Ou seja, há 40% de chance de que as coisas estejam maçãs e 60% de chance de que as coisas sejam laranjas, ponto final, lá fora no mundo.

Dado $ y = 0 $ (ou seja, se pudermos suponha que a coisa seja uma maçã), todas as medidas em x são normalmente distribuídas com algum conjunto de parâmetros $ \ mu_0 $ e $ \ Sigma $ . $ \ mu_0 $ não é um valor – é um vetor $ d $ -dimensional. Para definir uma distribuição normal, precisamos de $ \ mu $ para cada dimensão de x (preço médio, peso médio, etc.) e também $ d $ x $ d $ matriz de covariância $ \ Sigma $ que descreve como as dimensões se relacionam entre si. Porque? Porque certas coisas podem estar correlacionadas (ou seja, frutas grandes provavelmente pesam mais).

Assumimos que se $ y = 1 $ (a coisa é uma laranja), suas medidas se comportam normalmente também. Exceto que suas médias são diferentes e nós as descrevemos com $ \ mu_1 $ . No entanto, usamos o mesmo $ \ Sigma $ . 1

Ok … depois de toda essa configuração, faça um experimento mental:

Jogue uma moeda injusta que determina se algo é maçã ou laranja. Em seguida, com base nesse resultado, vá para Distribuição normal 0 ou Distribuição normal 1 e faça uma amostra de um ponto de dados. Se você repetir isso muitas vezes, “obterá uma tonelada de pontos de dados no espaço $ d $ -dimensional. A distribuição desses dados, desde que tenhamos o suficiente, seja " típico " do modelo específico a partir do qual estamos gerando.

(daí por que sua nota é chamada " Algoritmos de aprendizagem generativa ")

Mas e se fizermos isso ao contrário? Eu lhe dou um monte de dados em vez disso, e digo que foi gerado dessa forma. Você poderia então, ao contrário, voltar e me dizer a probabilidade da moeda e o $ \ mu $ se $ \ Sigma $ s das duas distribuições normais, que se ajustam a esses dados da melhor forma possível. Este exercício retroativo é GDA .


1 Observe que o modelo de Andrew usa a mesma matriz de covariância $ \ Sigma $ para ambas as classes. Isso significa que qualquer que seja a aparência de minha distribuição normal para uma classe – por mais alta / gorda / esguia que seja – presumo a outra class “matriz de covariância se parece exatamente com isso também.

Quando $ \ Sigma $ é o mesmo entre as classes, temos um caso especial de GDA chamada de Análise Discriminante Linear, porque resulta em um limite de decisão linear (veja a imagem abaixo das notas de Andrew).

insira a descrição da imagem aqui

Esta suposição pode certamente ser falsa, e o GDA descreve este exercício no caso mais geral, quando $ \ Sigma $ s podem ser diferentes entre as classes.

Resposta

GDA é uma forma de análise de distribuição linear. De um $ P (x | y) $ conhecido, $$ P (y | x) = \ frac {P (x | y) P_ {prior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$

é derivado da aplicação de Bayes “s.

É basicamente, como observou @ttnphns, geralmente usado como um genérico rótulo para qualquer análise discriminante que assume uma população que mostra a distribuição gaussiana. Para uma explicação mais aprofundada, leia o artigo de Fisher de 1936 nos Annals of Eugenics (sim, é realmente assim que se chama). É uma leitura difícil e pouco gratificante, mas é a fonte da ideia (um pequeno aviso: ao contrário do vinho, os papéis não melhoram, e este é muito confuso de ler considerando que foi escrito em um jargão matemático que não usava ideias como “modelos de análise de distribuição generativa”, portanto, há um certo grau de confusão terminológica aqui. Vergonhosamente, admito que sou principalmente autodidata e minha educação em GDA tem principalmente vindo de uma palestra maravilhosa (se essa é sua ideia de diversão) por Andrew Ng de Stanford que vale a pena assistir (e fala sobre o assunto na época linguagem).

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *