¿Qué es un análisis discriminante gaussiano (GDA)? ¿Qué materiales se deben leer para comprender cómo funciona una GDA y de dónde proviene? Intenta explicarle esto a alguien de nivel secundario.
Comentarios
- Según imada.sdu.dk/~marco/DM825/Slides/dm825-lec7.pdf por ejemplo, es una etiqueta genérica para DA lineal + DA cuadrática. Por lo tanto, puede buscar / leer con seguridad (incluido este sitio) solo " análisis discriminante ". Corresponderá a GDA. GDA es DA asumiendo una población distribuida normalmente.
Respuesta
GDA, es un método de clasificación de datos comúnmente utilizado cuando los datos se pueden aproximar con una distribución normal. Como primer paso, necesitará un conjunto de entrenamiento, es decir, un montón de datos todavía clasificados. Estos datos se utilizan para entrenar su clasificador y obtener una función discriminante que le dirá a qué clase un dato tiene mayor probabilidad de pertenecer.
Cuando tenga su conjunto de entrenamiento, debe calcular la media $ \ mu $ y la desviación estándar $ \ sigma ^ 2 $ . Estas dos variables, como sabe, le permiten describir una distribución Normal.
Una vez que haya calculado la distribución Normal para cada clase, para clasificar un dato necesitará calcular, para cada una, la probabilidad que esos datos le pertenecen. Se elegirá la clase con mayor probabilidad como clase de afinidad.
Puede encontrar más información sobre las funciones discriminantes para la densidad normal en el libro de texto como Clasificación de patrones DUDA, HART, SOTRK o Reconocimiento de patrones y aprendizaje automático BISHOP .
También se puede encontrar un tutorial de GDA aquí Part1 y Part2
Comentarios
- El primer libro es de " Stork ", no " Sotrk ".
- Los enlaces del tutorial están rotos. ¿Puedes comprobarlo una vez? de nuevo
- Los enlaces ahora se han corregido.
Responder
Creo que Andrew Ng » s notas sobre GDA ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf ) son la mejor explicación que he visto del concepto, pero quiero " intenta explicarle esto a alguien de nivel secundario " según lo solicitado (y relacionarlo con las notas de Andrew para aquellos de usted que se preocupa por las matemáticas).
Imagine que tiene dos clases. Describe una clase como $ y = 0 $ y una clase como $ y = 1 $ . Podría ser $ manzanas $ frente a $ naranjas $ , por ejemplo.
Tiene un punto de datos $ x $ que describe una observación de una de estas cosas. Una observación podría ser, es decir, $ [precio, diámetro, peso, color] $ . Puede ser una colección de cualquier atributo que se pueda medir, y puede medir tantas cosas para describir un $ x $ como desee. Si medimos 4 cosas diferentes para describir un $ x $ , entonces decimos que $ x $ tiene 4 dimensiones . En general, lo llamaremos $ d $ .
Aquí está el modelo de GDA de las notas de Andrew:
En inglés simple, esto dice:
$ p (y) $ puede describirse como un lanzamiento de moneda injusto. Por ejemplo, podría ser que $ p (y = 0) = 0.4 $ y $ p (y = 1) = 0.6 $ . Es decir, hay un 40% de probabilidad de que las cosas manzanas y un 60% de probabilidad de que las cosas sean naranjas, punto, en el mundo.
Dado $ y = 0 $ (es decir, si podemos supongamos que la cosa es una manzana), todas las medidas en x se distribuyen normalmente con algún conjunto de parámetros $ \ mu_0 $ y $ \ Sigma $ . $ \ mu_0 $ no es un valor, es un $ d $ -dimensional. Para definir una distribución normal, necesitamos un $ \ mu $ para cada dimensión de x (precio medio, peso medio, etc.) y también un $ d $ x $ d $ matriz de covarianza $ \ Sigma $ que describe cómo se relacionan las dimensiones entre sí. ¿Por qué? Porque ciertas cosas pueden estar correlacionadas (es decir, la fruta grande probablemente pese más).
Suponemos que si $ y = 1 $ (la cosa es una naranja), sus medidas también se comportan normalmente. Excepto que sus medias son diferentes y las describimos con $ \ mu_1 $ . Sin embargo, usamos el mismo $ \ Sigma $ . 1
Ok … después de toda esa configuración, haz un experimento mental:
Lanza una moneda injusta que determina si algo es manzana o naranja. Luego, según ese resultado, vaya a Distribución normal 0 o Distribución normal 1 y muestree un punto de datos. Si repite esto muchas veces, obtendrá una tonelada de puntos de datos en el espacio $ d $ -dimensional. La distribución de estos datos, siempre que tengamos suficientes, ser " típico " del modelo específico desde el que estamos generando.
(de ahí que su nota se llame " Algoritmos de aprendizaje generativo ")
Pero, ¿y si hacemos esto al revés? Les doy un montón de datos en su lugar, y te digo que se generó de esa manera. Luego, a la inversa, puedes volver y decirme la probabilidad de la moneda y el $ \ mu $ sy $ \ Sigma $ s de las dos distribuciones normales, que se ajustan a estos datos lo mejor posible. Este ejercicio al revés es GDA .
1 Tenga en cuenta que el modelo de Andrew usa la misma matriz de covarianza $ \ Sigma $ para ambas clases. Esto significa que cualquiera que sea el aspecto de mi distribución normal para una clase, por alta, gorda o inclinada que sea, asumo la otra class «matriz de covarianza también se ve exactamente así.
Cuando $ \ Sigma $ es el mismo entre clases, tenemos un caso especial de GDA llamado Análisis Discriminante Lineal, porque da como resultado un límite de decisión lineal (vea la imagen a continuación de las notas de Andrew).
Esta suposición ciertamente puede ser falsa, y GDA describe este ejercicio en el caso más general, cuando $ \ Sigma $ s pueden ser diferentes entre clases.
Respuesta
GDA es una forma de análisis de distribución lineal. De un $ P (x | y) $ conocido, $$ P (y | x) = \ frac {P (x | y) P_ {anterior} (y)} {\ Sigma_ {g \ in Y} P (x | g) P_ {prior} (g)} $$
se deriva mediante la aplicación de Bayes.
Básicamente, como señaló @ttnphns, se usa generalmente como genérico etiqueta para cualquier análisis discriminante que asume una población que muestra la distribución gaussiana. Para una explicación más detallada, lea el artículo de Fisher de 1936 en Annals of Eugenics (sí, así es como se llamaba). Es una lectura difícil y poco gratificante, pero es la fuente de la idea (una pequeña advertencia: a diferencia del vino, los artículos no mejoran, y este es muy confuso de leer si se considera que fue escrito en una jerga matemática que no usaba ideas como «modelos de análisis de distribución generativa», por lo que hay un grado de confusión terminológica aquí). Por la presente, admito vergonzosamente que soy principalmente autodidacta, y mi educación en GDA proviene de una maravillosa conferencia (si esa es tu idea de diversión) de Andrew Ng de Stanford que vale la pena ver (y habla sobre el tema en jerga).