Asignación de Dirichlet latente (LDA) y Proceso de Dirichlet jerárquico (HDP) son ambos procesos de modelado de temas. La principal diferencia es que LDA requiere la especificación de la cantidad de temas, y HDP no. ¿Por qué es así? ¿Y cuáles son las diferencias, ventajas y desventajas de ambos métodos de modelado de temas?

Comentarios

  • ¿Se supone que HDP se basa en datos con respecto a la cantidad de temas que seleccionará? En la práctica, intenté ejecutar Blei ‘ s HDP y se comió toda la memoria hasta que detuve el proceso. Tengo 16GB de RAM y poco más de 100K documentos cortos para analizar.

Respuesta

HDP es una extensión de LDA, diseñada para abordar el caso donde el número de componentes de la mezcla (el número de «temas» en términos de modelado de documentos) no se conoce a priori. Así que esa es la razón por la que hay una diferencia.

Al usar LDA para el modelado de documentos, se trata cada «tema» como una distribución de palabras en un vocabulario conocido. Para cada documento se dibuja una mezcla de temas de una distribución de Dirichlet, un nd entonces cada palabra en el documento es un dibujo independiente de esa mezcla (es decir, seleccionar un tema y luego usarlo para generar una palabra).

Para HDP (aplicado al modelado de documentos), también se usa un proceso de Dirichlet para capturar la incertidumbre en el número de temas. Por lo tanto, se selecciona una distribución base común que representa el conjunto numerable-infinito de posibles temas para el corpus, y luego se muestra la distribución finita de temas para cada documento a partir de esta distribución base.

En cuanto a pros y En contra, HDP tiene la ventaja de que el número máximo de temas puede ser ilimitado y aprender de los datos en lugar de especificarlo de antemano. Aunque supongo que es más complicado de implementar e innecesario en el caso de que sea aceptable un número limitado de temas.

Respuesta

Como anécdota, nunca me ha impresionado el resultado de LDA jerárquico. Simplemente no parece encontrar un nivel óptimo de granularidad para elegir el número de temas. Obtuve resultados mucho mejores ejecutando algunas iteraciones de LDA regular, inspeccionando manualmente los temas que produjo, decidiendo si aumentar o disminuir la cantidad de temas y continuar iterando hasta obtener la granularidad que estoy buscando.

Recuerde: la LDA jerárquica no puede leer su mente … no sabe para qué pretende utilizar el modelado de temas. Al igual que con la agrupación en clústeres de k-medias, debe elegir la k que tenga más sentido para su caso de uso.

Respuesta

Quería señalar, dado que este es uno de los principales éxitos de Google para este tema, que la asignación de Dirichlet latente (LDA), los procesos de Dirichlet jerárquico (HDP), y asignación de Dirichlet latente jerárquica (hLDA) son todos los modelos distintos.

LDA modela documentos como mezclas de dirichlet de un número fijo de temas, elegidos como un parámetro del modelo por el usuario, que son a su vez mezclas de palabras en dirichlet. Esto genera una agrupación probabilística plana y suave de términos en temas y documentos en temas.

HDP modela temas como mezclas de palabras, al igual que LDA, pero en lugar de que los documentos sean mezclas de un número fijo de temas, el número de temas se genera mediante un proceso de dirichlet, lo que da como resultado que el número de temas se también una variable aleatoria. La parte «jerárquica» del nombre se refiere a otro nivel que se agrega al modelo generativo (el proceso de dirichlet que produce el número de temas), no a los temas en sí mismos; los temas siguen siendo agrupaciones planas.

hLDA, por otro lado, es una adaptación de LDA que modela temas como mezclas de un nivel nuevo y distinto de temas, extraídos de distribuciones dirichlet y no de procesos. Todavía trata el número de temas como un hiperparámetro, es decir, independiente de los datos. La diferencia es que la agrupación ahora es jerárquica: aprende una agrupación del primer conjunto de temas en sí mismos, lo que proporciona relaciones abstractas más generales entre temas (y, por lo tanto, palabras y documentos). Piense en ello como agrupar los intercambios de pila en matemáticas, ciencia, programación, historia, etc. en lugar de agrupar la ciencia de datos y la validación cruzada en un tema de programación y estadísticas abstractas que comparte algunos conceptos con, digamos, ingeniería de software, pero la ingeniería de software El intercambio está agrupado en un nivel más concreto con el intercambio de ciencias de la computación, y la similitud entre todos los intercambios mencionados no aparece tanto hasta la capa superior de grupos.

Respuesta

Tengo una situación en la que HDP funciona bien en comparación con LDA. Tengo alrededor de 16000 documentos que pertenecen a varias clases.Como no sé cuántos temas diferentes puedo reunir para cada clase, HDP es realmente útil en este caso.

Respuesta

En realidad, HDP requiere muchos parámetros ocultos, que están en código. Si juega con tales parámetros obtendrá resultados diferentes (temas diferentes). La gente no suele prestar atención a esos parámetros ocultos y cree que el modelo es capaz de encontrarlos. No es cierto. El usuario debe definir los parámetros «eta», «gamma» y «alfa» y el máximo de temas. Si especifica un máximo de temas, digamos alrededor de 23 temas, entonces su modelo proporcionará 23 temas en la salida. Si configura 15 temas, obtendrá 15 temas en la salida….

Respuesta

El artículo de 2005 de Yee Whye Teh et al Procesos jerárquicos de Dirichlet describe un antecedente no paramétrico para grupos problemas de agrupamiento. Para el ejemplo , el HDP ayuda a generalizar el Asignación de Dirichlet latente modelo para el caso de que el algoritmo de inferencia descubra el número de temas en los datos en lugar de especificarlo como un parámetro del modelo. La explicación sobre el proceso de Dirichlet se puede encontrar aquí

Los modelos de temas prometen ayudar a resumir y organizar grandes archivos de textos que no se pueden analizar fácilmente a mano . El proceso de Dirichlet jerárquico (HDP) es un poderoso proceso de miembros mixtos modelo de cadera para el análisis no supervisado de datos agrupados. A diferencia de su contraparte finita, asignación de Dirichlet latente , el modelo de temas HDP infiere el número de temas a partir de los datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *