Allocation de Dirichlet Latent (LDA) et Processus de Dirichlet Hiérarchique (HDP) sont tous deux des processus de modélisation de sujets. La principale différence est que LDA nécessite la spécification du nombre de sujets, et HDP ne le fait pas. Pourquoi en est-il ainsi? Et quelles sont les différences, les avantages et les inconvénients des deux méthodes de modélisation de sujets?

Commentaires

  • HDP est-il censé être basé sur les données en ce qui concerne le nombre de sujets quil sélectionnera? Sur le plan pratique, jai essayé dexécuter Blei ‘ et il a juste mangé toute la mémoire jusquà ce que jarrête le processus. Jai 16 Go de RAM et un peu plus de 100K documents courts à analyser.

Réponse

HDP est une extension de LDA, conçue pour traiter le cas où le nombre de composants du mélange (le nombre de « sujets » en termes de modélisation de document) nest pas connu a priori. Cest donc la raison pour laquelle il existe une différence.

En utilisant LDA pour la modélisation de documents, on traite chaque « sujet » comme une distribution de mots dans un vocabulaire connu. Pour chaque document, un mélange de sujets est dessiné à partir dune distribution de Dirichlet, un Et puis chaque mot dans le document est un tirage indépendant de ce mélange (cest-à-dire, sélectionner un sujet puis lutiliser pour générer un mot).

Pour HDP (appliqué à la modélisation de documents), on utilise également un processus Dirichlet pour saisir lincertitude sur le nombre de sujets. Ainsi, une distribution de base commune est sélectionnée qui représente lensemble infini dénombrable de sujets possibles pour le corpus, puis la distribution finie des sujets pour chaque document est échantillonnée à partir de cette distribution de base.

En ce qui concerne les pros et par contre, HDP a lavantage que le nombre maximum de sujets peut être illimité et appris à partir des données plutôt que spécifié à lavance. Je suppose que cest plus compliqué à mettre en œuvre, et inutile dans le cas où un nombre limité de sujets est acceptable.

Réponse

De façon anecdotique, je nai jamais été impressionné par le résultat de LDA hiérarchique. Il ne semble tout simplement pas trouver un niveau optimal de granularité pour le choix du nombre de sujets. Jai obtenu de bien meilleurs résultats en exécutant quelques itérations de LDA standard, en inspectant manuellement les sujets quil a produits, en décidant daugmenter ou de réduire le nombre de sujets et de continuer à itérer jusquà ce que jobtienne la granularité que je recherche.

Rappelez-vous: le LDA hiérarchique ne peut pas lire dans vos pensées … il ne sait pas à quoi vous comptez réellement utiliser la modélisation de sujets. Tout comme avec le clustering k-means, vous devez choisir le k qui correspond le mieux à votre cas dutilisation.

Réponse

Je voulais souligner, étant donné quil sagit de lun des meilleurs résultats Google pour ce sujet, que lallocation de dirichlet latent (LDA), les processus de dirichlet hiérarchique (HDP), et lallocation de dirichlet latent hiérarchique (hLDA) sont tous les modèles distincts.

LDA modélise les documents comme des mélanges de dirichlet dun nombre fixe de sujets – choisis comme paramètre du modèle par lutilisateur – qui sont à leur tour des mélanges de dirichlet de mots. Cela génère un regroupement probabiliste plat et souple des termes en sujets et des documents en sujets.

HDP modélise les sujets comme des mélanges de mots, un peu comme LDA, mais plutôt que les documents étant des mélanges dun nombre fixe de sujets, le nombre de sujets est généré par un processus dirichlet, ce qui entraîne le nombre de sujets une variable aléatoire également. La partie « hiérarchique » du nom fait référence à un autre niveau ajouté au modèle génératif (le processus de dirichlet produisant le nombre de sujets), pas aux sujets eux-mêmes – les sujets sont toujours des regroupements plats.

hLDA, dautre part, est une adaptation de LDA qui modélise les sujets comme des mélanges dun nouveau niveau distinct de sujets, tirés de distributions de dirichlet et non de processus. Il traite toujours le nombre de sujets comme un hyperparamètre, cest-à-dire indépendant des données. La différence est que le regroupement est maintenant hiérarchique – il apprend un regroupement du premier ensemble de sujets eux-mêmes, donnant une relation plus générale et abstraite entre les sujets (et par conséquent, les mots et les documents). Pensez-y comme si vous regroupiez les échanges de piles en mathématiques, sciences, programmation, histoire, etc. par opposition à regrouper la science des données et la validation croisée dans un sujet abstrait de statistiques et de programmation qui partage certains concepts avec, par exemple, le génie logiciel, mais le génie logiciel léchange est regroupé à un niveau plus concret avec léchange informatique, et la similitude entre tous les échanges mentionnés napparaît pas autant jusquà la couche supérieure des clusters.

Réponse

Jai une situation où HDP fonctionne bien par rapport à LDA. Jai environ 16 000 documents qui appartiennent à différentes classes.Comme je ne sais pas combien de sujets différents je peux rassembler pour chaque classe, HDP est vraiment utile dans ce cas.

Réponse

En fait, HDP nécessite beaucoup de paramètres cachés, qui sont dans le code. Si vous jouez avec de tels paramètres, vous obtiendrez des résultats différents (différents sujets). Les gens ne font généralement pas attention à ces paramètres cachés et pensent que le modèle est capable de trouver de tels paramètres. Ce nest pas vrai. L’utilisateur doit définir les paramètres «eta» «gamma» et «alpha» et un maximum de sujets. Si vous spécifiez un maximum de sujets, disons 23 sujets, alors vous modélisez 23 sujets en sortie. Si vous configurez 15 sujets, vous obtenez 15 sujets en sortie….

Réponse

Larticle 2005 de Yee Whye Teh et al «  Processus hiérarchiques de Dirichlet décrit un a priori non paramétrique pour groupé problèmes de clustering. Pour exemple , le HDP aide à généraliser le Allocation de Dirichlet Latent au cas où le nombre de sujets dans les données est découvert par lalgorithme dinférence au lieu dêtre spécifié comme paramètre du modèle. Détaillé Des explications sur le processus Dirichlet peuvent être trouvées ici

Les modèles de sujets promettent daider à résumer et à organiser de grandes archives de textes qui ne peuvent pas être facilement analysés à la main . Le processus de Dirichlet hiérarchique (HDP) est un puissant mélange de membres modèle de hanche pour lanalyse non supervisée de données groupées. Contrairement à son homologue fini, allocation de Dirichlet latente , le modèle de sujet HDP déduit le nombre de sujets à partir des données.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *