Latente Dirichlet-Zuordnung (LDA) und Hierarchischer Dirichlet-Prozess (HDP) sind beide Themenmodellierungsprozesse. Der Hauptunterschied besteht darin, dass LDA die Angabe der Anzahl der Themen erfordert und HDP nicht. Warum ist das so? Und was sind die Unterschiede, Vor- und Nachteile beider Methoden zur Themenmodellierung?

Kommentare

  • Soll HDP in Bezug auf die Anzahl der ausgewählten Themen datengesteuert sein? Auf der praktischen Seite habe ich versucht, Blei ‚ s HDP-Implementierung und es hat nur den gesamten Speicher verbraucht, bis ich den Prozess abgebrochen habe. Ich habe 16 GB RAM und etwas mehr als 100.000 kurze Dokumente zum Analysieren.

Antwort

HDP ist eine Erweiterung von LDA, die entwickelt wurde, um den Fall zu behandeln, in dem die Anzahl der Mischungskomponenten (die Anzahl der „Themen“ in Bezug auf die Dokumentmodellierung) a priori nicht bekannt ist. Das ist der Grund, warum es einen Unterschied gibt.

Mit LDA für die Dokumentmodellierung wird jedes „Thema“ als eine Verteilung von Wörtern in einem bekannten Vokabular behandelt. Für jedes Dokument wird eine Mischung von Themen gezeichnet aus einer Dirichlet-Verteilung, a Und dann ist jedes Wort im Dokument eine unabhängige Zeichnung aus dieser Mischung (dh ein Thema auswählen und dann zum Generieren eines Wortes verwenden).

Für HDP (angewendet auf die Dokumentmodellierung) wird auch eines verwendet ein Dirichlet-Prozess, um die Unsicherheit in der Anzahl der Themen zu erfassen. Daher wird eine gemeinsame Basisverteilung ausgewählt, die die zählbar unendlichen Mengen möglicher Themen für den Korpus darstellt, und dann wird die endliche Verteilung der Themen für jedes Dokument aus dieser Basisverteilung entnommen.

Soweit Profis und Nachteile, HDP hat den Vorteil, dass die maximale Anzahl von Themen unbegrenzt und aus den Daten gelernt werden kann, anstatt im Voraus festgelegt zu werden. Ich nehme an, es ist komplizierter zu implementieren und unnötig, wenn eine begrenzte Anzahl von Themen akzeptabel ist.

Antwort

Anekdotisch war ich noch nie von der Ausgabe der hierarchischen LDA beeindruckt. Es scheint einfach kein optimales Maß an Granularität für die Auswahl der Anzahl der Themen zu finden. Ich habe viel bessere Ergebnisse erzielt, indem ich einige Iterationen der regulären LDA ausgeführt, die von ihr erstellten Themen manuell überprüft, entschieden habe, ob die Anzahl der Themen erhöht oder verringert werden soll, und die Iteration fortgesetzt habe, bis ich die von mir gesuchte Granularität erreicht habe.

Denken Sie daran: Hierarchische LDA können Ihre Gedanken nicht lesen … sie wissen nicht, wofür Sie die Themenmodellierung tatsächlich verwenden möchten. Genau wie beim Clustering von k-means sollten Sie das k auswählen, das für Ihren Anwendungsfall am sinnvollsten ist.

Antwort

Ich wollte darauf hinweisen, dass Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP), und hierarchische Latent Dirichlet Allocation (hLDA) sind, da dies einer der Top-Google-Hits für dieses Thema ist alle unterschiedlichen Modelle.

LDA-Modelle dokumentieren als Dirichlet-Mischungen einer festen Anzahl von Themen, die vom Benutzer als Parameter des Modells ausgewählt wurden und wiederum Dirichlet-Wortmischungen sind. Dies erzeugt eine flache, weiche probabilistische Gruppierung von Begriffen zu Themen und Dokumenten zu Themen.

HDP modelliert Themen als Wortmischungen, ähnlich wie LDA, aber anstatt Dokumente als Mischungen einer festen Anzahl von Themen zu verwenden, wird die Anzahl der Themen durch einen Dirichlet-Prozess generiert, was zu einer Anzahl von Themen führt auch eine Zufallsvariable. Der „hierarchische“ Teil des Namens bezieht sich auf eine andere Ebene, die dem generativen Modell hinzugefügt wird (der Dirichlet-Prozess, der die Anzahl der Themen erzeugt), nicht auf die Themen selbst – die Themen sind immer noch flache Cluster.

hLDA, Auf der anderen Seite handelt es sich um eine Anpassung der LDA, die Themen als Mischungen einer neuen, unterschiedlichen Themenebene modelliert, die aus Dirichlet-Verteilungen und nicht aus Prozessen stammt. Die Anzahl der Themen wird weiterhin als Hyperparameter behandelt, d. H. Unabhängig von den Daten. Der Unterschied besteht darin, dass das Clustering jetzt hierarchisch ist – es lernt ein Clustering der ersten Gruppe von Themen selbst, wodurch allgemeinere, abstraktere Beziehungen zwischen Themen (und damit Wörtern und Dokumenten) hergestellt werden. Stellen Sie sich vor, Sie gruppieren den Stapelaustausch in Mathematik, Naturwissenschaften, Programmierung, Geschichte usw., anstatt Datenwissenschaft und Kreuzvalidierung in ein abstraktes Statistik- und Programmierthema zu gruppieren, das einige Konzepte beispielsweise mit dem Software-Engineering, aber dem Software-Engineering teilt Der Austausch ist auf einer konkreteren Ebene mit dem Austausch in der Informatik geclustert, und die Ähnlichkeit zwischen allen genannten Austauschen tritt erst in der oberen Clusterschicht auf.

Antwort

Ich habe eine Situation, in der HDP im Vergleich zu LDA gut funktioniert. Ich habe ungefähr 16000 Dokumente, die zu verschiedenen Klassen gehören.Da ich nicht weiß, wie viele verschiedene Themen ich für jede Klasse sammeln kann, ist HDP in diesem Fall wirklich hilfreich.

Antwort

Tatsächlich erfordert HDP viele versteckte Parameter, die sich im Code befinden. Wenn Sie mit solchen Parametern spielen, erhalten Sie unterschiedliche Ergebnisse (unterschiedliche Themen). Menschen achten normalerweise nicht auf solche versteckten Parameter und denken, dass das Modell solche Parameter finden kann. Es ist nicht wahr. Der Benutzer muss die Parameter „eta“, „gamma“ und „alpha“ sowie das Maximum der Themen definieren. Wenn Sie maximal 23 Themen angeben, z. B. 23 Themen, stellt das Modell 23 Themen in der Ausgabe bereit. Wenn Sie 15 Themen einrichten, erhalten Sie 15 Themen in der Ausgabe.

Antwort

Yee Whye Teh et al. „s Papier von 2005 Hierarchische Dirichlet-Prozesse beschreibt einen nichtparametrischen Prior für gruppierte Clustering-Probleme. Für das Beispiel hilft der HDP bei der Verallgemeinerung des Latent Dirichlet Allocation Modell für den Fall, dass die Anzahl der Themen in den Daten vom Inferenzalgorithmus erkannt wird, anstatt als Parameter des Modells angegeben zu werden. Detailliert Erklärungen zum Dirichlet-Prozess finden Sie hier

Themenmodelle versprechen eine Zusammenfassung und Organisation großer Archive von Texten, die nicht einfach von Hand analysiert werden können Der Hierarchischer Dirichlet-Prozess (HDP) ist ein mächtiges gemischtes Mitglied Hüftmodell zur unbeaufsichtigten Analyse gruppierter Daten. Im Gegensatz zu seinem endlichen Gegenstück latente Dirichlet-Zuordnung leitet das HDP-Themenmodell die Anzahl der Themen aus den Daten ab.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.