潜在的ディリクレ割り当て(LDA)および階層的ディリクレプロセス(HDP)は、どちらもトピックモデリングプロセスです。主な違いは、LDAにはトピック数の指定が必要であり、HDPには必要ないことです。なぜそうなのですか?また、両方のトピックモデリング方法の違い、長所、短所は何ですか?

コメント

  • HDPは、選択するトピックの数に関してデータ駆動型であると想定されていますか?実用面では、Bleiを実行しようとしました'のHDP実装であり、プロセスを強制終了するまですべてのメモリを消費しました。16GBのRAMと、分析する10万を超える短いドキュメントがあります。

回答

HDPはLDAの拡張であり、混合コンポーネントの数(ドキュメントモデリング用語での「トピック」の数)が事前にわからない場合に対処するように設計されています。これが違いがある理由です。

ドキュメントモデリングにLDAを使用すると、各「トピック」を既知の語彙の単語の分布として扱います。ドキュメントごとに、トピックの混合が描画されます。ディリクレ分布から、次に、ドキュメント内の各単語は、その混合物からの独立した描画です(つまり、トピックを選択し、それを使用して単語を生成します)。

HDP(ドキュメントモデリングに適用)の場合、トピック数の不確実性を捉えるためのディリクレプロセス。したがって、コーパスの可能なトピックの可算無限セットを表す共通ベース分布が選択され、次に各ドキュメントのトピックの有限分布がこのベース分布からサンプリングされます。

長所と短所として、HDPには、事前に指定するのではなく、最大数のトピックを無制限にデータから学習できるという利点があります。実装はもっと複雑で、限られた数のトピックが受け入れられる場合は不要だと思います。

回答

逸話的に、私は階層型LDAからの出力に感銘を受けたことはありません。トピックの数を選択するための最適なレベルの粒度を見つけられないようです。 「通常のLDAを数回繰り返し実行し、生成されたトピックを手動で検査し、トピックの数を増やすか減らすかを決定し、探している粒度が得られるまで繰り返しを続けることで、はるかに良い結果が得られました。」 p>

覚えておいてください:階層型LDAはあなたの心を読むことができません…それはあなたが実際にトピックモデリングを何のために使うつもりなのかを知りません。 k-meansクラスタリングの場合と同様に、ユースケースに最も適したkを選択する必要があります。

回答

これはこのトピックのトップGoogleヒットの1つであるため、潜在的ディリクレ割り当て(LDA)、階層的ディリクレプロセス(HDP)、および階層的潜在的ディリクレ割り当て(hLDA)がすべての異なるモデル。

LDAモデルは、固定数のトピックのディリクレ混合としてドキュメントをモデル化します。これは、ユーザーがモデルのパラメーターとして選択したもので、単語のディリクレ混合です。これにより、用語がトピックに、ドキュメントがトピックに、フラットでソフトな確率的クラスタリングが生成されます。

HDPは、LDAのように単語の混合としてトピックをモデル化しますが、ドキュメントが固定数のトピックの混合であるのではなく、トピックの数が判別プロセスによって生成されるため、トピックの数は次のようになります。確率変数も同様です。名前の「階層的」部分は、トピック自体ではなく、生成モデルに追加される別のレベル(トピックの数を生成するディリクレプロセス)を指します。トピックは依然としてフラットなクラスタリングです。

hLDA、一方、LDAの適応であり、プロセスではなくディリクレ分布から抽出された、新しい異なるレベルのトピックの混合としてトピックをモデル化します。 それでも、トピックの数はハイパーパラメータとして扱われます。つまり、データとは無関係です。違いは、クラスタリングが階層化されたことです。つまり、トピックの最初のセット自体のクラスタリングを学習し、トピック(つまり、単語とドキュメント)間のより一般的で抽象的な関係を提供します。データサイエンスをクラスタリングし、ソフトウェアエンジニアリングなどといくつかの概念を共有する抽象的な統計とプログラミングのトピックに相互検証するのではなく、スタック交換を数学、科学、プログラミング、歴史などにクラスタリングするようなものと考えてください。交換は、コンピュータサイエンス交換によってより具体的なレベルでクラスター化され、言及されたすべての交換間の類似性は、クラスターの上位層までそれほど現れません。

回答

LDAと比較してHDPがうまく機能する状況があります。さまざまなクラスに属する約16000のドキュメントがあります。クラスごとにいくつの異なるトピックを収集できるかわからないので、この場合、HDPは非常に役立ちます。

回答

実際、HDPには、コード内にある多くの非表示パラメーターが必要です。このようなパラメーターで遊ぶと、さまざまな結果(さまざまなトピック)が得られます。人々は通常、そのような隠されたパラメータに注意を払わず、そのモデルがそのようなパラメータを見つけることができると考えています。それは本当ではない。ユーザーは、パラメータ「eta」、「gamma」、「alpha」、およびトピックの最大数を定義する必要があります。トピックの最大数を指定すると、約23トピックとなるため、youкモデルは23トピックを出力に提供します。 15のトピックを設定すると、出力に15のトピックが表示されます…。

回答

Yee Whye Teh et al の2005年の論文階層的ディリクレプロセスは、グループ化されたノンパラメトリック事前分布について説明していますクラスタリングの問題。の場合、HDPは 潜在的ディリクレ割り当て モデル。データ内のトピックの数が、モデルのパラメーターとして指定されるのではなく、推論アルゴリズムによって検出される場合。詳細ディリクレプロセスの説明は、ここ

にあります。

トピックモデルは、手で簡単に分析できないテキストの大規模なアーカイブを要約して整理するのに役立ちます。 。階層的ディリクレプロセス(HDP)は、強力な混合メンバーです。グループ化されたデータの教師なし分析のためのヒップモデル。有限の対応物である潜在的ディリクレ割り当てとは異なり、HDPトピックモデルはデータからトピックの数を推測します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です