Latent Dirichlet Allocation (LDA) 및 Hierarchical Dirichlet Process (HDP) 는 둘 다 주제 모델링 프로세스입니다. 가장 큰 차이점은 LDA에는 주제 수의 사양이 필요하지만 HDP는 그렇지 않습니다. 그 이유는 무엇입니까? 두 주제 모델링 방법의 차이점, 장단점은 무엇입니까?
댓글
- HDP는 선택할 주제의 수와 관련하여 데이터 기반이어야합니까? 실제로는 Blei를 실행 해 보았습니다 '의 HDP 구현이며 프로세스를 종료 할 때까지 모든 메모리를 소모했습니다. 분석 할 16GB RAM과 10 만 개가 넘는 짧은 문서가 있습니다.
Answer
HDP는 LDA의 확장으로, 혼합물 성분의 수 (문서 모델링 용어의 “주제”수)가 사전에 알려지지 않은 경우를 해결하기 위해 고안되었습니다. 이것이 차이가있는 이유입니다.
문서 모델링에 LDA를 사용하여 각 “주제”를 알려진 어휘의 단어 분포로 취급합니다. 각 문서에 대해 혼합 된 주제가 그려집니다. Dirichlet 배포판에서 그런 다음 문서의 각 단어는 해당 혼합에서 독립적으로 추출됩니다 (즉, 주제를 선택하고 단어를 생성하는 데 사용).
HDP (문서 모델링에 적용됨)의 경우에도 다음을 사용합니다. 주제 수의 불확실성을 포착하기위한 Dirichlet 프로세스. 따라서 말뭉치에 대해 셀 수 없을 정도로 무한한 가능한 주제 세트를 나타내는 공통 기본 분포가 선택되고 각 문서에 대한 주제의 유한 분포가이 기본 분포에서 샘플링됩니다.
프로 및 단점, HDP는 최대 주제 수를 미리 지정하지 않고 데이터에서 무제한으로 학습 할 수 있다는 장점이 있습니다. 구현하기가 더 복잡하고 제한된 수의 주제가 허용되는 경우 불필요하다고 생각합니다.
답변
필수적으로, 저는 계층 적 LDA의 결과물에 깊은 인상을받은 적이 없습니다. 주제 수를 선택하기위한 최적의 세부 수준을 찾지 못하는 것 같습니다. 정규 LDA를 몇 번 반복하고, 생성 한 주제를 수동으로 검사하고, 주제 수를 늘리거나 줄 일지 여부를 결정하고, 원하는 세분성을 얻을 때까지 계속 반복함으로써 훨씬 더 나은 결과를 얻었습니다.
기억하십시오 : 계층 적 LDA는 “당신의 마음을 읽을 수 없습니다 … 그것은 당신이 실제로 토픽 모델링을 어떤 용도로 사용할 것인지”모릅니다. k- 평균 클러스터링과 마찬가지로 사용 사례에 가장 적합한 k를 선택해야합니다.
답변
저는 이것이이 주제에 대한 Google의 인기 히트작 중 하나이기 때문에 LDA (Latent Dirichlet Allocation), HDP (Hierarchical Dirichlet Processes), 및 계층 적 잠재 디리클레 할당 (hLDA)이 모든 고유 모델.
LDA 모델은 고정 된 수의 주제 (사용자가 모델의 매개 변수로 선택한)의 디리클레 혼합으로 문서화하며, 이는 단어의 디리클레 혼합입니다. 이것은 주제에 대한 용어와 주제에 대한 문서의 평탄하고 부드러운 확률 적 클러스터링을 생성합니다.
HDP는 주제를 LDA와 같이 단어의 혼합으로 모델링하지만 문서가 고정 된 수의 주제가 혼합 된 것이 아니라 디리 클릿 프로세스에 의해 주제 수가 생성되어 주제 수가 랜덤 변수도 있습니다. 이름의 “계층 적”부분은 주제 자체가 아니라 생성 모델 (주제 수를 생성하는 dirichlet 프로세스)에 추가되는 다른 수준을 나타냅니다. 주제는 여전히 플랫 클러스터링입니다.
hLDA, 반면에, 프로세스가 아닌 dirichlet 배포 에서 가져온 새롭고 뚜렷한 수준의 주제의 혼합으로 주제를 모델링하는 LDA의 각색입니다. 여전히 주제의 수를 하이퍼 파라미터, 즉 데이터와 무관하게 취급합니다. 차이점은 클러스터링이 이제 계층 적이라는 것입니다. 첫 번째 주제 세트 자체의 클러스터링을 학습하여 주제 (즉, 단어와 문서)간에보다 일반적이고 추상적 인 관계를 제공합니다. 데이터 과학 및 교차 검증을 소프트웨어 엔지니어링과 일부 개념을 공유하는 추상적 인 통계 및 프로그래밍 주제로 클러스터링하는 것과는 반대로 스택 교환을 수학, 과학, 프로그래밍, 역사 등으로 클러스터링하는 것으로 생각하십시오. 교환은 컴퓨터 과학 교환과 함께보다 구체적인 수준으로 밀집되어 있으며 언급 된 모든 교환 간의 유사성은 클러스터의 상위 계층이 될 때까지 그다지 나타나지 않습니다.
답변
저는 LDA에 비해 HDP가 잘 작동하는 상황이 있습니다. 다양한 클래스에 속하는 약 16000 개의 문서가 있습니다.각 수업에 대해 얼마나 많은 주제를 수집 할 수 있는지 알지 못하기 때문에이 경우 HDP가 정말 도움이됩니다.
답변
실제로 HDP에는 코드에있는 많은 숨겨진 매개 변수가 필요합니다. 이러한 매개 변수로 플레이하면 다른 결과 (다른 주제)를 얻을 수 있습니다. 사람들은 일반적으로 그러한 숨겨진 매개 변수에주의를 기울이지 않고 그 모델이 그러한 매개 변수를 찾을 수 있다고 생각합니다. 사실이 아닙니다. 사용자는 eta gamma및 alpha매개 변수와 최대 주제를 정의해야합니다. 최대 주제를 지정하면 약 23 개의 주제를 말하면 youк 모델이 출력에 23 개의 주제를 제공합니다. 15 개의 주제를 설정하면 출력에 15 개의 주제가 표시됩니다….
답변
Yee Whye Teh 외 “의 2005 년 논문 계층 적 Dirichlet 프로세스 는 그룹화에 대한 비모수 적 사전을 설명합니다. 클러스터링 문제입니다. 예 의 경우 HDP는 Latent Dirichlet Allocation 모델의 경우 모델의 매개 변수로 지정되는 대신 추론 알고리즘에 의해 데이터의 주제 수가 발견됩니다. Dirichlet Process에 대한 설명은 여기
에서 찾을 수 있습니다.
주제 모델은 손으로 쉽게 분석 할 수없는 대규모 텍스트 아카이브를 요약하고 구성하는 데 도움을줍니다. . Hierarchical Dirichlet 프로세스 (HDP) 는 강력한 혼합 회원입니다. 그룹화 된 데이터의 비지도 분석을위한 힙 모델. 유한 대응 물인 잠재 Dirichlet 할당 과 달리 HDP 주제 모델은 데이터에서 주제 수를 추론합니다.