Alocare Latich Dirichlet (LDA) și Procesul ierarhic Dirichlet (HDP) sunt ambele procese de modelare a subiectelor. Diferența majoră este că LDA necesită specificarea numărului de subiecte, iar HDP nu. De ce este așa? Și care sunt diferențele, avantajele și dezavantajele ambelor metode de modelare a subiectelor?
Comentarii
- Se presupune că HDP este bazat pe date în ceea ce privește numărul de subiecte pe care le va selecta? Din punct de vedere practic, am încercat să rulez Blei ‘ s-a consumat toată memoria până când am ucis procesul. Am 16 GB RAM și puțin peste 100.000 de documente scurte de analizat.
Răspuns
HDP este o extensie a LDA, concepută pentru a aborda cazul în care numărul componentelor amestecului (numărul de „subiecte” în termenii de modelare a documentelor) nu este cunoscut a priori. Așa că acesta este motivul pentru care există o diferență.
Folosind LDA pentru modelarea documentelor, fiecare „subiect” este tratat ca o distribuție de cuvinte într-un anumit vocabular cunoscut. Pentru fiecare document este desenat un amestec de subiecte. dintr-o distribuție Dirichlet, a Apoi, fiecare cuvânt din document este o extragere independentă din acel amestec (adică selectarea unui subiect și apoi utilizarea acestuia pentru a genera un cuvânt).
Pentru HDP (aplicat modelării documentelor), se folosește, de asemenea, un proces Dirichlet pentru a surprinde incertitudinea în numărul de subiecte. Așadar, este selectată o distribuție de bază comună care reprezintă setul infinit de subiecte posibile pentru corpus, iar apoi distribuția finită a subiectelor pentru fiecare document este eșantionată din această distribuție de bază.
În ceea ce privește profesioniști și contra, HDP are avantajul că numărul maxim de subiecte poate fi nelimitat și învățat din date, mai degrabă decât specificat în prealabil. Presupun că este mai complicat de implementat și nu este necesar în cazul în care un număr limitat de subiecte este acceptabil.
Răspuns
Anecdotic, nu am fost niciodată impresionat de rezultatul din LDA ierarhizat. Doar nu pare să găsească un nivel optim de granularitate pentru alegerea numărului de subiecte. Am „obținut rezultate mult mai bune executând câteva iterații ale LDA obișnuite, inspectând manual subiectele pe care le-a produs, decidând dacă măresc sau micșorează numărul de subiecte și continuu iterarea până când obțin granularitatea pe care o caut.
Amintiți-vă: LDA ierarhic nu vă poate citi mintea … nu știe la ce intenționați să folosiți modelarea subiectului. La fel ca în cazul grupării k-means, ar trebui să alegeți k-ul care are cel mai mult sens pentru cazul dvs. de utilizare.
Răspuns
Am vrut să subliniez, deoarece acesta este unul dintre cele mai importante hit-uri Google pentru acest subiect, că Alocarea Dirichlet Latent (LDA), Procesele Dirichlet Ierarhice (HDP), și Alocarea Dirichlet Latent ierarhic (hLDA) sunt toate modelele distincte.
LDA modelează documente ca amestecuri dirichlet dintr-un număr fix de subiecte – ales ca parametru al modelului de către utilizator – care sunt la rândul lor amestecuri dirichlet de cuvinte. Acest lucru generează o aglomerare probabilistă, plană, de termeni în subiecte și documente în subiecte.
HDP modelează subiectele ca amestecuri de cuvinte, la fel ca LDA, dar mai degrabă decât documentele fiind amestecuri dintr-un număr fix de subiecte, numărul de subiecte este generat de un proces de dirichlet, rezultând numărul de subiecte fiind o variabilă aleatorie, de asemenea. Porțiunea „ierarhică” a numelui se referă la un alt nivel adăugat la modelul generativ (procesul de dirichlet care produce numărul de subiecte), nu subiectele în sine – subiectele sunt încă grupări plate.
hLDA, pe de altă parte, este o adaptare a LDA care modelează subiectele ca amestecuri ale unui nivel nou, distinct de subiecte, extrase din dirichlet distribuții și nu din procese. În continuare tratează numărul de subiecte ca un hiperparametru, adică independent de date. Diferența este că gruparea este acum ierarhică – învață o grupare a primului set de subiecte în sine, oferind o relație mai generală și abstractă între subiecte (și, prin urmare, cuvinte și documente). Gândiți-vă la aceasta ca la gruparea schimburilor de stive în matematică, știință, programare, istorie etc., spre deosebire de gruparea științei datelor și validarea încrucișată într-un subiect abstract de statistici și programare care împărtășește unele concepte cu, de exemplu, ingineria software, dar ingineria software schimbul este grupat la un nivel mai concret cu schimbul de informatică, iar asemănarea dintre toate schimburile menționate nu apare la fel de mult până la stratul superior de clustere.
Răspuns
Am o situație în care HDP funcționează bine în comparație cu LDA. Am aproximativ 16000 de documente care aparțin diferitelor clase.Deoarece nu știu câte subiecte diferite pot aduna pentru fiecare clasă, HDP este foarte util în acest caz.
Răspuns
De fapt, HDP necesită o mulțime de parametri ascunși, care sunt în cod. Dacă jucați cu astfel de parametri, veți obține rezultate diferite (subiecte diferite). De obicei, oamenii nu acordă atenție unor astfel de parametri ascunși și consideră că acel model este capabil să găsească astfel de parametri. Nu este adevarat. Utilizatorul trebuie să definească parametrii ‘eta’ ‘gamma’ și ‘alfa’ și maximum de subiecte. Dacă specificați maximum de subiecte, spuneți despre 23 de subiecte, atunci modelul dvs. oferă 23 de subiecte în rezultat. Dacă configurați 15 subiecte, veți obține 15 subiecte în rezultat ….
Răspuns
Yee Whye Teh et al „hârtie din 2005 Procesele Dirichlet ierarhice descrie un prior nonparametric pentru grupate probleme de grupare. Pentru exemplu , HDP ajută la generalizarea Latent Dirichlet Allocation după caz numărul de subiecte din date este descoperit de algoritmul de inferență în loc să fie specificat ca parametru al modelului. Detaliat explicația despre Procesul Dirichlet poate fi găsită aici
Modelele de subiecte promit să ajute la rezumarea și organizarea arhivelor mari de texte care nu pot fi ușor analizate manual. . Procesul ierarhic Dirichlet (HDP) este un membru mixt puternic model de șold pentru analiza nesupravegheată a datelor grupate. Spre deosebire de omologul său finit, alocare latentă a Dirichlet , modelul de subiect HDP deduce numărul de subiecte din date.