Látens Dirichlet-allokáció (LDA) és hierarchikus Dirichlet folyamat (HDP) egyaránt témamodellezési folyamat. A fő különbség az, hogy az LDA megköveteli a témák számának meghatározását, és a HDP nem. Miért van ez? És mi a különbség, az előnye és a hátránya mindkét témamodellezési módszernek?

Megjegyzések

  • Állítólag a HDP adatközpontú a kiválasztott témák számát illetően? Gyakorlati oldalon megpróbáltam futtatni a Blei ‘ HDP megvalósítása, és csak megette az összes memóriát, amíg megöltem a folyamatot. 16 GB RAM-mal és alig több mint 100 000 elemezhetõ rövid dokumentummal rendelkezem.

Válasz

A HDP az LDA kiterjesztése, amelyet arra az esetre terveztek, amikor a keverékkomponensek száma (a dokumentum-modellezésben használt “témák” száma) nem ismert a priori. Tehát ez okozza a különbségeket.

Az LDA használatával a dokumentum modellezésében az egyes “témákat” szavak eloszlásaként kezelik valamilyen ismert szókincsben. Minden dokumentumhoz témák keverékét rajzolják. Dirichlet-terjesztésből, a Ezután a dokumentumban szereplő minden szó egy független rajz a keverékből (azaz kiválaszt egy témát, majd egy szó előállításához használja).

A HDP-hez (a dokumentummodellezéshez alkalmazva) szintén használ Dirichlet-folyamat a témák számának bizonytalanságának felfogására. Tehát egy közös alapelosztást választunk, amely a korpusz lehetséges témáinak megszámlálhatatlanul végtelen halmazát reprezentálja, majd az egyes dokumentumokhoz tartozó témák véges elosztását mintavételezzük ebből az alapterjesztésből.

Ami az előnyöket ill. hátrányai, a HDP előnye, hogy a témák maximális száma korlátlan és megtanulható az adatokból, nem pedig előre meghatározva. Gondolom, bár végrehajtása bonyolultabb, és felesleges abban az esetben, ha korlátozott számú téma elfogadható.

Válasz

Anekdotikus módon soha nem hatott meg a hierarchikus LDA kimenete. Úgy tűnik, hogy nem talál optimális szintű részletességet a témák számának kiválasztásához. Sokkal jobb eredményeket értem el, ha futtattam néhány ismétlést a szokásos LDA-ból, kézzel megvizsgáltam az általa előállított témákat, eldöntöttem, hogy növelem vagy csökkentem a témák számát, és folytatom az iterációt, amíg meg nem kapom a keresett részletességet. p>

Ne feledje: a hierarchikus LDA nem tudja olvasni a gondolatait … nem tudja, hogy valójában mire kívánja használni a témamodellezést. Csakúgy, mint a k-jelentésű fürtözésnél, itt is ki kell választania azt a k-t, amelyiknek a legértelmesebb a használati esete.

Válasz

Szeretném rámutatni, mivel ez az egyik legfontosabb Google találat ebben a témában, hogy a látens Dirichlet-allokáció (LDA), a hierarchikus Dirichlet-folyamatok (HDP), a és hierarchikus látens Dirichlet-allokáció (hLDA) minden különféle modell.

Az LDA a dokumentumokat fix számú témakör dirichlet keverékeként modellezi – a felhasználó a modell paramétereként választja -, amelyek viszont dirichlet szavak keverékei. Ez generálja a kifejezések lapos, puha valószínűségi csoportosítását témákba, a dokumentumokat pedig témákba.

A HDP a témákat szavak keverékeként modellezi, hasonlóan az LDA-hoz, de ahelyett, hogy a dokumentumok fix számú témák keverékei lennének, a témák számát egy dirichlet folyamat generálja, aminek eredményeként a témák száma véletlenszerű változó is. A név “hierarchikus” része egy másik szintre utal, amelyet a generatív modellhez adtak (a témák számát előállító dirichlet folyamat), nem maguk a témák – a témák továbbra is lapos klaszterek.

hLDA, másrészt az LDA adaptációja, amely a témákat egy új, különálló szintű témák keverékeként modellezi, a dirichlet disztribúciók ból és nem folyamatokból merítve. A témák számát továbbra is hiperparaméterként kezeli, vagyis függetlenül az adatoktól. A különbség az, hogy a klaszterezés ma már hierarchikus – megtanulja az első témakör klaszterét, általánosabb, elvont kapcsolatokat adva a témák (és ennélfogva a szavak és dokumentumok) között. Gondoljon erre úgy, mint a veremcserék matematikára, természettudományra, programozásra, történelemre stb. Történő csoportosítása, szemben az adattudomány klaszterezésével és a keresztellenőrzéssel egy absztrakt statisztikai és programozási témakörben, amely megoszt néhány fogalmat mondjuk a szoftvertervezéssel, de a szoftverfejlesztéssel az információcsere konkrétabban csoportosul a számítástechnika cseréjével, és az összes említett cseréje közötti hasonlóság nem jelenik meg annyira, amíg a klaszterek felső rétege nincs.

Válasz

Van olyan helyzetem, hogy a HDP jól működik az LDA-hoz képest. Körülbelül 16000 dokumentumom van, amelyek különböző osztályokhoz tartoznak.Mivel nincs tudomásom arról, hogy hány különböző témát gyűjthetek az egyes osztályokhoz, a HDP ebben az esetben valóban hasznos.

Válasz

A HDP valójában sok rejtett paramétert igényel, amelyek kódban vannak. Ha ilyen paraméterekkel játszik, akkor különböző eredményeket kap (különböző témák). Az emberek általában nem figyelnek az ilyen rejtett paraméterekre, és azt gondolják, hogy az a modell képes megtalálni ezeket a paramétereket. Ez nem igaz. A felhasználónak meg kell határoznia az „eta”, „gamma” és „alfa” paramétereket, valamint a témák maximális számát. Ha megadja a témák maximális számát 23 téma kapcsán, akkor a modell 23 témát biztosít a kimenetben. Ha beállít 15 témát, akkor 15 témakört kap a kimeneten.

Válasz

Yee Whye Teh és mtsai “2005-ös tanulmánya Hierarchikus Dirichlet folyamatok a nem csoportosított előtagot írja le fürtözési problémák. A példa esetében a HDP segít a Látens Dirichlet-allokáció modell arra az esetre, ha az adatokban szereplő témák számát a következtetési algoritmus fedezi fel, ahelyett, hogy a modell paramétereként határoznák meg. A Dirichlet folyamat magyarázata itt található

A témamodellek ígéretet tesznek arra, hogy összefoglalják és rendszerezzék a nagy archívumú szövegeket, amelyeket kézzel nem lehet könnyen elemezni. A Hierarchikus Dirichlet folyamat (HDP) erős vegyes tagok csípőmodell a csoportosított adatok felügyelet nélküli elemzéséhez. Véges megfelelőjével ellentétben a látens Dirichlet kiosztás , a HDP témamodell kikövetkezteti az adatokból a témák számát.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük