Témamodellezés Bevezetés kezdőknek

Tartalomjegyzék[Elrejt][Előadás]

Mi az a témamodellezés?
A témamodellezés összetevői+-
- Valószínűségi modell
- Információs visszakeresés
A témamodellezés különböző módszerei+-
Gyakorlati gyakorlat a témamodellezéssel Pythonban+-
- Feltáró adatelemzés
- Címkék használata témamodellezéshez
A témamodellezés alkalmazásai
Következtetés

Biztosan hallottál már a mesterséges intelligenciáról, valamint olyan szavakról, mint a gépi tanulás és a természetes nyelvi feldolgozás (NLP).

Különösen, ha olyan cégnél dolgozik, amely naponta több száz, ha nem több ezer ügyfélkapcsolatot kezel.

A közösségi médiában közzétett bejegyzések, e-mailek, chatek, nyílt végű felmérési válaszok és egyéb források adatelemzése nem egyszerű folyamat, és még nehezebbé válik, ha csak emberekre bízzuk.

Éppen ezért sokan lelkesednek a benne rejlő lehetőségekért mesterséges intelligencia a mindennapi munkájukhoz és a vállalkozásokhoz .

Az AI-alapú szövegelemzés a megközelítések vagy algoritmusok széles skáláját alkalmazza a nyelv organikus értelmezésére, ezek egyike a témaelemzés, amelyet arra használnak, hogy automatikusan felfedezzenek témákat a szövegekből.

A vállalkozások témaelemzési modelleket használhatnak az egyszerű munkák gépekre való áthelyezésére, ahelyett, hogy túl sok adattal terhelnék a dolgozókat.

Fontolja meg, mennyi időt takaríthat meg csapata, és mennyi időt fordíthatna a lényegesebb munkára, ha egy számítógép minden reggel át tudna szűrni az ügyfelek felméréseinek vagy támogatási problémáinak végtelen listáján.

Ebben az útmutatóban megvizsgáljuk a témamodellezést, a témamodellezés különböző módszereit, és gyakorlati tapasztalatokat szerezünk ezzel kapcsolatban.

Mi az a témamodellezés?

A témamodellezés egyfajta szövegbányászat, amelyben felügyelt és felügyelt statisztikai adatok gépi tanulás technikákat használnak a tendenciák kimutatására egy korpuszban vagy jelentős mennyiségű strukturálatlan szövegben.

Hatalmas dokumentumgyűjteményét használhatja, és hasonlósági módszert használhat a szavak kifejezéscsoportokba rendezésére és témák felfedezésére.

Ez kissé bonyolultnak és nehéznek tűnik, ezért egyszerűsítsük a tárgymodellezési eljárást!

Tegyük fel, hogy egy újságot olvas egy sor színes kiemelővel a kezében.

Ez nem régimódi?

Tudom, hogy manapság kevesen olvasnak nyomtatott újságot; minden digitális, a szövegkiemelők pedig a múlté! Tedd magad apádnak vagy anyádnak!

Tehát az újság olvasásakor kiemeli a fontos kifejezéseket.

Még egy feltételezés!

Más árnyalatot használ a különböző témák kulcsszavainak kiemelésére. A kulcsszavakat a megadott színtől és témáktól függően kategorizálja.

Minden egyes, bizonyos színnel jelölt szógyűjtemény egy adott témához tartozó kulcsszavak listája. A kiválasztott színek mennyisége mutatja a témák számát.

Ez a legalapvetőbb témamodellezés. Segíti a nagy szöveggyűjtemények megértését, rendszerezését és összefoglalását.

Ne feledje azonban, hogy az automatizált témamodellek hatékony működéséhez sok tartalomra van szükség. Ha van egy rövid dolgozata, érdemes a régi iskolába járni, és szövegkiemelőket használni!

Az is előnyös, ha egy kis időt szán az adatok megismerésére. Ez alapvetően megérti, mit kell találnia a témamodellnek.

Például ez a napló a jelenlegi és korábbi kapcsolataidról szólhat. Így arra számítok, hogy a szövegbányász robot-barátom hasonló ötletekkel áll elő.

Ezzel jobban elemezheti az Ön által azonosított témák minőségét, és szükség esetén módosíthatja a kulcsszókészleteket.

A témamodellezés összetevői

Valószínűségi modell

A valószínűségi modellekben a véletlen változók és valószínűségi eloszlások beépülnek egy esemény vagy jelenség reprezentációjába.

A determinisztikus modell egyetlen lehetséges következtetést ad egy eseményhez, míg a valószínűségi modell valószínűségi eloszlást ad megoldásként.

Ezek a modellek figyelembe veszik azt a valóságot, hogy ritkán tudunk teljes körűen egy helyzetről. Szinte mindig figyelembe kell venni a véletlenszerűséget.

Például az életbiztosítás azon a valóságon alapul, hogy tudjuk, hogy meghalunk, de nem tudjuk, hogy mikor. Ezek a modellek lehetnek részben determinisztikusak, részben véletlenszerűek vagy teljesen véletlenszerűek.

Információs visszakeresés

Az információkeresés (IR) egy szoftverprogram, amely rendszerezi, tárolja, visszakeresi és kiértékeli a dokumentumtárakból származó információkat, különösen a szöveges információkat.

A technológia segít a felhasználóknak megtalálni a szükséges információkat, de nem ad egyértelmű választ a kérdéseikre. Értesít olyan papírok meglétéről és helyéről, amelyek a szükséges információkat megadhatják.

A releváns dokumentumok azok, amelyek megfelelnek a felhasználó igényeinek. A hibátlan IR rendszer csak kiválasztott dokumentumokat küld vissza.

Témakoherencia

A témakoherencia egyetlen témát értékel a témakör magas pontszámot elért kifejezései közötti szemantikai hasonlóság mértékének kiszámításával. Ezek a mutatók segítenek megkülönböztetni a szemantikailag értelmezhető témákat a statisztikai következtetésekből származó tárgyaktól.

Ha az állítások vagy tények egy csoportja támasztja alá egymást, akkor azt koherensnek mondják.

Ennek eredményeként egy összefüggő tényhalmaz olyan kontextusban érthető meg, amely a tények egészét vagy többségét felöleli. „A játék csapatsport”, „labdával játsszák” és „a játék hatalmas fizikai erőfeszítést igényel” mind példák az összefüggő tényhalmazokra.

A témamodellezés különböző módszerei

Ez a kritikus eljárás különféle algoritmusokkal vagy módszertanokkal végrehajtható. Ezek közé tartozik:

Látens Dirichlet-kiosztás (LDA)
Nem negatív mátrixfaktorizálás (NMF)
Látens szemantikai elemzés (LSA)
Valószínűségi látens szemantikai elemzés (pLSA)

Látens Dirichlet allokáció (LDA)

Egy korpuszban lévő több szöveg közötti kapcsolatok kimutatására a látens Dirichlet-allokáció statisztikai és grafikus koncepcióját használjuk.

A Variational Exception Maximization (VEM) megközelítés alkalmazásával a teljes szövegkorpuszból a legnagyobb valószínűségi becslés érhető el.

LDA

Hagyományosan a szavak közül a legjobb néhány szót választják ki.

A mondat azonban teljesen értelmetlen.

Ennek a technikának megfelelően minden szöveget a tantárgyak valószínűségi eloszlása, minden témát pedig a szavak valószínűségi eloszlása ábrázol.

Nem negatív mátrixfaktorizálás (NMF)

Nem negatív értékekkel rendelkező mátrix A faktorizálás egy élvonalbeli jellemzőkinyerési megközelítés.

Ha sok tulajdonság van, és az attribútumok homályosak vagy rossz a kiszámíthatóságuk, az NMF előnyös. Az NMF a jellemzők kombinálásával jelentős mintákat, témákat vagy témákat generálhat.

Nem negatív mátrixfaktorizálás

Az NMF mindegyik jellemzőt az eredeti attribútumkészlet lineáris kombinációjaként állítja elő.

Minden jellemző egy sor együtthatót tartalmaz, amelyek a jellemző egyes attribútumainak fontosságát jelzik. Minden numerikus attribútumnak és minden egyes kategóriaattribútum értékének megvan a maga együtthatója.

Minden együttható pozitív.

Látens szemantikai elemzés

Egy másik felügyelt tanulási módszer, amelyet a szavak közötti asszociációk kinyerésére használnak egy dokumentumkészletben, a látens szemantikai elemzés.

Ez segít a megfelelő dokumentumok kiválasztásában. Elsődleges funkciója a hatalmas szövegadat-korpusz dimenziósságának csökkentése.

Ezek a szükségtelen adatok háttérzajként szolgálnak az adatokból a szükséges betekintések megszerzéséhez.

Látens szemantikai elemzés

Valószínűségi látens szemantikai elemzés (pLSA)

A valószínűségi látens szemantikai elemzés (PLSA), más néven valószínűségi látens szemantikai indexelés (PLSI, különösen az információkeresési körökben), egy statisztikai megközelítés a kétmódusú és az egyidejű előfordulású adatok elemzésére.

Valójában, hasonlóan a látens szemantikai elemzéshez, amelyből a PLSA alakult ki, a megfigyelt változók alacsony dimenziós reprezentációja származtatható az adott rejtett változókhoz való affinitásuk alapján.

Valószínűségi látens szenantikus elemzés

Gyakorlati gyakorlat a témamodellezéssel Pythonban

Most végigvezetek egy témamodellezési feladaton a Python segítségével programozási nyelv egy valós példát használva.

Kutatási cikkeket fogok modellezni. Az itt használt adatkészlet a kaggle.com webhelyről származik. Ebből könnyen beszerezheti az összes fájlt, amelyet ebben a munkában használok oldal.

Kezdjük a témamodellezéssel a Python használatával az összes lényeges könyvtár importálásával:

Könyvtárak importálása

A következő lépésben be kell olvasnom az összes adatkészletet, amelyet ebben a feladatban fogok használni:

Olvassa el az adatkészletet

Feltáró adatelemzés

Az EDA (Exploratory Data Analysis) egy statisztikai módszer, amely vizuális elemeket alkalmaz. Statisztikai összefoglalókat és grafikus ábrázolásokat használ a trendek, minták és tesztfeltevések felfedezéséhez.

Mielőtt elkezdenék a témamodellezést, elvégzek néhány feltáró adatelemzést, hogy megnézzem, vannak-e minták vagy összefüggések az adatokban:

Keresse meg a vonatadatkészlet nullértékeit

A vonat nullértékeinek kimenete

Most megtaláljuk a tesztadatkészlet null értékeit:

Keresse meg a tesztadatkészlet nullértékeit

Teszt nulla értékek kimenete

Most egy hisztogramot és egy boxplotot fogok ábrázolni, hogy ellenőrizzem a változók közötti kapcsolatot.

felrajzolása

Az 1. ábrázolás kimenete

Az Abstracts of the Train készletben szereplő karakterek száma nagyon változó.

A vonaton minimum 54, maximum 4551 karakterünk van. 1065 a karakterek átlagos száma.

Rajzolás 2

Az 2. ábrázolás kimenete

A tesztkészlet érdekesebbnek tűnik, mint az oktatókészlet, mivel a tesztkészlet 46 karakterből áll, míg a gyakorlókészlet 2841 karakterből áll.

Ennek eredményeként a tesztkészlet mediánja 1058 karakter volt, ami hasonló a képzési készletéhez.

Rajzolás 3

Az ábrázolás kimenete 3

A tanulókészletben lévő szavak száma hasonló mintát követ, mint a betűk száma.

Legalább 8 szó és legfeljebb 665 szó megengedett. Ennek eredményeként a medián szószám 153.

Rajzolás 4

Az 4. ábrázolás kimenete

Egy absztraktban legalább hét szó, a tesztkészletben pedig legfeljebb 452 szó szükséges.

A medián ebben az esetben 153, ami megegyezik a képzési halmaz mediánjával.

Címkék használata témamodellezéshez

Számos témamodellezési stratégia létezik. Ebben a gyakorlatban címkéket fogok használni; nézzük meg, hogyan kell ezt megtenni a címkék vizsgálatával:

Címkék használata témamodellezéshez

Témamodellezés kimenete

A témamodellezés alkalmazásai

A szöveges összefoglaló felhasználható egy dokumentum vagy könyv témájának felismerésére.
Használható a vizsgázói elfogultság eltávolítására a vizsgapontozásból.
A témamodellezés használható a szavak közötti szemantikai kapcsolatok létrehozására gráf alapú modellekben.
Javíthatja az ügyfélszolgálatot azáltal, hogy észleli és válaszol az ügyfél kérdésében szereplő kulcsszavakra. Az ügyfelek jobban bíznak benned, mivel Ön a megfelelő pillanatban és gond nélkül megadta nekik a szükséges segítséget. Ennek eredményeként az ügyfelek lojalitása drámaian megemelkedik, és a vállalat értéke nő.

Következtetés

A témamodellezés egyfajta statisztikai modellezés, amelyet a szöveggyűjteményben létező absztrakt „témák” feltárására használnak.

Ez a statisztikai modell egyik formája gépi tanulás és a természetes nyelvi feldolgozás a szövegekben létező elvont fogalmak feltárására.

Ez egy olyan szövegbányászati módszer, amelyet széles körben használnak látens szemantikai minták megtalálására a törzsszövegben.

Témamodellezés Bevezetés kezdőknek

Mi az a témamodellezés?