Tartalomjegyzék[Elrejt][Előadás]
Biztosan hallottál már a mesterséges intelligenciáról, valamint olyan szavakról, mint a gépi tanulás és a természetes nyelvi feldolgozás (NLP).
Különösen, ha olyan cégnél dolgozik, amely naponta több száz, ha nem több ezer ügyfélkapcsolatot kezel.
A közösségi médiában közzétett bejegyzések, e-mailek, chatek, nyílt végű felmérési válaszok és egyéb források adatelemzése nem egyszerű folyamat, és még nehezebbé válik, ha csak emberekre bízzuk.
Éppen ezért sokan lelkesednek a benne rejlő lehetőségekért mesterséges intelligencia a mindennapi munkájukhoz és a vállalkozásokhoz .
Az AI-alapú szövegelemzés a megközelítések vagy algoritmusok széles skáláját alkalmazza a nyelv organikus értelmezésére, ezek egyike a témaelemzés, amelyet arra használnak, hogy automatikusan felfedezzenek témákat a szövegekből.
A vállalkozások témaelemzési modelleket használhatnak az egyszerű munkák gépekre való áthelyezésére, ahelyett, hogy túl sok adattal terhelnék a dolgozókat.
Fontolja meg, mennyi időt takaríthat meg csapata, és mennyi időt fordíthatna a lényegesebb munkára, ha egy számítógép minden reggel át tudna szűrni az ügyfelek felméréseinek vagy támogatási problémáinak végtelen listáján.
Ebben az útmutatóban megvizsgáljuk a témamodellezést, a témamodellezés különböző módszereit, és gyakorlati tapasztalatokat szerezünk ezzel kapcsolatban.
Mi az a témamodellezés?
A témamodellezés egyfajta szövegbányászat, amelyben felügyelt és felügyelt statisztikai adatok gépi tanulás technikákat használnak a tendenciák kimutatására egy korpuszban vagy jelentős mennyiségű strukturálatlan szövegben.
Hatalmas dokumentumgyűjteményét használhatja, és hasonlósági módszert használhat a szavak kifejezéscsoportokba rendezésére és témák felfedezésére.
Ez kissé bonyolultnak és nehéznek tűnik, ezért egyszerűsítsük a tárgymodellezési eljárást!
Tegyük fel, hogy egy újságot olvas egy sor színes kiemelővel a kezében.
Ez nem régimódi?
Tudom, hogy manapság kevesen olvasnak nyomtatott újságot; minden digitális, a szövegkiemelők pedig a múlté! Tedd magad apádnak vagy anyádnak!
Tehát az újság olvasásakor kiemeli a fontos kifejezéseket.
Még egy feltételezés!
Más árnyalatot használ a különböző témák kulcsszavainak kiemelésére. A kulcsszavakat a megadott színtől és témáktól függően kategorizálja.
Minden egyes, bizonyos színnel jelölt szógyűjtemény egy adott témához tartozó kulcsszavak listája. A kiválasztott színek mennyisége mutatja a témák számát.
Ez a legalapvetőbb témamodellezés. Segíti a nagy szöveggyűjtemények megértését, rendszerezését és összefoglalását.
Ne feledje azonban, hogy az automatizált témamodellek hatékony működéséhez sok tartalomra van szükség. Ha van egy rövid dolgozata, érdemes a régi iskolába járni, és szövegkiemelőket használni!
Az is előnyös, ha egy kis időt szán az adatok megismerésére. Ez alapvetően megérti, mit kell találnia a témamodellnek.
Például ez a napló a jelenlegi és korábbi kapcsolataidról szólhat. Így arra számítok, hogy a szövegbányász robot-barátom hasonló ötletekkel áll elő.
Ezzel jobban elemezheti az Ön által azonosított témák minőségét, és szükség esetén módosíthatja a kulcsszókészleteket.
A témamodellezés összetevői
Valószínűségi modell
A valószínűségi modellekben a véletlen változók és valószínűségi eloszlások beépülnek egy esemény vagy jelenség reprezentációjába.
A determinisztikus modell egyetlen lehetséges következtetést ad egy eseményhez, míg a valószínűségi modell valószínűségi eloszlást ad megoldásként.
Ezek a modellek figyelembe veszik azt a valóságot, hogy ritkán tudunk teljes körűen egy helyzetről. Szinte mindig figyelembe kell venni a véletlenszerűséget.
Például az életbiztosítás azon a valóságon alapul, hogy tudjuk, hogy meghalunk, de nem tudjuk, hogy mikor. Ezek a modellek lehetnek részben determinisztikusak, részben véletlenszerűek vagy teljesen véletlenszerűek.
Információs visszakeresés
Az információkeresés (IR) egy szoftverprogram, amely rendszerezi, tárolja, visszakeresi és kiértékeli a dokumentumtárakból származó információkat, különösen a szöveges információkat.
A technológia segít a felhasználóknak megtalálni a szükséges információkat, de nem ad egyértelmű választ a kérdéseikre. Értesít olyan papírok meglétéről és helyéről, amelyek a szükséges információkat megadhatják.
A releváns dokumentumok azok, amelyek megfelelnek a felhasználó igényeinek. A hibátlan IR rendszer csak kiválasztott dokumentumokat küld vissza.
Témakoherencia
A témakoherencia egyetlen témát értékel a témakör magas pontszámot elért kifejezései közötti szemantikai hasonlóság mértékének kiszámításával. Ezek a mutatók segítenek megkülönböztetni a szemantikailag értelmezhető témákat a statisztikai következtetésekből származó tárgyaktól.
Ha az állítások vagy tények egy csoportja támasztja alá egymást, akkor azt koherensnek mondják.
Ennek eredményeként egy összefüggő tényhalmaz olyan kontextusban érthető meg, amely a tények egészét vagy többségét felöleli. „A játék csapatsport”, „labdával játsszák” és „a játék hatalmas fizikai erőfeszítést igényel” mind példák az összefüggő tényhalmazokra.
A témamodellezés különböző módszerei
Ez a kritikus eljárás különféle algoritmusokkal vagy módszertanokkal végrehajtható. Ezek közé tartozik:
- Látens Dirichlet-kiosztás (LDA)
- Nem negatív mátrixfaktorizálás (NMF)
- Látens szemantikai elemzés (LSA)
- Valószínűségi látens szemantikai elemzés (pLSA)
Látens Dirichlet allokáció (LDA)
Egy korpuszban lévő több szöveg közötti kapcsolatok kimutatására a látens Dirichlet-allokáció statisztikai és grafikus koncepcióját használjuk.
A Variational Exception Maximization (VEM) megközelítés alkalmazásával a teljes szövegkorpuszból a legnagyobb valószínűségi becslés érhető el.
Hagyományosan a szavak közül a legjobb néhány szót választják ki.
A mondat azonban teljesen értelmetlen.
Ennek a technikának megfelelően minden szöveget a tantárgyak valószínűségi eloszlása, minden témát pedig a szavak valószínűségi eloszlása ábrázol.
Nem negatív mátrixfaktorizálás (NMF)
Nem negatív értékekkel rendelkező mátrix A faktorizálás egy élvonalbeli jellemzőkinyerési megközelítés.
Ha sok tulajdonság van, és az attribútumok homályosak vagy rossz a kiszámíthatóságuk, az NMF előnyös. Az NMF a jellemzők kombinálásával jelentős mintákat, témákat vagy témákat generálhat.
Az NMF mindegyik jellemzőt az eredeti attribútumkészlet lineáris kombinációjaként állítja elő.
Minden jellemző egy sor együtthatót tartalmaz, amelyek a jellemző egyes attribútumainak fontosságát jelzik. Minden numerikus attribútumnak és minden egyes kategóriaattribútum értékének megvan a maga együtthatója.
Minden együttható pozitív.
Látens szemantikai elemzés
Egy másik felügyelt tanulási módszer, amelyet a szavak közötti asszociációk kinyerésére használnak egy dokumentumkészletben, a látens szemantikai elemzés.
Ez segít a megfelelő dokumentumok kiválasztásában. Elsődleges funkciója a hatalmas szövegadat-korpusz dimenziósságának csökkentése.
Ezek a szükségtelen adatok háttérzajként szolgálnak az adatokból a szükséges betekintések megszerzéséhez.
Valószínűségi látens szemantikai elemzés (pLSA)
A valószínűségi látens szemantikai elemzés (PLSA), más néven valószínűségi látens szemantikai indexelés (PLSI, különösen az információkeresési körökben), egy statisztikai megközelítés a kétmódusú és az egyidejű előfordulású adatok elemzésére.
Valójában, hasonlóan a látens szemantikai elemzéshez, amelyből a PLSA alakult ki, a megfigyelt változók alacsony dimenziós reprezentációja származtatható az adott rejtett változókhoz való affinitásuk alapján.
Gyakorlati gyakorlat a témamodellezéssel Pythonban
Most végigvezetek egy témamodellezési feladaton a Python segítségével programozási nyelv egy valós példát használva.
Kutatási cikkeket fogok modellezni. Az itt használt adatkészlet a kaggle.com webhelyről származik. Ebből könnyen beszerezheti az összes fájlt, amelyet ebben a munkában használok oldal.
Kezdjük a témamodellezéssel a Python használatával az összes lényeges könyvtár importálásával:
A következő lépésben be kell olvasnom az összes adatkészletet, amelyet ebben a feladatban fogok használni:
Feltáró adatelemzés
Az EDA (Exploratory Data Analysis) egy statisztikai módszer, amely vizuális elemeket alkalmaz. Statisztikai összefoglalókat és grafikus ábrázolásokat használ a trendek, minták és tesztfeltevések felfedezéséhez.
Mielőtt elkezdenék a témamodellezést, elvégzek néhány feltáró adatelemzést, hogy megnézzem, vannak-e minták vagy összefüggések az adatokban:
Most megtaláljuk a tesztadatkészlet null értékeit:
Most egy hisztogramot és egy boxplotot fogok ábrázolni, hogy ellenőrizzem a változók közötti kapcsolatot.
Az Abstracts of the Train készletben szereplő karakterek száma nagyon változó.
A vonaton minimum 54, maximum 4551 karakterünk van. 1065 a karakterek átlagos száma.
A tesztkészlet érdekesebbnek tűnik, mint az oktatókészlet, mivel a tesztkészlet 46 karakterből áll, míg a gyakorlókészlet 2841 karakterből áll.
Ennek eredményeként a tesztkészlet mediánja 1058 karakter volt, ami hasonló a képzési készletéhez.
A tanulókészletben lévő szavak száma hasonló mintát követ, mint a betűk száma.
Legalább 8 szó és legfeljebb 665 szó megengedett. Ennek eredményeként a medián szószám 153.
Egy absztraktban legalább hét szó, a tesztkészletben pedig legfeljebb 452 szó szükséges.
A medián ebben az esetben 153, ami megegyezik a képzési halmaz mediánjával.
Címkék használata témamodellezéshez
Számos témamodellezési stratégia létezik. Ebben a gyakorlatban címkéket fogok használni; nézzük meg, hogyan kell ezt megtenni a címkék vizsgálatával:
A témamodellezés alkalmazásai
- A szöveges összefoglaló felhasználható egy dokumentum vagy könyv témájának felismerésére.
- Használható a vizsgázói elfogultság eltávolítására a vizsgapontozásból.
- A témamodellezés használható a szavak közötti szemantikai kapcsolatok létrehozására gráf alapú modellekben.
- Javíthatja az ügyfélszolgálatot azáltal, hogy észleli és válaszol az ügyfél kérdésében szereplő kulcsszavakra. Az ügyfelek jobban bíznak benned, mivel Ön a megfelelő pillanatban és gond nélkül megadta nekik a szükséges segítséget. Ennek eredményeként az ügyfelek lojalitása drámaian megemelkedik, és a vállalat értéke nő.
Következtetés
A témamodellezés egyfajta statisztikai modellezés, amelyet a szöveggyűjteményben létező absztrakt „témák” feltárására használnak.
Ez a statisztikai modell egyik formája gépi tanulás és a természetes nyelvi feldolgozás a szövegekben létező elvont fogalmak feltárására.
Ez egy olyan szövegbányászati módszer, amelyet széles körben használnak látens szemantikai minták megtalálására a törzsszövegben.
Hagy egy Válaszol