Obsah[Skrýt][Ukázat]
Určitě jste už slyšeli o umělé inteligenci, stejně jako o slovech jako strojové učení a zpracování přirozeného jazyka (NLP).
Zvláště pokud pracujete pro firmu, která denně vyřizuje stovky, ne-li tisíce kontaktů s klienty.
Analýza dat příspěvků na sociálních sítích, e-mailů, chatů, odpovědí na otevřené průzkumy a dalších zdrojů není jednoduchý proces a je ještě obtížnější, když je svěřena pouze lidem.
To je důvod, proč je mnoho lidí nadšeno potenciálem umělá inteligence pro jejich každodenní práci a pro podniky.
Analýza textu založená na umělé inteligenci využívá širokou škálu přístupů nebo algoritmů k organické interpretaci jazyka, jedním z nich je tematická analýza, která se používá k automatickému objevování předmětů z textů.
Podniky mohou používat modely tematické analýzy k přenosu jednoduchých úloh na stroje, než aby přetěžovaly pracovníky příliš velkým množstvím dat.
Zvažte, kolik času by váš tým mohl ušetřit a věnovat důležitější práci, kdyby počítač dokázal každé ráno filtrovat nekonečné seznamy zákaznických průzkumů nebo problémů s podporou.
V této příručce se podíváme na modelování témat, různé metody modelování témat a získáme s ním nějaké praktické zkušenosti.
Co je tématické modelování?
Tématické modelování je typ dolování textu, ve kterém se provádí statistika bez dohledu a pod dohledem strojové učení techniky se používají k detekci trendů v korpusu nebo značném objemu nestrukturovaného textu.
Může to vzít vaši obrovskou sbírku dokumentů a použít metodu podobnosti k uspořádání slov do shluků termínů a objevování předmětů.
Zdá se to trochu složité a těžké, takže zjednodušme postup modelování předmětu!
Předpokládejme, že čtete noviny se sadou barevných zvýrazňovačů v ruce.
Není to staromódní?
Uvědomuji si, že v dnešní době čte tištěné noviny jen málokdo; vše je digitální a zvýrazňovače jsou minulostí! Předstírejte, že jste svým otcem nebo matkou!
Takže když čtete noviny, zvýrazníte důležité pojmy.
Ještě jeden předpoklad!
Pro zvýraznění klíčových slov různých témat použijete jiný odstín. Klíčová slova kategorizujete v závislosti na poskytnuté barvě a tématech.
Každá sbírka slov označená určitou barvou je seznamem klíčových slov pro dané téma. Množství různých barev, které jste vybrali, ukazuje počet témat.
Toto je nejzákladnější téma modelování. Pomáhá při porozumění, organizaci a sumarizaci velkých textových sbírek.
Mějte však na paměti, že k tomu, aby byly automatizované modely témat účinné, vyžadují hodně obsahu. Pokud máte krátký papír, možná budete chtít jít do staré školy a použít zvýrazňovače!
Je také výhodné věnovat nějaký čas seznamování se s daty. To vám dá základní představu o tom, co by měl model tématu najít.
Tento deník může být například o vašich současných a předchozích vztazích. Očekával bych tedy, že můj kámoš robot pro těžbu textu přijde s podobnými nápady.
To vám může pomoci lépe analyzovat kvalitu předmětů, které jste identifikovali, a v případě potřeby upravit sady klíčových slov.
Komponenty tématického modelování
Pravděpodobnostní model
Náhodné proměnné a rozdělení pravděpodobnosti jsou začleněny do reprezentace události nebo jevu v pravděpodobnostních modelech.
Deterministický model poskytuje jediný potenciální závěr pro událost, zatímco pravděpodobnostní model poskytuje jako řešení rozdělení pravděpodobnosti.
Tyto modely berou v úvahu skutečnost, že jen zřídka máme úplnou znalost situace. Téměř vždy je třeba vzít v úvahu prvek náhodnosti.
Například životní pojištění je založeno na skutečnosti, že víme, že zemřeme, ale nevíme kdy. Tyto modely mohou být částečně deterministické, částečně náhodné nebo zcela náhodné.
Vyhledávání informací
Information retrieval (IR) je softwarový program, který organizuje, ukládá, získává a vyhodnocuje informace z úložišť dokumentů, zejména textové informace.
Tato technologie pomáhá uživatelům objevit informace, které potřebují, ale neposkytuje jasné odpovědi na jejich dotazy. Upozorňuje na přítomnost a umístění dokumentů, které mohou poskytnout potřebné informace.
Relevantní dokumenty jsou ty, které splňují potřeby uživatele. Bezchybný IR systém vrátí pouze vybrané dokumenty.
Soudržnost tématu
Koherence tématu hodnotí jedno téma výpočtem stupně sémantické podobnosti mezi vysoce hodnocenými výrazy tématu. Tyto metriky pomáhají rozlišovat mezi předměty, které jsou sémanticky interpretovatelné, a tématy, která jsou artefakty statistické inference.
Pokud se skupina tvrzení nebo faktů vzájemně podporuje, říká se, že jsou koherentní.
V důsledku toho lze soudržný soubor faktů chápat v kontextu, který zahrnuje všechna nebo většinu faktů. „Hra je týmový sport“, „hra se hraje s míčem“ a „hra vyžaduje obrovskou fyzickou námahu“ jsou příklady soudržných souborů faktů.
Různé metody tématického modelování
Tento kritický postup lze provádět pomocí různých algoritmů nebo metodologií. Mezi ně patří:
- Latentní dirichletová alokace (LDA)
- Negativní maticová faktorizace (NMF)
- Latentní sémantická analýza (LSA)
- Pravděpodobnostní latentní sémantická analýza (pLSA)
Latentní dirichletová alokace (LDA)
Pro detekci vztahů mezi více texty v korpusu se používá statistický a grafický koncept Latent Dirichlet Allocation.
Pomocí přístupu Variational Exception Maximization (VEM) je dosaženo největšího odhadu pravděpodobnosti z celého korpusu textu.
Tradičně se vybírá prvních pár slov z pytle slov.
Ta věta je však zcela nesmyslná.
Podle této techniky bude každý text reprezentován pravděpodobnostním rozdělením předmětů a každé téma pravděpodobnostním rozdělením slov.
Negativní maticová faktorizace (NMF)
Faktorizace matice s nezápornými hodnotami je nejmodernější přístup k extrakci funkcí.
Pokud existuje mnoho vlastností a atributy jsou vágní nebo špatně předvídatelné, NMF je prospěšný. NMF může generovat významné vzory, předměty nebo témata kombinací charakteristik.
NMF generuje každý prvek jako lineární kombinaci původní sady atributů.
Každý prvek obsahuje sadu koeficientů, které představují důležitost každého atributu na prvku. Každý číselný atribut a každá hodnota každého atributu kategorie má svůj vlastní koeficient.
Všechny koeficienty jsou kladné.
Latentní sémantická analýza
Další metodou učení bez dozoru, která se používá k extrakci asociací mezi slovy v souboru dokumentů, je latentní sémantická analýza.
To nám pomáhá při výběru správných dokumentů. Jeho primární funkcí je snížit rozměrnost obrovského korpusu textových dat.
Tato nepotřebná data slouží jako šum na pozadí při získávání potřebných poznatků z dat.
Pravděpodobnostní latentní sémantická analýza (pLSA)
Pravděpodobnostní latentní sémantická analýza (PLSA), někdy známá jako pravděpodobnostní latentní sémantická indexace (PLSI, zejména v kruzích získávání informací), je statistický přístup k analýze dvourežimových dat a dat se společným výskytem.
Ve skutečnosti, podobně jako u latentní sémantické analýzy, ze které vzešel PLSA, lze nízkorozměrnou reprezentaci pozorovaných proměnných odvodit z hlediska jejich afinity ke konkrétním skrytým proměnným.
Praktické modelování témat v Pythonu
Nyní vás provedu zadáním modelování předmětu s Pythonem programovací jazyk pomocí příkladu z reálného světa.
Budu modelovat výzkumné články. Dataset, který zde budu používat, pochází z kaggle.com. Z tohoto můžete snadno získat všechny soubory, které v této práci používám strana.
Začněme s modelováním témat pomocí Pythonu importem všech základních knihoven:
Následujícím krokem je čtení všech datových sad, které budu v této úloze používat:
Průzkumná analýza dat
EDA (Exploratory Data Analysis) je statistická metoda, která využívá vizuální prvky. Využívá statistické souhrny a grafická znázornění k objevování trendů, vzorců a testovacích předpokladů.
Než začnu s modelováním tématu, provedu průzkumnou analýzu dat, abych zjistil, zda jsou v datech nějaké vzorce nebo vztahy:
Nyní najdeme nulové hodnoty testovací datové sady:
Nyní budu vykreslovat histogram a boxplot, abych zkontroloval vztah mezi proměnnými.
Počet postav v sadě Abstrakta vlaku se velmi liší.
Ve vlaku máme minimálně 54 a maximálně 4551 znaků. 1065 je průměrný počet znaků.
Testovací sada se zdá být zajímavější než trénovací sada, protože testovací sada má 46 znaků, zatímco trénovací sada má 2841.
Výsledkem bylo, že testovací sada měla medián 1058 znaků, což je podobné jako u trénovací sady.
Počet slov ve výukové sadě má podobný vzorec jako počet písmen.
Je povoleno minimálně 8 slov a maximálně 665 slov. V důsledku toho je střední počet slov 153.
Je požadováno minimálně sedm slov v abstraktu a maximálně 452 slov v testovací sadě.
Medián je v tomto případě 153, což je identické s mediánem v tréninkové sadě.
Použití značek pro modelování témat
Existuje několik strategií tématického modelování. V tomto cvičení použiji značky; podívejme se, jak to udělat, prozkoumáním značek:
Aplikace tématického modelování
- Textové shrnutí lze použít k rozlišení tématu dokumentu nebo knihy.
- Lze jej použít k odstranění zkreslení kandidátů z bodování zkoušek.
- Tématické modelování lze použít k vytvoření sémantických vztahů mezi slovy v modelech založených na grafech.
- Může zlepšit služby zákazníkům tím, že detekuje klíčová slova v dotazu klienta a odpovídá na ně. Zákazníci ve vás budou mít větší důvěru, protože jste jim poskytli pomoc, kterou požadují ve vhodnou chvíli, aniž byste jim způsobili jakékoli potíže. V důsledku toho dramaticky stoupá loajalita klientů a hodnota společnosti se zvyšuje.
Proč investovat do čističky vzduchu?
Tématické modelování je druh statistického modelování používaného k odhalování abstraktních „předmětů“, které existují ve sbírce textů.
Je to forma statistického modelu používaného v strojové učení a zpracování přirozeného jazyka k odhalení abstraktních pojmů, které existují v sadě textů.
Jde o metodu dolování textu, která se široce používá k nalezení skrytých sémantických vzorců v hlavním textu.
Napsat komentář