Obsah[Skryť][Šou]
Určite ste už počuli o umelej inteligencii, ako aj o slovách ako strojové učenie a spracovanie prirodzeného jazyka (NLP).
Najmä ak pracujete vo firme, ktorá denne vybavuje stovky, ak nie tisíce kontaktov s klientmi.
Analýza údajov príspevkov na sociálnych sieťach, e-mailov, rozhovorov, otvorených odpovedí na prieskumy a iných zdrojov nie je jednoduchý proces a stáva sa ešte ťažším, keď je zverený iba ľuďom.
To je dôvod, prečo sú mnohí ľudia nadšení z potenciálu umelá inteligencia pre ich každodennú prácu a pre podniky.
Analýza textu poháňaná umelou inteligenciou využíva širokú škálu prístupov alebo algoritmov na organickú interpretáciu jazyka, pričom jedným z nich je tematická analýza, ktorá sa používa na automatické objavovanie predmetov z textov.
Podniky môžu použiť modely analýzy tém na prenos jednoduchých úloh na stroje namiesto toho, aby pracovníkov zaťažili príliš veľkým množstvom údajov.
Zvážte, koľko času by váš tím mohol ušetriť a venovať dôležitejšej práci, ak by počítač mohol každé ráno filtrovať nekonečné zoznamy zákazníckych prieskumov alebo problémov s podporou.
V tejto príručke sa pozrieme na modelovanie tém, rôzne metódy modelovania tém a získame s tým nejaké praktické skúsenosti.
Čo je tematický modeling?
Modelovanie tém je typ dolovania textu, v ktorom sa vykonáva štatistické riadenie bez dozoru a pod dohľadom strojové učenie techniky sa používajú na zisťovanie trendov v korpuse alebo významnom objeme neštruktúrovaného textu.
Môže to vziať vašu rozsiahlu zbierku dokumentov a použiť metódu podobnosti na usporiadanie slov do zhlukov výrazov a objavovanie predmetov.
Zdá sa to byť trochu zložité a ťažké, takže zjednodušíme postup modelovania predmetu!
Predpokladajme, že čítate noviny so sadou farebných zvýrazňovačov v ruke.
Nie je to staromódne?
Uvedomujem si, že v dnešnej dobe málokto číta noviny v tlačenej podobe; všetko je digitálne a zvýrazňovače sú minulosťou! Predstierajte, že ste svojím otcom alebo matkou!
Takže keď čítate noviny, zvýraznite dôležité pojmy.
Ešte jeden predpoklad!
Používate iný odtieň, aby ste zdôraznili kľúčové slová rôznych tém. Kľúčové slová kategorizujete v závislosti od poskytnutej farby a tém.
Každá zbierka slov označená určitou farbou je zoznamom kľúčových slov pre danú tému. Množstvo rôznych farieb, ktoré ste vybrali, ukazuje počet tém.
Toto je najzákladnejšia téma modelovania. Pomáha pri porozumení, organizácii a sumarizácii veľkých textových zbierok.
Majte však na pamäti, že na to, aby boli automatizované modely tém efektívne, vyžadujú veľa obsahu. Ak máte krátky papier, možno budete chcieť ísť do starej školy a použiť zvýrazňovače!
Je tiež užitočné stráviť nejaký čas oboznámením sa s údajmi. To vám dá základnú predstavu o tom, čo by mal model témy nájsť.
Napríklad, tento denník môže byť o vašich súčasných a predchádzajúcich vzťahoch. Preto by som očakával, že môj kamoš na ťažbu textov príde s podobnými nápadmi.
To vám môže pomôcť lepšie analyzovať kvalitu predmetov, ktoré ste identifikovali, a v prípade potreby upraviť súbory kľúčových slov.
Komponenty tematického modelovania
Pravdepodobnostný model
Náhodné premenné a rozdelenia pravdepodobnosti sú začlenené do reprezentácie udalosti alebo javu v pravdepodobnostných modeloch.
Deterministický model poskytuje jediný potenciálny záver pre udalosť, zatiaľ čo pravdepodobnostný model poskytuje ako riešenie rozdelenie pravdepodobnosti.
Tieto modely berú do úvahy skutočnosť, že málokedy máme úplnú znalosť situácie. Takmer vždy je potrebné zvážiť prvok náhodnosti.
Napríklad životné poistenie je založené na skutočnosti, že vieme, že zomrieme, no nevieme kedy. Tieto modely môžu byť čiastočne deterministické, čiastočne náhodné alebo úplne náhodné.
Informačné vyhľadávanie
Information retrieval (IR) je softvérový program, ktorý organizuje, ukladá, získava a vyhodnocuje informácie z úložísk dokumentov, najmä textové informácie.
Táto technológia pomáha používateľom objaviť informácie, ktoré potrebujú, ale neposkytuje jasné odpovede na ich otázky. Upozorňuje na prítomnosť a umiestnenie dokumentov, ktoré môžu poskytnúť potrebné informácie.
Relevantné dokumenty sú tie, ktoré zodpovedajú potrebám používateľa. Bezchybný IR systém vráti iba vybrané dokumenty.
Súdržnosť tém
Súdržnosť tém hodnotí jednu tému výpočtom stupňa sémantickej podobnosti medzi výrazmi s vysokým skóre v téme. Tieto metriky pomáhajú pri rozlišovaní medzi predmetmi, ktoré sú sémanticky interpretovateľné, a témami, ktoré sú artefaktmi štatistickej inferencie.
Ak sa skupina tvrdení alebo faktov navzájom podporuje, hovorí sa, že sú koherentné.
Výsledkom je, že súdržný súbor faktov možno chápať v kontexte, ktorý zahŕňa všetky alebo väčšinu faktov. „Hra je tímový šport“, „hra sa hrá s loptou“ a „hra si vyžaduje obrovské fyzické úsilie“, to všetko sú príklady súdržných súborov faktov.
Rôzne metódy modelovania tém
Tento kritický postup možno vykonať pomocou rôznych algoritmov alebo metodológií. Medzi nimi sú:
- Latentná dirichletová alokácia (LDA)
- Negatívna maticová faktorizácia (NMF)
- Latentná sémantická analýza (LSA)
- Pravdepodobná latentná sémantická analýza (pLSA)
Latentná dirichletová alokácia (LDA)
Na zistenie vzťahov medzi viacerými textami v korpuse sa používa štatistický a grafický koncept Latent Dirichlet Allocation.
Použitím prístupu Variational Exception Maximization (VEM) sa dosiahne najväčší odhad pravdepodobnosti z celého korpusu textu.
Tradične sa vyberie niekoľko prvých slov z vreca slov.
Tá veta je však úplne nezmyselná.
Podľa tejto techniky bude každý text reprezentovaný pravdepodobnostným rozložením predmetov a každá téma pravdepodobnostným rozložením slov.
Negatívna maticová faktorizácia (NMF)
Faktorizácia matice s nezápornými hodnotami je najmodernejší prístup extrakcie funkcií.
Ak existuje veľa vlastností a atribúty sú vágne alebo zle predvídateľné, NMF je prospešný. NMF môže generovať významné vzory, predmety alebo témy kombináciou charakteristík.
NMF generuje každý prvok ako lineárnu kombináciu pôvodnej sady atribútov.
Každý prvok obsahuje množinu koeficientov, ktoré predstavujú dôležitosť každého atribútu prvku. Každý číselný atribút a každá hodnota každého atribútu kategórie má svoj vlastný koeficient.
Všetky koeficienty sú kladné.
Latentná sémantická analýza
Ďalšou metódou učenia bez dozoru, ktorá sa používa na extrahovanie asociácií medzi slovami v súbore dokumentov, je latentná sémantická analýza.
To nám pomáha pri výbere správnych dokumentov. Jeho primárnou funkciou je zmenšiť rozmernosť obrovského korpusu textových dát.
Tieto nepotrebné údaje slúžia ako šum pozadia pri získavaní potrebných prehľadov z údajov.
Pravdepodobná latentná sémantická analýza (pLSA)
Pravdepodobnostná latentná sémantická analýza (PLSA), niekedy známa ako pravdepodobnostná latentná sémantická indexácia (PLSI, najmä v kruhoch získavania informácií), je štatistický prístup na analýzu údajov s dvomi režimami a spoločným výskytom.
V skutočnosti, podobne ako pri latentnej sémantickej analýze, z ktorej vzišla PLSA, možno odvodiť nízkorozmernú reprezentáciu pozorovaných premenných z hľadiska ich afinity ku konkrétnym skrytým premenným.
Praktické modelovanie tém v Pythone
Teraz vás prevediem úlohou modelovania predmetov s Pythonom programovací jazyk pomocou príkladu z reálneho sveta.
Budem modelovať výskumné články. Súbor údajov, ktorý tu budem používať, pochádza z kaggle.com. Všetky súbory, ktoré v tejto práci používam, môžete ľahko získať z tohto strana.
Začnime s modelovaním tém pomocou Pythonu importovaním všetkých základných knižníc:
Nasledujúcim krokom je prečítať si všetky množiny údajov, ktoré budem v tejto úlohe používať:
Prieskumná analýza dát
EDA (Exploratory Data Analysis) je štatistická metóda, ktorá využíva vizuálne prvky. Používa štatistické súhrny a grafické znázornenia na objavovanie trendov, vzorov a testovacích predpokladov.
Pred začatím modelovania tém urobím prieskumnú analýzu údajov, aby som zistil, či v údajoch existujú nejaké vzory alebo vzťahy:
Teraz nájdeme nulové hodnoty testovacieho súboru údajov:
Teraz vykreslím histogram a boxplot, aby som skontroloval vzťah medzi premennými.
Množstvo postáv v súprave Abstrakty vlaku sa značne líši.
Vo vlaku máme minimálne 54 a maximálne 4551 znakov. 1065 je priemerný počet znakov.
Testovacia množina vyzerá byť zaujímavejšia ako trénovacia množina, pretože testovacia množina má 46 znakov, zatiaľ čo trénovacia množina má 2841.
Výsledkom bolo, že testovacia množina mala medián 1058 znakov, čo je podobné ako trénovacia množina.
Počet slov v vzdelávacom súbore má podobný vzorec ako počet písmen.
Povolených je minimálne 8 slov a maximálne 665 slov. Výsledkom je, že stredný počet slov je 153.
Vyžaduje sa minimálne sedem slov v abstrakte a maximálne 452 slov v testovacej sade.
Medián je v tomto prípade 153, čo je identické s mediánom v tréningovom súbore.
Používanie značiek na modelovanie tém
Existuje niekoľko stratégií modelovania tém. V tomto cvičení použijem značky; pozrime sa, ako to urobiť, preskúmaním značiek:
Aplikácie tematického modelovania
- Textové zhrnutie možno použiť na rozpoznanie témy dokumentu alebo knihy.
- Môže sa použiť na odstránenie zaujatosti kandidáta z bodovania skúšok.
- Modelovanie tém sa môže použiť na vytvorenie sémantických vzťahov medzi slovami v modeloch založených na grafoch.
- Môže zlepšiť služby zákazníkom detekciou kľúčových slov v dopyte klienta a reagovaním na ne. Zákazníci vám budú viac veriť, pretože ste im poskytli potrebnú pomoc vo vhodnom okamihu a bez toho, aby ste im spôsobili akékoľvek problémy. Výsledkom je, že lojalita klientov dramaticky stúpa a hodnota spoločnosti sa zvyšuje.
záver
Modelovanie tém je druh štatistického modelovania používaného na odhaľovanie abstraktných „predmetov“, ktoré existujú v zbierke textov.
Je to forma štatistického modelu používaná v strojové učenie a spracovanie prirodzeného jazyka s cieľom odhaliť abstraktné pojmy, ktoré existujú v súbore textov.
Ide o metódu dolovania textu, ktorá sa široko používa na nájdenie latentných sémantických vzorcov v hlavnom texte.
Nechaj odpoveď