Temų modeliavimo įvadas pradedantiesiems

Turinys[Slėpti][Rodyti]

Kas yra temų modeliavimas?
Temų modeliavimo komponentai+-
- Tikimybinis modelis
- Informacijos paieška
Įvairūs temų modeliavimo metodai+-
Praktinis temų modeliavimas Python+-
- Tiriamoji duomenų analizė
- Žymų naudojimas temos modeliavimui
Temų modeliavimo taikymai
Išvada

Esu tikras, kad girdėjote apie dirbtinį intelektą, taip pat tokius žodžius kaip mašininis mokymasis ir natūralios kalbos apdorojimas (NLP).

Ypač jei dirbate įmonėje, kuri kasdien tvarko šimtus, jei ne tūkstančius klientų kontaktų.

Socialinių tinklų įrašų, el. laiškų, pokalbių, atvirų apklausų atsakymų ir kitų šaltinių duomenų analizė nėra paprastas procesas, o dar sunkesnis, kai patikėtas tik žmonėms.

Štai kodėl daugelis žmonių entuziastingai vertina potencialą dirbtinis intelektas savo kasdieniam darbui ir įmonėms .

Dirbtinio intelekto pagrįstoje teksto analizėje naudojamas platus požiūrių ar algoritmų spektras, siekiant organiškai interpretuoti kalbą, vienas iš jų yra temų analizė, kuri naudojama automatiškai atrasti dalykus iš tekstų.

Įmonės gali naudoti temų analizės modelius, kad lengvai atliktų darbus į mašinas, o ne apkrautų darbuotojus per daug duomenų.

Apsvarstykite, kiek laiko jūsų komanda galėtų sutaupyti ir skirti svarbesniems darbams, jei kompiuteris kiekvieną rytą galėtų filtruoti begalinius klientų apklausų ar palaikymo problemų sąrašus.

Šiame vadove apžvelgsime temų modeliavimą, įvairius temų modeliavimo metodus ir įgysime praktinės patirties.

Kas yra temų modeliavimas?

Temų modeliavimas yra teksto gavybos tipas, kai neprižiūrimas ir prižiūrimas statistinis mašininis mokymasis metodai naudojami aptikti tendencijas korpuse arba didelėje nestruktūrizuoto teksto apimtyje.

Tai gali paimti didžiulę dokumentų rinkinį ir naudoti panašumo metodą, kad suskirstytumėte žodžius į terminų grupes ir atrastumėte temas.

Tai atrodo šiek tiek sudėtinga ir sudėtinga, todėl supaprastinkime dalyko modeliavimo procedūrą!

Tarkime, kad skaitote laikraštį su spalvotų paryškintuvų rinkiniu rankoje.

Ar tai ne senamadiška?

Suprantu, kad šiais laikais mažai kas skaito spausdintus laikraščius; viskas yra skaitmeninė, o paryškintuvai – praeitis! Apsimesk savo tėvu ar mama!

Taigi, skaitydami laikraštį, išryškinate svarbius terminus.

Dar viena prielaida!

Norėdami pabrėžti įvairių temų raktinius žodžius, naudojate skirtingą atspalvį. Jūs skirstote raktinius žodžius į kategorijas, atsižvelgdami į pateiktą spalvą ir temas.

Kiekvienas žodžių rinkinys, pažymėtas tam tikra spalva, yra tam tikros temos raktinių žodžių sąrašas. Įvairių spalvų, kurias pasirinkote, skaičius rodo temų skaičių.

Tai pats esminis temos modeliavimas. Tai padeda suprasti, organizuoti ir apibendrinti didelius tekstų rinkinius.

Tačiau atminkite, kad norint, kad automatizuoti temų modeliai būtų veiksmingi, jiems reikia daug turinio. Jei turite trumpą referatą, galbūt norėsite pereiti į senąją mokyklą ir naudoti paryškintus!

Taip pat pravartu skirti šiek tiek laiko duomenims susipažinti. Tai suteiks pagrindinį supratimą, ką turėtų rasti temos modelis.

Pavyzdžiui, tas dienoraštis gali būti apie jūsų dabartinius ir ankstesnius santykius. Taigi, tikiuosi, kad mano tekstų kasimo robotas sugalvos panašių idėjų.

Tai gali padėti geriau analizuoti identifikuotų dalykų kokybę ir, jei reikia, pakoreguoti raktinių žodžių rinkinius.

Temų modeliavimo komponentai

Tikimybinis modelis

Atsitiktiniai dydžiai ir tikimybių skirstiniai įtraukiami į įvykio ar reiškinio vaizdavimą tikimybiniuose modeliuose.

Deterministinis modelis pateikia vieną potencialią įvykio išvadą, o tikimybinis modelis pateikia tikimybių pasiskirstymą kaip sprendimą.

Šiuose modeliuose atsižvelgiama į realybę, kad mes retai žinome apie situaciją. Beveik visada reikia atsižvelgti į atsitiktinumo elementą.

Pavyzdžiui, gyvybės draudimas yra pagrįstas realybe, kad žinome, kad mirsime, bet nežinome, kada. Šie modeliai gali būti iš dalies deterministiniai, iš dalies atsitiktiniai arba visiškai atsitiktiniai.

Informacijos paieška

Informacijos paieška (IR) yra programinė įranga, kuri tvarko, saugo, nuskaito ir įvertina informaciją iš dokumentų saugyklų, ypač tekstinę.

Ši technologija padeda vartotojams atrasti jiems reikalingą informaciją, tačiau ji nepateikia aiškių atsakymų į jų užklausas. Ji praneša apie dokumentų, kurie gali suteikti reikiamos informacijos, buvimą ir vietą.

Atitinkami dokumentai yra tie, kurie atitinka vartotojo poreikius. Nepriekaištinga IR sistema grąžins tik pasirinktus dokumentus.

Temos nuoseklumas

Temos nuoseklumas įvertina vieną temą, apskaičiuodamas semantinio panašumo laipsnį tarp temos aukštus balus surinkusių terminų. Šios metrikos padeda atskirti semantiškai interpretuojamus dalykus ir temas, kurios yra statistinių išvadų artefaktai.

Jei teiginių ar faktų grupė palaiko vienas kitą, sakoma, kad jie yra nuoseklūs.

Dėl to vientisą faktų rinkinį galima suprasti kontekste, kuris apima visus arba daugumą faktų. „Žaidimas yra komandinis sportas“, „žaidimas žaidžiamas su kamuoliu“ ir „žaidimas reikalauja didžiulių fizinių pastangų“ yra nuoseklių faktų rinkinių pavyzdžiai.

Įvairūs temų modeliavimo metodai

Šią kritinę procedūrą galima atlikti naudojant įvairius algoritmus ar metodikas. Tarp jų yra:

Latentinis Dirichlet paskirstymas (LDA)
Neneigiamos matricos faktorizavimas (NMF)
Latentinė semantinė analizė (LSA)
Tikimybinė latentinė semantinė analizė (pLSA)

Latentinis Dirichlet paskirstymas (LDA)

Norint aptikti ryšius tarp kelių tekstų korpuse, naudojama statistinė ir grafinė latentinio Dirichlet paskirstymo koncepcija.

Naudojant variacinės išimties maksimizavimo (VEM) metodą, pasiekiamas didžiausias tikimybės įvertinimas iš viso teksto korpuso.

LTD

Tradiciškai parenkami keli geriausi žodžiai iš žodžių maišelio.

Tačiau sakinys visiškai beprasmis.

Pagal šią techniką kiekvienas tekstas bus pavaizduotas tikimybiniu dalykų pasiskirstymu, o kiekviena tema – tikimybiniu žodžių pasiskirstymu.

Neneigiamos matricos faktorizavimas (NMF)

Matrica su neneigiamomis reikšmėmis faktorizavimu yra pažangiausias funkcijų išgavimo metodas.

Kai yra daug savybių, o atributai neaiškūs arba prastai nuspėjami, NMF yra naudingas. NMF gali sukurti reikšmingus modelius, objektus ar temas derindamas charakteristikas.

Neneigiamos matricos faktorizavimas

NMF kiekvieną funkciją generuoja kaip linijinį pradinio atributų rinkinio derinį.

Kiekvienoje ypatybėje yra koeficientų rinkinys, nurodantis kiekvieno požymio svarbą. Kiekvienas skaitmeninis požymis ir kiekviena kiekvienos kategorijos atributo reikšmė turi savo koeficientą.

Visi koeficientai yra teigiami.

Latentinė semantinė analizė

Tai dar vienas neprižiūrimas mokymosi metodas, naudojamas asociacijoms tarp žodžių išgauti dokumentų rinkinyje, yra latentinė semantinė analizė.

Tai padeda mums pasirinkti tinkamus dokumentus. Pagrindinė jo funkcija yra sumažinti didžiulio teksto duomenų korpuso matmenis.

Šie nereikalingi duomenys yra foninis triukšmas, norint gauti reikiamų įžvalgų iš duomenų.

Latentinė semantinė analizė

Tikimybinė latentinė semantinė analizė (pLSA)

Tikimybinė latentinė semantinė analizė (PLSA), kartais žinoma kaip tikimybinis latentinis semantinis indeksavimas (PLSI, ypač informacijos paieškos ratuose), yra statistinis dviejų režimų ir bendro įvykio duomenų analizės metodas.

Tiesą sakant, panašiai kaip latentinė semantinė analizė, iš kurios atsirado PLSA, galima gauti žemo matmens stebimų kintamųjų vaizdą, atsižvelgiant į jų giminingumą tam tikriems paslėptiems kintamiesiems.

Tikimybinė latentinė senantinė analizė

Praktinis temų modeliavimas Python

Dabar pateiksiu jums dalyko modeliavimo užduotį naudojant Python programavimo kalba naudojant realaus pasaulio pavyzdį.

Modeliuosiu mokslinius straipsnius. Duomenų rinkinys, kurį naudosiu čia, yra iš kaggle.com. Iš čia galite lengvai gauti visus failus, kuriuos naudoju šiame darbe puslapis.

Pradėkime nuo temų modeliavimo naudodami Python importuodami visas pagrindines bibliotekas:

Bibliotekų importavimas

Kitas veiksmas yra perskaityti visus duomenų rinkinius, kuriuos naudosiu šioje užduotyje:

Skaitykite duomenų rinkinį

Tiriamoji duomenų analizė

EDA (žvalgomoji duomenų analizė) yra statistinis metodas, kuriame naudojami vaizdiniai elementai. Jis naudoja statistines santraukas ir grafinius vaizdus, kad atskleistų tendencijas, modelius ir patikrinimo prielaidas.

Prieš pradėdamas modeliuoti temą, atliksiu tiriamąją duomenų analizę, kad pamatyčiau, ar duomenyse yra kokių nors šablonų ar ryšių:

Raskite nulines traukinio duomenų rinkinio reikšmes

Traukinio nulinių verčių išvestis

Dabar rasime nulines bandomojo duomenų rinkinio reikšmes:

Raskite testo duomenų rinkinio nulines reikšmes

Testo nulinių verčių išvestis

Dabar nubraižysiu histogramą ir langelį, kad patikrinčiau ryšį tarp kintamųjų.

Braižymas

1 braižymo rezultatas

Simbolių skaičius rinkinyje „Traukinio santraukos“ labai skiriasi.

Traukinyje turime mažiausiai 54 ir daugiausiai 4551 simbolius. 1065 yra vidutinis simbolių skaičius.

2 braižymas

2 braižymo rezultatas

Bandymų rinkinys atrodo įdomesnis nei treniruočių rinkinys, nes testų rinkinį sudaro 46 simboliai, o mokymo rinkinyje – 2841.

Dėl to testo rinkinio mediana buvo 1058 simboliai, o tai panašu į mokymo rinkinį.

3 braižymas

3 braižymo rezultatas

Žodžių skaičius mokymosi rinkinyje yra panašus į raidžių skaičių.

Leidžiama ne mažiau kaip 8 ir ne daugiau kaip 665 žodžiai. Dėl to vidutinis žodžių skaičius yra 153.

4 braižymas

4 braižymo rezultatas

Reikalingi ne mažiau kaip septyni žodžiai santraukoje ir ne daugiau kaip 452 žodžiai testo rinkinyje.

Šiuo atveju mediana yra 153, kuri yra identiška mokymo rinkinio medianai.

Žymų naudojimas temos modeliavimui

Yra keletas temų modeliavimo strategijų. Šiame pratime naudosiu žymes; pažiūrėkime, kaip tai padaryti, išnagrinėję žymas:

Žymų naudojimas temos modeliavimui

Temos modeliavimo išvestis

Temų modeliavimo taikymai

Teksto santrauka gali būti naudojama norint suprasti dokumento ar knygos temą.
Jis gali būti naudojamas norint pašalinti kandidato šališkumą vertinant egzaminą.
Temų modeliavimas gali būti naudojamas semantiniams ryšiams tarp žodžių kurti grafikais pagrįstuose modeliuose.
Jis gali pagerinti klientų aptarnavimą aptikdamas ir reaguodamas į raktinius žodžius kliento užklausoje. Klientai labiau pasitikės jumis, nes suteikėte jiems reikiamą pagalbą tinkamu momentu ir nesukeldami jiems jokio vargo. Dėl to klientų lojalumas smarkiai išauga, o įmonės vertė didėja.

Išvada

Temų modeliavimas yra tam tikras statistinis modeliavimas, naudojamas atskleisti abstrakčius „subjektus“, esančius tekstų rinkinyje.

Tai statistinio modelio forma, naudojama mašininis mokymasis ir natūralios kalbos apdorojimas, siekiant atskleisti abstrakčias sąvokas, egzistuojančias tekstų rinkinyje.

Tai teksto gavybos metodas, plačiai naudojamas ieškant latentinių semantinių šablonų pagrindiniame tekste.

Temų modeliavimo įvadas pradedantiesiems

Kas yra temų modeliavimas?