Turinys[Slėpti][Rodyti]
Esu tikras, kad girdėjote apie dirbtinį intelektą, taip pat tokius žodžius kaip mašininis mokymasis ir natūralios kalbos apdorojimas (NLP).
Ypač jei dirbate įmonėje, kuri kasdien tvarko šimtus, jei ne tūkstančius klientų kontaktų.
Socialinių tinklų įrašų, el. laiškų, pokalbių, atvirų apklausų atsakymų ir kitų šaltinių duomenų analizė nėra paprastas procesas, o dar sunkesnis, kai patikėtas tik žmonėms.
Štai kodėl daugelis žmonių entuziastingai vertina potencialą dirbtinis intelektas savo kasdieniam darbui ir įmonėms .
Dirbtinio intelekto pagrįstoje teksto analizėje naudojamas platus požiūrių ar algoritmų spektras, siekiant organiškai interpretuoti kalbą, vienas iš jų yra temų analizė, kuri naudojama automatiškai atrasti dalykus iš tekstų.
Įmonės gali naudoti temų analizės modelius, kad lengvai atliktų darbus į mašinas, o ne apkrautų darbuotojus per daug duomenų.
Apsvarstykite, kiek laiko jūsų komanda galėtų sutaupyti ir skirti svarbesniems darbams, jei kompiuteris kiekvieną rytą galėtų filtruoti begalinius klientų apklausų ar palaikymo problemų sąrašus.
Šiame vadove apžvelgsime temų modeliavimą, įvairius temų modeliavimo metodus ir įgysime praktinės patirties.
Kas yra temų modeliavimas?
Temų modeliavimas yra teksto gavybos tipas, kai neprižiūrimas ir prižiūrimas statistinis mašininis mokymasis metodai naudojami aptikti tendencijas korpuse arba didelėje nestruktūrizuoto teksto apimtyje.
Tai gali paimti didžiulę dokumentų rinkinį ir naudoti panašumo metodą, kad suskirstytumėte žodžius į terminų grupes ir atrastumėte temas.
Tai atrodo šiek tiek sudėtinga ir sudėtinga, todėl supaprastinkime dalyko modeliavimo procedūrą!
Tarkime, kad skaitote laikraštį su spalvotų paryškintuvų rinkiniu rankoje.
Ar tai ne senamadiška?
Suprantu, kad šiais laikais mažai kas skaito spausdintus laikraščius; viskas yra skaitmeninė, o paryškintuvai – praeitis! Apsimesk savo tėvu ar mama!
Taigi, skaitydami laikraštį, išryškinate svarbius terminus.
Dar viena prielaida!
Norėdami pabrėžti įvairių temų raktinius žodžius, naudojate skirtingą atspalvį. Jūs skirstote raktinius žodžius į kategorijas, atsižvelgdami į pateiktą spalvą ir temas.
Kiekvienas žodžių rinkinys, pažymėtas tam tikra spalva, yra tam tikros temos raktinių žodžių sąrašas. Įvairių spalvų, kurias pasirinkote, skaičius rodo temų skaičių.
Tai pats esminis temos modeliavimas. Tai padeda suprasti, organizuoti ir apibendrinti didelius tekstų rinkinius.
Tačiau atminkite, kad norint, kad automatizuoti temų modeliai būtų veiksmingi, jiems reikia daug turinio. Jei turite trumpą referatą, galbūt norėsite pereiti į senąją mokyklą ir naudoti paryškintus!
Taip pat pravartu skirti šiek tiek laiko duomenims susipažinti. Tai suteiks pagrindinį supratimą, ką turėtų rasti temos modelis.
Pavyzdžiui, tas dienoraštis gali būti apie jūsų dabartinius ir ankstesnius santykius. Taigi, tikiuosi, kad mano tekstų kasimo robotas sugalvos panašių idėjų.
Tai gali padėti geriau analizuoti identifikuotų dalykų kokybę ir, jei reikia, pakoreguoti raktinių žodžių rinkinius.
Temų modeliavimo komponentai
Tikimybinis modelis
Atsitiktiniai dydžiai ir tikimybių skirstiniai įtraukiami į įvykio ar reiškinio vaizdavimą tikimybiniuose modeliuose.
Deterministinis modelis pateikia vieną potencialią įvykio išvadą, o tikimybinis modelis pateikia tikimybių pasiskirstymą kaip sprendimą.
Šiuose modeliuose atsižvelgiama į realybę, kad mes retai žinome apie situaciją. Beveik visada reikia atsižvelgti į atsitiktinumo elementą.
Pavyzdžiui, gyvybės draudimas yra pagrįstas realybe, kad žinome, kad mirsime, bet nežinome, kada. Šie modeliai gali būti iš dalies deterministiniai, iš dalies atsitiktiniai arba visiškai atsitiktiniai.
Informacijos paieška
Informacijos paieška (IR) yra programinė įranga, kuri tvarko, saugo, nuskaito ir įvertina informaciją iš dokumentų saugyklų, ypač tekstinę.
Ši technologija padeda vartotojams atrasti jiems reikalingą informaciją, tačiau ji nepateikia aiškių atsakymų į jų užklausas. Ji praneša apie dokumentų, kurie gali suteikti reikiamos informacijos, buvimą ir vietą.
Atitinkami dokumentai yra tie, kurie atitinka vartotojo poreikius. Nepriekaištinga IR sistema grąžins tik pasirinktus dokumentus.
Temos nuoseklumas
Temos nuoseklumas įvertina vieną temą, apskaičiuodamas semantinio panašumo laipsnį tarp temos aukštus balus surinkusių terminų. Šios metrikos padeda atskirti semantiškai interpretuojamus dalykus ir temas, kurios yra statistinių išvadų artefaktai.
Jei teiginių ar faktų grupė palaiko vienas kitą, sakoma, kad jie yra nuoseklūs.
Dėl to vientisą faktų rinkinį galima suprasti kontekste, kuris apima visus arba daugumą faktų. „Žaidimas yra komandinis sportas“, „žaidimas žaidžiamas su kamuoliu“ ir „žaidimas reikalauja didžiulių fizinių pastangų“ yra nuoseklių faktų rinkinių pavyzdžiai.
Įvairūs temų modeliavimo metodai
Šią kritinę procedūrą galima atlikti naudojant įvairius algoritmus ar metodikas. Tarp jų yra:
- Latentinis Dirichlet paskirstymas (LDA)
- Neneigiamos matricos faktorizavimas (NMF)
- Latentinė semantinė analizė (LSA)
- Tikimybinė latentinė semantinė analizė (pLSA)
Latentinis Dirichlet paskirstymas (LDA)
Norint aptikti ryšius tarp kelių tekstų korpuse, naudojama statistinė ir grafinė latentinio Dirichlet paskirstymo koncepcija.
Naudojant variacinės išimties maksimizavimo (VEM) metodą, pasiekiamas didžiausias tikimybės įvertinimas iš viso teksto korpuso.
Tradiciškai parenkami keli geriausi žodžiai iš žodžių maišelio.
Tačiau sakinys visiškai beprasmis.
Pagal šią techniką kiekvienas tekstas bus pavaizduotas tikimybiniu dalykų pasiskirstymu, o kiekviena tema – tikimybiniu žodžių pasiskirstymu.
Neneigiamos matricos faktorizavimas (NMF)
Matrica su neneigiamomis reikšmėmis faktorizavimu yra pažangiausias funkcijų išgavimo metodas.
Kai yra daug savybių, o atributai neaiškūs arba prastai nuspėjami, NMF yra naudingas. NMF gali sukurti reikšmingus modelius, objektus ar temas derindamas charakteristikas.
NMF kiekvieną funkciją generuoja kaip linijinį pradinio atributų rinkinio derinį.
Kiekvienoje ypatybėje yra koeficientų rinkinys, nurodantis kiekvieno požymio svarbą. Kiekvienas skaitmeninis požymis ir kiekviena kiekvienos kategorijos atributo reikšmė turi savo koeficientą.
Visi koeficientai yra teigiami.
Latentinė semantinė analizė
Tai dar vienas neprižiūrimas mokymosi metodas, naudojamas asociacijoms tarp žodžių išgauti dokumentų rinkinyje, yra latentinė semantinė analizė.
Tai padeda mums pasirinkti tinkamus dokumentus. Pagrindinė jo funkcija yra sumažinti didžiulio teksto duomenų korpuso matmenis.
Šie nereikalingi duomenys yra foninis triukšmas, norint gauti reikiamų įžvalgų iš duomenų.
Tikimybinė latentinė semantinė analizė (pLSA)
Tikimybinė latentinė semantinė analizė (PLSA), kartais žinoma kaip tikimybinis latentinis semantinis indeksavimas (PLSI, ypač informacijos paieškos ratuose), yra statistinis dviejų režimų ir bendro įvykio duomenų analizės metodas.
Tiesą sakant, panašiai kaip latentinė semantinė analizė, iš kurios atsirado PLSA, galima gauti žemo matmens stebimų kintamųjų vaizdą, atsižvelgiant į jų giminingumą tam tikriems paslėptiems kintamiesiems.
Praktinis temų modeliavimas Python
Dabar pateiksiu jums dalyko modeliavimo užduotį naudojant Python programavimo kalba naudojant realaus pasaulio pavyzdį.
Modeliuosiu mokslinius straipsnius. Duomenų rinkinys, kurį naudosiu čia, yra iš kaggle.com. Iš čia galite lengvai gauti visus failus, kuriuos naudoju šiame darbe puslapis.
Pradėkime nuo temų modeliavimo naudodami Python importuodami visas pagrindines bibliotekas:
Kitas veiksmas yra perskaityti visus duomenų rinkinius, kuriuos naudosiu šioje užduotyje:
Tiriamoji duomenų analizė
EDA (žvalgomoji duomenų analizė) yra statistinis metodas, kuriame naudojami vaizdiniai elementai. Jis naudoja statistines santraukas ir grafinius vaizdus, kad atskleistų tendencijas, modelius ir patikrinimo prielaidas.
Prieš pradėdamas modeliuoti temą, atliksiu tiriamąją duomenų analizę, kad pamatyčiau, ar duomenyse yra kokių nors šablonų ar ryšių:
Dabar rasime nulines bandomojo duomenų rinkinio reikšmes:
Dabar nubraižysiu histogramą ir langelį, kad patikrinčiau ryšį tarp kintamųjų.
Simbolių skaičius rinkinyje „Traukinio santraukos“ labai skiriasi.
Traukinyje turime mažiausiai 54 ir daugiausiai 4551 simbolius. 1065 yra vidutinis simbolių skaičius.
Bandymų rinkinys atrodo įdomesnis nei treniruočių rinkinys, nes testų rinkinį sudaro 46 simboliai, o mokymo rinkinyje – 2841.
Dėl to testo rinkinio mediana buvo 1058 simboliai, o tai panašu į mokymo rinkinį.
Žodžių skaičius mokymosi rinkinyje yra panašus į raidžių skaičių.
Leidžiama ne mažiau kaip 8 ir ne daugiau kaip 665 žodžiai. Dėl to vidutinis žodžių skaičius yra 153.
Reikalingi ne mažiau kaip septyni žodžiai santraukoje ir ne daugiau kaip 452 žodžiai testo rinkinyje.
Šiuo atveju mediana yra 153, kuri yra identiška mokymo rinkinio medianai.
Žymų naudojimas temos modeliavimui
Yra keletas temų modeliavimo strategijų. Šiame pratime naudosiu žymes; pažiūrėkime, kaip tai padaryti, išnagrinėję žymas:
Temų modeliavimo taikymai
- Teksto santrauka gali būti naudojama norint suprasti dokumento ar knygos temą.
- Jis gali būti naudojamas norint pašalinti kandidato šališkumą vertinant egzaminą.
- Temų modeliavimas gali būti naudojamas semantiniams ryšiams tarp žodžių kurti grafikais pagrįstuose modeliuose.
- Jis gali pagerinti klientų aptarnavimą aptikdamas ir reaguodamas į raktinius žodžius kliento užklausoje. Klientai labiau pasitikės jumis, nes suteikėte jiems reikiamą pagalbą tinkamu momentu ir nesukeldami jiems jokio vargo. Dėl to klientų lojalumas smarkiai išauga, o įmonės vertė didėja.
Išvada
Temų modeliavimas yra tam tikras statistinis modeliavimas, naudojamas atskleisti abstrakčius „subjektus“, esančius tekstų rinkinyje.
Tai statistinio modelio forma, naudojama mašininis mokymasis ir natūralios kalbos apdorojimas, siekiant atskleisti abstrakčias sąvokas, egzistuojančias tekstų rinkinyje.
Tai teksto gavybos metodas, plačiai naudojamas ieškant latentinių semantinių šablonų pagrindiniame tekste.
Palikti atsakymą