Saturs[Paslēpt][Rādīt]
Esmu pārliecināts, ka esat dzirdējuši par mākslīgo intelektu, kā arī tādiem vārdiem kā mašīnmācīšanās un dabiskās valodas apstrāde (NLP).
It īpaši, ja strādājat firmā, kas katru dienu apkalpo simtiem, ja ne tūkstošiem klientu kontaktu.
Sociālo mediju ierakstu, e-pastu, tērzēšanas, atvērto aptauju atbilžu un citu avotu datu analīze nav vienkāršs process, un tas kļūst vēl grūtāks, ja to uztic tikai cilvēkiem.
Tāpēc daudzi cilvēki ir sajūsmā par potenciālu mākslīgais intelekts viņu ikdienas darbam un uzņēmumiem.
Ar AI darbināmā teksta analīzē tiek izmantots plašs pieeju vai algoritmu klāsts, lai organiski interpretētu valodu, no kurām viena ir tēmu analīze, ko izmanto, lai automātiski atklātu priekšmetus no tekstiem.
Uzņēmumi var izmantot tēmu analīzes modeļus, lai pārsūtītu vienkāršus darbus uz mašīnām, nevis pārslogotu darbiniekus ar pārāk daudz datu.
Apsveriet, cik daudz laika jūsu komanda varētu ietaupīt un veltīt svarīgākam darbam, ja dators katru rītu varētu filtrēt bezgalīgus klientu aptauju vai atbalsta problēmu sarakstus.
Šajā rokasgrāmatā mēs apskatīsim tēmu modelēšanu, dažādas tēmu modelēšanas metodes un iegūsim praktisku pieredzi ar to.
Kas ir tēmu modelēšana?
Tēmu modelēšana ir teksta ieguves veids, kurā tiek veikta bez uzraudzības un uzraudzīta statistika mašīna mācīšanās metodes tiek izmantotas, lai noteiktu tendences korpusā vai ievērojamā daudzumā nestrukturēta teksta.
Tas var aizņemt jūsu milzīgo dokumentu kolekciju un izmantot līdzības metodi, lai sakārtotu vārdus terminu grupās un atklātu priekšmetus.
Tas šķiet nedaudz sarežģīti un grūti, tāpēc vienkāršosim priekšmeta modelēšanas procedūru!
Pieņemsim, ka lasāt avīzi ar krāsainu marķieru komplektu rokā.
Vai tas nav vecmodīgi?
Es saprotu, ka mūsdienās maz cilvēku lasa drukātās avīzes; viss ir digitāls, un marķieri ir pagātne! Izliecies par savu tēvu vai māti!
Tātad, lasot avīzi, jūs izceļat svarīgos terminus.
Vēl viens pieņēmums!
Jūs izmantojat atšķirīgu nokrāsu, lai uzsvērtu dažādu tēmu atslēgvārdus. Atslēgvārdi tiek iedalīti kategorijās atkarībā no piedāvātās krāsas un tēmām.
Katrs vārdu krājums, kas atzīmēts ar noteiktu krāsu, ir noteiktas tēmas atslēgvārdu saraksts. Jūsu izvēlēto dažādu krāsu skaits parāda motīvu skaitu.
Šī ir vissvarīgākā tēmu modelēšana. Tas palīdz izprast, organizēt un apkopot lielas teksta kolekcijas.
Tomēr ņemiet vērā, ka, lai automatizēti tēmu modeļi būtu efektīvi, tiem ir nepieciešams daudz satura. Ja jums ir īss papīrs, iespējams, vēlēsities doties uz veco skolu un izmantot marķierus!
Ir arī izdevīgi kādu laiku veltīt datu iepazīšanai. Tas sniegs jums pamata priekšstatu par to, kas ir jāatrod tēmas modelim.
Piemēram, šī dienasgrāmata var būt par jūsu pašreizējām un iepriekšējām attiecībām. Tāpēc es ceru, ka mans teksta ieguves robots-draugs nāks klajā ar līdzīgām idejām.
Tas var palīdzēt labāk analizēt jūsu identificēto priekšmetu kvalitāti un, ja nepieciešams, pielāgot atslēgvārdu kopas.
Tēmu modelēšanas sastāvdaļas
Varbūtības modelis
Nejaušie mainīgie un varbūtības sadalījumi ir iekļauti notikuma vai parādības attēlojumā varbūtības modeļos.
Deterministiskais modelis nodrošina vienu notikuma potenciālu secinājumu, bet varbūtības modelis kā risinājumu nodrošina varbūtības sadalījumu.
Šie modeļi ņem vērā realitāti, ka mums reti ir pilnīgas zināšanas par situāciju. Gandrīz vienmēr ir jāņem vērā nejaušības elements.
Piemēram, dzīvības apdrošināšana ir balstīta uz realitāti, ka mēs zinām, ka mirsim, bet mēs nezinām, kad. Šie modeļi var būt daļēji deterministiski, daļēji nejauši vai pilnīgi nejauši.
Informācijas izguve
Informācijas izguve (IR) ir programmatūra, kas organizē, saglabā, izgūst un novērtē informāciju no dokumentu krātuvēm, īpaši teksta informāciju.
Šī tehnoloģija palīdz lietotājiem atklāt nepieciešamo informāciju, taču tā nesniedz nepārprotamas atbildes uz viņu jautājumiem. Tas paziņo par dokumentu esamību un atrašanās vietu, kas var sniegt nepieciešamo informāciju.
Attiecīgie dokumenti ir tie, kas atbilst lietotāja vajadzībām. Nevainojama IR sistēma atgriezīs tikai atlasītos dokumentus.
Tēmas saskaņotība
Tēmas saskaņotība novērtē vienu tēmu, aprēķinot semantiskās līdzības pakāpi starp tēmas augstākajiem punktiem. Šie rādītāji palīdz atšķirt priekšmetus, kas ir semantiski interpretējami, un tēmas, kas ir statistikas secinājumu artefakti.
Ja apgalvojumu vai faktu grupa atbalsta viens otru, tiek uzskatīts, ka tie ir saskaņoti.
Rezultātā vienotu faktu kopumu var saprast kontekstā, kas aptver visus vai lielāko daļu faktu. “Spēle ir komandas sporta veids”, “spēle tiek spēlēta ar bumbu” un “spēle prasa milzīgu fizisko piepūli” ir saskaņotu faktu kopu piemēri.
Dažādas tēmas modelēšanas metodes
Šo kritisko procedūru var veikt, izmantojot dažādus algoritmus vai metodoloģijas. Starp tiem ir:
- Latentā Dirihleta piešķiršana (LDA)
- Nenegatīvās matricas faktorizācija (NMF)
- Latentā semantiskā analīze (LSA)
- Varbūtiskā latentā semantiskā analīze (pLSA)
Latentā Dirihleta piešķiršana (LDA)
Lai atklātu attiecības starp vairākiem korpusa tekstiem, tiek izmantota latentā Dirihleta piešķiršanas statistiskā un grafiskā koncepcija.
Izmantojot variācijas izņēmuma maksimizācijas (VEM) pieeju, tiek sasniegts lielākais varbūtības novērtējums no pilna teksta korpusa.
Tradicionāli tiek izvēlēti daži labākie vārdi no vārdu maisa.
Tomēr teikums ir pilnīgi bezjēdzīgs.
Saskaņā ar šo paņēmienu katrs teksts tiks attēlots ar varbūtības priekšmetu sadalījumu, un katrs temats tiks attēlots ar varbūtības vārdu sadalījumu.
Nenegatīvās matricas faktorizēšana (NMF)
Matrica ar nenegatīvām vērtībām faktorizēšanu ir visprogresīvākā iezīmju iegūšanas pieeja.
Ja ir daudz īpašību un atribūti ir neskaidri vai ar sliktu paredzamību, NMF ir izdevīga. NMF var radīt nozīmīgus modeļus, priekšmetus vai tēmas, apvienojot raksturlielumus.
NMF katru līdzekli ģenerē kā sākotnējās atribūtu kopas lineāru kombināciju.
Katrs līdzeklis satur koeficientu kopu, kas atspoguļo katra objekta atribūta nozīmi. Katram skaitliskajam atribūtam un katrai kategorijas atribūta vērtībai ir savs koeficients.
Visi koeficienti ir pozitīvi.
Latentā semantiskā analīze
Tā ir vēl viena nepārraudzīta mācību metode, ko izmanto, lai iegūtu asociācijas starp vārdiem dokumentu komplektā, ir latentā semantiskā analīze.
Tas palīdz mums izvēlēties pareizos dokumentus. Tās galvenā funkcija ir samazināt milzīgā teksta datu korpusa dimensiju.
Šie nevajadzīgie dati kalpo kā fona troksnis, lai no datiem iegūtu nepieciešamo ieskatu.
Varbūtiskā latentā semantiskā analīze (pLSA)
Varbūtības latentā semantiskā analīze (PLSA), kas dažkārt pazīstama kā varbūtiskā latentā semantiskā indeksēšana (PLSI, īpaši informācijas izguves aprindās), ir statistiska pieeja divu režīmu un vienlaicīgu notikumu datu analīzei.
Faktiski, līdzīgi kā latentā semantiskā analīze, no kuras radās PLSA, novēroto mainīgo lielumu zemas dimensijas attēlojumu var iegūt, ņemot vērā to afinitāti pret konkrētiem slēptiem mainīgajiem.
Praktiska tēmas modelēšana programmā Python
Tagad es jūs iepazīstināšu ar priekšmetu modelēšanas uzdevumu, izmantojot Python programmēšanas valoda izmantojot reālu piemēru.
Es modelēšu pētnieciskos rakstus. Datu kopa, ko izmantošu šeit, nāk no kaggle.com. Šeit varat viegli iegūt visus šajā darbā izmantotos failus lappuse.
Sāksim ar tēmu modelēšanu, izmantojot Python, importējot visas svarīgākās bibliotēkas:
Tālāk ir jālasa visas datu kopas, kuras izmantošu šajā uzdevumā:
Izpētes datu analīze
EDA (Exploratory Data Analysis) ir statistikas metode, kurā tiek izmantoti vizuālie elementi. Tajā tiek izmantoti statistikas kopsavilkumi un grafiskie attēlojumi, lai atklātu tendences, modeļus un pārbaudītu pieņēmumus.
Pirms tēmas modelēšanas sākšanas es veikšu pētniecisku datu analīzi, lai noskaidrotu, vai datos ir kādi modeļi vai attiecības:
Tagad mēs atradīsim testa datu kopas nulles vērtības:
Tagad es uzzīmēšu histogrammu un boxplot, lai pārbaudītu attiecības starp mainīgajiem.
Vilciena kopsavilkumu komplektā esošo rakstzīmju skaits ir ļoti atšķirīgs.
Vilcienā mums ir vismaz 54 un ne vairāk kā 4551 rakstzīmes. 1065 ir vidējais rakstzīmju skaits.
Izskatās, ka testa komplekts ir interesantāks par treniņu komplektu, jo testa komplektā ir 46 rakstzīmes, savukārt apmācības komplektā ir 2841 rakstzīmes.
Rezultātā testa komplektam bija vidēji 1058 rakstzīmes, kas ir līdzīgs apmācības komplektam.
Vārdu skaits mācību komplektā atbilst burtu skaitam līdzīgam modelim.
Ir atļauti vismaz 8 vārdi un ne vairāk kā 665 vārdi. Rezultātā vidējais vārdu skaits ir 153.
Nepieciešami vismaz septiņi vārdi abstraktā un ne vairāk kā 452 vārdi testa komplektā.
Mediāna šajā gadījumā ir 153, kas ir identiska mediānai apmācības komplektā.
Tagu izmantošana tēmas modelēšanai
Ir vairākas tēmu modelēšanas stratēģijas. Šajā uzdevumā es izmantošu tagus; apskatīsim, kā to izdarīt, pārbaudot tagus:
Tēmu modelēšanas pielietojumi
- Teksta kopsavilkumu var izmantot, lai izšķirtu dokumenta vai grāmatas tēmu.
- To var izmantot, lai noņemtu kandidātu aizspriedumus no eksāmenu vērtēšanas.
- Tēmu modelēšanu var izmantot, lai veidotu semantiskās attiecības starp vārdiem uz grafiku balstītos modeļos.
- Tas var uzlabot klientu apkalpošanu, atklājot un reaģējot uz atslēgvārdiem klienta pieprasījumā. Klienti vairāk ticēs jums, jo jūs viņiem būsiet sniedzis nepieciešamo palīdzību atbilstošā brīdī un nesagādājot viņiem nekādas problēmas. Tā rezultātā dramatiski palielinās klientu lojalitāte un palielinās uzņēmuma vērtība.
Secinājumi
Tēmu modelēšana ir sava veida statistiskā modelēšana, ko izmanto, lai atklātu abstraktus “priekšmetus”, kas pastāv tekstu kolekcijā.
Tā ir izmantotā statistikas modeļa forma mašīna mācīšanās un dabiskās valodas apstrāde, lai atklātu abstraktus jēdzienus, kas pastāv tekstu kopā.
Tā ir teksta ieguves metode, ko plaši izmanto, lai pamattekstā atrastu latentus semantiskos modeļus.
Atstāj atbildi