Sisukord[Peida][Näita]
Olen kindel, et olete kuulnud tehisintellektist, aga ka sellistest sõnadest nagu masinõpe ja loomuliku keele töötlemine (NLP).
Eriti kui töötate ettevõttes, mis käsitleb iga päev sadu, kui mitte tuhandeid kliendikontakte.
Sotsiaalmeedia postituste, meilide, vestluste, avatud küsitluste vastuste ja muude allikate andmete analüüs ei ole lihtne protsess ja muutub veelgi keerulisemaks, kui see usaldatakse ainult inimestele.
Seetõttu on paljud inimesed selle potentsiaalist entusiastlikud tehisintellekti oma igapäevase töö ja ettevõtete jaoks .
Tehisintellektil põhinev tekstianalüüs kasutab keele orgaaniliseks tõlgendamiseks laia valikut lähenemisviise või algoritme, millest üks on teemaanalüüs, mida kasutatakse tekstidest subjektide automaatseks avastamiseks.
Ettevõtted saavad kasutada teemaanalüüsi mudeleid lihtsate tööde masinatele ülekandmiseks, selle asemel, et töötajaid liigsete andmetega üle koormata.
Mõelge, kui palju aega teie meeskond võiks säästa ja pühendada olulisematele töödele, kui arvuti suudaks igal hommikul filtreerida läbi lõputute kliendiküsitluste või tugiprobleemide loendite.
Selles juhendis käsitleme teemade modelleerimist, erinevaid teemade modelleerimise meetodeid ja saame sellega praktilisi kogemusi.
Mis on teema modelleerimine?
Teema modelleerimine on teatud tüüpi tekstikaeve, mille puhul järelevalveta ja järelevalvega statistilised andmed masinõpe tehnikaid kasutatakse suundumuste tuvastamiseks korpuses või olulises mahus struktureerimata tekstis.
See võib võtta teie tohutu dokumentide kogu ja kasutada sarnasusmeetodit, et korraldada sõnad terminirühmadesse ja avastada teemasid.
See tundub veidi keeruline ja raske, nii et lihtsustame teema modelleerimise protseduuri!
Oletame, et loed ajalehte, käes värviliste esiletõstjate komplekt.
Kas see pole vanamoodne?
Ma mõistan, et tänapäeval loevad vähesed inimesed trükis ajalehti; kõik on digitaalne ja highlighterid on minevik! Teeskle, et oled oma isa või ema!
Seega tõstad ajalehte lugedes esile olulised terminid.
Veel üks oletus!
Kasutate erinevate teemade märksõnade rõhutamiseks erinevat tooni. Märksõnad kategoriseerite sõltuvalt pakutavast värvist ja teemadest.
Iga teatud värviga tähistatud sõnade kogum on antud teema märksõnade loend. Valitud värvide arv näitab teemade arvu.
See on kõige põhilisem teema modelleerimine. See aitab mõista, organiseerida ja teha kokkuvõtteid suurtest tekstikogudest.
Kuid pidage meeles, et automaatsete teemamudelite tõhusus nõuab palju sisu. Kui teil on lühike paber, võiksite minna vana kooli ja kasutada highlightereid!
Samuti on kasulik kulutada veidi aega andmete tundmaõppimisele. See annab teile põhilise ettekujutuse sellest, mida teemamudel peaks leidma.
Näiteks võib see päevik olla teie praeguste ja eelmiste suhete kohta. Seega eeldan, et mu tekstikaevandamise robot-sõber tuleb sarnaste ideedega.
See aitab teil tuvastatud teemade kvaliteeti paremini analüüsida ja vajadusel märksõnakomplekte kohandada.
Teema modelleerimise komponendid
Tõenäosuslik mudel
Juhuslikud muutujad ja tõenäosusjaotused on kaasatud sündmuse või nähtuse esitusse tõenäosusmudelites.
Deterministlik mudel annab sündmuse jaoks ühe potentsiaalse järelduse, tõenäosuslik mudel aga tõenäosusjaotuse lahendusena.
Need mudelid arvestavad reaalsusega, et meil on harva olukorrast täielikud teadmised. Peaaegu alati tuleb arvestada juhuslikkuse elemendiga.
Näiteks elukindlustus põhineb reaalsusel, et me teame, et sureme, kuid me ei tea, millal. Need mudelid võivad olla osaliselt deterministlikud, osaliselt juhuslikud või täiesti juhuslikud.
Infootsing
Teabeotsing (IR) on tarkvaraprogramm, mis korraldab, salvestab, otsib ja hindab teavet dokumendihoidlatest, eriti tekstilist teavet.
Tehnoloogia aitab kasutajatel leida vajalikku teavet, kuid see ei anna selgelt vastuseid nende päringutele. See annab teada paberite olemasolust ja asukohast, mis võivad vajalikku teavet anda.
Asjakohased dokumendid on need, mis vastavad kasutaja vajadustele. Veatu IR-süsteem tagastab ainult valitud dokumendid.
Teema sidusus
Teema sidusus hindab üht teemat, arvutades teema kõrgete punktidega terminite semantilise sarnasuse astme. Need mõõdikud aitavad eristada teemasid, mis on semantiliselt tõlgendatavad, ja teemasid, mis on statistiliste järelduste artefaktid.
Kui väidete või faktide rühm toetab üksteist, siis öeldakse, et need on sidusad.
Selle tulemusena saab sidusat faktide kogumit mõista kontekstis, mis hõlmab kõiki või enamikku fakte. "Mäng on meeskonnasport", "mängitakse palliga" ja "mäng nõuab tohutut füüsilist pingutust" on kõik näited ühtsetest faktide kogumist.
Teema modelleerimise erinevad meetodid
Seda kriitilist protseduuri saab läbi viia mitmesuguste algoritmide või metoodikate abil. Nende hulgas on:
- Varjatud Dirichleti eraldamine (LDA)
- Mittenegatiivse maatriksi faktoriseerimine (NMF)
- Latentne semantiline analüüs (LSA)
- Tõenäosuslik latentne semantiline analüüs (pLSA)
Latentne Dirichleti eraldamine (LDA)
Korpuse mitme teksti vaheliste seoste tuvastamiseks kasutatakse latentse Dirichleti eraldamise statistilist ja graafilist kontseptsiooni.
Variatsioonilise erandi maksimeerimise (VEM) lähenemisviisi kasutades saavutatakse kogu tekstikorpuse suurim tõenäosushinnang.
Traditsiooniliselt valitakse sõnakotist paar parimat sõna.
Lause on aga täiesti mõttetu.
Selle tehnika kohaselt esitatakse iga tekst teemade tõenäosusjaotusega ja iga teema sõnade tõenäosusjaotus.
Mittenegatiivse maatriksi faktoriseerimine (NMF)
Mittenegatiivsete väärtustega maatriks Faktoriseerimine on tipptasemel funktsioonide eraldamise lähenemisviis.
Kui omadusi on palju ja atribuudid on ebamäärased või halvasti ennustatav, on NMF kasulik. NMF võib omadusi kombineerides luua olulisi mustreid, objekte või teemasid.
NMF genereerib iga funktsiooni algse atribuudikomplekti lineaarse kombinatsioonina.
Iga tunnus sisaldab koefitsientide komplekti, mis tähistavad iga tunnuse olulisust. Igal numbrilisel atribuudil ja iga kategooriaatribuudi igal väärtusel on oma koefitsient.
Kõik koefitsiendid on positiivsed.
Latentne semantiline analüüs
See on veel üks järelevalveta õppemeetod, mida kasutatakse sõnade vaheliste seoste eraldamiseks dokumendikomplektist, on latentne semantiline analüüs.
See aitab meil valida õiged dokumendid. Selle peamine ülesanne on vähendada tohutu tekstiandmete korpuse mõõtmeid.
Need mittevajalikud andmed toimivad taustamürana andmetest vajaliku ülevaate hankimisel.
Tõenäosuslik latentne semantiline analüüs (pLSA)
Tõenäoline latentne semantiline analüüs (PLSA), mida mõnikord tuntakse ka tõenäosusliku latentse semantilise indekseerimisena (PLSI, eriti teabeotsingu ringkondades), on statistiline lähenemisviis kahe režiimi ja samaaegse esinemise andmete analüüsimiseks.
Tegelikult, sarnaselt latentse semantilise analüüsiga, millest PLSA tekkis, saab vaadeldavate muutujate madala mõõtmega esituse tuletada nende afiinsuse osas teatud peidetud muutujate suhtes.
Praktiline teemade modelleerimine Pythonis
Nüüd juhendan teid Pythoniga õppeaine modelleerimise ülesandes programmeerimiskeel reaalse maailma näitel.
Ma modelleerin uurimisartikleid. Andmekogum, mida ma siin kasutan, pärineb saidilt kaggle.com. Siit saate hõlpsalt hankida kõik failid, mida ma selles töös kasutan lehekülg.
Alustame teemade modelleerimisega Pythoni abil, importides kõik olulised teegid:
Järgmine samm on kõigi selles ülesandes kasutatavate andmekogumite lugemine.
Uurimisandmete analüüs
EDA (Exploratory Data Analysis) on statistiline meetod, mis kasutab visuaalseid elemente. See kasutab statistilisi kokkuvõtteid ja graafilisi esitusi, et avastada suundumusi, mustreid ja testieeldusi.
Enne teemade modelleerimise alustamist teen uurimusliku andmeanalüüsi, et näha, kas andmetes on mustreid või seoseid:
Nüüd leiame testandmestiku nullväärtused:
Nüüd joonistan muutujate vahelise seose kontrollimiseks histogrammi ja boxploti.
Tähemärkide arv komplektis "Rongi kokkuvõtted" on väga erinev.
Rongis on meil minimaalselt 54 ja maksimaalselt 4551 tähemärki. 1065 on keskmine tähemärkide arv.
Testikomplekt näib olevat huvitavam kui treeningkomplekt, kuna testikomplektis on 46 tähemärki, treeningkomplektis aga 2841 märki.
Selle tulemusena oli testikomplekti mediaan 1058 tähemärki, mis on sarnane koolituskomplektiga.
Sõnade arv õppekomplektis järgib tähtede arvuga sarnast mustrit.
Lubatud on minimaalselt 8 ja maksimaalselt 665 sõna. Selle tulemusena on keskmine sõnade arv 153.
Referaadis on nõutav vähemalt seitse sõna ja testikomplektis maksimaalselt 452 sõna.
Mediaan on antud juhul 153, mis on identne koolituskomplekti mediaaniga.
Teemade modelleerimiseks siltide kasutamine
Teemade modelleerimise strateegiaid on mitu. Kasutan selles harjutuses silte; vaatame, kuidas seda teha, uurides silte:
Teema modelleerimise rakendused
- Teksti kokkuvõtet saab kasutada dokumendi või raamatu teema eristamiseks.
- Seda saab kasutada kandidaatide eelarvamuste eemaldamiseks eksamite hindamisel.
- Teema modelleerimist võib kasutada semantiliste suhete loomiseks sõnade vahel graafipõhistes mudelites.
- See võib parandada klienditeenindust, tuvastades kliendi päringu märksõnad ja vastates neile. Kliendid usaldavad teid rohkem, kuna olete neile sobival hetkel ja ilma tüli tekitamata osutanud neile vajalikku abi. Selle tulemusena tõuseb järsult klientide lojaalsus ja ettevõtte väärtus.
Järeldus
Teemade modelleerimine on omamoodi statistiline modelleerimine, mida kasutatakse tekstikogus esinevate abstraktsete “subjektide” paljastamiseks.
See on statistilise mudeli vorm, mida kasutatakse masinõpe ja loomuliku keele töötlemine, et paljastada abstraktsed mõisted, mis eksisteerivad tekstikogumis.
See on teksti kaevandamise meetod, mida kasutatakse laialdaselt varjatud semantiliste mustrite leidmiseks põhitekstist.
Jäta vastus