Sisukord[Peida][Näita]
Ettevõtted on omandanud tarbijate suhtlusandmete hankimise 2021. aastaks.
Liigne nendele andmepunktidele tuginemine aga viib sageli selleni, et organisatsioonid käsitlevad kliendi sisendit statistikana – see on üsna ühemõõtmeline lähenemine kliendi hääle kuulamisele.
Kliendi häält ei saa märgistada ega numbriks teisendada.
Seda tuleb lugeda, kokku võtta ja ennekõike mõista.
Fakt on see, et ettevõtted peavad aktiivselt kuulama, mida nende tarbijatel on öelda igal kanalil, mille kaudu nad nendega suhtlevad, olgu selleks siis telefonikõnede, e-kirjade või reaalajas vestluse kaudu.
Iga ettevõte peaks seadma prioriteediks tarbijate tagasiside tunde jälgimise ja hindamise, kuid ettevõtted on traditsiooniliselt näinud vaeva, et neid andmeid käsitleda ja muuta need sisukaks luureandmeteks.
Sentiment Analüüsi puhul see enam nii ei ole.
Selles õpetuses vaatleme lähemalt sentimentanalüüsi, selle eeliseid ja selle kasutamist. NLTK raamatukogu andmete tundeanalüüsi tegemiseks.
Mis on sentimentianalüüs?
Tundeanalüüs, mida sageli nimetatakse vestluse kaevandamiseks, on meetod inimeste tunnete, mõtete ja vaadete analüüsimiseks.
Sentiment analüüs võimaldab ettevõtetel paremini mõista oma tarbijaid, suurendada tulusid ning täiustada oma tooteid ja teenuseid kliendi sisendi põhjal.
Erinevus kliendi sentimenti analüüsida suutelise tarkvarasüsteemi ja seda järeldada püüdva müüja/klienditeenindaja vahel on esimese ainuüksi võime tuletada toortekstist objektiivseid tulemusi – see saavutatakse peamiselt loomuliku keele töötlemise (NLP) ja masinõpe tehnikaid.
Alates emotsioonide tuvastamisest kuni teksti kategoriseerimiseni on sentimentianalüüsil lai valik rakendusi. Kasutame tekstiandmete põhjal sentimentianalüüsi, et aidata ettevõttel jälgida toodete hinnanguid või tarbijate tagasisidet.
Erinevad sotsiaalmeedia saidid kasutavad seda postituste sentimentide hindamiseks ja kui emotsioon on liiga tugev või vägivaldne või jääb alla nende läve, siis postitus kas kustutatakse või peidetakse.
Tundeanalüüsi saab kasutada kõigeks alates emotsioonide tuvastamisest kuni teksti kategoriseerimiseni.
Kõige populaarsem sentimentanalüüsi kasutusala on tekstiandmetel, kus seda kasutatakse ettevõtte abistamiseks tootehinnangute või tarbijate kommentaaride sentimentide jälgimisel.
Erinevad sotsiaalmeedia saidid kasutavad seda ka postituste sentimentide hindamiseks ning kui emotsioon on liiga tugev või vägivaldne või jääb alla nende läve, kustutavad nad postituse või varjavad selle.
Tundeanalüüsi eelised
Järgnevalt on toodud mõned sentimentanalüüsi olulisemad eelised, mida ei tohiks tähelepanuta jätta.
- Aidake hinnata teie brändi tajumist teie sihtdemograafilise teabe hulgas.
- Saadakse otsene kliendi tagasiside, mis aitab teil oma toodet arendada.
- Suurendab müügitulu ja potentsiaali.
- Teie toote tšempionide edasimüügivõimalused on suurenenud.
- Proaktiivne klienditeenindus on praktiline võimalus.
Numbrid võivad anda teile teavet, nagu turunduskampaania töötlemata toimivus, potentsiaalsete kõnede seotuse arv ja klienditoes ootel olevate piletite arv.
Kuid see ei ütle teile, miks konkreetne sündmus toimus või mis selle põhjustas. Näiteks analüüsitööriistad, nagu Google ja Facebook, võivad aidata teil hinnata turundustegevuse tulemuslikkust.
Kuid need ei anna teile põhjalikku teavet selle kohta, miks see konkreetne kampaania oli edukas.
Sentiment Analysis võib selles osas mängu muuta.
Sentimendi analüüs – probleemiavaldus
Eesmärk on säutsude põhjal kindlaks teha, kas säuts on kuue USA lennufirma suhtes positiivse, negatiivse või neutraalse emotsiooniga.
See on standardne juhendatud õppetöö, mille puhul peame tekstistringi alusel kategoriseerima tekstistringi etteantud kategooriatesse.
Lahendus
Selle probleemi lahendamiseks kasutame standardset masinõppeprotsessi. Alustame vajalike teekide ja andmekogumite importimisega.
Seejärel teostame uurimusliku andmeanalüüsi, et teha kindlaks, kas andmetes on mustreid. Seejärel teostame teksti eeltöötluse, et muuta tekstisisend numbrilised andmed, mis a masinõpe süsteem saab kasutada.
Lõpuks koolitame ja hindame masinõppe meetodeid kasutades oma sentimentaalanalüüsi mudeleid.
1. Teekide importimine
Laadige vajalikud teegid.
2. Andmestiku importimine
See artikkel põhineb andmestikul, mille leiate aadressilt Github. Andmekogum imporditakse Pandase CSV lugemise funktsiooni abil, nagu on näha allpool.
Funktsiooni head() abil uurige andmestiku viit esimest rida:
Väljund:
3. Andmete analüüs
Uurime andmeid, et teha kindlaks, kas on mingeid suundumusi. Kuid kõigepealt muudame diagrammide nähtavamaks muutmiseks graafiku vaikesuurust.
Alustame iga lennufirma poolt saadud säutsude arvuga. Selleks kasutame sektordiagrammi:
Väljundis kuvatakse iga lennufirma avalike säutsude protsent.
Vaatame, kuidas tunded jaotuvad kõigis säutsudes.
Väljund:
Uurime nüüd iga konkreetse lennufirma arvamuste jaotust.
Tulemuste kohaselt on enamik peaaegu kõigi lennufirmade säutsudest ebasoodsad, järgneb neutraalsed ja head säutsud. Virgin America on ehk ainus lennufirma, kus kolme tunde osakaal on võrreldav.
Väljund:
Lõpuks kasutame Seaborni raamatukogu, et saada kolmest meeleolukategooriast pärit säutsude keskmine usaldustase.
Väljund:
Tulemus näitab, et negatiivsete säutsude usaldustase on suurem kui positiivsete või neutraalsete säutsude puhul.
4. Andmete puhastamine
Tweetidest võib leida palju slängitermineid ja kirjavahemärke. Enne masinõppe mudeli väljaõpetamist peame oma säutsud puhastama.
Enne säutsude puhastamise alustamist peaksime aga eraldama oma andmestiku funktsioonide ja siltide komplektideks.
Saame andmed puhastada, kui oleme need funktsioonideks ja treeningkomplektideks eraldanud. Selleks kasutatakse regulaaravaldisi.
5. Teksti numbriline esitus
Masinõppemudelite koolitamiseks kasutavad statistilised algoritmid matemaatikat. Matemaatika seevastu töötab ainult numbritega.
Esmalt peame teisendama teksti numbriteks, et statistilised algoritmid sellega hakkama saaksid. Selleks on kolm peamist viisi: Bag of Words, TF-IDF ja Word2Vec.
Õnneks saab Pythoni Scikit-Learni mooduli klassi TfidfVectorizer kasutada tekstifunktsioonide teisendamiseks TF-IDF funktsioonivektoriteks.
6. Andmepõhiste koolitus- ja testikomplektide loomine
Lõpuks peame enne algoritmide treenimist jagama oma andmed koolitus- ja testimiskomplektideks.
Treeningkomplekti kasutatakse algoritmi treenimiseks ja testide komplekti masinõppemudeli toimivuse hindamiseks.
7. Mudeli väljatöötamine
Pärast andmete eraldamist koolitus- ja testikomplektideks kasutatakse koolitusandmetest õppimiseks masinõppe tehnikaid.
Võite kasutada mis tahes masinõppe algoritmi. Juhusliku metsa lähenemisviisi kasutatakse siiski, kuna see suudab toime tulla normaliseerimata andmetega.
8. Ennustused ja mudeli hindamine
Pärast mudeli väljaõpetamist on viimane etapp ennustuste tegemine. Selleks peame rakendama ennustamismeetodit RandomForestClassifier klassi objektile, mida koolitasime.
Lõpuks saab masinõppemudelite toimivuse hindamiseks kasutada klassifitseerimismeetmeid, nagu segaduse mõõdikud, F1 mõõdud, täpsus ja nii edasi.
Väljund:
Nagu tulemused näitavad, saavutas meie algoritm täpsuse 75.30.
Järeldus
Tundeanalüüs on üks kõige sagedasemaid NLP-töid, kuna see aitab tuvastada üldist avalikku arvamust konkreetses küsimuses.
Nägime, kuidas mitmed Pythoni raamatukogud saavad sentimentide analüüsimisel abiks olla.
Viisime läbi kuue USA lennufirma kohta avaldatud avalike säutsude uuringu ja saavutasime ligikaudu 75% täpsuse.
Soovitan teil proovida mõnda muud masinõppe algoritmi, näiteks logistilist regressiooni, SVM-i või KNN-i, et näha, kas saate paremaid tulemusi saavutada.
Jäta vastus