NLP sentiment analüüs Pythoni abil

Sisukord[Peida][Näita]

Mis on sentimentianalüüs?
Tundeanalüüsi eelised
Sentimendi analüüs – probleemiavaldus+-
Järeldus

Ettevõtted on omandanud tarbijate suhtlusandmete hankimise 2021. aastaks.

Liigne nendele andmepunktidele tuginemine aga viib sageli selleni, et organisatsioonid käsitlevad kliendi sisendit statistikana – see on üsna ühemõõtmeline lähenemine kliendi hääle kuulamisele.

Kliendi häält ei saa märgistada ega numbriks teisendada.

Seda tuleb lugeda, kokku võtta ja ennekõike mõista.

Fakt on see, et ettevõtted peavad aktiivselt kuulama, mida nende tarbijatel on öelda igal kanalil, mille kaudu nad nendega suhtlevad, olgu selleks siis telefonikõnede, e-kirjade või reaalajas vestluse kaudu.

Iga ettevõte peaks seadma prioriteediks tarbijate tagasiside tunde jälgimise ja hindamise, kuid ettevõtted on traditsiooniliselt näinud vaeva, et neid andmeid käsitleda ja muuta need sisukaks luureandmeteks.

Sentiment Analüüsi puhul see enam nii ei ole.

Selles õpetuses vaatleme lähemalt sentimentanalüüsi, selle eeliseid ja selle kasutamist. NLTK raamatukogu andmete tundeanalüüsi tegemiseks.

Mis on sentimentianalüüs?

Tundeanalüüs, mida sageli nimetatakse vestluse kaevandamiseks, on meetod inimeste tunnete, mõtete ja vaadete analüüsimiseks.

Sentiment analüüs võimaldab ettevõtetel paremini mõista oma tarbijaid, suurendada tulusid ning täiustada oma tooteid ja teenuseid kliendi sisendi põhjal.

Erinevus kliendi sentimenti analüüsida suutelise tarkvarasüsteemi ja seda järeldada püüdva müüja/klienditeenindaja vahel on esimese ainuüksi võime tuletada toortekstist objektiivseid tulemusi – see saavutatakse peamiselt loomuliku keele töötlemise (NLP) ja masinõpe tehnikaid.

Alates emotsioonide tuvastamisest kuni teksti kategoriseerimiseni on sentimentianalüüsil lai valik rakendusi. Kasutame tekstiandmete põhjal sentimentianalüüsi, et aidata ettevõttel jälgida toodete hinnanguid või tarbijate tagasisidet.

Erinevad sotsiaalmeedia saidid kasutavad seda postituste sentimentide hindamiseks ja kui emotsioon on liiga tugev või vägivaldne või jääb alla nende läve, siis postitus kas kustutatakse või peidetakse.

Tundeanalüüsi saab kasutada kõigeks alates emotsioonide tuvastamisest kuni teksti kategoriseerimiseni.

Kõige populaarsem sentimentanalüüsi kasutusala on tekstiandmetel, kus seda kasutatakse ettevõtte abistamiseks tootehinnangute või tarbijate kommentaaride sentimentide jälgimisel.

Erinevad sotsiaalmeedia saidid kasutavad seda ka postituste sentimentide hindamiseks ning kui emotsioon on liiga tugev või vägivaldne või jääb alla nende läve, kustutavad nad postituse või varjavad selle.

Tundeanalüüsi eelised

Järgnevalt on toodud mõned sentimentanalüüsi olulisemad eelised, mida ei tohiks tähelepanuta jätta.

Aidake hinnata teie brändi tajumist teie sihtdemograafilise teabe hulgas.
Saadakse otsene kliendi tagasiside, mis aitab teil oma toodet arendada.
Suurendab müügitulu ja potentsiaali.
Teie toote tšempionide edasimüügivõimalused on suurenenud.
Proaktiivne klienditeenindus on praktiline võimalus.

Numbrid võivad anda teile teavet, nagu turunduskampaania töötlemata toimivus, potentsiaalsete kõnede seotuse arv ja klienditoes ootel olevate piletite arv.

Kuid see ei ütle teile, miks konkreetne sündmus toimus või mis selle põhjustas. Näiteks analüüsitööriistad, nagu Google ja Facebook, võivad aidata teil hinnata turundustegevuse tulemuslikkust.

Kuid need ei anna teile põhjalikku teavet selle kohta, miks see konkreetne kampaania oli edukas.

Sentiment Analysis võib selles osas mängu muuta.

Sentimendi analüüs – probleemiavaldus

Eesmärk on säutsude põhjal kindlaks teha, kas säuts on kuue USA lennufirma suhtes positiivse, negatiivse või neutraalse emotsiooniga.

See on standardne juhendatud õppetöö, mille puhul peame tekstistringi alusel kategoriseerima tekstistringi etteantud kategooriatesse.

Lahendus

Selle probleemi lahendamiseks kasutame standardset masinõppeprotsessi. Alustame vajalike teekide ja andmekogumite importimisega.

Seejärel teostame uurimusliku andmeanalüüsi, et teha kindlaks, kas andmetes on mustreid. Seejärel teostame teksti eeltöötluse, et muuta tekstisisend numbrilised andmed, mis a masinõpe süsteem saab kasutada.

Lõpuks koolitame ja hindame masinõppe meetodeid kasutades oma sentimentaalanalüüsi mudeleid.

1. Teekide importimine

Laadige vajalikud teegid.

Raamatukogude importimine

2. Andmestiku importimine

See artikkel põhineb andmestikul, mille leiate aadressilt Github. Andmekogum imporditakse Pandase CSV lugemise funktsiooni abil, nagu on näha allpool.

Andmestiku importimine

Funktsiooni head() abil uurige andmestiku viit esimest rida:

Pea andmekogum

Väljund:

Pea andmestiku väljund

3. Andmete analüüs

Uurime andmeid, et teha kindlaks, kas on mingeid suundumusi. Kuid kõigepealt muudame diagrammide nähtavamaks muutmiseks graafiku vaikesuurust.

Krundi suuruse reguleerimine

Alustame iga lennufirma poolt saadud säutsude arvuga. Selleks kasutame sektordiagrammi:

sektordiagramm

Väljundis kuvatakse iga lennufirma avalike säutsude protsent.

Sektordiagrammi väljund

Vaatame, kuidas tunded jaotuvad kõigis säutsudes.

Semantiline sektordiagramm

Väljund:

Semantilise sektordiagrammi väljund

Uurime nüüd iga konkreetse lennufirma arvamuste jaotust.

Tulemuste kohaselt on enamik peaaegu kõigi lennufirmade säutsudest ebasoodsad, järgneb neutraalsed ja head säutsud. Virgin America on ehk ainus lennufirma, kus kolme tunde osakaal on võrreldav.

Iga lennufirma jaotus

Väljund:

Iga lennufirma väljundi jaotus

Lõpuks kasutame Seaborni raamatukogu, et saada kolmest meeleolukategooriast pärit säutsude keskmine usaldustase.

Baari krunt

Väljund:

Bar Plot Output

Tulemus näitab, et negatiivsete säutsude usaldustase on suurem kui positiivsete või neutraalsete säutsude puhul.

4. Andmete puhastamine

Tweetidest võib leida palju slängitermineid ja kirjavahemärke. Enne masinõppe mudeli väljaõpetamist peame oma säutsud puhastama.

Enne säutsude puhastamise alustamist peaksime aga eraldama oma andmestiku funktsioonide ja siltide komplektideks.

Omadused ja sildid

Saame andmed puhastada, kui oleme need funktsioonideks ja treeningkomplektideks eraldanud. Selleks kasutatakse regulaaravaldisi.

Regular Expression

5. Teksti numbriline esitus

Masinõppemudelite koolitamiseks kasutavad statistilised algoritmid matemaatikat. Matemaatika seevastu töötab ainult numbritega.

Esmalt peame teisendama teksti numbriteks, et statistilised algoritmid sellega hakkama saaksid. Selleks on kolm peamist viisi: Bag of Words, TF-IDF ja Word2Vec.

Õnneks saab Pythoni Scikit-Learni mooduli klassi TfidfVectorizer kasutada tekstifunktsioonide teisendamiseks TF-IDF funktsioonivektoriteks.

TF IDF

6. Andmepõhiste koolitus- ja testikomplektide loomine

Lõpuks peame enne algoritmide treenimist jagama oma andmed koolitus- ja testimiskomplektideks.

Treeningkomplekti kasutatakse algoritmi treenimiseks ja testide komplekti masinõppemudeli toimivuse hindamiseks.

Rongi test

7. Mudeli väljatöötamine

Pärast andmete eraldamist koolitus- ja testikomplektideks kasutatakse koolitusandmetest õppimiseks masinõppe tehnikaid.

Võite kasutada mis tahes masinõppe algoritmi. Juhusliku metsa lähenemisviisi kasutatakse siiski, kuna see suudab toime tulla normaliseerimata andmetega.

Mudelikoolitus

8. Ennustused ja mudeli hindamine

Pärast mudeli väljaõpetamist on viimane etapp ennustuste tegemine. Selleks peame rakendama ennustamismeetodit RandomForestClassifier klassi objektile, mida koolitasime.

Mudeli ennustamine

Lõpuks saab masinõppemudelite toimivuse hindamiseks kasutada klassifitseerimismeetmeid, nagu segaduse mõõdikud, F1 mõõdud, täpsus ja nii edasi.

Klassifitseerimise mõõdikud

Väljund:

Klassifitseerimise mõõdikute väljund

Nagu tulemused näitavad, saavutas meie algoritm täpsuse 75.30.

Järeldus

Tundeanalüüs on üks kõige sagedasemaid NLP-töid, kuna see aitab tuvastada üldist avalikku arvamust konkreetses küsimuses.

Nägime, kuidas mitmed Pythoni raamatukogud saavad sentimentide analüüsimisel abiks olla.

Viisime läbi kuue USA lennufirma kohta avaldatud avalike säutsude uuringu ja saavutasime ligikaudu 75% täpsuse.

Soovitan teil proovida mõnda muud masinõppe algoritmi, näiteks logistilist regressiooni, SVM-i või KNN-i, et näha, kas saate paremaid tulemusi saavutada.

NLP sentiment analüüs Pythoni abil

Mis on sentimentianalüüs?

Tundeanalüüsi eelised