NLP analiza razpoloženja z uporabo Pythona

Kazalo[Skrij][Pokaži]

Kaj je analiza razpoloženja?
Prednosti analize razpoloženja
Analiza razpoloženja – navedba problema+-
zaključek

Podjetja bodo do leta 2021 obvladala pridobivanje podatkov o interakciji s potrošniki.

Po drugi strani pa preveliko zanašanje na te podatkovne točke pogosto vodi do tega, da organizacije obravnavajo vnos strank kot statistiko – precej enodimenzionalen pristop k poslušanju glasu stranke.

Strankinega glasu ni mogoče označiti ali pretvoriti v številko.

Treba ga je prebrati, strniti, predvsem pa razumeti.

Dejstvo je, da morajo podjetja aktivno poslušati, kaj imajo povedati njihovi potrošniki na vsakem kanalu, prek katerega komunicirajo z njimi, pa naj gre za telefonske klice, e-pošto ali klepet v živo.

Vsako podjetje bi moralo dati prednost spremljanju in ocenjevanju povratnih informacij potrošnikov, vendar se podjetja tradicionalno trudijo ravnati s temi podatki in jih preoblikovati v smiselne informacije.

To ne velja več za analizo razpoloženja.

V tej vadnici si bomo podrobneje ogledali analizo razpoloženja, njene prednosti in kako uporabljati NLTK knjižnica za analizo razpoloženja podatkov.

Kaj je analiza razpoloženja?

Analiza razpoloženja, pogosto znana kot rudarjenje pogovorov, je metoda za analizo čustev, misli in pogledov ljudi.

Analiza razpoloženja omogoča podjetjem, da bolje razumejo svoje potrošnike, povečajo prihodke in izboljšajo svoje izdelke in storitve na podlagi vnosa strank.

Razlika med programskim sistemom, ki je sposoben analizirati razpoloženje strank, in prodajalcem/predstavnikom službe za stranke, ki to poskuša izpeljati, je čista sposobnost prvega, da pridobi objektivne rezultate iz neobdelanega besedila – to se doseže predvsem z obdelavo naravnega jezika (NLP) in strojno učenje tehnike.

Od identifikacije čustev do kategorizacije besedila ima analiza razpoloženja široko paleto aplikacij. Uporabljamo analizo razpoloženja na besedilnih podatkih, da podjetju pomagamo spremljati razpoloženje ocen izdelkov ali povratnih informacij potrošnikov.

Različna spletna mesta družbenih medijev ga uporabljajo za oceno občutka objav in če so čustva premočna ali nasilna ali padejo pod njihov prag, se objava izbriše ali skrije.

Analizo razpoloženja je mogoče uporabiti za vse, od identifikacije čustev do kategorizacije besedila.

Najbolj priljubljena uporaba analize razpoloženja je na besedilnih podatkih, kjer se uporablja za pomoč podjetju pri sledenju razpoloženja ocen izdelkov ali komentarjev potrošnikov.

Različna spletna mesta družbenih medijev ga uporabljajo tudi za oceno sentimenta objav in če so čustva premočna ali nasilna ali padejo pod njihov prag, objavo izbrišejo ali skrijejo.

Prednosti analize razpoloženja

Sledi nekaj najpomembnejših prednosti analize razpoloženja, ki jih ne smete zanemariti.

Pomoč pri ocenjevanju dojemanja vaše blagovne znamke med ciljno demografsko skupino.
Zagotovljene so neposredne povratne informacije strank, ki vam bodo pomagale pri razvoju vašega izdelka.
Poveča prihodke od prodaje in iskanje.
Povečale so se priložnosti za dražjo prodajo za prvake vašega izdelka.
Proaktivna podpora strankam je praktična možnost.

Številke vam lahko zagotovijo informacije, kot je neobdelana uspešnost trženjske akcije, obseg sodelovanja pri iskalnem klicu in število vstopnic, ki čakajo na podporo strankam.

Vendar vam ne bo povedal, zakaj se je določen dogodek zgodil ali kaj ga je povzročilo. Orodja za analizo, kot sta Google in Facebook, vam lahko na primer pomagajo oceniti uspešnost vaših marketinških prizadevanj.

Vendar vam ne zagotovijo poglobljenega znanja o tem, zakaj je bila določena kampanja uspešna.

Analiza razpoloženja lahko v tem pogledu spremeni igro.

Analiza razpoloženja – navedba problema

Cilj je na podlagi tvitov ugotoviti, ali ima tvit ugodna, negativna ali nevtralna čustva glede šestih ameriških letalskih družb.

To je standardna nadzorovana učna naloga, pri kateri moramo besedilni niz kategorizirati v vnaprej določene kategorije glede na besedilni niz.

Rešitev

Za rešitev te težave bomo uporabili standardni postopek strojnega učenja. Začeli bomo z uvozom potrebnih knjižnic in naborov podatkov.

Nato bomo izvedli raziskovalno analizo podatkov, da ugotovimo, ali so v podatkih kakršni koli vzorci. Po tem se bomo lotili predobdelave besedila, da pretvorimo besedilne vhodne številske podatke, ki a strojno učenje sistem lahko uporablja.

Na koncu bomo usposobili in ovrednotili naše modele analize razpoloženja z metodami strojnega učenja.

1. Uvažanje knjižnic

Naložite potrebne knjižnice.

Uvoz knjižnic

2. Uvozi nabor podatkov

Ta članek bo temeljil na naboru podatkov, ki ga lahko najdete na GitHub. Nabor podatkov bo uvožen s Pandasovo funkcijo branja CSV, kot je prikazano spodaj:

Uvoz niza podatkov

S funkcijo head() preglejte prvih pet vrstic nabora podatkov:

Nabor podatkov o glavi

izhod:

Izhod nabora podatkov o glavi

3. Analiza podatkov

Preglejmo podatke, da ugotovimo, ali obstajajo kakšni trendi. Najprej pa bomo spremenili privzeto velikost risbe, da bodo grafikoni bolj vidni.

Prilagoditev velikosti parcele

Začnimo s številom tvitov, ki jih je prejela posamezna letalska družba. Za to bomo uporabili tortni grafikon:

Krožni diagram

V izpisu je prikazan odstotek javnih tvitov za vsako letalsko družbo.

Izhod tortnega grafikona

Poglejmo, kako so občutki porazdeljeni po vseh tvitih.

Semantični tortni grafikon

izhod:

Izhod semantičnega tortnega grafikona

Poglejmo zdaj porazdelitev razpoloženja za vsako posamezno letalsko družbo.

Glede na rezultate je večina tvitov za skoraj vse letalske družbe neugodnih, sledijo pa nevtralni in dobri tviti. Virgin America je morda edina letalska družba, kjer je delež treh občutkov primerljiv.

Distribucija vsake letalske družbe

izhod:

Porazdelitev proizvodnje vsake letalske družbe

Nazadnje bomo uporabili knjižnico Seaborn, da dobimo povprečno stopnjo zaupanja za tvite iz treh kategorij občutkov.

Bar Plot

izhod:

Izhod vrstične risbe

Rezultat kaže, da je stopnja zaupanja za negativne tvite večja kot za pozitivne ali nevtralne tvite.

4. Čiščenje podatkov

V tvitih je mogoče najti veliko slengovskih izrazov in ločil. Preden lahko usposobimo model strojnega učenja, moramo očistiti svoje tvite.

Preden pa začnemo čistiti tvite, moramo naš nabor podatkov ločiti na nabore funkcij in oznak.

Lastnosti in oznake

Podatke lahko očistimo, ko jih ločimo na funkcije in nabore za usposabljanje. Za to bodo uporabljeni regularni izrazi.

Redna Izražanje

5. Numerična predstavitev besedila

Za usposabljanje modelov strojnega učenja statistični algoritmi uporabljajo matematiko. Po drugi strani pa matematika deluje izključno s številkami.

Besedilo moramo najprej preoblikovati v številke, da se bodo lahko z njim ukvarjali statistični algoritmi. Obstajajo trije osnovni načini za to: Bag of Words, TF-IDF in Word2Vec.

Na srečo je mogoče razred TfidfVectorizer v Pythonovem modulu Scikit-Learn uporabiti za pretvorbo besedilnih funkcij v vektorje funkcij TF-IDF.

TF IDF

6. Ustvarjanje nizov za usposabljanje in teste, ki temeljijo na podatkih

Nazadnje moramo naše podatke razdeliti na nize za usposabljanje in testiranje, preden usposobimo naše algoritme.

Učni niz bo uporabljen za usposabljanje algoritma, testni niz pa bo uporabljen za oceno delovanja modela strojnega učenja.

Test vlaka

7. Razvoj modela

Ko so podatki ločeni na nize za usposabljanje in teste, se tehnike strojnega učenja uporabljajo za učenje iz podatkov za usposabljanje.

Uporabite lahko kateri koli algoritem strojnega učenja. Pristop Random Forest pa bo uporabljen zaradi njegove sposobnosti obvladovanja nenormaliziranih podatkov.

Usposabljanje za modele

8. Napovedi in vrednotenje modela

Ko je model usposobljen, je zadnja faza napovedovanje. Da bi to naredili, moramo metodo napovedi uporabiti za objekt razreda RandomForestClassifier, ki smo ga učili.

Napoved modela

Nazadnje se lahko za ocenjevanje uspešnosti modelov strojnega učenja uporabijo klasifikacijski ukrepi, kot so meritve zmede, F1 ukrepi, natančnost in tako naprej.

Klasifikacijske metrike

izhod:

Izhod metrike klasifikacije

Naš algoritem je dosegel natančnost 75.30, kot je razvidno iz rezultatov.

zaključek

Analiza razpoloženja je eno najpogostejših NLP opravil, saj pomaga prepoznati splošno javno mnenje o določenem vprašanju.

Videli smo, kako lahko več knjižnic Python pomaga pri analizi razpoloženja.

Izvedli smo študijo javnih tvitov o šestih ameriških letalskih prevoznikih in dosegli približno 75-odstotno natančnost.

Predlagam, da preizkusite drug algoritem strojnega učenja, kot je logistična regresija, SVM ali KNN, da vidite, ali lahko dosežete boljše rezultate.

Analiza občutkov NLP z uporabo Pythona

Kaj je analiza razpoloženja?

Prednosti analize razpoloženja