NLP analiza raspoloženja koristeći Python

Sadržaj[Sakrij][Prikaži]

Šta je analiza osjećaja?
Prednosti analize sentimenta
Analiza osjećaja – Izjava o problemu+-
zaključak

Preduzeća će savladati prikupljanje podataka o interakciji potrošača do 2021.

Preterano oslanjanje na ove tačke podataka, s druge strane, često dovodi do toga da organizacije tretiraju unos korisnika kao statistiku – prilično jednodimenzionalan pristup slušanju glasa korisnika.

Glas kupca se ne može označiti ili pretvoriti u broj.

Mora se pročitati, sažeti i, prije svega, razumjeti.

Činjenica je da kompanije moraju aktivno slušati šta njihovi potrošači imaju da kažu na svakom kanalu preko kojeg komuniciraju s njima, bilo da se radi o telefonskim pozivima, imejlovima ili live chatu.

Svaka kompanija bi trebala dati prioritet praćenju i procjeni mišljenja potrošača, ali kompanije su se tradicionalno borile da obrađuju ove podatke i transformišu ih u smislenu inteligenciju.

Ovo više nije slučaj sa analizom osjećaja.

U ovom vodiču ćemo detaljnije pogledati analizu sentimenta, njene prednosti i kako koristiti NLTK biblioteku za analizu osjećaja podataka.

Šta je analiza osjećaja?

Analiza osjećaja, često poznata kao istraživanje razgovora, metoda je za analizu osjećaja, misli i stavova ljudi.

Analiza sentimenta omogućava preduzećima da bolje razumiju svoje potrošače, povećaju prihod i poboljšaju svoje proizvode i usluge na osnovu inputa klijenata.

Razlika između softverskog sistema koji je sposoban da analizira raspoloženje kupaca i predstavnika prodavača/korisničke službe koji pokušava da to zaključi je čista sposobnost prvog da izvuče objektivne rezultate iz sirovog teksta — to se prvenstveno postiže obradom prirodnog jezika (NLP) i mašinsko učenje tehnike.

Od identifikacije emocija do kategorizacije teksta, analiza osjećaja ima širok spektar primjena. Koristimo analizu sentimenta na tekstualnim podacima kako bismo pomogli firmi da prati sentiment ocjenjivanja proizvoda ili povratnih informacija potrošača.

Različite stranice društvenih medija ga koriste za procjenu sentimenta objava, a ako je emocija prejaka ili nasilna, ili padne ispod njihovog praga, objava se ili briše ili skriva.

Analiza osjećaja se može koristiti za sve, od identifikacije emocija do kategorizacije teksta.

Najpopularnija upotreba analize sentimenta je na tekstualnim podacima, gdje se koristi da pomogne kompaniji u praćenju sentimenta ocjenjivanja proizvoda ili komentara potrošača.

Različite stranice društvenih medija ga također koriste za procjenu sentimenta objava, a ako je emocija prejaka ili nasilna, ili padne ispod njihovog praga, objavu brišu ili sakrivaju.

Prednosti analize sentimenta

U nastavku su neke od najvažnijih prednosti analize sentimenta koje ne treba zanemariti.

Pomoć u procjeni percepcije vašeg brenda među vašim ciljanim demografskim kategorijama.
Direktne povratne informacije klijenata pružaju se kako bi vam pomogli u razvoju vašeg proizvoda.
Povećava prihod od prodaje i traženje potencijalnih kupaca.
Povećale su se mogućnosti dodatne prodaje za šampione vašeg proizvoda.
Proaktivna služba za korisnike je praktična opcija.

Brojevi vam mogu pružiti informacije kao što su sirovi učinak marketinške kampanje, količina angažmana u pozivu za traženje i broj tiketa na čekanju u korisničkoj podršci.

Međutim, neće vam reći zašto se određeni događaj dogodio ili šta ga je uzrokovalo. Alati za analitiku kao što su Google i Facebook, na primjer, mogu vam pomoći da procijenite učinak vaših marketinških napora.

Ali oni vam ne pružaju dubinsko znanje o tome zašto je ta konkretna kampanja bila uspješna.

Analiza osjećaja ima potencijal da promijeni igru u ovom pogledu.

Analiza osjećaja – Izjava o problemu

Cilj je utvrditi da li tvit ima povoljne, negativne ili neutralne emocije u vezi sa šest američkih avio kompanija na osnovu tvitova.

Ovo je standardni posao učenja pod nadzorom u kojem moramo kategorizirati tekstualni niz u unaprijed određene kategorije date tekstualni niz.

rastvor

Za rješavanje ovog problema koristit ćemo standardni proces mašinskog učenja. Počećemo sa uvozom potrebnih biblioteka i skupova podataka.

Zatim ćemo izvršiti neke istraživačke analize podataka kako bismo utvrdili postoje li obrasci u podacima. Nakon toga, mi ćemo preduzeti prethodnu obradu teksta da pretvorimo tekstualne unosne numeričke podatke koje a mašinsko učenje sistem može koristiti.

Konačno, mi ćemo obučiti i procijeniti naše modele analize osjećaja koristeći metode mašinskog učenja.

1. Uvoz biblioteka

Učitajte potrebne biblioteke.

Uvoz biblioteka

2. Uvezite skup podataka

Ovaj članak će se temeljiti na skupu podataka koji se može pronaći GitHub. Skup podataka će biti uvezen korištenjem Pandasove CSV funkcije čitanja, kao što se vidi u nastavku:

Uvoz skupa podataka

Koristeći head() funkciju, ispitajte prvih pet redova skupa podataka:

Head Dataset

Izlaz:

Izlaz skupa podataka glave

3. Analiza podataka

Hajde da ispitamo podatke da utvrdimo da li postoje trendovi. Ali prvo ćemo promijeniti zadanu veličinu grafikona kako bismo grafikone učinili vidljivijim.

Podešavanje veličine parcele

Počnimo s brojem tvitova koje je primila svaka aviokompanija. Za ovo ćemo koristiti kružni grafikon:

Pie Chart

Procenat javnih tvitova za svaku avio-kompaniju je prikazan u izlazu.

Izlaz tortnog grafikona

Hajde da pogledamo kako su osećanja raspoređena na sve tvitove.

Semantički tortni grafikon

Izlaz:

Izlaz semantičkog tortnog grafikona

Hajde da sada ispitamo distribuciju sentimenta za svaku konkretnu avio-kompaniju.

Prema rezultatima, većina tvitova za skoro sve avio-kompanije je nepovoljna, a slijede neutralni i dobri tvitovi. Virgin America je možda jedina aviokompanija u kojoj je omjer tri osjećaja uporediv.

Distribucija svake avio kompanije

Izlaz:

Distribucija svake aviokompanije

Konačno, koristit ćemo Seaborn biblioteku da dobijemo prosječan nivo pouzdanosti za tvitove iz tri kategorije osjećaja.

Bar Plot

Izlaz:

Bar Plot Output

Rezultat pokazuje da je nivo pouzdanosti za negativne tvitove veći nego za pozitivne ili neutralne tvitove.

4. Čišćenje podataka

Mnogi sleng izrazi i znaci interpunkcije mogu se naći u tvitovima. Prije nego što možemo trenirati model strojnog učenja, moramo očistiti naše tweetove.

Međutim, prije nego počnemo čistiti tweetove, trebali bismo odvojiti naš skup podataka na skupove karakteristika i skupove oznaka.

Karakteristike i oznake

Podatke možemo očistiti kada ih razdvojimo na funkcije i skupove za obuku. Za to će se koristiti regularni izrazi.

Redovni izraz

5. Numeričko predstavljanje teksta

Za obuku modela mašinskog učenja, statistički algoritmi koriste matematiku. Matematika, s druge strane, radi isključivo s brojevima.

Prvo moramo pretvoriti tekst u brojeve da bi se statistički algoritmi mogli nositi s njim. Postoje tri osnovna načina za to: Bag of Words, TF-IDF i Word2Vec.

Na sreću, klasa TfidfVectorizer u Pythonovom Scikit-Learn modulu može se koristiti za transformaciju tekstualnih karakteristika u TF-IDF vektore karakteristika.

TF IDF

6. Kreiranje skupova obuke i testova vođenih podacima

Konačno, moramo podijeliti naše podatke u skupove za obuku i testiranje prije nego što obučimo naše algoritme.

Skup za obuku će se koristiti za obuku algoritma, a skup za testiranje će se koristiti za procjenu performansi modela mašinskog učenja.

Train Test

7. Razvoj modela

Nakon što su podaci razdvojeni na skupove za obuku i testove, tehnike mašinskog učenja se koriste za učenje iz podataka obuke.

Možete koristiti bilo koji algoritam mašinskog učenja. Pristup nasumične šume će se, međutim, koristiti zbog svoje sposobnosti da se nosi sa nenormalizovanim podacima.

Model Training

8. Predviđanja i evaluacija modela

Nakon što je model obučen, zadnja faza je predviđanje. Da bismo to uradili, moramo primeniti metod predviđanja na objekat klase RandomForestClassifier koji smo obučili.

Predviđanje modela

Konačno, mjere klasifikacije kao što su metrika konfuzije, F1 mjere, tačnost i tako dalje mogu se koristiti za procjenu performansi modela mašinskog učenja.

metrika klasifikacije

Izlaz:

Izlaz metrike klasifikacije

Naš algoritam je postigao tačnost od 75.30, što se vidi iz rezultata.

zaključak

Analiza osjećaja jedan je od najčešćih NLP poslova jer pomaže u identifikaciji ukupnog javnog mnijenja o određenom pitanju.

Vidjeli smo kako nekoliko Python biblioteka može pomoći u analizi osjećaja.

Proveli smo studiju javnih tvitova o šest američkih avio-kompanija i postigli smo tačnost od otprilike 75%.

Predlažem da isprobate drugi algoritam mašinskog učenja, kao što je logistička regresija, SVM ili KNN, da vidite možete li postići bolje rezultate.

NLP analiza sentimenta koristeći Python

Šta je analiza osjećaja?

Prednosti analize sentimenta