NLP-sentimenttianalyysi Pythonilla

Sisällysluettelo[Piilottaa][Näytä]

Mitä on tunneanalyysi?
Tunneanalyysin edut
Tunneanalyysi – Ongelmanlausunto+-
Yhteenveto

Yritykset hallitsevat kuluttajavuorovaikutustietojen hankinnan vuoteen 2021 mennessä.

Toisaalta liiallinen luottaminen näihin tietopisteisiin johtaa usein siihen, että organisaatiot käsittelevät asiakkaiden syötteitä tilastona – melko yksiulotteisena lähestymistapana asiakkaan äänen kuuntelemiseen.

Asiakkaan ääntä ei voi merkitä tai muuntaa numeroksi.

Se on luettava, tiivistettävä ja ennen kaikkea ymmärrettävä.

Tosiasia on, että yritysten on aktiivisesti kuunneltava, mitä heidän kuluttajillaan on sanottavaa kaikilla kanavilla, joiden kautta he ovat vuorovaikutuksessa heidän kanssaan, olipa kyse sitten puheluista, sähköpostista tai live-chatista.

Jokaisen yrityksen tulisi asettaa etusijalle kuluttajien palautteen seuranta ja arviointi, mutta yrityksillä on perinteisesti ollut vaikeuksia käsitellä tätä dataa ja muuttaa se mielekkääksi älykkyydeksi.

Näin ei enää ole tunneanalyysin kanssa.

Tässä opetusohjelmassa tarkastellaan lähemmin tunneanalyysiä, sen etuja ja NLTK kirjasto tehdä tunneanalyysin tiedoista.

Mitä on tunneanalyysi?

Tunneanalyysi, jota usein kutsutaan keskustelun louhinnaksi, on menetelmä ihmisten tunteiden, ajatusten ja näkemysten analysoimiseksi.

Sentimenttianalyysin avulla yritykset voivat saada paremman ymmärryksen kuluttajistaan, kasvattaa tulojaan ja parantaa tuotteitaan ja palveluitaan asiakkaiden panoksen perusteella.

Asiakkaan mielipiteitä analysoimaan kykenevän ohjelmistojärjestelmän ja sitä päättelevän myyjän/asiakaspalvelun edustajan välinen ero on pelkkä kyky saada objektiivisia tuloksia raakatekstistä – tämä saavutetaan ensisijaisesti luonnollisen kielen käsittelyn (NLP) avulla. koneoppiminen tekniikat.

Tunteiden tunnistamisesta tekstin luokitteluun tunneanalyysillä on laaja valikoima sovelluksia. Käytämme tekstitietoihin perustuvaa mielipideanalyysiä auttamaan yritystä seuraamaan tuotearvioiden tai kuluttajien palautteen mielipiteitä.

Eri sosiaalisen median sivustot käyttävät sitä arvioidakseen julkaisujen tunnelmaa, ja jos tunne on liian voimakas tai väkivaltainen tai jää alle kynnyksen, viesti joko poistetaan tai piilotetaan.

Tunneanalyysiä voidaan käyttää kaikkeen tunteiden tunnistamisesta tekstin luokitteluun.

Suosituin mielipideanalyysin käyttötapa on tekstidata, jossa sitä käytetään auttamaan yritystä seuraamaan tuotearvioiden tai kuluttajien kommentteja.

Eri sosiaalisen median sivustot käyttävät sitä myös julkaisujen tunteen arvioimiseen, ja jos tunne on liian voimakas tai väkivaltainen tai alittaa kynnyksen, ne poistavat tai piilottavat julkaisun.

Tunneanalyysin edut

Seuraavassa on joitain tunneanalyysin tärkeimmistä eduista, joita ei pidä jättää huomiotta.

Auta arvioimaan brändisi käsitystä kohderyhmässäsi.
Saat suoraa asiakaspalautetta, joka auttaa sinua kehittämään tuotettasi.
Kasvata myyntituloja ja potentiaalia.
Tuotteesi mestareiden lisämyyntimahdollisuudet ovat lisääntyneet.
Ennakoiva asiakaspalvelu on käytännöllinen vaihtoehto.

Numerot voivat tarjota sinulle tietoja, kuten markkinointikampanjan raa'an suorituskyvyn, potentiaalisen puhelun sitoutumisen ja asiakastuen odottavien lippujen määrän.

Se ei kuitenkaan kerro, miksi tietty tapahtuma tapahtui tai mikä sen aiheutti. Analyysityökalut, kuten Google ja Facebook, voivat esimerkiksi auttaa sinua arvioimaan markkinointitoimisi tehokkuutta.

Mutta ne eivät anna sinulle syvällistä tietoa siitä, miksi kyseinen kampanja onnistui.

Sentimenttianalyysillä on potentiaalia muuttaa peliä tässä suhteessa.

Tunneanalyysi – Ongelmanlausunto

Tavoitteena on määrittää twiittien perusteella, onko twiitillä myönteisiä, negatiivisia vai neutraaleja tunteita kuuteen yhdysvaltalaiseen lentoyhtiöön.

Tämä on tavallinen ohjattu oppimistyö, jossa meidän on luokiteltava tekstimerkkijono ennalta määrättyihin luokkiin tekstijonon perusteella.

Ratkaisu

Käytämme tavallista koneoppimisprosessia tämän ongelman ratkaisemiseksi. Aloitamme tuomalla tarvittavat kirjastot ja tietojoukot.

Suoritamme sitten tutkimustietoanalyysin määrittääksemme, onko tiedoissa kaavoja. Tämän jälkeen suoritamme tekstin esikäsittelyn kääntääksemme tekstisyötteen numeeriset tiedot, jotka a koneoppiminen järjestelmä voi käyttää.

Lopuksi koulutamme ja arvioimme tunneanalyysimallejamme koneoppimismenetelmillä.

1. Kirjastojen tuominen

Lataa tarvittavat kirjastot.

Kirjastojen tuominen

2. Tuo tietojoukko

Tämä artikkeli perustuu tietojoukkoon, joka löytyy osoitteesta Github. Tietojoukko tuodaan Pandasin luku-CSV-toiminnolla, kuten alla näkyy:

Tuodaan tietojoukkoa

Tutki tietojoukon viisi ensimmäistä riviä head()-funktiolla:

Pään tietojoukko

lähtö:

Pään tietojoukon lähtö

3. Tietojen analyysi

Tutkikaamme tietoja selvittääksemme, onko trendejä olemassa. Mutta ensin muutamme oletuskuvan kokoa, jotta kaaviot näkyvät paremmin.

Tontin koon säätäminen

Aloitetaan kunkin lentoyhtiön vastaanottamien twiittien määrästä. Käytämme tähän ympyräkaaviota:

Ympyrädiagrammi

Kunkin lentoyhtiön julkisten twiittien prosenttiosuus näkyy tulosteessa.

Ympyräkaavion tulos

Katsotaanpa, kuinka tunteet jakautuvat kaikissa twiiteissä.

Semanttinen ympyräkaavio

lähtö:

Semanttisen ympyräkaavion tulos

Tarkastellaan nyt kunkin lentoyhtiön mielialan jakautumista.

Tulosten mukaan suurin osa lähes kaikkien lentoyhtiöiden twiiteistä on epäsuotuisia, ja niitä seuraa neutraaleja ja hyviä twiittejä. Virgin America on kenties ainoa lentoyhtiö, jossa näiden kolmen tunteen osuus on vertailukelpoinen.

Jokaisen lentoyhtiön jakelu

lähtö:

Jokaisen lentoyhtiön tuotoksen jakelu

Lopuksi käytämme Seaborn-kirjastoa saadaksemme keskimääräisen luottamustason tweeteille kolmesta tunneluokasta.

Baarin tontti

lähtö:

Bar Plot Output

Tulos osoittaa, että negatiivisten twiittien luottamustaso on suurempi kuin positiivisten tai neutraalien twiittien.

4. Tietojen puhdistaminen

Twiiteistä löytyy monia slangitermejä ja välimerkkejä. Ennen kuin voimme kouluttaa koneoppimismallia, meidän on puhdistettava twiittimme.

Ennen kuin aloitamme tweettien puhdistamisen, meidän tulee kuitenkin jakaa tietojoukkomme ominaisuus- ja etikettijoukkoon.

Ominaisuudet ja tarrat

Voimme puhdistaa tiedot, kun olemme jakaneet ne ominaisuuksiin ja harjoitussarjoihin. Tätä varten käytetään säännöllisiä lausekkeita.

Säännöllinen lauseke

5. Tekstin numeerinen esitys

Koneoppimismallien kouluttamiseen tilastolliset algoritmit käyttävät matematiikkaa. Matematiikka sen sijaan toimii vain numeroiden kanssa.

Meidän on ensin muutettava teksti numeroiksi, jotta tilastolliset algoritmit voivat käsitellä sitä. On olemassa kolme perustapaa tehdä tämä: Bag of Words, TF-IDF ja Word2Vec.

Onneksi Pythonin Scikit-Learn-moduulin TfidfVectorizer-luokkaa voidaan käyttää tekstin ominaisuuksien muuntamiseen TF-IDF-ominaisuusvektoreiksi.

TF IDF

6. Tietoihin perustuvien koulutus- ja testisarjojen luominen

Lopuksi meidän on jaettava tietomme koulutus- ja testaussarjoihin ennen kuin harjoitamme algoritmejamme.

Harjoitussarjalla opetetaan algoritmia ja testisarjan avulla arvioidaan koneoppimismallin suorituskykyä.

Junatesti

7. Mallin kehittäminen

Kun tiedot on erotettu koulutus- ja testisarjoiksi, harjoitustiedoista oppimiseen käytetään koneoppimistekniikoita.

Voit käyttää mitä tahansa koneoppimisalgoritmia. Random Forest -lähestymistapaa käytetään kuitenkin, koska se pystyy käsittelemään normalisoimattomia tietoja.

Malliharjoittelu

8. Ennusteet ja mallin arviointi

Kun malli on koulutettu, viimeinen vaihe on ennusteiden tekeminen. Tätä varten meidän on sovellettava ennustamismenetelmää kouluttamamme RandomForestClassifier-luokan objektiin.

Mallin ennustus

Lopuksi luokittelumittareita, kuten hämmennysmittareita, F1-mittauksia, tarkkuus ja niin edelleen, voidaan käyttää arvioimaan koneoppimismallien suorituskykyä.

Luokittelumetriikka

lähtö:

Luokittelumetriikan tulos

Algoritmimme saavutti tarkkuuden 75.30, kuten tulokset osoittavat.

Yhteenveto

Tunneanalyysi on yksi yleisimmistä NLP-tehtävistä, koska se auttaa tunnistamaan yleisen mielipiteen tietystä aiheesta.

Näimme kuinka useat Python-kirjastot voivat auttaa tunteiden analysoinnissa.

Teimme tutkimuksen kuuden yhdysvaltalaisen lentoyhtiön julkisista twiiteistä ja saavutimme noin 75 prosentin tarkkuuden.

Suosittelen, että kokeilet toista koneoppimisalgoritmia, kuten logistista regressiota, SVM:ää tai KNN:tä, nähdäksesi, voitko saavuttaa parempia tuloksia.

NLP-sentimenttianalyysi Pythonilla

Mitä on tunneanalyysi?

Tunneanalyysin edut