NLP-hangulatelemzés Python használatával

Tartalomjegyzék[Elrejt][Előadás]

Mi az a hangulatelemzés?
A hangulatelemzés előnyei
Érzelemelemzés – Problémanyilatkozat+-
Következtetés

A vállalkozások 2021-re elsajátítják a fogyasztói interakciós adatok beszerzését.

Az ezekre az adatpontokra való túlzott támaszkodás viszont gyakran oda vezet, hogy a szervezetek statisztikaként kezelik az ügyfelek bemeneti adatait – ez egy meglehetősen egydimenziós megközelítés az ügyfél hangjának meghallgatásához.

Az ügyfél hangja nem jelvényezhető vagy nem konvertálható számmá.

El kell olvasni, tömöríteni és mindenekelőtt megérteni.

A tény az, hogy a vállalatoknak aktívan meg kell hallgatniuk fogyasztóik mondanivalóját minden csatornán, amelyen keresztül kapcsolatba lépnek velük, legyen szó telefonhívásokról, e-mailekről vagy élő csevegésről.

Minden vállalatnak prioritásként kell kezelnie a fogyasztói visszajelzések nyomon követését és értékelését, de a vállalatok hagyományosan küzdöttek ezen adatok kezelésével és értelmes intelligenciává történő átalakításával.

A hangulatelemzés esetében ez már nem így van.

Ebben az oktatóanyagban közelebbről megvizsgáljuk a hangulatelemzést, annak előnyeit és a NLTK könyvtár az adatok hangulatelemzésére.

Mi az a hangulatelemzés?

A hangulatelemzés, amelyet gyakran beszélgetésbányászásnak is neveznek, egy módszer az emberek érzéseinek, gondolatainak és nézeteinek elemzésére.

A hangulatelemzés lehetővé teszi a vállalkozások számára, hogy jobban megértsék fogyasztóikat, növeljék bevételeiket, valamint javítsák termékeiket és szolgáltatásaikat az ügyfelek által megadott adatok alapján.

A különbség a vásárlói hangulat elemzésére képes szoftverrendszer és az azt lekövetkeztető értékesítő/ügyfélszolgálati képviselő között abban rejlik, hogy az előbbi puszta képessége objektív eredményeket tud levonni a nyers szövegből – ez elsősorban természetes nyelvi feldolgozás (NLP) és természetes nyelvi feldolgozáson keresztül valósul meg. gépi tanulás technikákat.

Az érzelmek azonosításától a szöveges kategorizálásig a hangulatelemzésnek széles körű alkalmazásai vannak. Szöveges adatokon alapuló hangulatelemzést alkalmazunk, hogy segítsünk a cégeknek nyomon követni a termékértékelések vagy a fogyasztói visszajelzések hangulatát.

Különböző közösségi oldalak arra használják, hogy felmérjék a posztok hangulatát, és ha az érzelem túl erős vagy erőszakos, vagy a küszöbérték alá esik, a bejegyzést vagy törli, vagy elrejti.

A hangulatelemzés az érzelem azonosítástól a szöveges kategorizálásig mindenre használható.

A véleményelemzés legelterjedtebb alkalmazása a szöveges adatokon, ahol a termékértékelések vagy fogyasztói észrevételek hangulatának nyomon követésében segíti a vállalatot.

A különböző közösségi oldalak a posztok hangulatának felmérésére is használják, és ha az érzelem túl erős vagy erőszakos, vagy a küszöbérték alá esik, törlik vagy elrejtik a bejegyzést.

A hangulatelemzés előnyei

Az alábbiakban felsoroljuk a hangulatelemzés legfontosabb előnyeit, amelyeket nem szabad figyelmen kívül hagyni.

Segítség a márka megítélésében a megcélzott demográfiai csoportok körében.
Közvetlen ügyfél-visszajelzést adunk, amely segít Önnek a termék fejlesztésében.
Növeli az árbevételt és a potenciális ügyfeleket.
A termék bajnokai számára megnövekedtek az eladási lehetőségek.
A proaktív ügyfélszolgálat praktikus lehetőség.

A számok olyan információkkal szolgálhatnak, mint a marketingkampány nyers teljesítménye, a potenciális hívások bevonásának mértéke és az ügyfélszolgálatnál függőben lévő jegyek száma.

Azonban nem árulja el, miért történt egy adott esemény, vagy mi okozta azt. Az olyan analitikai eszközök, mint a Google és a Facebook, segíthetnek például marketingtevékenységei teljesítményének felmérésében.

De nem adnak mélyreható ismereteket arról, hogy az adott kampány miért volt sikeres.

A hangulatelemzés ebben a tekintetben megváltoztathatja a játékot.

Érzelemelemzés – Problémanyilatkozat

A cél annak megállapítása, hogy egy tweet pozitív, negatív vagy semleges érzelmeket hordoz-e hat amerikai légitársasággal kapcsolatban a tweetek alapján.

Ez egy szabványos felügyelt tanulási feladat, amelyben egy szöveges karakterláncot előre meghatározott kategóriákba kell kategorizálnunk egy szöveges karakterlánc alapján.

Megoldás

A probléma megoldásához a szabványos gépi tanulási folyamatot fogjuk használni. Kezdjük a szükséges könyvtárak és adatkészletek importálásával.

Ezután feltáró adatelemzést végzünk annak megállapítására, hogy vannak-e minták az adatokban. Ezt követően szöveges előfeldolgozást végzünk, hogy a szöveges bemeneti numerikus adatokat a gépi tanulás rendszer tudja használni.

Végül gépi tanulási módszerekkel képezzük és értékeljük a hangulatelemzési modelljeinket.

1. Könyvtárak importálása

Töltse be a szükséges könyvtárakat.

Könyvtárak importálása

2. Adatkészlet importálása

Ez a cikk egy olyan adatkészleten fog alapulni, amely megtalálható a következő helyen GitHub. Az adatkészlet importálása a Pandas Read CSV funkciójával történik, az alábbiak szerint:

Adatkészlet importálása

A head() függvény segítségével vizsgálja meg az adatkészlet első öt sorát:

Fej adatkészlet

output:

A fejadatkészlet kimenete

3. Az adatok elemzése

Vizsgáljuk meg az adatokat, hogy megállapítsuk, vannak-e trendek. Először azonban módosítjuk az alapértelmezett diagramméretet, hogy jobban láthatóak legyenek a diagramok.

Telek méretének beállítása

Kezdjük az egyes légitársaságok által érkezett tweetek számával. Ehhez egy kördiagramot használunk:

Kördiagram

Az egyes légitársaságok nyilvános tweetjeinek százalékos aránya megjelenik a kimenetben.

Kördiagram kimenet

Nézzük meg, hogyan oszlanak meg az érzések az összes tweetben.

Szemantikus kördiagram

output:

Szemantikus kördiagram kimenet

Vizsgáljuk meg most az egyes légitársaságok hangulateloszlását.

Az eredmények szerint szinte minden légitársaságnál a tweetek nagy része kedvezőtlen, és semleges és jó tweetek következnek. A Virgin America talán az egyetlen légitársaság, ahol a három érzés aránya összehasonlítható.

Az egyes légitársaságok forgalmazása

output:

Az egyes légitársasági kimenetek elosztása

Végül a Seaborn könyvtárat használjuk, hogy megkapjuk a tweetek átlagos megbízhatósági szintjét három érzelmi kategóriából.

Bár telek

output:

Bar Plot Output

Az eredmény azt mutatja, hogy a negatív tweetek megbízhatósági szintje nagyobb, mint a pozitív vagy semleges tweetek esetében.

4. Az adatok tisztítása

Sok szleng kifejezés és írásjel található a tweetekben. Mielőtt betaníthatnánk a gépi tanulási modellt, meg kell tisztítanunk a tweetjeinket.

Mielőtt azonban elkezdenénk tisztítani a tweeteket, szét kell választani az adatkészletünket jellemző- és címkekészletekre.

Jellemzők és címkék

Megtisztíthatjuk az adatokat, miután funkciókra és képzési készletekre bontottuk őket. Ehhez reguláris kifejezéseket kell használni.

Reguláris kifejezés

5. Szöveg numerikus ábrázolása

A gépi tanulási modellek képzéséhez a statisztikai algoritmusok matematikát alkalmaznak. A matematika viszont kizárólag számokkal működik.

Először számokká kell alakítanunk a szöveget, hogy a statisztikai algoritmusok kezelni tudják. Ennek három alapvető módja van: Bag of Words, TF-IDF és Word2Vec.

Szerencsére a Python Scikit-Learn moduljában található TfidfVectorizer osztály használható szöveges jellemzők TF-IDF jellemzővektorokká történő átalakítására.

TF IDF

6. Adatvezérelt képzési és tesztkészletek készítése

Végül az algoritmusaink betanítása előtt fel kell osztanunk adatainkat betanító és tesztelő halmazokra.

A betanító készletet az algoritmus betanításához, a tesztkészletet pedig a gépi tanulási modell teljesítményének értékeléséhez használják majd.

Vonat teszt

7. Modellfejlesztés

Az adatok betanítási és tesztkészletekre történő szétválasztása után gépi tanulási technikák segítségével tanulnak a betanítási adatokból.

Bármilyen gépi tanulási algoritmust használhat. A Random Forest megközelítést azonban alkalmazni fogják, mivel képes megbirkózni a nem normalizált adatokkal.

Modellképzés

8. Előrejelzések és modellértékelés

A modell betanítása után az utolsó szakasz az előrejelzések elkészítése. Ehhez alkalmaznunk kell a predikciós metódust az általunk betanított RandomForestClassifier osztályobjektumra.

Modell előrejelzés

Végül az olyan osztályozási mérőszámok, mint a zavart mérőszámok, az F1 mérőszámok, a pontosság és így tovább, felhasználhatók a gépi tanulási modellek teljesítményének értékelésére.

Osztályozási metrikák

output:

Osztályozási metrikák kimenete

Az algoritmusunk az eredmények alapján 75.30-as pontosságot ért el.

Következtetés

A hangulatelemzés az egyik leggyakoribb NLP-munka, mivel segít azonosítani az általános közvéleményt egy adott kérdésben.

Láttuk, hogyan segíthet több Python-könyvtár a hangulatelemzésben.

Hat amerikai légitársasággal kapcsolatos nyilvános tweeteket vizsgáltunk, és nagyjából 75%-os pontosságot értünk el.

Azt javaslom, hogy próbáljon ki egy másik gépi tanulási algoritmust, például a logisztikus regressziót, az SVM-et vagy a KNN-t, hátha jobb eredményeket ér el.

NLP-hangulatelemzés Python használatával

Mi az a hangulatelemzés?

A hangulatelemzés előnyei