Tartalomjegyzék[Elrejt][Előadás]
A vállalkozások 2021-re elsajátítják a fogyasztói interakciós adatok beszerzését.
Az ezekre az adatpontokra való túlzott támaszkodás viszont gyakran oda vezet, hogy a szervezetek statisztikaként kezelik az ügyfelek bemeneti adatait – ez egy meglehetősen egydimenziós megközelítés az ügyfél hangjának meghallgatásához.
Az ügyfél hangja nem jelvényezhető vagy nem konvertálható számmá.
El kell olvasni, tömöríteni és mindenekelőtt megérteni.
A tény az, hogy a vállalatoknak aktívan meg kell hallgatniuk fogyasztóik mondanivalóját minden csatornán, amelyen keresztül kapcsolatba lépnek velük, legyen szó telefonhívásokról, e-mailekről vagy élő csevegésről.
Minden vállalatnak prioritásként kell kezelnie a fogyasztói visszajelzések nyomon követését és értékelését, de a vállalatok hagyományosan küzdöttek ezen adatok kezelésével és értelmes intelligenciává történő átalakításával.
A hangulatelemzés esetében ez már nem így van.
Ebben az oktatóanyagban közelebbről megvizsgáljuk a hangulatelemzést, annak előnyeit és a NLTK könyvtár az adatok hangulatelemzésére.
Mi az a hangulatelemzés?
A hangulatelemzés, amelyet gyakran beszélgetésbányászásnak is neveznek, egy módszer az emberek érzéseinek, gondolatainak és nézeteinek elemzésére.
A hangulatelemzés lehetővé teszi a vállalkozások számára, hogy jobban megértsék fogyasztóikat, növeljék bevételeiket, valamint javítsák termékeiket és szolgáltatásaikat az ügyfelek által megadott adatok alapján.
A különbség a vásárlói hangulat elemzésére képes szoftverrendszer és az azt lekövetkeztető értékesítő/ügyfélszolgálati képviselő között abban rejlik, hogy az előbbi puszta képessége objektív eredményeket tud levonni a nyers szövegből – ez elsősorban természetes nyelvi feldolgozás (NLP) és természetes nyelvi feldolgozáson keresztül valósul meg. gépi tanulás technikákat.
Az érzelmek azonosításától a szöveges kategorizálásig a hangulatelemzésnek széles körű alkalmazásai vannak. Szöveges adatokon alapuló hangulatelemzést alkalmazunk, hogy segítsünk a cégeknek nyomon követni a termékértékelések vagy a fogyasztói visszajelzések hangulatát.
Különböző közösségi oldalak arra használják, hogy felmérjék a posztok hangulatát, és ha az érzelem túl erős vagy erőszakos, vagy a küszöbérték alá esik, a bejegyzést vagy törli, vagy elrejti.
A hangulatelemzés az érzelem azonosítástól a szöveges kategorizálásig mindenre használható.
A véleményelemzés legelterjedtebb alkalmazása a szöveges adatokon, ahol a termékértékelések vagy fogyasztói észrevételek hangulatának nyomon követésében segíti a vállalatot.
A különböző közösségi oldalak a posztok hangulatának felmérésére is használják, és ha az érzelem túl erős vagy erőszakos, vagy a küszöbérték alá esik, törlik vagy elrejtik a bejegyzést.
A hangulatelemzés előnyei
Az alábbiakban felsoroljuk a hangulatelemzés legfontosabb előnyeit, amelyeket nem szabad figyelmen kívül hagyni.
- Segítség a márka megítélésében a megcélzott demográfiai csoportok körében.
- Közvetlen ügyfél-visszajelzést adunk, amely segít Önnek a termék fejlesztésében.
- Növeli az árbevételt és a potenciális ügyfeleket.
- A termék bajnokai számára megnövekedtek az eladási lehetőségek.
- A proaktív ügyfélszolgálat praktikus lehetőség.
A számok olyan információkkal szolgálhatnak, mint a marketingkampány nyers teljesítménye, a potenciális hívások bevonásának mértéke és az ügyfélszolgálatnál függőben lévő jegyek száma.
Azonban nem árulja el, miért történt egy adott esemény, vagy mi okozta azt. Az olyan analitikai eszközök, mint a Google és a Facebook, segíthetnek például marketingtevékenységei teljesítményének felmérésében.
De nem adnak mélyreható ismereteket arról, hogy az adott kampány miért volt sikeres.
A hangulatelemzés ebben a tekintetben megváltoztathatja a játékot.
Érzelemelemzés – Problémanyilatkozat
A cél annak megállapítása, hogy egy tweet pozitív, negatív vagy semleges érzelmeket hordoz-e hat amerikai légitársasággal kapcsolatban a tweetek alapján.
Ez egy szabványos felügyelt tanulási feladat, amelyben egy szöveges karakterláncot előre meghatározott kategóriákba kell kategorizálnunk egy szöveges karakterlánc alapján.
Megoldás
A probléma megoldásához a szabványos gépi tanulási folyamatot fogjuk használni. Kezdjük a szükséges könyvtárak és adatkészletek importálásával.
Ezután feltáró adatelemzést végzünk annak megállapítására, hogy vannak-e minták az adatokban. Ezt követően szöveges előfeldolgozást végzünk, hogy a szöveges bemeneti numerikus adatokat a gépi tanulás rendszer tudja használni.
Végül gépi tanulási módszerekkel képezzük és értékeljük a hangulatelemzési modelljeinket.
1. Könyvtárak importálása
Töltse be a szükséges könyvtárakat.
2. Adatkészlet importálása
Ez a cikk egy olyan adatkészleten fog alapulni, amely megtalálható a következő helyen GitHub. Az adatkészlet importálása a Pandas Read CSV funkciójával történik, az alábbiak szerint:
A head() függvény segítségével vizsgálja meg az adatkészlet első öt sorát:
output:
3. Az adatok elemzése
Vizsgáljuk meg az adatokat, hogy megállapítsuk, vannak-e trendek. Először azonban módosítjuk az alapértelmezett diagramméretet, hogy jobban láthatóak legyenek a diagramok.
Kezdjük az egyes légitársaságok által érkezett tweetek számával. Ehhez egy kördiagramot használunk:
Az egyes légitársaságok nyilvános tweetjeinek százalékos aránya megjelenik a kimenetben.
Nézzük meg, hogyan oszlanak meg az érzések az összes tweetben.
output:
Vizsgáljuk meg most az egyes légitársaságok hangulateloszlását.
Az eredmények szerint szinte minden légitársaságnál a tweetek nagy része kedvezőtlen, és semleges és jó tweetek következnek. A Virgin America talán az egyetlen légitársaság, ahol a három érzés aránya összehasonlítható.
output:
Végül a Seaborn könyvtárat használjuk, hogy megkapjuk a tweetek átlagos megbízhatósági szintjét három érzelmi kategóriából.
output:
Az eredmény azt mutatja, hogy a negatív tweetek megbízhatósági szintje nagyobb, mint a pozitív vagy semleges tweetek esetében.
4. Az adatok tisztítása
Sok szleng kifejezés és írásjel található a tweetekben. Mielőtt betaníthatnánk a gépi tanulási modellt, meg kell tisztítanunk a tweetjeinket.
Mielőtt azonban elkezdenénk tisztítani a tweeteket, szét kell választani az adatkészletünket jellemző- és címkekészletekre.
Megtisztíthatjuk az adatokat, miután funkciókra és képzési készletekre bontottuk őket. Ehhez reguláris kifejezéseket kell használni.
5. Szöveg numerikus ábrázolása
A gépi tanulási modellek képzéséhez a statisztikai algoritmusok matematikát alkalmaznak. A matematika viszont kizárólag számokkal működik.
Először számokká kell alakítanunk a szöveget, hogy a statisztikai algoritmusok kezelni tudják. Ennek három alapvető módja van: Bag of Words, TF-IDF és Word2Vec.
Szerencsére a Python Scikit-Learn moduljában található TfidfVectorizer osztály használható szöveges jellemzők TF-IDF jellemzővektorokká történő átalakítására.
6. Adatvezérelt képzési és tesztkészletek készítése
Végül az algoritmusaink betanítása előtt fel kell osztanunk adatainkat betanító és tesztelő halmazokra.
A betanító készletet az algoritmus betanításához, a tesztkészletet pedig a gépi tanulási modell teljesítményének értékeléséhez használják majd.
7. Modellfejlesztés
Az adatok betanítási és tesztkészletekre történő szétválasztása után gépi tanulási technikák segítségével tanulnak a betanítási adatokból.
Bármilyen gépi tanulási algoritmust használhat. A Random Forest megközelítést azonban alkalmazni fogják, mivel képes megbirkózni a nem normalizált adatokkal.
8. Előrejelzések és modellértékelés
A modell betanítása után az utolsó szakasz az előrejelzések elkészítése. Ehhez alkalmaznunk kell a predikciós metódust az általunk betanított RandomForestClassifier osztályobjektumra.
Végül az olyan osztályozási mérőszámok, mint a zavart mérőszámok, az F1 mérőszámok, a pontosság és így tovább, felhasználhatók a gépi tanulási modellek teljesítményének értékelésére.
output:
Az algoritmusunk az eredmények alapján 75.30-as pontosságot ért el.
Következtetés
A hangulatelemzés az egyik leggyakoribb NLP-munka, mivel segít azonosítani az általános közvéleményt egy adott kérdésben.
Láttuk, hogyan segíthet több Python-könyvtár a hangulatelemzésben.
Hat amerikai légitársasággal kapcsolatos nyilvános tweeteket vizsgáltunk, és nagyjából 75%-os pontosságot értünk el.
Azt javaslom, hogy próbáljon ki egy másik gépi tanulási algoritmust, például a logisztikus regressziót, az SVM-et vagy a KNN-t, hátha jobb eredményeket ér el.
Hagy egy Válaszol