Analýza sentimentu NLP pomocou Pythonu

Obsah[Skryť][Šou]

Čo je analýza sentimentu?
Výhody analýzy sentimentu
Analýza sentimentu – problémové vyhlásenie+-
záver

Podniky si osvoja získavanie údajov o interakcii spotrebiteľov do roku 2021.

Na druhej strane prílišné spoliehanie sa na tieto dátové body často vedie k tomu, že organizácie považujú vstup od zákazníka za štatistiku – ide o pomerne jednorozmerný prístup k počúvaniu hlasu zákazníka.

Hlas zákazníka nie je možné označiť alebo previesť na číslo.

Treba ho prečítať, zhustiť a predovšetkým pochopiť.

Faktom je, že spoločnosti musia aktívne počúvať, čo hovoria ich spotrebitelia na každom kanáli, prostredníctvom ktorého s nimi komunikujú, či už ide o telefonické hovory, e-maily alebo live chat.

Každá spoločnosť by mala uprednostňovať monitorovanie a vyhodnocovanie spätnej väzby od spotrebiteľov, ale spoločnosti sa tradične snažia narábať s týmito údajmi a transformovať ich na zmysluplné informácie.

To už nie je prípad analýzy sentimentu.

V tomto návode sa bližšie pozrieme na analýzu sentimentu, jej výhody a ako ju používať NLTK na analýzu sentimentu údajov.

Čo je analýza sentimentu?

Analýza sentimentu, často známa ako ťažba konverzácií, je metóda na analýzu pocitov, myšlienok a názorov ľudí.

Analýza sentimentu umožňuje podnikom lepšie porozumieť svojim spotrebiteľom, zvýšiť príjmy a zlepšiť svoje produkty a služby na základe podnetov od klientov.

Rozdiel medzi softvérovým systémom schopným analyzovať sentiment zákazníka a predajcom/zástupcom zákazníckeho servisu, ktorý sa ho pokúša odvodiť, je v úplnej schopnosti prvého odvodiť objektívne výsledky z nespracovaného textu – to sa primárne dosahuje prostredníctvom spracovania prirodzeného jazyka (NLP) a strojové učenie techniky.

Od identifikácie emócií až po kategorizáciu textu má analýza sentimentu širokú škálu aplikácií. Používame analýzu sentimentu na textových údajoch, aby sme pomohli firme monitorovať sentiment hodnotenia produktov alebo spätnú väzbu od spotrebiteľov.

Rôzne stránky sociálnych médií ho používajú na posúdenie sentimentu príspevkov, a ak je emócia príliš silná alebo násilná, alebo klesne pod ich prah, príspevok sa buď odstráni, alebo skryje.

Analýza sentimentu sa dá použiť na všetko od identifikácie emócií až po kategorizáciu textu.

Najpopulárnejšie využitie analýzy sentimentu je na textových údajoch, kde sa používa na pomoc spoločnosti pri sledovaní sentimentu hodnotení produktov alebo komentárov spotrebiteľov.

Rôzne stránky sociálnych médií ho tiež používajú na posúdenie sentimentu príspevkov, a ak je emócia príliš silná alebo násilná alebo klesne pod ich prah, príspevok vymažú alebo skryjú.

Výhody analýzy sentimentu

Nasledujú niektoré z najdôležitejších výhod analýzy sentimentu, ktoré by sa nemali ignorovať.

Pomôžte pri hodnotení vnímania vašej značky medzi vašou cieľovou demografickou skupinou.
Poskytuje sa priama spätná väzba od klientov, ktorá vám pomôže pri vývoji vášho produktu.
Zvyšuje tržby z predaja a vyhľadávanie zákazníkov.
Zvýšili sa možnosti ďalšieho predaja pre šampiónov vášho produktu.
Proaktívny zákaznícky servis je praktickou možnosťou.

Čísla vám môžu poskytnúť informácie, ako je surový výkon marketingovej kampane, miera zapojenia sa do hovoru s vyhľadávaním a počet lístkov čakajúcich na zákaznícku podporu.

Nepovie vám však, prečo ku konkrétnej udalosti došlo alebo čo ju spôsobilo. Analytické nástroje, ako napríklad Google a Facebook, vám môžu pomôcť posúdiť výkonnosť vášho marketingového úsilia.

Neposkytujú vám však podrobné informácie o tom, prečo bola konkrétna kampaň úspešná.

Analýza sentimentu má v tomto smere potenciál zmeniť hru.

Analýza sentimentu – problémové vyhlásenie

Cieľom je zistiť, či má tweet na základe tweetov priaznivé, negatívne alebo neutrálne emócie týkajúce sa šiestich amerických leteckých spoločností.

Toto je štandardná riadená vzdelávacia úloha, v ktorej musíme kategorizovať textový reťazec do vopred určených kategórií s daným textovým reťazcom.

Riešenie

Na vyriešenie tohto problému použijeme štandardný proces strojového učenia. Začneme importovaním potrebných knižníc a množín údajov.

Potom vykonáme prieskumnú analýzu údajov, aby sme zistili, či sú v údajoch nejaké vzory. Potom vykonáme predbežné spracovanie textu, aby sme zmenili textové vstupné číselné údaje, ktoré a strojové učenie systém môže použiť.

Nakoniec budeme trénovať a hodnotiť naše modely analýzy sentimentu pomocou metód strojového učenia.

1. Importovanie knižníc

Načítajte potrebné knižnice.

Importovanie knižníc

2. Importovať množinu údajov

Tento článok bude založený na súbore údajov, ktorý možno nájsť na GitHub. Súbor údajov bude importovaný pomocou funkcie čítania CSV Pandas, ako je uvedené nižšie:

Importovanie množiny údajov

Pomocou funkcie head() skontrolujte prvých päť riadkov množiny údajov:

Head Dataset

Výkon:

Výstup súboru údajov hlavy

3. Analýza údajov

Preskúmajme údaje, aby sme zistili, či existujú nejaké trendy. Najprv však zmeníme predvolenú veľkosť grafu, aby boli grafy viditeľnejšie.

Úprava veľkosti pozemku

Začnime s počtom tweetov prijatých každou leteckou spoločnosťou. Použijeme na to koláčový graf:

koláčový graf

Percento verejných tweetov pre každú leteckú spoločnosť sa zobrazí vo výstupe.

Výstup koláčového grafu

Pozrime sa, ako sú pocity rozdelené vo všetkých tweetoch.

Sémantický koláčový graf

Výkon:

Výstup sémantického koláčového grafu

Pozrime sa teraz na rozdelenie sentimentu pre každú konkrétnu leteckú spoločnosť.

Podľa výsledkov je väčšina tweetov pre takmer všetky letecké spoločnosti nepriaznivá, nasledujú neutrálne a dobré tweety. Virgin America je snáď jediná letecká spoločnosť, kde je pomer troch pocitov porovnateľný.

Distribúcia každej leteckej spoločnosti

Výkon:

Distribúcia každého výstupu leteckej spoločnosti

Nakoniec použijeme knižnicu Seaborn na získanie priemernej úrovne spoľahlivosti pre tweety z troch kategórií sentimentu.

Bar Plot

Výkon:

Výstup stĺpcového grafu

Výsledok ukazuje, že úroveň spoľahlivosti pre negatívne tweety je väčšia ako pre pozitívne alebo neutrálne tweety.

4. Čistenie údajov

V tweetoch možno nájsť veľa slangových výrazov a interpunkčných znamienok. Predtým, ako budeme môcť trénovať model strojového učenia, musíme vyčistiť naše tweety.

Predtým, ako začneme čistiť tweety, by sme však mali rozdeliť našu množinu údajov na sady funkcií a štítkov.

Vlastnosti a štítky

Údaje môžeme vyčistiť, keď ich rozdelíme na funkcie a tréningové sady. Na tento účel sa použijú regulárne výrazy.

Regulárnych výrazov

5. Číselné znázornenie textu

Na trénovanie modelov strojového učenia využívajú štatistické algoritmy matematiku. Matematika na druhej strane pracuje výlučne s číslami.

Najprv musíme pretransformovať text na čísla, aby si s ním štatistické algoritmy poradili. Existujú tri základné spôsoby, ako to urobiť: Bag of Words, TF-IDF a Word2Vec.

Našťastie triedu TfidfVectorizer v module Scikit-Learn v Pythone možno použiť na transformáciu textových prvkov na vektory prvkov TF-IDF.

TF IDF

6. Vytváranie dátovo riadených tréningových a testovacích sád

Nakoniec musíme rozdeliť naše údaje do tréningových a testovacích sád pred tréningom našich algoritmov.

Tréningová sada sa použije na trénovanie algoritmu a testovacia sada sa použije na posúdenie výkonnosti modelu strojového učenia.

Test vlaku

7. Vývoj modelu

Po rozdelení údajov do tréningových a testovacích sád sa na učenie z tréningových údajov použijú techniky strojového učenia.

Môžete použiť akýkoľvek algoritmus strojového učenia. Prístup Random Forest sa však použije kvôli jeho schopnosti vyrovnať sa s nenormalizovanými údajmi.

Modelový tréning

8. Predpovede a hodnotenie modelov

Po natrénovaní modelu je poslednou fázou predpovede. Aby sme to dosiahli, musíme použiť metódu predikcie na objekt triedy RandomForestClassifier, ktorý sme natrénovali.

Predikcia modelu

Nakoniec, na vyhodnotenie výkonnosti modelov strojového učenia možno použiť klasifikačné opatrenia, ako sú metriky zmätku, miery F1, presnosť atď.

Klasifikačné metriky

Výkon:

Výstup klasifikačných metrík

Náš algoritmus dosiahol presnosť 75.30, ako vidno z výsledkov.

záver

Analýza sentimentu je jednou z najčastejších úloh NLP, pretože pomáha identifikovať celkovú verejnú mienku na konkrétny problém.

Videli sme, ako môže niekoľko knižníc Pythonu pomôcť s analýzou sentimentu.

Vykonali sme štúdiu verejných tweetov o šiestich amerických leteckých spoločnostiach a dosiahli sme presnosť približne 75 %.

Navrhoval by som, aby ste vyskúšali iný algoritmus strojového učenia, ako je logistická regresia, SVM alebo KNN, aby ste zistili, či môžete dosiahnuť lepšie výsledky.

Analýza sentimentu NLP pomocou Pythonu

Čo je analýza sentimentu?

Výhody analýzy sentimentu