NLP Sentiment Analyse benotzt Python

Inhaltsverzeechnes[Verstoppen][Show]

Wat ass Gefillsanalyse?
Virdeeler vun Sentiment Analyse
Sentiment Analyse - Problem Ausso+- Déi
Konklusioun

D'Geschäfter wäerten d'Acquisitioun vu Konsumentinteraktiounsdaten bis 2021 beherrschen.

Iwwervertrauen op dës Datepunkte, op der anerer Säit, féiert dacks zu Organisatiounen, déi Clientinput als Statistik behandelen - eng zimlech eendimensional Approche fir dem Client seng Stëmm ze lauschteren.

D'Stëmm vum Client kann net an eng Nummer ëmgewandelt ginn.

Et muss gelies, kondenséiert a virun allem verstane ginn.

D'Tatsaach ass datt Firmen aktiv mussen nolauschteren wat hir Konsumenten op all Kanal ze soen hunn, duerch deen se mat hinnen interagéieren, egal ob et duerch Telefonsuriff, E-Mail oder Live Chat ass.

All Firma soll d'Iwwerwaachung an d'Bewäertung vu Konsumentefeedback-Sentiment prioritär stellen, awer Firmen hunn traditionell gekämpft fir dës Donnéeën ze handhaben an se an eng sënnvoll Intelligenz ze transforméieren.

Dëst ass net méi de Fall mat Sentiment Analysis.

An dësem Tutorial kucke mir d'Sentimentanalyse méi no, seng Virdeeler, a wéi Dir de NLTK Bibliothéik fir Gefillsanalyse op Daten ze maachen.

Wat ass Gefillsanalyse?

Sentiment Analyse, dacks bekannt als Gespréichsmining, ass eng Method fir d'Gefiller, Gedanken a Meenungen vun de Leit ze analyséieren.

D'Sentimentanalyse erlaabt d'Entreprisen e bessert Verständnis vun hire Konsumenten ze kréien, Einnahmen ze erhéijen an hir Produkter a Servicer ze verbesseren baséiert op Clientinput.

Den Ënnerscheed tëscht engem Softwaresystem, dee fäeg ass d'Clientsentiment ze analyséieren an engem Verkeefer / Clientsservice Vertrieder deen et versicht ofzeschléissen ass dem fréiere seng reng Fäegkeet fir objektiv Resultater aus dem roude Text ofzeleeën - dëst gëtt haaptsächlech duerch natierlech Sproochveraarbechtung (NLP) an Maschinn léieren Techniken.

Vun Emotiounsidentifikatioun bis Textkategoriséierung huet d'Sentimentanalyse eng breet Palette vun Uwendungen. Mir benotze Gefillsanalyse op textuell Donnéeën fir eng Firma ze hëllefen d'Gefill vu Produktbewäertungen oder Konsumentefeedback ze iwwerwaachen.

Verschidde Social Media Sites benotzen et fir d'Gefill vu Posts ze bewäerten, a wann d'Emotioun ze staark oder gewalteg ass, oder ënner hirer Schwell fällt, gëtt de Post entweder geläscht oder verstoppt.

Sentimentanalyse ka fir alles vun Emotiounsidentifikatioun bis Textkategoriséierung benotzt ginn.

Déi populärste Notzung vun der Sentimentanalyse ass op textuell Daten, wou se benotzt gi fir eng Firma ze hëllefen d'Gefill vu Produktbewäertungen oder Konsumentekommentarer ze verfolgen.

Verschidde Social Media Sites benotzen et och fir d'Gefill vu Posts ze bewäerten, a wann d'Emotioun ze staark oder gewalteg ass, oder ënner hirer Schwell fällt, läschen se oder verstoppen de Post.

Virdeeler vun Sentiment Analyse

Déi folgend sinn e puer vun de wichtegste Virdeeler vun der Sentimentanalyse déi net ignoréiert solle ginn.

Hëllef bei der Bewäertung vun der Perceptioun vun Ärer Mark ënner Ärem Zildemographesch.
Direkte Client Feedback gëtt zur Verfügung gestallt fir Iech bei der Entwécklung vun Ärem Produkt ze hëllefen.
Erhéicht Verkafsakommes a Prospektioun.
Upsell Méiglechkeete fir Äre Produkt Championen sinn eropgaang.
Proaktiv Client Service ass eng praktesch Optioun.

Zuelen kënnen Iech Informatioun ubidden wéi déi rau Leeschtung vun enger Marketingkampagne, de Betrag vum Engagement an engem Prospektiounsruff, an d'Zuel vun den Ticketen déi an der Clientssupport waarden.

Wéi och ëmmer, et wäert Iech net soen firwat e spezifescht Event geschitt ass oder wat et verursaacht huet. Analytics Tools wéi Google a Facebook, zum Beispill, kënnen Iech hëllefen d'Performance vun Äre Marketing Efforten ze bewäerten.

Awer si ginn Iech net en am-Déift Wëssen iwwer firwat déi spezifesch Kampagne erfollegräich war.

D'Sentiment Analyse huet d'Potenzial fir Spillverännerend an dësem Sënn ze sinn.

Sentiment Analyse - Problem Ausso

D'Zil ass et ze bestëmmen ob en Tweet favorabel, negativ oder neutral Emotioun betreffend sechs US Fluchgesellschafte baséiert op Tweets.

Dëst ass e Standard iwwerwaachte Léierjob, an deem mir en Textstring an virbestëmmte Kategorien musse kategoriséieren mat engem Textstring.

Léisung

Mir benotze de Standard Maschinn Léierprozess fir dëse Problem unzegoen. Mir fänke mam Import vun de néidege Bibliothéiken an Datesätz un.

Da maache mir e puer explorativ Datenanalyse fir ze bestëmmen ob et Mustere an den Daten sinn. Duerno wäerte mir d'Textvirveraarbechtung ënnerhuelen fir textuell Input numeresch Donnéeën ëmzewandelen déi a Maschinn léieren System ka benotzen.

Schlussendlech wäerte mir eis Sentimentanalysemodeller trainéieren an evaluéieren mat Maschinnléieremethoden.

1. Bibliothéiken importéieren

Lued déi néideg Bibliothéiken.

Bibliothéiken importéieren

2. Import Dataset

Dësen Artikel baséiert op engem Datesaz op deem ka fonnt ginn Github. Den Dataset gëtt importéiert mat Pandas 'liesen CSV Funktioun, wéi et hei ënnendrënner gesi gëtt:

Dateset importéieren

Mat der Head () Funktioun, ënnersicht déi éischt fënnef Zeilen vum Datesaz:

Head Dataset

Ausgab:

Ausgab vum Head Dataset

3. Analyse vun den Donnéeën

Loosst eis d'Donnéeën ënnersichen fir ze bestëmmen ob et Trends gëtt. Awer als éischt wäerte mir d'Standardplotgréisst änneren fir d'Charts méi siichtbar ze maachen.

Upassung Komplott Gréisst

Loosst eis ufänken mat der Unzuel vun Tweets, déi vun all Fluchgesellschaft kritt goufen. Mir benotzen e Pie Chart fir dëst:

Pie Chart

De Prozentsaz vun ëffentlechen Tweets fir all Fluchgesellschaft gëtt am Ausgang ugewisen.

Pie Chart Ausgang

Loosst eis kucken wéi d'Gefiller iwwer all Tweets verdeelt sinn.

Semantesch Pie Chart

Ausgab:

Semantesch Pie Chart Ausgang

Loosst eis elo d'Verdeelung vum Gefill fir all spezifesch Fluchgesellschaft ënnersichen.

Laut de Resultater sinn de gréissten Deel vun Tweets fir bal all Fluchgesellschafte ongënschteg, mat neutralen a gutt Tweets no. Virgin America ass vläicht déi eenzeg Fluchgesellschaft wou den Undeel vun den dräi Gefiller vergläichbar ass.

Verdeelung vun all Airline

Ausgab:

Verdeelung vun all Airline Output

Schlussendlech benotze mir d'Seaborn Bibliothéik fir den duerchschnëttleche Vertrauensniveau fir Tweets aus dräi Gefillskategorien ze kréien.

Bar Komplott

Ausgab:

Bar Komplott Ausgang

D'Resultat weist datt d'Vertrauensniveau fir negativ Tweets méi grouss ass wéi fir positiv oder neutral Tweets.

4. Botzen d'Donnéeën

Vill Schlaangbegrëffer a Punktuatiounszeechen kënnen an Tweets fonnt ginn. Ier mer de Maschinn Léiermodell trainéiere kënnen, musse mir eis Tweets botzen.

Wéi och ëmmer, ier mir ufänken d'Tweets ze botzen, sollte mir eis Datesaz a Feature- a Label-Sets trennen.

Features an Etiketten

Mir kënnen d'Donnéeën botzen wann mir se a Featuren an Trainingssets getrennt hunn. Regelméisseg Ausdréck gi benotzt fir dëst ze maachen.

Regelméisseg Ausdrock

5. Numeresch Representatioun vum Text

Fir Maschinnléiermodeller ze trainéieren, benotze statistesch Algorithmen Mathematik. Mathematik, op der anerer Säit, funktionnéiert nëmme mat Zuelen.

Mir musse fir d'éischt den Text an Zuelen transforméieren fir statistesch Algorithmen mat deem ze këmmeren. Et ginn dräi Basis Weeër fir dat ze maachen: Bag of Words, TF-IDF a Word2Vec.

Glécklecherweis kann d'TfidfVectorizer Klass am Python sengem Scikit-Learn Modul benotzt ginn fir Textfeatures an TF-IDF Featurevektoren ze transforméieren.

TF IDF

6. Schafen Data-Undriff Training an Test Sets

Schlussendlech musse mir eis Daten an Trainings- an Testsets opdeelen ier mir eis Algorithmen trainéieren.

Den Trainingsset gëtt benotzt fir den Algorithmus ze trainéieren, an den Testset gëtt benotzt fir d'Leeschtung vum Maschinnléiermodell ze bewäerten.

Zuch Test

7. Modell Entwécklung

Nodeems d'Donnéeën an Trainings- an Testsets getrennt sinn, gi Maschinnléieretechnike benotzt fir aus den Trainingsdaten ze léieren.

Dir kënnt all Maschinn Léieren Algorithmus benotzen. D'Random Forest Approche wäert awer benotzt ginn wéinst senger Fäegkeet fir net normaliséiert Donnéeën ze këmmeren.

Model Training

8. Prognosen an Modell Evaluatioun

Nodeems de Modell trainéiert ass, ass déi lescht Etapp Prognosen ze maachen. Fir dëst ze maachen, musse mir d'Prognosemethod op den RandomForestClassifier Klassenobjekt uwenden, dee mir trainéiert hunn.

Modell Prediction

Schlussendlech kënne Klassifikatiounsmoossnamen wéi Verwirrungsmetriken, F1 Moossnamen, Genauegkeet, a sou weider benotzt ginn fir d'Performance vu Maschinnléiere Modeller ze evaluéieren.

Klassifikatioun Metriken

Ausgab:

Klassifikatioun Metriken Output

Eisen Algorithmus erreecht eng Genauegkeet vu 75.30, wéi d'Resultater gesinn.

Konklusioun

D'Sentimentanalyse ass eng vun den heefegsten NLP Aarbechtsplazen well et hëlleft d'allgemeng ëffentlech Meenung iwwer e spezifescht Thema z'identifizéieren.

Mir hu gesinn wéi verschidde Python-Bibliothéike mat der Gefillsanalyse hëllefe kënnen.

Mir hunn eng Etude vun ëffentlechen Tweets iwwer sechs US Fluchgesellschafte gemaach an hunn eng Genauegkeet vu ronn 75% erreecht.

Ech géif proposéieren datt Dir en anere Maschinnléieren Algorithmus probéiert, wéi logistesch Regressioun, SVM oder KNN, fir ze kucken ob Dir besser Resultater kënnt erreechen.

NLP Sentiment Analyse mat Python

Wat ass Gefillsanalyse?

Virdeeler vun Sentiment Analyse