NLP-sentimintanalyse mei Python

Table of Contents[Ferstopje][Toanje]

Wat is sentimintanalyse?
Foardielen fan Sentiment Analysis
Sentiment Analysis - Problem Statement+-
Konklúzje

Bedriuwen sille de oankeap fan gegevens oer konsuminte-ynteraksje yn 2021 behearskje.

Tefolle fertrouwen op dizze gegevenspunten, oan 'e oare kant, liedt faaks ta organisaasjes dy't klantynput behannelje as in statistyk - in nochal iendiminsjonale oanpak om te harkjen nei de stim fan 'e klant.

De stim fan de klant kin net wurde badged of omboud ta in nûmer.

It moat lêzen, gearfette, en, boppe alles, begrepen wurde.

It feit is dat bedriuwen aktyf moatte harkje nei wat har konsuminten te sizzen hawwe op elk kanaal wêrmei't se mei har ynteraksje, of it no is fia tillefoantsjes, e-post of live chat.

Elk bedriuw moat it tafersjoch en it evaluearjen fan konsumintfeedback-sentimint prioritearje, mar bedriuwen hawwe tradisjoneel muoite om dizze gegevens te behanneljen en te transformearjen yn betsjuttingsfolle yntelliginsje.

Dit is net mear it gefal mei Sentiment Analysis.

Yn dizze tutorial sille wy in tichterby besjen op sentimintanalyse, de foardielen dêrfan, en hoe't jo de NLTK bibleteek te dwaan sentimint analyze op gegevens.

Wat is sentimintanalyse?

Sentimintanalyze, faak bekend as konversaasjemining, is in metoade foar it analysearjen fan gefoelens, gedachten en opfettingen fan minsken.

Sentimintanalyse lit bedriuwen in better begryp fan har konsuminten krije, ynkomsten ferheegje en har produkten en tsjinsten ferbetterje op basis fan klantynput.

It ferskil tusken in softwaresysteem dat klantsentimint kin analysearje en in fertsjintwurdiger fan ferkeaper/klantentsjinst dy't besykje it ôf te lieden is it suvere fermogen fan 'e eardere om objektive resultaten út 'e rauwe tekst te heljen - dit wurdt primêr berikt troch natuerlike taalferwurking (NLP) en masine learen techniken.

Fan emoasjeidentifikaasje oant tekstkategorisearring hat sentimintanalyse in breed oanbod fan tapassingen. Wy brûke sentimintanalyse op tekstgegevens om in fêst te helpen by it kontrolearjen fan it sentimint fan produktevaluaasjes as feedback fan konsuminten.

Ferskillende sosjale media-siden brûke it om it sentimint fan berjochten te beoardieljen, en as de emoasje te sterk of gewelddiedich is, of ûnder har drompel falt, wurdt de post wiske of ferburgen.

Sentimintanalyse kin brûkt wurde foar alles fan emoasjeidentifikaasje oant tekstkategorisearring.

It populêrste gebrûk fan sentimintanalyse is op tekstgegevens, wêr't it wurdt brûkt om in bedriuw te helpen by it folgjen fan it sentimint fan produktevaluaasjes as konsumintkommentaar.

Ferskillende sosjale media-siden brûke it ek om it sentimint fan berjochten te beoardieljen, en as de emoasje te sterk of gewelddiedich is, of ûnder har drompel falt, wiskje of ferbergje se de post.

Foardielen fan Sentiment Analysis

De folgjende binne guon fan 'e wichtichste foardielen fan sentimintanalyse dy't net moatte wurde negeare.

Help by it beoardieljen fan de belibbing fan jo merk ûnder jo demografyske doelgroep.
Direkte klantfeedback wurdt levere om jo te helpen by it ûntwikkeljen fan jo produkt.
Fergruttet ferkeap ynkomsten en prospecting.
Upsell kânsen foar de kampioenen fan jo produkt binne tanommen.
Proaktive klanttsjinst is in praktyske opsje.

Nûmers kinne jo ynformaasje jaan lykas de rauwe prestaasjes fan in marketingkampanje, it bedrach fan belutsenens by in prospektearjende oprop, en it oantal kaartsjes yn ôfwachting yn klantstipe.

It sil jo lykwols net fertelle wêrom't in spesifyk barren barde of wat it feroarsake hat. Analytics-ark lykas Google en Facebook, bygelyks, kinne jo helpe om de prestaasjes fan jo marketing-ynspanningen te beoardieljen.

Mar se jouwe jo gjin yngeande kennis fan wêrom't dy spesifike kampanje suksesfol wie.

Sentimintanalyze hat it potensjeel om spultsje-feroarjend te wêzen yn dit ferbân.

Sentiment Analysis - Problem Statement

It doel is om te bepalen as in tweet geunstige, negative of neutrale emoasje hat oangeande seis Amerikaanske loftfeartmaatskippijen basearre op tweets.

Dit is in standert begeliede learen baan wêryn wy moatte kategorisearje in tekst tekenrige yn foarbepaalde kategoryen jûn in tekst tekenrige.

Oplossing

Wy sille it standert proses foar masine-learen brûke om dit probleem oan te pakken. Wy sille begjinne mei it ymportearjen fan de nedige bibleteken en datasets.

Dan sille wy wat ferkennende gegevensanalyse útfiere om te bepalen as d'r patroanen binne yn 'e gegevens. Dêrnei sille wy tekstfoarferwurking ûndernimme om tekstuele ynfier numerike gegevens te draaien dy't a masine learen systeem kin brûke.

Uteinlik sille wy ús sentimintanalysemodellen traine en evaluearje mei metoaden foar masine-learen.

1. It ymportearjen fan biblioteken

Laad de nedige biblioteken.

It ymportearjen fan biblioteken

2. Ymportearje Dataset

Dit artikel sil basearre wêze op in dataset dy't te finen is op Github. De dataset sil wurde ymportearre mei Pandas 'lêzen CSV-funksje, lykas hjirûnder te sjen:

Dataset ymportearje

Undersykje de earste fiif rigen fan 'e dataset mei de head()-funksje:

Head Dataset

Utfier:

Utfier fan 'e Head Dataset

3. Analyse fan de Gegevens

Litte wy de gegevens ûndersykje om te bepalen as d'r trends binne. Mar earst sille wy de standert plotgrutte feroarje om de charts mear sichtber te meitsjen.

It oanpassen fan plotgrutte

Lit ús begjinne mei it oantal tweets ûntfongen troch elke loftfeartmaatskippij. Wy sille hjirfoar in taartdiagram brûke:

Sirkeldiagram

It persintaazje iepenbiere tweets foar elke loftfeartmaatskippij wurdt werjûn yn 'e útfier.

Pie Chart Utfier

Litte wy sjen hoe't de gefoelens binne ferdield oer alle tweets.

Semantyske sirkeldiagram

Utfier:

Semantyske taartdiagram útfier

Litte wy no de ferdieling fan sentimint ûndersykje foar elke spesifike loftline.

Neffens de resultaten is it grutste part fan tweets foar hast alle loftfeartmaatskippijen ûngeunstich, mei neutrale en goede tweets dy't folgje. Virgin America is faaks de ienige loftline dêr't it oanpart fan 'e trije gefoelens is te fergelykjen.

Ferdieling fan elke loftline

Utfier:

Ferdieling fan elke Airline-útfier

Uteinlik sille wy de Seaborn-bibleteek brûke om it gemiddelde fertrouwensnivo te krijen foar tweets út trije sentimintskategoryen.

Bar plot

Utfier:

Bar Plot Utfier

It resultaat lit sjen dat it fertrouwensnivo foar negative tweets grutter is as foar positive of neutrale tweets.

4. Cleaning de gegevens

In protte slangtermen en ynterpunksjetekens kinne fûn wurde yn tweets. Foardat wy it masine-learmodel kinne traine, moatte wy ús tweets skjinmeitsje.

Foardat wy de tweets begjinne skjin te meitsjen, moatte wy ús dataset lykwols skiede yn funksje- en labelsets.

Funksjes en labels

Wy kinne de gegevens skjinmeitsje as wy it ienris hawwe opdield yn funksjes en trainingsets. Reguliere útdrukkingen sille brûkt wurde om dit te dwaan.

Gewoane útdrukking

5. Numerike fertsjintwurdiging fan tekst

Om masine-learmodellen te trenen, brûke statistyske algoritmen wiskunde. Wiskunde, oan 'e oare kant, wurket allinich mei sifers.

Wy moatte earst de tekst omsette yn sifers foar statistyske algoritmen om it te behanneljen. D'r binne trije basiswizen om dat te dwaan: Bag of Words, TF-IDF, en Word2Vec.

Gelokkich kin de TfidfVectorizer-klasse yn Python's Scikit-Learn-module brûkt wurde om tekstfunksjes te transformearjen yn TF-IDF-funksjevektoren.

TF IDF

6. It oanmeitsjen fan data-oandreaune training- en testsets

Uteinlik moatte wy ús gegevens ferdiele yn trainings- en testsets foardat wy ús algoritmen traine.

De trainingsset sil wurde brûkt om it algoritme te trenen, en de testset sil wurde brûkt om de prestaasjes fan it masinelearmodel te beoardieljen.

Trein Test

7. Model Untjouwing

Nei't de gegevens binne skieden yn training- en testsets, wurde masinelearentechniken brûkt om te learen fan 'e trainingsgegevens.

Jo kinne elk algoritme foar masine learen brûke. De Random Forest-oanpak sil lykwols brûkt wurde fanwegen syn fermogen om te gean mei net-normalisearre gegevens.

Model Training

8. Foarsizzings en Model Evaluaasje

Nei't it model is oplaat, is de lêste etappe om foarsizzingen te meitsjen. Om dit te dwaan, moatte wy de foarsizzingsmetoade tapasse op it klasseobjekt RandomForestClassifier dat wy trainden.

Model Prediction

Uteinlik kinne klassifikaasjemaatregels lykas betizingsmetriken, F1-maten, krektens, ensfh. wurde brûkt om de prestaasjes fan masine-learmodellen te evaluearjen.

Klassifikaasje Metrics

Utfier:

Klassifikaasje Metrics Utfier

Us algoritme berikte in krektens fan 75.30, lykas sjoen troch de resultaten.

Konklúzje

Sentimintanalyse is ien fan 'e meast foarkommende NLP-banen, om't it helpt om de algemiene publike miening oer in spesifyk probleem te identifisearjen.

Wy seagen hoe't ferskate Python-biblioteken kinne helpe mei sentimintanalyse.

Wy hawwe in stúdzje útfierd fan iepenbiere tweets oer seis Amerikaanske loftfeartmaatskippijen en berikten in krektens fan sawat 75%.

Ik soe foarstelle dat jo in oare masine learen algoritme besykje, lykas logistyske regression, SVM, of KNN, om te sjen oft jo bettere resultaten kinne berikke.

NLP-sentimintanalyse mei Python

Wat is sentimintanalyse?

Foardielen fan Sentiment Analysis