NLP-sentimentanalise met Python

INHOUDSOPGAWE[Versteek][Wys]

Wat is sentimentanalise?
Voordele van sentimentanalise
Sentimentanalise – Probleemstelling+-
Gevolgtrekking

Besighede sal teen 2021 die verkryging van verbruikersinteraksiedata bemeester het.

Oormatige vertroue op hierdie datapunte, aan die ander kant, lei dikwels daartoe dat organisasies kliënte se insette as 'n statistiek behandel – 'n taamlik eendimensionele benadering om na die kliënt se stem te luister.

Die kliënt se stem kan nie 'n kenteken of in 'n nommer omskep word nie.

Dit moet gelees, saamgevat en bowenal begryp word.

Die feit is dat maatskappye aktief moet luister na wat hul verbruikers te sê het op elke kanaal waardeur hulle met hulle kommunikeer, of dit nou deur telefoonoproepe, e-posse of regstreekse klets is.

Elke maatskappy moet die monitering en evaluering van verbruikersterugvoer sentiment prioritiseer, maar maatskappye het tradisioneel gesukkel om hierdie data te hanteer en dit in betekenisvolle intelligensie te omskep.

Dit is nie meer die geval met sentimentanalise nie.

In hierdie tutoriaal sal ons sentimentanalise, die voordele daarvan van naderby bekyk en hoe om die NLTK biblioteek om sentimentanalise op data te doen.

Wat is sentimentanalise?

Sentimentanalise, dikwels bekend as gesprekontginning, is 'n metode om mense se gevoelens, gedagtes en sienings te ontleed.

Sentimentanalise stel besighede in staat om 'n beter begrip van hul verbruikers te kry, inkomste te verhoog en hul produkte en dienste te verbeter op grond van kliëntinsette.

Die verskil tussen 'n sagtewarestelsel wat in staat is om kliëntesentiment te analiseer en 'n verkoopspersoon/kliëntediensverteenwoordiger wat dit probeer aflei, is eersgenoemde se blote vermoë om objektiewe resultate uit die rou teks af te lei - dit word hoofsaaklik bewerkstellig deur natuurlike taalverwerking (NLP) en machine learning tegnieke.

Van emosie-identifikasie tot tekskategorisering, sentimentanalise het 'n wye reeks toepassings. Ons gebruik sentimentanalise op tekstuele data om 'n firma te help om die sentiment van produkevaluasies of verbruikersterugvoer te monitor.

Verskillende sosiale media-webwerwe gebruik dit om die sentiment van plasings te assesseer, en as die emosie te sterk of gewelddadig is, of onder hul drumpel val, word die plasing óf uitgevee óf versteek.

Sentimentanalise kan vir alles van emosie-identifikasie tot tekskategorisering gebruik word.

Die gewildste gebruik van sentimentanalise is op tekstuele data, waar dit gebruik word om 'n maatskappy te help om die sentiment van produkevaluasies of verbruikerskommentaar op te spoor.

Verskillende sosiale media-webwerwe gebruik dit ook om die sentiment van plasings te assesseer, en as die emosie te sterk of gewelddadig is, of onder hul drempel val, vee hulle die plasing uit of verberg hulle.

Voordele van sentimentanalise

Die volgende is van die belangrikste voordele van sentimentanalise wat nie verontagsaam moet word nie.

Help om die persepsie van u handelsmerk onder u teikendemografiese te bepaal.
Direkte kliëntterugvoer word verskaf om jou te help met die ontwikkeling van jou produk.
Verhoog verkoopsinkomste en prospektering.
Opverkoopgeleenthede vir jou produk se kampioene het toegeneem.
Proaktiewe kliëntediens is 'n praktiese opsie.

Getalle kan jou van inligting voorsien soos die rou prestasie van 'n bemarkingsveldtog, die hoeveelheid betrokkenheid by 'n prospekteeroproep en die aantal kaartjies wat hangende in kliëntediens.

Dit sal jou egter nie vertel hoekom 'n spesifieke gebeurtenis plaasgevind het of wat dit veroorsaak het nie. Analytics-nutsmiddels soos Google en Facebook, byvoorbeeld, kan jou help om die prestasie van jou bemarkingspogings te assesseer.

Maar hulle gee jou nie 'n diepgaande kennis van hoekom daardie spesifieke veldtog suksesvol was nie.

Sentimentanalise het die potensiaal om spelveranderend in hierdie verband te wees.

Sentimentanalise – Probleemstelling

Die doel is om te bepaal of 'n twiet gunstige, negatiewe of neutrale emosie het met betrekking tot ses Amerikaanse lugrederye gebaseer op twiets.

Dit is 'n standaard leerwerk onder toesig waarin ons 'n teksstring in voorafbepaalde kategorieë moet kategoriseer, gegewe 'n teksstring.

Oplossing

Ons sal die standaard masjienleerproses gebruik om hierdie probleem aan te spreek. Ons sal begin deur die nodige biblioteke en datastelle in te voer.

Dan sal ons 'n paar verkennende data-analise uitvoer om te bepaal of daar enige patrone in die data is. Daarna sal ons teksvoorverwerking onderneem om tekstuele invoer numeriese data te verander wat a machine learning stelsel kan gebruik.

Laastens sal ons ons sentimentanalise-modelle oplei en evalueer deur masjienleermetodes te gebruik.

1. Die invoer van biblioteke

Laai die nodige biblioteke.

Invoer van biblioteke

2. Voer datastel in

Hierdie artikel sal gebaseer wees op 'n datastel waarop gevind kan word GitHub. Die datastel sal ingevoer word met Pandas se lees CSV-funksie, soos hieronder gesien:

Voer tans datastel in

Gebruik die head()-funksie en ondersoek die datastel se eerste vyf rye:

Hoofdatastel

Uitgawe:

Uitset van die hoofdatastel

3. Ontleding van die Data

Kom ons ondersoek die data om te bepaal of daar enige neigings is. Maar eers sal ons die verstek plotgrootte verander om die kaarte meer sigbaar te maak.

Pas plotgrootte aan

Kom ons begin met die aantal twiets wat deur elke lugredery ontvang is. Ons sal 'n sirkelgrafiek hiervoor gebruik:

Sirkelgrafiek

Die persentasie publieke twiets vir elke lugredery word in die afvoer vertoon.

Sirkeldiagram Uitset

Kom ons kyk hoe die gevoelens oor al die twiets versprei word.

Semantiese sirkeldiagram

Uitgawe:

Semantiese sirkeldiagram-uitset

Kom ons ondersoek nou die verspreiding van sentiment vir elke spesifieke lugredery.

Volgens die resultate is die meeste twiets vir byna alle lugrederye ongunstig, met neutrale en goeie twiets wat volg. Virgin America is miskien die enigste lugredery waar die verhouding van die drie gevoelens vergelykbaar is.

Verspreiding van elke lugredery

Uitgawe:

Verspreiding van elke lugredery-uitset

Ten slotte sal ons die Seaborn-biblioteek gebruik om die gemiddelde vertrouensvlak vir twiets uit drie sentimentkategorieë te kry.

Kroeg plot

Uitgawe:

Staaf Plot Uitset

Die resultaat toon dat die vertrouensvlak vir negatiewe twiets groter is as vir positiewe of neutrale twiets.

4. Die skoonmaak van die data

Baie slengterme en leestekens kan in tweets gevind word. Voordat ons die masjienleermodel kan oplei, moet ons ons tweets skoonmaak.

Voordat ons egter die tweets begin skoonmaak, moet ons ons datastel in kenmerk- en etiketstelle verdeel.

Kenmerke en etikette

Ons kan die data skoonmaak sodra ons dit in kenmerke en opleidingstelle geskei het. Gereelde uitdrukkings sal gebruik word om dit te doen.

Gewone uitdrukking

5. Numeriese voorstelling van teks

Om masjienleermodelle op te lei, gebruik statistiese algoritmes wiskunde. Wiskunde, aan die ander kant, werk net met getalle.

Ons moet eers die teks in getalle omskep sodat statistiese algoritmes dit kan hanteer. Daar is drie basiese maniere om dit te doen: Bag of Words, TF-IDF en Word2Vec.

Gelukkig kan die TfidfVectorizer-klas in Python se Scikit-Learn-module gebruik word om tekskenmerke in TF-IDF-kenmerkvektore te transformeer.

TF IDF

6. Die skep van data-gedrewe opleiding en toetsstelle

Laastens moet ons ons data in opleiding- en toetsstelle verdeel voordat ons ons algoritmes oplei.

Die opleidingstel sal gebruik word om die algoritme op te lei, en die toetsstel sal gebruik word om die masjienleermodel se prestasie te assesseer.

Treintoets

7. Modelontwikkeling

Nadat die data in opleiding- en toetsstelle geskei is, word masjienleertegnieke gebruik om uit die opleidingsdata te leer.

U kan enige masjienleeralgoritme gebruik. Die Random Forest-benadering sal egter gebruik word vanweë sy vermoë om nie-genormaliseerde data te hanteer.

Model Opleiding

8. Voorspellings en Model-evaluering

Nadat die model opgelei is, is die finale stadium om voorspellings te maak. Om dit te doen, moet ons die voorspellingsmetode toepas op die RandomForestClassifier-klasvoorwerp wat ons opgelei het.

Model Voorspelling

Laastens kan klassifikasiemaatstawwe soos verwarringsmetrieke, F1-maatstawwe, akkuraatheid, ensovoorts gebruik word om die werkverrigting van masjienleermodelle te evalueer.

Klassifikasie Metrieke

Uitgawe:

Klassifikasie Metrieke Uitset

Ons algoritme het 'n akkuraatheid van 75.30 behaal, soos gesien deur die resultate.

Gevolgtrekking

Sentimentanalise is een van die mees algemene NLP-take, aangesien dit help om algehele openbare mening oor 'n spesifieke kwessie te identifiseer.

Ons het gesien hoe verskeie Python-biblioteke kan help met sentimentontleding.

Ons het 'n studie van openbare twiets oor ses Amerikaanse lugdienste gedoen en 'n akkuraatheid van ongeveer 75% bereik.

Ek sal voorstel dat jy 'n ander masjienleeralgoritme probeer, soos logistiese regressie, SVM of KNN, om te sien of jy beter resultate kan behaal.

NLP-sentimentanalise met Python

Wat is sentimentanalise?

Voordele van sentimentanalise