Anàlisi de sentiments PNL amb Python

Taula de continguts[Amaga][Espectacle]

Què és l'anàlisi de sentiments?
Beneficis de l'anàlisi de sentiments
Anàlisi de sentiments - Declaració del problema+-
Conclusió

Les empreses hauran dominat l'adquisició de dades d'interacció dels consumidors el 2021.

La confiança excessiva en aquests punts de dades, d'altra banda, sovint fa que les organitzacions tractin l'entrada del client com una estadística, un enfocament més aviat unidimensional per escoltar la veu del client.

La veu del client no es pot insígnia ni es pot convertir en un número.

S'ha de llegir, condensar i, sobretot, comprendre.

El fet és que les empreses han d'escoltar activament el que els seus consumidors diuen a cada canal a través del qual interactuen amb ells, ja sigui a través de trucades telefòniques, correus electrònics o xat en directe.

Totes les empreses haurien de prioritzar el seguiment i l'avaluació dels sentiments dels consumidors, però les empreses tradicionalment han lluitat per gestionar aquestes dades i transformar-les en intel·ligència significativa.

Això ja no és el cas de l'anàlisi de sentiments.

En aquest tutorial, veurem més de prop l'anàlisi de sentiments, els seus avantatges i com utilitzar-lo NLTK biblioteca per fer anàlisis de sentiments sobre dades.

Què és l'anàlisi de sentiments?

L'anàlisi de sentiments, sovint coneguda com a mineria de converses, és un mètode per analitzar els sentiments, els pensaments i les opinions de les persones.

L'anàlisi de sentiments permet a les empreses obtenir una millor comprensió dels seus consumidors, augmentar els ingressos i millorar els seus productes i serveis en funció de les aportacions dels clients.

La diferència entre un sistema de programari capaç d'analitzar el sentiment del client i un venedor/representant d'atenció al client que intenta deduir-lo és la gran capacitat del primer per obtenir resultats objectius del text en brut; això s'aconsegueix principalment mitjançant el processament del llenguatge natural (NLP) i màquina d'aprenentatge tècniques.

Des de la identificació d'emocions fins a la categorització de textos, l'anàlisi de sentiments té una àmplia gamma d'aplicacions. Utilitzem l'anàlisi de sentiments sobre dades textuals per ajudar una empresa a controlar el sentiment de les avaluacions de productes o els comentaris dels consumidors.

Diferents llocs de xarxes socials l'utilitzen per avaluar el sentiment de les publicacions, i si l'emoció és massa forta o violenta, o cau per sota del seu llindar, la publicació s'elimina o s'amaga.

L'anàlisi de sentiments es pot utilitzar per a tot, des de la identificació d'emocions fins a la categorització del text.

L'ús més popular de l'anàlisi de sentiments és en dades textuals, on s'utilitza per ajudar una empresa a fer un seguiment del sentiment de les avaluacions de productes o dels comentaris dels consumidors.

Els diferents llocs de xarxes socials també l'utilitzen per avaluar el sentiment de les publicacions, i si l'emoció és massa forta o violenta, o cau per sota del seu llindar, suprimeixen o amaguen la publicació.

Beneficis de l'anàlisi de sentiments

A continuació es mostren alguns dels avantatges més importants de l'anàlisi de sentiments que no s'han de tenir en compte.

Ajuda a avaluar la percepció de la teva marca entre el teu grup demogràfic objectiu.
Es proporcionen comentaris directes dels clients per ajudar-vos a desenvolupar el vostre producte.
Augmenta els ingressos de vendes i la prospecció.
Les oportunitats de vendes addicionals per als campions del vostre producte han augmentat.
El servei proactiu al client és una opció pràctica.

Numbers us pot proporcionar informació com el rendiment brut d'una campanya de màrqueting, la quantitat de participació en una trucada de prospecció i el nombre de bitllets pendents d'atenció al client.

No obstant això, no us dirà per què es va produir un esdeveniment específic ni què el va causar. Les eines d'anàlisi com Google i Facebook, per exemple, us poden ajudar a avaluar el rendiment dels vostres esforços de màrqueting.

Però no us proporcionen un coneixement profund de per què aquesta campanya específica va tenir èxit.

L'anàlisi de sentiments té el potencial de canviar el joc en aquest sentit.

Anàlisi de sentiments - Declaració del problema

L'objectiu és determinar si un tuit té una emoció favorable, negativa o neutral respecte a sis companyies aèries dels EUA basant-se en els tuits.

Aquest és un treball d'aprenentatge supervisat estàndard en el qual hem de categoritzar una cadena de text en categories predeterminades donada una cadena de text.

Solució

Utilitzarem el procés estàndard d'aprenentatge automàtic per solucionar aquest problema. Començarem per importar les biblioteques i conjunts de dades necessaris.

A continuació, realitzarem una anàlisi exploratòria de dades per determinar si hi ha algun patró a les dades. Després d'això, realitzarem el preprocessament de text per convertir les dades numèriques d'entrada de text que a màquina d'aprenentatge el sistema pot utilitzar.

Finalment, entrenarem i avaluarem els nostres models d'anàlisi de sentiments mitjançant mètodes d'aprenentatge automàtic.

1. Importació de biblioteques

Carregueu les biblioteques necessàries.

Importació de biblioteques

2. Importa el conjunt de dades

Aquest article es basarà en un conjunt de dades que es pot trobar a Github. El conjunt de dades s'importarà mitjançant la funció de lectura CSV de Pandas, tal com es mostra a continuació:

Importació del conjunt de dades

Utilitzant la funció head(), examineu les cinc primeres files del conjunt de dades:

Conjunt de dades del cap

sortida:

Sortida del conjunt de dades del cap

3. Anàlisi de les dades

Examinem les dades per determinar si hi ha tendències. Però primer, canviarem la mida de la trama predeterminada per fer que els gràfics siguin més visibles.

Ajust de la mida de la trama

Comencem pel nombre de tuits rebuts per cada companyia aèria. Per a això farem servir un gràfic circular:

Gràfic circular

El percentatge de tuits públics de cada companyia aèria es mostra a la sortida.

Sortida del gràfic circular

Fem una ullada a com es distribueixen els sentiments entre tots els tuits.

Diagrama de sectors semàntic

sortida:

Sortida del gràfic circular semàntic

Examinem ara la distribució del sentiment per a cada companyia aèria específica.

Segons els resultats, el gruix dels tuits de gairebé totes les companyies aèries és desfavorable, amb tweets neutrals i bons. Virgin America és potser l'única companyia aèria on la proporció dels tres sentiments és comparable.

Distribució de cada companyia aèria

sortida:

Distribució de cada sortida aèria

Finalment, utilitzarem la biblioteca Seaborn per obtenir el nivell de confiança mitjà dels tuits de tres categories de sentiment.

Parcel·la de bar

sortida:

Sortida del diagrama de barres

El resultat mostra que el nivell de confiança dels tuits negatius és més gran que el dels positius o neutrals.

4. Neteja de les dades

Es poden trobar molts termes d'argot i signes de puntuació als tuits. Abans de poder entrenar el model d'aprenentatge automàtic, hem de netejar els nostres tuits.

Tanmateix, abans de començar a netejar els tuits, hauríem de separar el nostre conjunt de dades en conjunts de funcions i etiquetes.

Característiques i etiquetes

Podem netejar les dades un cop les hem separat en funcions i conjunts d'entrenament. Per fer-ho s'utilitzaran expressions regulars.

Expressió Regular

5. Representació numèrica del text

Per entrenar models d'aprenentatge automàtic, els algorismes estadístics utilitzen les matemàtiques. Les matemàtiques, en canvi, només treballen amb nombres.

Primer hem de transformar el text en números perquè els algorismes estadístics s'hi abordin. Hi ha tres maneres bàsiques de fer-ho: Bag of Words, TF-IDF i Word2Vec.

Afortunadament, la classe TfidfVectorizer del mòdul Scikit-Learn de Python es pot utilitzar per transformar característiques de text en vectors de característiques TF-IDF.

TF IDF

6. Creació de conjunts d'entrenament i proves basats en dades

Finalment, hem de dividir les nostres dades en conjunts d'entrenament i proves abans d'entrenar els nostres algorismes.

El conjunt d'entrenament s'utilitzarà per entrenar l'algorisme i el conjunt de proves s'utilitzarà per avaluar el rendiment del model d'aprenentatge automàtic.

Prova del tren

7. Desenvolupament del model

Després de separar les dades en conjunts d'entrenament i de prova, s'utilitzen tècniques d'aprenentatge automàtic per aprendre de les dades d'entrenament.

Podeu utilitzar qualsevol algorisme d'aprenentatge automàtic. Tanmateix, s'utilitzarà l'enfocament Random Forest per la seva capacitat per fer front a dades no normalitzades.

Formació de models

8. Prediccions i avaluació del model

Un cop s'ha entrenat el model, l'etapa final és fer prediccions. Per fer-ho, hem d'aplicar el mètode predict a l'objecte de classe RandomForestClassifier que hem entrenat.

Predicció del model

Finalment, les mesures de classificació com les mètriques de confusió, les mesures F1, la precisió, etc., es poden utilitzar per avaluar el rendiment dels models d'aprenentatge automàtic.

Mètriques de classificació

sortida:

Sortida de mètriques de classificació

El nostre algorisme va aconseguir una precisió de 75.30, tal com es veu als resultats.

Conclusió

L'anàlisi de sentiments és una de les feines de PNL més freqüents, ja que ajuda a identificar l'opinió pública general sobre un tema específic.

Hem vist com diverses biblioteques de Python poden ajudar amb l'anàlisi de sentiments.

Vam realitzar un estudi de tuits públics sobre sis companyies aèries dels EUA i vam aconseguir una precisió d'aproximadament el 75%.

Us suggeriria que proveu un altre algorisme d'aprenentatge automàtic, com ara la regressió logística, SVM o KNN, per veure si podeu obtenir millors resultats.

Anàlisi de sentiments PNL amb Python

Què és l'anàlisi de sentiments?

Beneficis de l'anàlisi de sentiments