Analisi del sentimento NLP utilizzando Python

Sommario[Nascondere][Spettacolo]

Che cos'è l'analisi del sentimento?
Vantaggi dell'analisi del sentimento
Analisi del sentimento - Dichiarazione del problema+-
Conclusione

Le aziende avranno imparato l'acquisizione dei dati sull'interazione dei consumatori entro il 2021.

L'eccessivo affidamento su questi punti dati, d'altra parte, porta spesso le organizzazioni a considerare l'input dei clienti come una statistica, un approccio piuttosto unidimensionale all'ascolto della voce del cliente.

La voce del cliente non può essere timbrata o convertita in un numero.

Va letto, condensato e, soprattutto, compreso.

Il fatto è che le aziende devono ascoltare attivamente ciò che i loro consumatori hanno da dire su ogni canale attraverso il quale interagiscono con loro, che si tratti di telefonate, e-mail o chat dal vivo.

Ogni azienda dovrebbe dare la priorità al monitoraggio e alla valutazione del feedback dei consumatori, ma tradizionalmente le aziende hanno lottato per gestire questi dati e trasformarli in informazioni significative.

Questo non è più il caso dell'analisi del sentimento.

In questo tutorial, daremo un'occhiata più da vicino all'analisi del sentimento, ai suoi vantaggi e a come utilizzare il NLTK libreria per eseguire analisi del sentimento sui dati.

Che cos'è l'analisi del sentimento?

L'analisi del sentimento, spesso nota come mining di conversazioni, è un metodo per analizzare i sentimenti, i pensieri e le opinioni delle persone.

L'analisi del sentiment consente alle aziende di comprendere meglio i propri consumatori, aumentare le entrate e migliorare i propri prodotti e servizi in base all'input dei clienti.

La differenza tra un sistema software in grado di analizzare il sentiment del cliente e un venditore/rappresentante del servizio clienti che tenta di dedurlo è la pura capacità del primo di ricavare risultati oggettivi dal testo grezzo — ciò si ottiene principalmente attraverso l'elaborazione del linguaggio naturale (NLP) e machine learning tecniche.

Dall'identificazione delle emozioni alla categorizzazione del testo, l'analisi del sentimento ha un'ampia gamma di applicazioni. Utilizziamo l'analisi del sentimento sui dati testuali per aiutare un'azienda a monitorare il sentimento delle valutazioni dei prodotti o del feedback dei consumatori.

Diversi siti di social media lo utilizzano per valutare il sentimento dei post e se l'emozione è troppo forte o violenta o scende al di sotto della loro soglia, il post viene eliminato o nascosto.

L'analisi del sentimento può essere utilizzata per qualsiasi cosa, dall'identificazione delle emozioni alla categorizzazione del testo.

L'uso più diffuso dell'analisi del sentimento è sui dati testuali, dove viene utilizzato per aiutare un'azienda a tenere traccia del sentimento delle valutazioni dei prodotti o dei commenti dei consumatori.

Diversi siti di social media lo usano anche per valutare il sentimento dei post e se l'emozione è troppo forte o violenta o scende al di sotto della loro soglia, eliminano o nascondono il post.

Vantaggi dell'analisi del sentimento

Di seguito sono riportati alcuni dei vantaggi più importanti dell'analisi del sentimento che non dovrebbero essere ignorati.

Aiuta a valutare la percezione del tuo marchio tra i tuoi target demografici.
Il feedback diretto del cliente viene fornito per aiutarti nello sviluppo del tuo prodotto.
Aumenta il fatturato e la prospezione.
Le opportunità di upsell per i campioni del tuo prodotto sono aumentate.
Il servizio clienti proattivo è un'opzione pratica.

I numeri possono fornirti informazioni come la performance grezza di una campagna di marketing, la quantità di coinvolgimento in una chiamata di prospecting e il numero di ticket in sospeso nell'assistenza clienti.

Tuttavia, non ti dirà perché si è verificato un evento specifico o cosa lo ha causato. Strumenti di analisi come Google e Facebook, ad esempio, possono aiutarti a valutare le prestazioni dei tuoi sforzi di marketing.

Ma non ti forniscono una conoscenza approfondita del motivo per cui quella specifica campagna ha avuto successo.

L'analisi del sentimento ha il potenziale per cambiare il gioco in questo senso.

Analisi del sentimento - Dichiarazione del problema

L'obiettivo è determinare se un tweet ha un'emozione favorevole, negativa o neutra nei confronti di sei compagnie aeree statunitensi sulla base dei tweet.

Questo è un lavoro di apprendimento supervisionato standard in cui dobbiamo classificare una stringa di testo in categorie predeterminate data una stringa di testo.

Soluzione

Utilizzeremo il processo di apprendimento automatico standard per risolvere questo problema. Inizieremo importando le librerie e i set di dati necessari.

Quindi eseguiremo alcune analisi esplorative dei dati per determinare se sono presenti modelli nei dati. Successivamente, eseguiremo la preelaborazione del testo per trasformare i dati numerici di input testuali che a machine learning il sistema può utilizzare.

Infine, addestreremo e valuteremo i nostri modelli di analisi del sentimento utilizzando metodi di apprendimento automatico.

1. Importazione di librerie

Carica le librerie necessarie.

Importazione di librerie

2. Importa set di dati

Questo articolo sarà basato su un set di dati che può essere trovato su Github. Il set di dati verrà importato utilizzando la funzione CSV di lettura di Pandas, come mostrato di seguito:

Importazione del set di dati

Usando la funzione head(), esamina le prime cinque righe del set di dati:

Set di dati testa

Produzione:

Output del set di dati principale

3. Analisi dei Dati

Esaminiamo i dati per determinare se ci sono tendenze. Ma prima cambieremo la dimensione del grafico di default per rendere i grafici più visibili.

Regolazione delle dimensioni del grafico

Cominciamo con il numero di tweet ricevuti da ciascuna compagnia aerea. Useremo un grafico a torta per questo:

Grafico a torta

La percentuale di tweet pubblici per ciascuna compagnia aerea viene visualizzata nell'output.

Uscita grafico a torta

Diamo un'occhiata a come sono distribuiti i sentimenti su tutti i tweet.

Grafico a torta semantico

Produzione:

Output del grafico a torta semantico

Esaminiamo ora la distribuzione del sentimento per ciascuna compagnia aerea specifica.

Secondo i risultati, la maggior parte dei tweet per quasi tutte le compagnie aeree è sfavorevole, seguita da tweet neutri e buoni. Virgin America è forse l'unica compagnia aerea in cui la proporzione dei tre sentimenti è paragonabile.

Distribuzione di ciascuna compagnia aerea

Produzione:

Distribuzione dell'output di ciascuna compagnia aerea

Infine, utilizzeremo la libreria Seaborn per ottenere il livello di confidenza medio per i tweet di tre categorie di sentimenti.

Trama del bar

Produzione:

Output grafico a barre

Il risultato mostra che il livello di confidenza per i tweet negativi è maggiore rispetto ai tweet positivi o neutri.

4. Pulizia dei dati

Molti termini gergali e segni di punteggiatura possono essere trovati nei tweet. Prima di poter addestrare il modello di apprendimento automatico, dobbiamo pulire i nostri tweet.

Tuttavia, prima di iniziare a pulire i tweet, dovremmo separare il nostro set di dati in set di funzionalità ed etichette.

Caratteristiche ed etichette

Possiamo pulire i dati dopo averli separati in funzionalità e set di addestramento. A tale scopo verranno utilizzate espressioni regolari.

Regular Expression

5. Rappresentazione numerica del testo

Per addestrare modelli di apprendimento automatico, gli algoritmi statistici utilizzano la matematica. La matematica, d'altra parte, funziona esclusivamente con i numeri.

Dobbiamo prima trasformare il testo in numeri affinché gli algoritmi statistici lo affrontino. Esistono tre modi di base per farlo: Bag of Words, TF-IDF e Word2Vec.

Fortunatamente, la classe TfidfVectorizer nel modulo Scikit-Learn di Python può essere utilizzata per trasformare le caratteristiche di testo in vettori di caratteristiche TF-IDF.

TF IDF

6. Creazione di set di test e training basati sui dati

Infine, dobbiamo dividere i nostri dati in set di addestramento e test prima di addestrare i nostri algoritmi.

Il set di addestramento verrà utilizzato per addestrare l'algoritmo e il set di test verrà utilizzato per valutare le prestazioni del modello di apprendimento automatico.

Prova del treno

7. Sviluppo del modello

Dopo che i dati sono stati separati in set di training e test, vengono utilizzate tecniche di machine learning per apprendere dai dati di training.

Puoi utilizzare qualsiasi algoritmo di apprendimento automatico. L'approccio Random Forest, tuttavia, verrà utilizzato per la sua capacità di far fronte a dati non normalizzati.

Modello di formazione

8. Previsioni e valutazione del modello

Dopo che il modello è stato addestrato, la fase finale è fare previsioni. Per fare ciò, dobbiamo applicare il metodo predict all'oggetto della classe RandomForestClassifier che abbiamo addestrato.

Previsione del modello

Infine, le misure di classificazione come le metriche di confusione, le misure F1, l'accuratezza e così via possono essere utilizzate per valutare le prestazioni dei modelli di apprendimento automatico.

Metriche di classificazione

Produzione:

Output delle metriche di classificazione

Il nostro algoritmo ha raggiunto una precisione di 75.30, come si vede dai risultati.

Conclusione

L'analisi del sentiment è uno dei lavori più frequenti nella PNL poiché aiuta a identificare l'opinione pubblica generale su una questione specifica.

Abbiamo visto come diverse librerie Python possono aiutare con l'analisi del sentimento.

Abbiamo condotto uno studio sui tweet pubblici su sei compagnie aeree statunitensi e abbiamo raggiunto una precisione di circa il 75%.

Ti suggerirei di provare un altro algoritmo di apprendimento automatico, come la regressione logistica, SVM o KNN, per vedere se puoi ottenere risultati migliori.

Analisi del sentiment NLP utilizzando Python

Che cos'è l'analisi del sentimento?

Vantaggi dell'analisi del sentimento