Sommario[Nascondere][Spettacolo]
Le aziende avranno imparato l'acquisizione dei dati sull'interazione dei consumatori entro il 2021.
L'eccessivo affidamento su questi punti dati, d'altra parte, porta spesso le organizzazioni a considerare l'input dei clienti come una statistica, un approccio piuttosto unidimensionale all'ascolto della voce del cliente.
La voce del cliente non può essere timbrata o convertita in un numero.
Va letto, condensato e, soprattutto, compreso.
Il fatto è che le aziende devono ascoltare attivamente ciò che i loro consumatori hanno da dire su ogni canale attraverso il quale interagiscono con loro, che si tratti di telefonate, e-mail o chat dal vivo.
Ogni azienda dovrebbe dare la priorità al monitoraggio e alla valutazione del feedback dei consumatori, ma tradizionalmente le aziende hanno lottato per gestire questi dati e trasformarli in informazioni significative.
Questo non è più il caso dell'analisi del sentimento.
In questo tutorial, daremo un'occhiata più da vicino all'analisi del sentimento, ai suoi vantaggi e a come utilizzare il NLTK libreria per eseguire analisi del sentimento sui dati.
Che cos'è l'analisi del sentimento?
L'analisi del sentimento, spesso nota come mining di conversazioni, è un metodo per analizzare i sentimenti, i pensieri e le opinioni delle persone.
L'analisi del sentiment consente alle aziende di comprendere meglio i propri consumatori, aumentare le entrate e migliorare i propri prodotti e servizi in base all'input dei clienti.
La differenza tra un sistema software in grado di analizzare il sentiment del cliente e un venditore/rappresentante del servizio clienti che tenta di dedurlo è la pura capacità del primo di ricavare risultati oggettivi dal testo grezzo — ciò si ottiene principalmente attraverso l'elaborazione del linguaggio naturale (NLP) e machine learning tecniche.
Dall'identificazione delle emozioni alla categorizzazione del testo, l'analisi del sentimento ha un'ampia gamma di applicazioni. Utilizziamo l'analisi del sentimento sui dati testuali per aiutare un'azienda a monitorare il sentimento delle valutazioni dei prodotti o del feedback dei consumatori.
Diversi siti di social media lo utilizzano per valutare il sentimento dei post e se l'emozione è troppo forte o violenta o scende al di sotto della loro soglia, il post viene eliminato o nascosto.
L'analisi del sentimento può essere utilizzata per qualsiasi cosa, dall'identificazione delle emozioni alla categorizzazione del testo.
L'uso più diffuso dell'analisi del sentimento è sui dati testuali, dove viene utilizzato per aiutare un'azienda a tenere traccia del sentimento delle valutazioni dei prodotti o dei commenti dei consumatori.
Diversi siti di social media lo usano anche per valutare il sentimento dei post e se l'emozione è troppo forte o violenta o scende al di sotto della loro soglia, eliminano o nascondono il post.
Vantaggi dell'analisi del sentimento
Di seguito sono riportati alcuni dei vantaggi più importanti dell'analisi del sentimento che non dovrebbero essere ignorati.
- Aiuta a valutare la percezione del tuo marchio tra i tuoi target demografici.
- Il feedback diretto del cliente viene fornito per aiutarti nello sviluppo del tuo prodotto.
- Aumenta il fatturato e la prospezione.
- Le opportunità di upsell per i campioni del tuo prodotto sono aumentate.
- Il servizio clienti proattivo è un'opzione pratica.
I numeri possono fornirti informazioni come la performance grezza di una campagna di marketing, la quantità di coinvolgimento in una chiamata di prospecting e il numero di ticket in sospeso nell'assistenza clienti.
Tuttavia, non ti dirà perché si è verificato un evento specifico o cosa lo ha causato. Strumenti di analisi come Google e Facebook, ad esempio, possono aiutarti a valutare le prestazioni dei tuoi sforzi di marketing.
Ma non ti forniscono una conoscenza approfondita del motivo per cui quella specifica campagna ha avuto successo.
L'analisi del sentimento ha il potenziale per cambiare il gioco in questo senso.
Analisi del sentimento - Dichiarazione del problema
L'obiettivo è determinare se un tweet ha un'emozione favorevole, negativa o neutra nei confronti di sei compagnie aeree statunitensi sulla base dei tweet.
Questo è un lavoro di apprendimento supervisionato standard in cui dobbiamo classificare una stringa di testo in categorie predeterminate data una stringa di testo.
Soluzione
Utilizzeremo il processo di apprendimento automatico standard per risolvere questo problema. Inizieremo importando le librerie e i set di dati necessari.
Quindi eseguiremo alcune analisi esplorative dei dati per determinare se sono presenti modelli nei dati. Successivamente, eseguiremo la preelaborazione del testo per trasformare i dati numerici di input testuali che a machine learning il sistema può utilizzare.
Infine, addestreremo e valuteremo i nostri modelli di analisi del sentimento utilizzando metodi di apprendimento automatico.
1. Importazione di librerie
Carica le librerie necessarie.
2. Importa set di dati
Questo articolo sarà basato su un set di dati che può essere trovato su Github. Il set di dati verrà importato utilizzando la funzione CSV di lettura di Pandas, come mostrato di seguito:
Usando la funzione head(), esamina le prime cinque righe del set di dati:
Produzione:
3. Analisi dei Dati
Esaminiamo i dati per determinare se ci sono tendenze. Ma prima cambieremo la dimensione del grafico di default per rendere i grafici più visibili.
Cominciamo con il numero di tweet ricevuti da ciascuna compagnia aerea. Useremo un grafico a torta per questo:
La percentuale di tweet pubblici per ciascuna compagnia aerea viene visualizzata nell'output.
Diamo un'occhiata a come sono distribuiti i sentimenti su tutti i tweet.
Produzione:
Esaminiamo ora la distribuzione del sentimento per ciascuna compagnia aerea specifica.
Secondo i risultati, la maggior parte dei tweet per quasi tutte le compagnie aeree è sfavorevole, seguita da tweet neutri e buoni. Virgin America è forse l'unica compagnia aerea in cui la proporzione dei tre sentimenti è paragonabile.
Produzione:
Infine, utilizzeremo la libreria Seaborn per ottenere il livello di confidenza medio per i tweet di tre categorie di sentimenti.
Produzione:
Il risultato mostra che il livello di confidenza per i tweet negativi è maggiore rispetto ai tweet positivi o neutri.
4. Pulizia dei dati
Molti termini gergali e segni di punteggiatura possono essere trovati nei tweet. Prima di poter addestrare il modello di apprendimento automatico, dobbiamo pulire i nostri tweet.
Tuttavia, prima di iniziare a pulire i tweet, dovremmo separare il nostro set di dati in set di funzionalità ed etichette.
Possiamo pulire i dati dopo averli separati in funzionalità e set di addestramento. A tale scopo verranno utilizzate espressioni regolari.
5. Rappresentazione numerica del testo
Per addestrare modelli di apprendimento automatico, gli algoritmi statistici utilizzano la matematica. La matematica, d'altra parte, funziona esclusivamente con i numeri.
Dobbiamo prima trasformare il testo in numeri affinché gli algoritmi statistici lo affrontino. Esistono tre modi di base per farlo: Bag of Words, TF-IDF e Word2Vec.
Fortunatamente, la classe TfidfVectorizer nel modulo Scikit-Learn di Python può essere utilizzata per trasformare le caratteristiche di testo in vettori di caratteristiche TF-IDF.
6. Creazione di set di test e training basati sui dati
Infine, dobbiamo dividere i nostri dati in set di addestramento e test prima di addestrare i nostri algoritmi.
Il set di addestramento verrà utilizzato per addestrare l'algoritmo e il set di test verrà utilizzato per valutare le prestazioni del modello di apprendimento automatico.
7. Sviluppo del modello
Dopo che i dati sono stati separati in set di training e test, vengono utilizzate tecniche di machine learning per apprendere dai dati di training.
Puoi utilizzare qualsiasi algoritmo di apprendimento automatico. L'approccio Random Forest, tuttavia, verrà utilizzato per la sua capacità di far fronte a dati non normalizzati.
8. Previsioni e valutazione del modello
Dopo che il modello è stato addestrato, la fase finale è fare previsioni. Per fare ciò, dobbiamo applicare il metodo predict all'oggetto della classe RandomForestClassifier che abbiamo addestrato.
Infine, le misure di classificazione come le metriche di confusione, le misure F1, l'accuratezza e così via possono essere utilizzate per valutare le prestazioni dei modelli di apprendimento automatico.
Produzione:
Il nostro algoritmo ha raggiunto una precisione di 75.30, come si vede dai risultati.
Conclusione
L'analisi del sentiment è uno dei lavori più frequenti nella PNL poiché aiuta a identificare l'opinione pubblica generale su una questione specifica.
Abbiamo visto come diverse librerie Python possono aiutare con l'analisi del sentimento.
Abbiamo condotto uno studio sui tweet pubblici su sei compagnie aeree statunitensi e abbiamo raggiunto una precisione di circa il 75%.
Ti suggerirei di provare un altro algoritmo di apprendimento automatico, come la regressione logistica, SVM o KNN, per vedere se puoi ottenere risultati migliori.
Lascia un Commento