Análise de sentimentos PNL usando Python

Índice analítico[Ocultar][Mostrar]

Que é a análise de sentimentos?
Beneficios da análise de sentimentos
Análise de sentimentos - Declaración do problema+-
Conclusión

As empresas dominarán a adquisición de datos de interacción dos consumidores en 2021.

A dependencia excesiva destes puntos de datos, por outra banda, leva con frecuencia a que as organizacións traten a entrada do cliente como unha estatística, un enfoque bastante unidimensional para escoitar a voz do cliente.

A voz do cliente non pode ser identificada nin converter nun número.

Hai que ler, condensar e, sobre todo, comprender.

O caso é que as empresas deben escoitar activamente o que os seus consumidores teñen que dicir en cada canle a través das que interactúan con eles, xa sexa a través de chamadas telefónicas, correos electrónicos ou chat en directo.

Todas as empresas deberían priorizar o seguimento e a avaliación do sentimento dos comentarios dos consumidores, pero as empresas tradicionalmente teñen dificultades para xestionar estes datos e transformalos en intelixencia significativa.

Este xa non é o caso da análise de sentimentos.

Neste titorial, analizaremos máis de cerca a análise de sentimentos, as súas vantaxes e como usar NLTK biblioteca para facer análise de sentimentos sobre os datos.

Que é a análise de sentimentos?

A análise de sentimentos, a miúdo coñecida como minería de conversas, é un método para analizar os sentimentos, pensamentos e opinións das persoas.

A análise de sentimentos permite ás empresas comprender mellor os seus consumidores, aumentar os ingresos e mellorar os seus produtos e servizos en función da entrada do cliente.

A diferenza entre un sistema de software capaz de analizar o sentimento do cliente e un vendedor/representante de servizo ao cliente que intenta deducilo é a mera capacidade do primeiro para obter resultados obxectivos do texto en bruto; isto conséguese principalmente mediante o procesamento da linguaxe natural (NLP) e aprendizaxe de máquina técnicas.

Desde a identificación de emocións ata a categorización de textos, a análise de sentimentos ten unha ampla gama de aplicacións. Empregamos análise de sentimentos sobre datos textuais para axudar a unha empresa a supervisar o sentimento das avaliacións de produtos ou os comentarios dos consumidores.

Diferentes sitios de redes sociais úsano para avaliar o sentimento das publicacións e, se a emoción é demasiado forte ou violenta, ou cae por debaixo do seu limiar, a publicación elimínase ou escóndese.

A análise de sentimentos pódese usar para todo, desde a identificación de emocións ata a categorización de textos.

O uso máis popular da análise de sentimentos é en datos textuais, onde se usa para axudar a unha empresa a rastrexar o sentimento das avaliacións de produtos ou os comentarios dos consumidores.

Diferentes sitios de redes sociais tamén o utilizan para avaliar o sentimento das publicacións e, se a emoción é demasiado forte ou violenta, ou cae por debaixo do seu limiar, eliminan ou ocultan a publicación.

Beneficios da análise de sentimentos

Os seguintes son algúns dos beneficios máis importantes da análise de sentimentos que non se deben ignorar.

Axuda a avaliar a percepción da túa marca entre o teu grupo demográfico obxectivo.
Ofrécense comentarios directos dos clientes para axudarche a desenvolver o teu produto.
Aumenta os ingresos por vendas e a prospección.
As oportunidades de venda adicional para os campións do teu produto aumentaron.
O servizo proactivo ao cliente é unha opción práctica.

Numbers pode fornecerche información como o rendemento bruto dunha campaña de mercadotecnia, a cantidade de compromiso nunha chamada de prospección e o número de tickets pendentes de atención ao cliente.

Non obstante, non che dirá por que ocorreu un evento específico nin o que o causou. Ferramentas analíticas como Google e Facebook, por exemplo, poden axudarche a avaliar o rendemento dos teus esforzos de mercadotecnia.

Pero non che proporcionan un coñecemento profundo de por que esa campaña específica tivo éxito.

A análise de sentimentos ten o potencial de cambiar o xogo neste sentido.

Análise de sentimentos - Declaración do problema

O obxectivo é determinar se un chío ten emocións favorables, negativas ou neutrales respecto de seis compañías aéreas estadounidenses en función dos chíos.

Este é un traballo de aprendizaxe supervisado estándar no que debemos categorizar unha cadea de texto en categorías predeterminadas dada unha cadea de texto.

solución

Usaremos o proceso estándar de aprendizaxe automática para solucionar este problema. Comezaremos importando as bibliotecas e conxuntos de datos necesarios.

Despois faremos unha análise exploratoria de datos para determinar se hai algún patrón nos datos. Despois diso, realizaremos o preprocesamento de texto para converter os datos numéricos de entrada de texto que a aprendizaxe de máquina sistema pode usar.

Finalmente, adestraremos e avaliaremos os nosos modelos de análise de sentimentos mediante métodos de aprendizaxe automática.

1. Importar bibliotecas

Carga as bibliotecas necesarias.

Importación de bibliotecas

2. Importar conxunto de datos

Este artigo basearase nun conxunto de datos que se pode atopar en Github. O conxunto de datos importarase mediante a función de lectura CSV de Pandas, como se ve a continuación:

Importando conxunto de datos

Usando a función head(), examine as cinco primeiras filas do conxunto de datos:

Conjunto de datos de cabeza

saída:

Saída do conxunto de datos da cabeza

3. Análise dos Datos

Examinemos os datos para determinar se hai tendencias. Pero primeiro, cambiaremos o tamaño de trazado predeterminado para que os gráficos sexan máis visibles.

Axuste do tamaño da parcela

Comecemos polo número de chíos recibidos por cada compañía aérea. Usaremos un gráfico circular para iso:

Gráfico de pezas

A porcentaxe de chíos públicos de cada compañía aérea móstrase na saída.

Saída do gráfico circular

Vexamos como se distribúen os sentimentos en todos os chíos.

Gráfico circular semántico

saída:

Saída do gráfico circular semántico

Examinemos agora a distribución do sentimento para cada compañía aérea específica.

Segundo os resultados, a maioría dos chíos de case todas as compañías aéreas son desfavorables, con chíos neutros e bos seguindo. Virgin America é quizais a única compañía aérea onde a proporción dos tres sentimentos é comparable.

Distribución de cada compañía aérea

saída:

Distribución da saída de cada compañía aérea

Finalmente, usaremos a biblioteca Seaborn para obter o nivel de confianza medio dos chíos de tres categorías de sentimentos.

Parcela de bar

saída:

Saída do gráfico de barras

O resultado mostra que o nivel de confianza dos chíos negativos é maior que dos chíos positivos ou neutros.

4. Limpeza dos datos

Moitos termos de argot e signos de puntuación pódense atopar nos chíos. Antes de poder adestrar o modelo de aprendizaxe automática, necesitamos limpar os nosos chíos.

Non obstante, antes de comezar a limpar os chíos, debemos separar o noso conxunto de datos en conxuntos de funcións e etiquetas.

Características e etiquetas

Podemos limpar os datos unha vez que os separamos en funcións e conxuntos de adestramento. Para iso utilizaranse expresións regulares.

Expresión regular

5. Representación numérica do texto

Para adestrar modelos de aprendizaxe automática, os algoritmos estatísticos empregan as matemáticas. As matemáticas, pola contra, só traballan con números.

Primeiro debemos transformar o texto en números para que os algoritmos estatísticos o traten. Hai tres formas básicas de facelo: Bag of Words, TF-IDF e Word2Vec.

Afortunadamente, a clase TfidfVectorizer do módulo Scikit-Learn de Python pódese usar para transformar características de texto en vectores de características TF-IDF.

TF IDF

6. Creación de conxuntos de probas e formación baseados en datos

Finalmente, debemos dividir os nosos datos en conxuntos de adestramento e probas antes de adestrar os nosos algoritmos.

O conxunto de adestramento empregarase para adestrar o algoritmo e o conxunto de probas para avaliar o rendemento do modelo de aprendizaxe automática.

Proba de tren

7. Desenvolvemento do modelo

Despois de que os datos sexan separados en conxuntos de adestramento e probas, utilízanse técnicas de aprendizaxe automática para aprender dos datos de adestramento.

Podes usar calquera algoritmo de aprendizaxe automática. Non obstante, empregarase o enfoque Random Forest debido á súa capacidade para xestionar datos non normalizados.

Formación de modelos

8. Predicións e Modelo de Avaliación

Despois de adestrar o modelo, a fase final é facer predicións. Para iso, debemos aplicar o método predict ao obxecto de clase RandomForestClassifier que adestramos.

Predición do modelo

Finalmente, as medidas de clasificación como as métricas de confusión, as medidas F1, a precisión, etc., pódense utilizar para avaliar o rendemento dos modelos de aprendizaxe automática.

Métricas de clasificación

saída:

Saída de Métricas de Clasificación

O noso algoritmo acadou unha precisión de 75.30, como se aprecia nos resultados.

Conclusión

A análise de sentimentos é un dos traballos de PNL máis frecuentes xa que axuda a identificar a opinión pública global sobre un tema específico.

Vimos como varias bibliotecas de Python poden axudar coa análise de sentimentos.

Levamos a cabo un estudo de chíos públicos sobre seis compañías aéreas estadounidenses e alcanzamos unha precisión de aproximadamente o 75%.

Suxeriríache que probes outro algoritmo de aprendizaxe automática, como a regresión loxística, SVM ou KNN, para ver se podes conseguir mellores resultados.

Análise de sentimentos PNL usando Python

Que é a análise de sentimentos?

Beneficios da análise de sentimentos