Аналіз настроїв НЛП за допомогою Python

Зміст[Сховати][Показати]

Що таке аналіз настроїв?
Переваги аналізу настроїв
Аналіз настроїв – постановка проблеми+-
Висновок

До 2021 року підприємства освоїть отримання даних про взаємодію зі споживачами.

З іншого боку, надмірна залежність від цих точок даних часто призводить до того, що організації розглядають внесок клієнтів як статистику – досить одновимірний підхід до прислухання до голосу клієнта.

Голос клієнта не можна позначити або перетворити на число.

Його потрібно прочитати, стиснути і, перш за все, зрозуміти.

Справа в тому, що компанії повинні активно прислухатися до того, що говорять їхні споживачі на кожному каналі, через який вони взаємодіють з ними, будь то телефонні дзвінки, електронні листи чи чат.

Кожна компанія повинна надавати пріоритет моніторингу та оцінці настроїв споживачів, але компанії традиційно намагаються обробляти ці дані та перетворювати їх у значущий інтелект.

Це більше не стосується аналізу настроїв.

У цьому підручнику ми докладніше розглянемо аналіз настроїв, його переваги та як використовувати НЛТК бібліотека для аналізу настроїв щодо даних.

Що таке аналіз настроїв?

Аналіз настроїв, часто відомий як аналіз розмов, є методом аналізу почуттів, думок і поглядів людей.

Аналіз настроїв дозволяє підприємствам краще зрозуміти своїх споживачів, збільшити дохід і покращити свої продукти та послуги на основі внеску клієнтів.

Різниця між програмною системою, здатною аналізувати настрої клієнтів, і продавцем/представником служби обслуговування клієнтів, який намагається це зробити, полягає в цілковитій здатності першої отримувати об’єктивні результати з необробленого тексту — це в першу чергу досягається за допомогою обробки природної мови (NLP) і навчання за допомогою машини методи.

Від ідентифікації емоцій до категоризації тексту аналіз настроїв має широкий спектр застосувань. Ми використовуємо аналіз настроїв на текстових даних, щоб допомогти фірмі відстежувати настрої оцінок продуктів або відгуків споживачів.

Різні сайти соціальних мереж використовують його для оцінки настроїв публікацій, і якщо емоції занадто сильні або жорстокі, або опускаються нижче їхнього порогу, публікація або видаляється, або приховується.

Аналіз настроїв можна використовувати для всього, від ідентифікації емоцій до категоризації тексту.

Найпопулярнішим використанням аналізу настроїв є текстові дані, де він використовується, щоб допомогти компанії відстежувати настрої оцінок продуктів або коментарів споживачів.

Різні сайти соціальних мереж також використовують його для оцінки настроїв публікацій, і якщо емоції занадто сильні або жорстокі, або опускаються нижче їхнього порогу, вони видаляють або приховують публікацію.

Переваги аналізу настроїв

Нижче наведено деякі з найважливіших переваг аналізу настроїв, які не слід нехтувати.

Допоможіть оцінити сприйняття вашого бренду серед цільової демографії.
Прямий відгук клієнтів надається, щоб допомогти вам у розробці вашого продукту.
Збільшує дохід від продажів і пошук потенційних клієнтів.
Можливості збільшення продажів для лідерів вашого продукту зросли.
Проактивне обслуговування клієнтів є практичним варіантом.

Цифри можуть надати вам таку інформацію, як необроблена ефективність маркетингової кампанії, кількість залучених у пошуковий дзвінок та кількість заявок, які очікують у службі підтримки клієнтів.

Однак він не розповість вам, чому сталася конкретна подія або що її викликало. Такі інструменти аналітики, як Google і Facebook, наприклад, можуть допомогти вам оцінити ефективність ваших маркетингових зусиль.

Але вони не дають вам глибоких знань про те, чому ця конкретна кампанія була успішною.

У цьому відношенні Аналіз настроїв може змінити гру.

Аналіз настроїв – постановка проблеми

Мета полягає в тому, щоб визначити, чи має твіт сприятливі, негативні чи нейтральні емоції щодо шести американських авіакомпаній на основі твітів.

Це стандартна робота з навчанням під керівництвом, у якій ми повинні класифікувати текстовий рядок за попередньо визначеними категоріями за допомогою текстового рядка.

рішення

Ми будемо використовувати стандартний процес машинного навчання для вирішення цієї проблеми. Ми почнемо з імпорту необхідних бібліотек і наборів даних.

Потім ми виконаємо дослідницький аналіз даних, щоб визначити, чи є якісь закономірності в даних. Після цього ми проведемо попередню обробку тексту, щоб перетворити введені текстові числові дані, які a навчання за допомогою машини система може використовувати.

Нарешті, ми навчимо та оцінимо наші моделі аналізу настроїв за допомогою методів машинного навчання.

1. Імпорт бібліотек

Завантажте необхідні бібліотеки.

Імпорт бібліотек

2. Імпорт набору даних

Ця стаття буде заснована на наборі даних, які можна знайти Github. Набір даних буде імпортовано за допомогою функції читання CSV Pandas, як показано нижче:

Імпорт набору даних

Використовуючи функцію head(), перегляньте перші п’ять рядків набору даних:

Головний набір даних

вихід:

Вихід набору даних Head

3. Аналіз даних

Давайте перевіримо дані, щоб визначити, чи є якісь тенденції. Але спочатку ми змінимо розмір діаграми за замовчуванням, щоб зробити діаграми більш видимими.

Налаштування розміру ділянки

Почнемо з кількості твітів, отриманих кожною авіакомпанією. Для цього ми скористаємося круговою діаграмою:

Кругова діаграма

Відсоток публічних твітів для кожної авіакомпанії відображається у виводі.

Виведення секторної діаграми

Давайте подивимося, як почуття розподіляються між усіма твітами.

Семантична кругова діаграма

вихід:

Вихід семантичної кругової діаграми

Тепер давайте розглянемо розподіл настроїв для кожної конкретної авіакомпанії.

Згідно з результатами, більшість твітів майже для всіх авіакомпаній є несприятливими, з нейтральними та хорошими твітами. Virgin America, мабуть, єдина авіакомпанія, де співвідношення трьох почуттів можна порівняти.

Розподіл кожної авіакомпанії

вихід:

Розподіл продукції кожної авіакомпанії

Нарешті, ми використаємо бібліотеку Seaborn, щоб отримати середній рівень довіри для твітів із трьох категорій настроїв.

Барна ділянка

вихід:

Вихід стовпчикової діаграми

Результат показує, що рівень довіри до негативних твітів вищий, ніж до позитивних або нейтральних твітів.

4. Очищення даних

Багато сленгових термінів і розділових знаків можна знайти в твітах. Перш ніж ми зможемо навчити модель машинного навчання, нам потрібно очистити наші твіти.

Однак, перш ніж ми почнемо очищати твіти, ми повинні розділити наш набір даних на набори функцій і міток.

Функції та етикетки

Ми можемо очистити дані, коли розділимо їх на функції та навчальні набори. Для цього будуть використані регулярні вирази.

Регулярні вирази

5. Числове представлення тексту

Для навчання моделей машинного навчання статистичні алгоритми використовують математику. З іншого боку, математика працює виключно з числами.

Спочатку ми повинні перетворити текст у числа, щоб статистичні алгоритми могли з ним працювати. Є три основні способи зробити це: Bag of Words, TF-IDF і Word2Vec.

На щастя, клас TfidfVectorizer у модулі Python Scikit-Learn можна використовувати для перетворення текстових об’єктів у вектори функцій TF-IDF.

TF IDF

6. Створення навчальних і тестових наборів на основі даних

Нарешті, ми повинні розділити наші дані на навчальні та тестові набори, перш ніж навчати наші алгоритми.

Навчальний набір буде використовуватися для навчання алгоритму, а тестовий набір — для оцінки продуктивності моделі машинного навчання.

Тест на поїзд

7. Розробка моделі

Після того, як дані були розділені на навчальні та тестові набори, використовуються методи машинного навчання для вивчення навчальних даних.

Ви можете використовувати будь-який алгоритм машинного навчання. Підхід випадкового лісу, однак, буде використовуватися через його здатність справлятися з ненормалізованими даними.

Модельне навчання

8. Прогнозування та оцінка моделі

Після навчання моделі останнім етапом є прогнозування. Для цього ми повинні застосувати метод predict до об’єкта класу RandomForestClassifier, який ми навчили.

Прогноз моделі

Нарешті, для оцінки ефективності моделей машинного навчання можна використовувати такі класифікаційні показники, як показники плутанини, показники F1, точність тощо.

Метрики класифікації

вихід:

Вихід показників класифікації

Як видно з результатів, наш алгоритм досяг точності 75.30.

Висновок

Аналіз настроїв є однією з найпоширеніших завдань НЛП, оскільки допомагає визначити загальну громадську думку щодо певної проблеми.

Ми побачили, як кілька бібліотек Python можуть допомогти з аналізом настроїв.

Ми провели дослідження публічних твітів про шість американських авіакомпаній і досягли точності приблизно 75%.

Я б запропонував вам спробувати інший алгоритм машинного навчання, наприклад, логістичну регресію, SVM або KNN, щоб побачити, чи зможете ви досягти кращих результатів.

Аналіз настроїв НЛП за допомогою Python

Що таке аналіз настроїв?

Переваги аналізу настроїв