Анализа на чувствата на НЛП користејќи Python

Содржина[Крие][Прикажи]

Што е сентиментална анализа?
Придобивки од анализата на чувствата
Анализа на чувства – Изјава за проблем+-
Заклучок

Бизнисите ќе го совладаат стекнувањето податоци за интеракцијата на потрошувачите до 2021 година.

Преголемото потпирање на овие точки на податоци, од друга страна, често доведува до тоа организациите да го третираат внесувањето на клиентите како статистика - прилично еднодимензионален пристап за слушање на гласот на клиентот.

Гласот на клиентот не може да се означи или да се претвори во број.

Мора да се прочита, кондензира и, пред сè, да се разбере.

Факт е дека компаниите мора активно да слушаат што имаат да кажат нивните потрошувачи на секој канал преку кој тие комуницираат со нив, без разлика дали тоа е преку телефонски повици, е-пошта или разговор во живо.

Секоја компанија треба да има приоритет на следењето и оценувањето на повратните информации од потрошувачите, но компаниите традиционално се мачат да ракуваат со овие податоци и да ги трансформираат во значајна интелигенција.

Ова повеќе не е случај со Анализата на чувствата.

Во ова упатство, ќе ја разгледаме поблиску анализата на чувствата, нејзините предности и како да се користи НЛТК библиотека да направи сентиментална анализа на податоците.

Што е сентиментална анализа?

Анализата на чувствата, често позната како рударство за разговор, е метод за анализа на чувствата, мислите и погледите на луѓето.

Анализата на чувствата им овозможува на бизнисите да стекнат подобро разбирање за нивните потрошувачи, да ги зголемат приходите и да ги подобрат своите производи и услуги врз основа на придонесот на клиентите.

Разликата помеѓу софтверски систем способен да го анализира расположението на клиентите и претставникот на продавачот/услугата за клиенти кој се обидува да го заклучи тоа е чистата способност на првиот да изведе објективни резултати од необработениот текст - ова првенствено се постигнува преку обработка на природен јазик (НЛП) и машинско учење техники.

Од идентификација на емоции до категоризација на текст, анализата на чувствата има широк опсег на апликации. Ние користиме анализа на чувствата на текстуалните податоци за да и помогнеме на фирмата да го следи расположението за проценките на производите или повратните информации од потрошувачите.

Различни социјални мрежи го користат за да го проценат чувството на објавите, а ако емоцијата е премногу силна или насилна или падне под нивниот праг, објавата или се брише или се крие.

Анализата на чувствата може да се користи за сè, од идентификација на емоции до категоризација на текст.

Најпопуларната употреба на анализа на чувствата е на текстуални податоци, каде што се користи за да и помогне на компанијата во следењето на чувствата за проценките на производите или коментарите на потрошувачите.

Различни социјални мрежи исто така го користат за да го проценат чувството на објавите, а ако емоцијата е премногу силна или насилна или падне под нивниот праг, тие ја бришат или прикриваат објавата.

Придобивки од анализата на чувствата

Следниве се некои од најважните придобивки од анализата на чувствата кои не треба да се занемарат.

Помогнете во проценката на перцепцијата на вашиот бренд меѓу целните демографски податоци.
Обезбедени се директни повратни информации од клиентите за да ви помогнат во развојот на вашиот производ.
Ги зголемува приходите од продажба и пребарувањето.
Можностите за надпродажба за шампионите на вашиот производ се зголемија.
Проактивна услуга за клиенти е практична опција.

Броевите може да ви дадат информации како што се необработените перформанси на маркетинг кампања, износот на ангажирање во повикот за пребарување и бројот на билети што чекаат за поддршка на корисниците.

Сепак, нема да ви каже зошто се случил конкретен настан или што го предизвикало. Алатките за аналитика како Google и Facebook, на пример, можат да ви помогнат да ги процените перформансите на вашите маркетинг напори.

Но, тие не ви даваат длабинско знаење зошто таа конкретна кампања беше успешна.

Анализата на чувствата има потенцијал да ја промени играта во овој поглед.

Анализа на чувства – Изјава за проблем

Целта е да се утврди дали твитот има поволни, негативни или неутрални емоции во однос на шест американски авиокомпании врз основа на твитови.

Ова е стандардна надгледувана работа за учење во која мораме да категоризираме текстуална низа во предодредени категории со дадена текстуална низа.

Решение

Ќе го користиме стандардниот процес на машинско учење за да го решиме овој проблем. Ќе започнеме со увоз на потребните библиотеки и сетови на податоци.

Потоа ќе извршиме некоја истражувачка анализа на податоци за да утврдиме дали има некакви обрасци во податоците. После тоа, ќе преземеме претходна обработка на текстот за да ги претвориме нумеричките податоци за внесување текстуален а машинско учење системот може да користи.

Конечно, ќе ги обучиме и оцениме нашите модели за анализа на чувствата користејќи методи за машинско учење.

1. Увоз на библиотеки

Вчитајте ги потребните библиотеки.

Увоз на библиотеки

2. Увезете сет на податоци

Оваа статија ќе се заснова на база на податоци што може да се најде на Github. Базата на податоци ќе се увезе со користење на функцијата за читање CSV на Pandas, како што се гледа подолу:

Увоз на збирка на податоци

Користејќи ја функцијата head(), испитајте ги првите пет редови на датата на податоци:

Збир на податоци за глава

излез:

Излез од збирката на податоци за глава

3. Анализа на податоците

Дозволете ни да ги испитаме податоците за да утврдиме дали има некакви трендови. Но, прво, ќе ја промениме стандардната големина на заплетот за да ги направиме графиконите повидливи.

Прилагодување на големината на парцелата

Да почнеме со бројот на твитови добиени од секоја авиокомпанија. За ова ќе користиме пита шема:

Пит табела

Процентот на јавни твитови за секоја авиокомпанија се прикажува на излезот.

Излез на графикон со пити

Ајде да погледнеме како чувствата се распределени на сите твитови.

Табела со семантички пити

излез:

Излез на графикон за семантички пити

Сега да ја испитаме распределбата на чувствата за секоја специфична авиокомпанија.

Според резултатите, најголемиот дел од твитови за речиси сите авиокомпании се неповолни, а следат неутрални и добри твитови. Вирџин Америка е можеби единствената авиокомпанија каде процентот на трите чувства е споредлив.

Дистрибуција на секоја авиокомпанија

излез:

Дистрибуција на секоја авиокомпанија излез

Конечно, ќе ја користиме библиотеката Seaborn за да го добиеме просечното ниво на доверба за твитови од три категории на чувства.

Бар Парцела

излез:

Излез на парцела со шипки

Резултатот покажува дека нивото на доверба за негативни твитови е поголемо отколку за позитивни или неутрални твитови.

4. Чистење на податоците

Многу сленг термини и интерпункциски знаци може да се најдат во твитовите. Пред да можеме да го обучиме моделот за машинско учење, треба да ги исчистиме нашите твитови.

Сепак, пред да започнеме со чистење на твитовите, треба да го одвоиме нашиот сет на сетови од карактеристики и етикети.

Карактеристики и етикети

Можеме да ги исчистиме податоците откако ќе ги поделиме на функции и комплети за обука. За ова ќе се користат редовни изрази.

Редовно изразување

5. Нумеричко претставување на текстот

За обука на модели за машинско учење, статистичките алгоритми користат математика. Математиката, од друга страна, работи само со бројки.

Прво мораме да го трансформираме текстот во бројки за статистичките алгоритми да се справат со него. Постојат три основни начини за тоа: Bag of Words, TF-IDF и Word2Vec.

За среќа, класата TfidfVetorizer во модулот Scikit-Learn на Python може да се користи за трансформирање на текстуалните карактеристики во вектори на карактеристики TF-IDF.

ТФ ИД

6. Креирање на сетови за обука и тестови засновани на податоци

Конечно, мораме да ги поделиме нашите податоци на комплети за обука и тестирање пред да ги обучиме нашите алгоритми.

Сетот за обука ќе се користи за обука на алгоритмот, а тест множеството ќе се користи за проценка на перформансите на моделот за машинско учење.

Тест за воз

7. Развој на модел

Откако податоците ќе се поделат на сетови за обука и тестови, техниките за машинско учење се користат за учење од податоците за обуката.

Можете да користите кој било алгоритам за машинско учење. Пристапот Random Forest, сепак, ќе се користи поради неговата способност да се справи со ненормализирани податоци.

Обука за модели

8. Предвидувања и евалуација на моделот

Откако моделот е обучен, последната фаза е да се направат предвидувања. За да го направите ова, мораме да го примениме методот на предвидување на објектот од класата RandomForestClassifier што го обучивме.

Модел предвидување

Конечно, мерките за класификација како метрика на конфузија, F1 мерки, точност и така натаму може да се користат за да се оценат перформансите на моделите за машинско учење.

Метрика на класификација

излез:

Излез на метрика на класификација

Нашиот алгоритам постигна точност од 75.30, што се гледа од резултатите.

Заклучок

Анализата на чувствата е една од најчестите НЛП работни места бидејќи помага да се идентификува целокупното јавно мислење за одредено прашање.

Видовме како неколку библиотеки на Python можат да помогнат во анализата на чувствата.

Спроведовме студија на јавни твитови за шест американски авиокомпании и достигнавме точност од приближно 75%.

Би предложил да пробате друг алгоритам за машинско учење, како што се логистичка регресија, SVM или KNN, за да видите дали можете да постигнете подобри резултати.

Анализа на чувствата на НЛП со помош на Пајтон

Што е сентиментална анализа?

Придобивки од анализата на чувствата