Анализа НЛП расположења помоћу Питхон-а

Преглед садржаја[Сакрити][Прикажи]

Шта је анализа осећања?
Предности анализе осећања
Анализа расположења – Изјава о проблему+-
Zakljucak

Предузећа ће савладати прикупљање података о интеракцији потрошача до 2021.

Претерано ослањање на ове тачке података, с друге стране, често доводи до тога да организације третирају унос корисника као статистику – прилично једнодимензионалан приступ слушању гласа корисника.

Глас клијента не може бити означен или конвертован у број.

Мора се прочитати, сажети и, изнад свега, схватити.

Чињеница је да компаније морају активно да слушају шта њихови потрошачи имају да кажу на сваком каналу преко којег комуницирају са њима, било да се ради о телефонским позивима, имејловима или ћаскању уживо.

Свака компанија треба да даје приоритет праћењу и оцењивању повратних информација потрошача, али компаније се традиционално боре да обрађују ове податке и трансформишу их у смислену интелигенцију.

Ово више није случај са анализом осећања.

У овом водичу ћемо детаљније погледати анализу осећања, њене предности и како да користимо НЛТК библиотеку да уради анализу расположења података.

Шта је анализа осећања?

Анализа осећања, често позната као рударење разговора, је метод за анализу осећања, мисли и ставова људи.

Анализа сентимента омогућава предузећима да боље разумеју своје потрошаче, повећају приход и унапреде своје производе и услуге на основу уноса клијената.

Разлика између софтверског система способног да анализира расположење купаца и представника продаје/корисничке службе који покушава да то закључи је у томе што први може да извуче објективне резултате из сировог текста — ово се првенствено постиже обрадом природног језика (НЛП) и Машина учење технике.

Од идентификације емоција до категоризације текста, анализа осећања има широк спектар примена. Користимо анализу сентимента на текстуалним подацима како бисмо помогли фирми да прати расположење процена производа или повратних информација потрошача.

Различити сајтови друштвених медија га користе за процену сентимента објава, а ако је емоција прејака или насилна, или падне испод њиховог прага, објава се или брише или сакрива.

Анализа осећања се може користити за све, од идентификације емоција до категоризације текста.

Најпопуларнија употреба анализе сентимента је на текстуалним подацима, где се користи да помогне компанији у праћењу сентимента оцена производа или коментара потрошача.

Различити сајтови друштвених медија га такође користе за процену сентимента објава, а ако је емоција прејака или насилна, или падне испод њиховог прага, објаву бришу или сакривају.

Предности анализе осећања

У наставку су неке од најважнијих предности анализе сентимента које не треба занемарити.

Помозите у процени перцепције вашег бренда међу вашим циљним демографским категоријама.
Директне повратне информације клијената су обезбеђене да вам помогну у развоју вашег производа.
Повећава приход од продаје и тражење.
Повећале су се могућности веће продаје за шампионе вашег производа.
Проактивна служба за кориснике је практична опција.

Бројеви вам могу пружити информације као што су сирови учинак маркетиншке кампање, количина ангажовања у позиву за тражење и број тикета на чекању у корисничкој подршци.

Међутим, неће вам рећи зашто се десио одређени догађај или шта га је изазвало. Алати за аналитику као што су Гоогле и Фацебоок, на пример, могу вам помоћи да процените учинак ваших маркетиншких напора.

Али они вам не пружају детаљно знање о томе зашто је та конкретна кампања била успешна.

Анализа осећања има потенцијал да промени игру у овом погледу.

Анализа расположења – Изјава о проблему

Циљ је да се утврди да ли твит има повољне, негативне или неутралне емоције у вези са шест америчких авио-компанија на основу твитова.

Ово је стандардни задатак учења под надзором у којем морамо категоризовати текстуални низ у унапред одређене категорије датим текстуалним низом.

Решење

Користићемо стандардни процес машинског учења да решимо овај проблем. Почећемо са увозом потребних библиотека и скупова података.

Затим ћемо извршити неку истраживачку анализу података да бисмо утврдили да ли постоје обрасци у подацима. Након тога, ми ћемо предузети претходну обраду текста да бисмо претворили текстуалне уносне нумеричке податке које а Машина учење систем може да користи.

Коначно, ми ћемо обучити и проценити наше моделе анализе осећања користећи методе машинског учења.

1. Увоз библиотека

Учитајте потребне библиотеке.

Увоз библиотека

2. Увезите скуп података

Овај чланак ће се заснивати на скупу података који се може пронаћи Гитхуб. Скуп података ће бити увезен помоћу Пандасове ЦСВ функције за читање, као што се види у наставку:

Увоз скупа података

Користећи функцију хеад(), испитајте првих пет редова скупа података:

Хеад Датасет

Излаз:

Излаз скупа података главе

3. Анализа података

Хајде да испитамо податке да бисмо утврдили да ли постоје трендови. Али прво ћемо променити подразумевану величину графикона да бисмо графиконе учинили видљивијим.

Подешавање величине парцеле

Почнимо са бројем твитова које је примила свака авиокомпанија. За ово ћемо користити кружни графикон:

pie Цхарт

Проценат јавних твитова за сваку авио-компанију је приказан у излазу.

Излаз тортног графикона

Хајде да погледамо како су осећања распоређена на све твитове.

Семантички тортни графикон

Излаз:

Излаз семантичког кружног графикона

Хајде да сада испитамо дистрибуцију осећања за сваку конкретну авио-компанију.

Према резултатима, већина твитова за скоро све авио-компаније је неповољна, а следе неутрални и добри твитови. Виргин Америца је можда једина авио-компанија у којој је пропорција три осећања упоредива.

Дистрибуција сваке авио-компаније

Излаз:

Дистрибуција сваке авиокомпаније

Коначно, користићемо Сеаборн библиотеку да добијемо просечни ниво поузданости за твитове из три категорије осећања.

Бар Плот

Излаз:

Бар Плот Оутпут

Резултат показује да је ниво поверења за негативне твитове већи него за позитивне или неутралне твитове.

4. Чишћење података

Многи сленг изрази и знаци интерпункције могу се наћи у твитовима. Пре него што можемо да обучимо модел машинског учења, морамо да очистимо наше твитове.

Међутим, пре него што почнемо да чистимо твитове, требало би да одвојимо наш скуп података на скупове функција и скупове ознака.

Карактеристике и ознаке

Можемо да очистимо податке када их раздвојимо на функције и скупове за обуку. За ово ће се користити регуларни изрази.

Регуларни израз

5. Нумеричко представљање текста

За обуку модела машинског учења, статистички алгоритми користе математику. Математика, с друге стране, ради искључиво са бројевима.

Прво морамо да трансформишемо текст у бројеве да би се статистички алгоритми могли бавити њиме. Постоје три основна начина за то: Баг оф Вордс, ТФ-ИДФ и Ворд2Вец.

На срећу, класа ТфидфВецторизер у Питхон-овом Сцикит-Леарн модулу може се користити за трансформацију текстуалних карактеристика у ТФ-ИДФ векторе карактеристика.

ТФ ИДФ

6. Креирање скупова обуке и тестова заснованих на подацима

Коначно, морамо поделити наше податке на скупове за обуку и тестирање пре него што обучимо наше алгоритме.

Скуп за обуку ће се користити за обуку алгоритма, а скуп за тестирање ће се користити за процену перформанси модела машинског учења.

Траин Тест

7. Развој модела

Након што су подаци раздвојени на скупове за обуку и тестове, технике машинског учења се користе за учење из података обуке.

Можете користити било који алгоритам за машинско учење. Приступ насумичне шуме ће се, међутим, користити због своје способности да се носи са ненормализованим подацима.

Модел Траининг

8. Предвиђања и евалуација модела

Након што је модел обучен, последња фаза је предвиђање. Да бисмо то урадили, морамо применити метод предвиђања на објекат класе РандомФорестЦлассифиер који смо обучили.

Предвиђање модела

Коначно, мере класификације као што су метрике конфузије, мере Ф1, тачност и тако даље могу се користити за процену перформанси модела машинског учења.

Класификационе метрике

Излаз:

Излаз метрике класификације

Наш алгоритам је постигао тачност од 75.30, што се види из резултата.

Zakljucak

Анализа осећања је један од најчешћих НЛП послова јер помаже у идентификацији општег јавног мњења о одређеном питању.

Видели смо како неколико Питхон библиотека може помоћи у анализи осећања.

Спровели смо студију јавних твитова о шест америчких авио-компанија и достигли тачност од отприлике 75%.

Предлажем да испробате други алгоритам машинског учења, као што је логистичка регресија, СВМ или КНН, да видите да ли можете постићи боље резултате.

НЛП анализа расположења помоћу Питхон-а

Шта је анализа осећања?

Предности анализе осећања