НЛП аналіз настрояў з дапамогай Python

Змест[Схаваць][Паказаць]

Што такое аналіз настрояў?
Перавагі аналізу настрояў
Аналіз настрояў – пастаноўка праблемы+-
заключэнне

Да 2021 года прадпрыемствы асвояць атрыманне дадзеных аб узаемадзеянні спажыўцоў.

З іншага боку, празмерная залежнасць ад гэтых пунктаў дадзеных часта прыводзіць да таго, што арганізацыі разглядаюць увод кліентаў як статыстыку - даволі аднамерны падыход да праслухоўвання голасу кліента.

Голас кліента не можа быць пазначаны або пераўтвораны ў лік.

Яго трэба прачытаць, сціснуць і, перш за ўсё, зразумець.

Справа ў тым, што кампаніі павінны актыўна прыслухоўвацца да таго, што кажуць іх спажыўцы, на кожным канале, праз які яны ўзаемадзейнічаюць з імі, няхай гэта будзе праз тэлефонныя званкі, электронную пошту або жывы чат.

Кожная кампанія павінна надаваць прыярытэт маніторынгу і ацэнцы водгукаў спажыўцоў, але кампаніі традыцыйна з усіх сіл апрацоўваюць гэтыя дадзеныя і ператвараюць іх у значны інтэлект.

Гэта ўжо не так з аналізам настрояў.

У гэтым уроку мы больш падрабязна разгледзім аналіз настрояў, яго перавагі і тое, як выкарыстоўваць НЛТК бібліятэка для аналізу настрояў даных.

Што такое аналіз настрояў?

Аналіз настрояў, часта вядомы як аналіз размоў, з'яўляецца метадам аналізу пачуццяў, думак і поглядаў людзей.

Аналіз настрояў дазваляе прадпрыемствам лепш зразумець сваіх спажыўцоў, павялічыць даход і палепшыць свае прадукты і паслугі на аснове ўводу кліентаў.

Розніца паміж праграмнай сістэмай, здольнай аналізаваць настроі кліентаў, і прадстаўніком прадаўца/прадстаўніка абслугоўвання кліентаў, які спрабуе гэта зрабіць, заключаецца ў здольнасці першага атрымліваць аб'ектыўныя вынікі з сырога тэксту - гэта ў першую чаргу дасягаецца з дапамогай апрацоўкі натуральнай мовы (NLP) і навучанне з дапамогай машыны метады.

Ад ідэнтыфікацыі эмоцый да катэгарызацыі тэксту аналіз настрояў мае шырокі спектр прымянення. Мы выкарыстоўваем аналіз настрояў на тэкставых дадзеных, каб дапамагчы фірме сачыць за настроямі ў ацэнках прадукту або водгуках спажыўцоў.

Розныя сайты сацыяльных сетак выкарыстоўваюць яго для ацэнкі настрояў паведамленняў, і калі эмоцыі занадта моцныя або гвалтоўныя, або апускаюцца ніжэй іх парога, публікацыя або выдаляецца, або хаваецца.

Аналіз настрояў можна выкарыстоўваць для ўсяго, ад ідэнтыфікацыі эмоцый да катэгарызацыі тэксту.

Найбольш папулярным выкарыстаннем аналізу настрояў з'яўляецца тэкставыя даныя, дзе ён выкарыстоўваецца, каб дапамагчы кампаніі адсочваць настроі ў ацэнках прадукту або каментарыях спажыўцоў.

Розныя сайты сацыяльных сетак таксама выкарыстоўваюць яго для ацэнкі настрояў паведамленняў, і калі эмоцыі занадта моцныя або жорсткія, або апускаюцца ніжэй іх парога, яны выдаляюць або хаваюць публікацыю.

Перавагі аналізу настрояў

Ніжэй прыведзены некаторыя з найбольш важных пераваг аналізу настрояў, якія не варта ігнараваць.

Дапамажыце ў ацэнцы ўспрымання вашага брэнда сярод вашай мэтавай дэмаграфіі.
Прамая зваротная сувязь з кліентамі прадастаўляецца, каб дапамагчы вам у распрацоўцы вашага прадукту.
Павялічвае прыбытак ад продажаў і пошук.
Магчымасці дадатковых продажаў для чэмпіёнаў вашага прадукту павялічыліся.
Практычным варыянтам з'яўляецца актыўнае абслугоўванне кліентаў.

Лічбы могуць даць вам такую інфармацыю, як сырая эфектыўнасць маркетынгавай кампаніі, колькасць удзелу ў пошукавым званку і колькасць квіткоў, якія чакаюць у службе падтрымкі кліентаў.

Тым не менш, гэта не раскажа вам, чаму адбылася канкрэтная падзея або што яе выклікала. Такія інструменты аналітыкі, як Google і Facebook, напрыклад, могуць дапамагчы вам ацаніць эфектыўнасць вашых маркетынгавых намаганняў.

Але яны не даюць вам глыбокіх ведаў аб тым, чаму гэтая канкрэтная кампанія была паспяховай.

Аналіз настрояў у гэтым плане можа змяніць гульню.

Аналіз настрояў – пастаноўка праблемы

Мэта складаецца ў тым, каб вызначыць, ці мае твіт спрыяльныя, адмоўныя або нейтральныя эмоцыі ў дачыненні да шасці амерыканскіх авіякампаній на аснове твітаў.

Гэта стандартнае навучанне пад кантролем, у якім мы павінны класіфікаваць тэкставы радок па загадзя вызначаных катэгорыях з улікам тэкставага радка.

Рашэнне

Мы будзем выкарыстоўваць стандартны працэс машыннага навучання для вырашэння гэтай праблемы. Мы пачнем з імпарту неабходных бібліятэк і набораў даных.

Затым мы правядзем даследчы аналіз дадзеных, каб вызначыць, ці ёсць якія-небудзь заканамернасці ў дадзеных. Пасля гэтага мы правядзем папярэднюю апрацоўку тэксту, каб ператварыць тэкставыя ўводныя лікавыя дадзеныя, якія а навучанне з дапамогай машыны сістэма можа выкарыстоўваць.

Нарэшце, мы будзем навучаць і ацэньваць нашы мадэлі аналізу настрояў з дапамогай метадаў машыннага навучання.

1. Імпарт бібліятэк

Загрузіце неабходныя бібліятэкі.

Імпарт бібліятэк

2. Імпарт набору даных

Гэты артыкул будзе заснаваны на наборы даных, які можна знайсці на Github. Набор даных будзе імпартаваны з дапамогай функцыі чытання CSV Pandas, як паказана ніжэй:

Імпарт набору даных

Выкарыстоўваючы функцыю head(), вывучыце першыя пяць радкоў набору даных:

Набор даных галавы

Вынахад:

Вывад набору дадзеных Head

3. Аналіз даных

Давайце вывучым дадзеныя, каб вызначыць, ці ёсць якія-небудзь тэндэнцыі. Але спачатку мы зменім памер графіка па змаўчанні, каб зрабіць дыяграмы больш бачнымі.

Рэгуляванне памеру ўчастка

Пачнем з колькасці твітаў, атрыманых кожнай авіякампаніяй. Для гэтага мы будзем выкарыстоўваць кругавую дыяграму:

кругавая дыяграма

Працэнт публічных твітаў для кожнай авіякампаніі адлюстроўваецца ў вывадзе.

Вывад кругавой дыяграмы

Давайце паглядзім, як пачуцці размяркоўваюцца па ўсіх твітах.

Семантычная кругавая дыяграма

Вынахад:

Вывад семантычнай кругавой дыяграмы

Давайце зараз вывучым размеркаванне настрояў для кожнай канкрэтнай авіякампаніі.

Згодна з вынікамі, асноўная частка твітаў амаль для ўсіх авіякампаній неспрыяльныя, ідуць нейтральныя і добрыя твіты. Virgin America, бадай, адзіная авіякампанія, дзе прапорцыя трох пачуццяў супастаўная.

Размеркаванне кожнай авіякампаніі

Вынахад:

Размеркаванне прадукцыі кожнай авіякампаніі

Нарэшце, мы будзем выкарыстоўваць бібліятэку Seaborn, каб атрымаць сярэдні ўзровень даверу для твітаў з трох катэгорый настрояў.

Барны ўчастак

Вынахад:

Вывад гістаграмы

Вынік паказвае, што ўзровень даверу да адмоўных твітаў вышэй, чым да станоўчых або нейтральных твітаў.

4. Ачыстка дадзеных

Шмат слэнгавых тэрмінаў і знакаў прыпынку можна знайсці ў твітах. Перш чым мы зможам навучаць мадэль машыннага навучання, нам трэба ачысціць нашы твіты.

Аднак, перш чым мы пачнем чысціць твіты, мы павінны падзяліць наш набор даных на наборы функцый і этыкетак.

Асаблівасці і этыкеткі

Мы можам ачысціць даныя, калі падзелім іх на функцыі і навучальныя наборы. Для гэтага будуць выкарыстоўвацца рэгулярныя выразы.

Рэгулярныя выразы

5. Лікавае прадстаўленне тэксту

Для падрыхтоўкі мадэляў машыннага навучання статыстычныя алгарытмы выкарыстоўваюць матэматыку. З іншага боку, матэматыка працуе выключна з лічбамі.

Спачатку мы павінны ператварыць тэкст у лічбы, каб статыстычныя алгарытмы з ім справіліся. Ёсць тры асноўных спосабу зрабіць гэта: Bag of Words, TF-IDF і Word2Vec.

На шчасце, клас TfidfVectorizer у модулі Python Scikit-Learn можна выкарыстоўваць для пераўтварэння тэкставых аб'ектаў у вектары функцый TF-IDF.

TF IDF

6. Стварэнне навучальных і тэставых набораў на аснове дадзеных

Нарэшце, мы павінны падзяліць нашы дадзеныя на навучальныя і тэставыя наборы, перш чым навучаць нашы алгарытмы.

Навучальны набор будзе выкарыстоўвацца для навучання алгарытму, а тэставы набор будзе выкарыстоўвацца для ацэнкі прадукцыйнасці мадэлі машыннага навучання.

Тэст на цягнік

7. Распрацоўка мадэлі

Пасля таго, як дадзеныя былі падзеленыя на навучальныя і тэставыя наборы, метады машыннага навучання выкарыстоўваюцца для вывучэння навучальных дадзеных.

Вы можаце выкарыстоўваць любы алгарытм машыннага навучання. Падыход выпадковага лесу, аднак, будзе выкарыстоўвацца з-за яго здольнасці спраўляцца з ненармаванымі данымі.

Навучанне мадэлі

8. Прадказанні і ацэнка мадэлі

Пасля таго, як мадэль прайшла навучанне, завяршальны этап - зрабіць прагнозы. Каб зрабіць гэта, мы павінны прымяніць метад прагназавання да аб'екта класа RandomForestClassifier, які мы навучалі.

Прагназаванне мадэлі

Нарэшце, для ацэнкі прадукцыйнасці мадэляў машыннага навучання можна выкарыстоўваць такія паказчыкі класіфікацыі, як паказчыкі блытаніны, паказчыкі F1, дакладнасць і гэтак далей.

Метрыкі класіфікацыі

Вынахад:

Выхад паказчыкаў класіфікацыі

Наш алгарытм дасягнуў дакладнасці 75.30, як відаць па выніках.

заключэнне

Аналіз настрояў з'яўляецца адной з самых частых заняткаў НЛП, паколькі дапамагае вызначыць агульнае грамадскае меркаванне па канкрэтным пытанні.

Мы ўбачылі, як некалькі бібліятэк Python могуць дапамагчы з аналізам настрояў.

Мы правялі даследаванне публічных твітаў аб шасці амерыканскіх авіякампаніях і дасягнулі дакладнасці прыкладна 75%.

Я б прапанаваў вам паспрабаваць іншы алгарытм машыннага навучання, напрыклад, лагістычную рэгрэсію, SVM або KNN, каб убачыць, ці зможаце вы дасягнуць лепшых вынікаў.

НЛП аналіз настрояў з дапамогай Python

Што такое аналіз настрояў?

Перавагі аналізу настрояў