Мазмұны[Жасыру][Көрсету]
Кәсіпорындар 2021 жылға қарай тұтынушылардың өзара әрекеттесу деректерін алуды игереді.
Бұл деректер нүктелеріне шамадан тыс сенім арту, керісінше, ұйымдардың тұтынушы енгізуін статистика ретінде қарастыруына әкеледі - тұтынушының дауысын тыңдауға бір өлшемді тәсіл.
Тұтынушының дауысын белгі қоюға немесе нөмірге айналдыруға болмайды.
Оны оқып, жинақтап, ең алдымен түсіну керек.
Компаниялар телефон қоңыраулары, электрондық хаттар немесе тікелей чат арқылы олармен өзара әрекеттесетін әрбір арнада тұтынушыларының айтқанын белсенді түрде тыңдауы керек.
Әрбір компания тұтынушылардың пікірлерін бақылауға және бағалауға басымдық беруі керек, бірақ компаниялар дәстүрлі түрде бұл деректерді өңдеуге және оны мағыналы интеллектке айналдыруға тырысты.
Бұл енді Сезім талдауында болмайды.
Бұл оқулықта біз сезімді талдауды, оның артықшылықтарын және оны қалай пайдалану керектігін егжей-тегжейлі қарастырамыз. NLTK деректерге көңіл-күй талдауын жасауға арналған кітапхана.
Сезімтал талдау дегеніміз не?
Көбінесе әңгіме-миннинг деп аталатын көңіл-күйді талдау - адамдардың сезімдерін, ойларын және көзқарастарын талдау әдісі.
Сезімдерді талдау бизнеске тұтынушыларды жақсырақ түсінуге, кірісті ұлғайтуға және тұтынушылардың енгізуі негізінде өнімдері мен қызметтерін жақсартуға мүмкіндік береді.
Тұтынушының көңіл-күйін талдауға қабілетті бағдарламалық жасақтама жүйесі мен оны шығаруға тырысатын сатушы/тұтынушыға қызмет көрсету өкілі арасындағы айырмашылық біріншісінің шикі мәтіннен объективті нәтижелерді алу қабілеті болып табылады — бұл ең алдымен табиғи тілді өңдеу (NLP) арқылы жүзеге асырылады және машина оқыту әдістері.
Сезімдерді анықтаудан мәтінді санаттарға бөлуге дейін көңіл-күйді талдаудың кең ауқымы бар. Біз фирмаға өнімді бағалау немесе тұтынушылардың кері байланысын бақылауға көмектесу үшін мәтіндік деректерге көңіл-күй талдауын қолданамыз.
Әртүрлі әлеуметтік медиа сайттары оны хабарламалардың көңіл-күйін бағалау үшін пайдаланады және эмоция тым күшті немесе зорлық-зомбылық болса немесе олардың шегінен төмен түссе, жазба жойылады немесе жасырылады.
Сезімдерді талдау эмоцияны анықтаудан бастап мәтінді санаттауға дейін барлығы үшін қолданылуы мүмкін.
Көңіл-күйді талдаудың ең танымал түрі мәтіндік деректерде қолданылады, мұнда ол компанияға өнімді бағалау немесе тұтынушы пікірлерінің көңіл-күйін бақылауға көмектесу үшін қолданылады.
Әртүрлі әлеуметтік медиа сайттары оны хабарламалардың көңіл-күйін бағалау үшін де пайдаланады және эмоция тым күшті немесе зорлық-зомбылық болса немесе олардың шегінен төмен түссе, олар жазбаны жояды немесе жасырады.
Сезімдерді талдаудың артықшылықтары
Төменде көңіл-күйді талдаудың кейбір маңызды артықшылықтарын назардан тыс қалдыруға болмайды.
- Мақсатты демографияңыздың арасында брендіңізді қабылдауды бағалауға көмектесіңіз.
- Өніміңізді әзірлеуге көмектесу үшін тұтынушыға тікелей кері байланыс беріледі.
- Сатудан түсетін кірісті және іздеуді арттырады.
- Өніміңіздің чемпиондары үшін жоғары сату мүмкіндіктері артты.
- Проактивті тұтынушыларға қызмет көрсету практикалық нұсқа болып табылады.
Сандар сізге маркетингтік науқанның бастапқы өнімділігі, іздеу қоңырауына қатысу көлемі және тұтынушыларға қолдау көрсетуде күтілетін билеттер саны сияқты ақпаратты бере алады.
Дегенмен, ол нақты оқиғаның неліктен орын алғанын немесе оған не себеп болғанын айтпайды. Google және Facebook сияқты талдау құралдары, мысалы, маркетингтік әрекеттеріңіздің өнімділігін бағалауға көмектеседі.
Бірақ олар сізге нақты науқанның неліктен сәтті болғаны туралы терең білім бермейді.
Сезім талдауының осыған байланысты ойын өзгерту мүмкіндігі бар.
Сезімдерді талдау – проблемалық мәлімдеме
Мақсат - твиттерге негізделген алты АҚШ әуе компаниясына қатысты твиттерде жағымды, жағымсыз немесе бейтарап эмоция бар-жоғын анықтау.
Бұл стандартты бақыланатын оқу жұмысы, онда біз мәтіндік жолды берілген алдын ала анықталған санаттарға бөлуіміз керек.
шешім
Бұл мәселені шешу үшін стандартты машиналық оқыту процесін қолданамыз. Біз қажетті кітапханалар мен деректер жиынын импорттаудан бастаймыз.
Содан кейін деректерде қандай да бір үлгілердің бар-жоғын анықтау үшін зерттеу деректерін талдауды орындаймыз. Осыдан кейін біз мәтіндік енгізудің сандық деректерін өзгерту үшін мәтінді алдын ала өңдеуге кірісеміз машина оқыту жүйесін пайдалана алады.
Соңында, біз машиналық оқыту әдістерін қолдана отырып, көңіл-күйді талдау үлгілерін оқытамыз және бағалаймыз.
1. Кітапханаларды импорттау
Қажетті кітапханаларды жүктеңіз.
2. Деректер жиынын импорттау
Бұл мақала мына жерден табуға болатын деректер жиынына негізделеді GitHub. Деректер жинағы төменде көрсетілгендей Pandas оқу CSV функциясы арқылы импортталады:
head() функциясын пайдаланып, деректер жиынының алғашқы бес жолын тексеріңіз:
Шығару:
3. Деректерді талдау
Қандай да бір тенденциялардың бар-жоғын анықтау үшін деректерді қарастырайық. Бірақ алдымен диаграммаларды көрнекі ету үшін әдепкі сюжет өлшемін өзгертеміз.
Әр авиакомпания алған твиттер санынан бастайық. Ол үшін дөңгелек диаграмманы қолданамыз:
Әрбір авиакомпания үшін жалпыға ортақ твиттер пайызы шығарылымда көрсетіледі.
Барлық твиттерде сезімдер қалай таралатынын көрейік.
Шығару:
Енді әрбір нақты авиакомпания үшін көңіл-күйдің таралуын қарастырайық.
Нәтижелерге сәйкес, барлық дерлік авиакомпаниялар үшін твиттердің негізгі бөлігі бейтарап және жақсы твиттерден кейін қолайсыз. Virgin America – үш сезімнің үлесін салыстыруға болатын жалғыз авиакомпания.
Шығару:
Соңында, біз үш сезім санатындағы твиттер үшін орташа сенімділік деңгейін алу үшін Seaborn кітапханасын қолданамыз.
Шығару:
Нәтиже теріс твиттер үшін сенімділік деңгейі оң немесе бейтарап твиттерге қарағанда жоғары екенін көрсетеді.
4. Деректерді тазалау
Көптеген жаргон терминдер мен тыныс белгілерін твиттерде табуға болады. Машиналық оқыту үлгісін үйретпес бұрын, біз твиттерімізді тазалауымыз керек.
Дегенмен, твиттерді тазалауды бастамас бұрын, деректер жиынтығын мүмкіндіктер мен белгілер жиындарына бөлуіміз керек.
Деректерді мүмкіндіктерге және оқу жиындарына бөлгеннен кейін тазалай аламыз. Мұны істеу үшін тұрақты өрнектер пайдаланылады.
5. Мәтіннің сандық көрінісі
Машиналық оқыту үлгілерін үйрету үшін статистикалық алгоритмдер математиканы пайдаланады. Математика, керісінше, тек сандармен жұмыс істейді.
Біз онымен жұмыс істеу үшін статистикалық алгоритмдер үшін алдымен мәтінді сандарға түрлендіруіміз керек. Мұны істеудің үш негізгі жолы бар: Сөздер пакеті, TF-IDF және Word2Vec.
Бақытымызға орай, Python бағдарламасының Scikit-Learn модуліндегі TfidfVectorizer сыныбы мәтін мүмкіндіктерін TF-IDF мүмкіндік векторларына түрлендіру үшін пайдаланылуы мүмкін.
6. Деректерге негізделген оқу және сынақ жиындарын құру
Соңында, алгоритмдерімізді жаттықтырмас бұрын деректерімізді оқыту және тестілеу жиындарына бөлуіміз керек.
Жаттығу жиыны алгоритмді үйрету үшін пайдаланылады, ал сынақ жинағы машиналық оқыту моделінің өнімділігін бағалау үшін пайдаланылады.
7. Модельді әзірлеу
Деректерді оқыту және сынақ жинақтарына бөлгеннен кейін, оқу деректерінен үйрену үшін машиналық оқыту әдістері қолданылады.
Сіз кез келген машиналық оқыту алгоритмін пайдалана аласыз. Кездейсоқ орман тәсілі, алайда, оның нормаланбаған деректермен күресу мүмкіндігіне байланысты пайдаланылады.
8. Болжамдар және модельді бағалау
Модельді үйреткеннен кейін соңғы кезең болжам жасау болып табылады. Ол үшін біз дайындаған RandomForestClassifier класс нысанына болжау әдісін қолдануымыз керек.
Соңында, шатастыру көрсеткіштері, F1 өлшемдері, дәлдік және т.б. сияқты жіктеу өлшемдерін машиналық оқыту үлгілерінің өнімділігін бағалау үшін пайдалануға болады.
Шығару:
Нәтижелерден көрініп тұрғандай, біздің алгоритм 75.30 дәлдігіне қол жеткізді.
қорытынды
Сезімдерді талдау NLP ең жиі жұмыстардың бірі болып табылады, өйткені ол белгілі бір мәселе бойынша жалпы қоғамдық пікірді анықтауға көмектеседі.
Біз бірнеше Python кітапханасының көңіл-күйді талдауға қалай көмектесетінін көрдік.
Біз АҚШ-тың алты авиакомпаниясы туралы қоғамдық твиттерге зерттеу жүргіздік және шамамен 75% дәлдікке жеттік.
Мен сізге жақсы нәтижелерге қол жеткізе алатыныңызды білу үшін логистикалық регрессия, SVM немесе KNN сияқты басқа машинаны оқыту алгоритмін қолданып көруді ұсынар едім.
пікір қалдыру