Python - HashDork аркылуу NLP сезимин талдоо

Мазмуну[Жашыруу][Көрсөтүү]

Сезим талдоо деген эмне?
Сезим талдоосунун артыкчылыктары
Сезимдерди талдоо – Көйгөйдүн билдирүүсү+-
жыйынтыктоо

Бизнес 2021-жылга чейин керектөөчүлөрдүн өз ара аракеттенүүсү боюнча маалыматтарды алууну өздөштүрүшөт.

Бул маалымат пункттарына ашыкча ишенүү, экинчи жагынан, кардарлардын киргизген маалыматтарын статистика катары кароого алып келет - кардардын үнүн угууга бир өлчөмдүү мамиле.

Кардардын үнүн белгилөө же номерге айландыруу мүмкүн эмес.

Аны окуп, конденсациялап, баарынан мурда түшүнүү керек.

Чындыгында, компаниялар керектөөчүлөрү телефон чалуулар, электрондук почталар же түз баарлашуулар аркылуу болобу, алар менен баарлашкан ар бир каналда эмне айтышы керек экенин жигердүү угушу керек.

Ар бир компания керектөөчүлөрдүн пикирлерин көзөмөлдөөгө жана баалоого артыкчылык бериши керек, бирок компаниялар адаттагыдай эле бул маалыматтарды иштетүү жана аны маанилүү интеллектке айландыруу үчүн күрөшүп келишет.

Бул сезимди талдоо менен мындан ары андай эмес.

Бул окуу куралында биз сезим талдоосун, анын артыкчылыктарын жана аны кантип колдонууну жакшыраак карап чыгабыз. NLTK маалымат боюнча сезим талдоо жүргүзүү үчүн китепкана.

Сезим талдоо деген эмне?

Сезимдерди талдоо, көбүнчө маектешүү кени катары белгилүү, адамдардын сезимдерин, ойлорун жана көз караштарын талдоо ыкмасы.

Сезимдерди талдоо ишканаларга кардарларын жакшыраак түшүнүүгө, кирешени көбөйтүүгө жана кардарлардын салымынын негизинде өнүмдөрүн жана кызматтарын өркүндөтүүгө мүмкүндүк берет.

Кардарлардын маанайын анализдөөгө жөндөмдүү программалык камсыздоо тутумунун аны чыгарууга аракет кылган сатуучу/кардарларды тейлөө өкүлүнүн ортосундагы айырма - бул биринчи кезекте чийки тексттен объективдүү натыйжаларды алуу жөндөмдүүлүгү - бул биринчи кезекте табигый тилди иштетүү (NLP) жана машина үйрөнүү ыкмалары.

Сезимди идентификациялоодон тартып, текстти категорияга бөлүүгө чейин, сезимдерди талдоо колдонуунун кеңири спектрин камтыйт. Биз фирмага өнүмгө баа берүү сезимин же керектөөчүлөрдүн пикирлерин көзөмөлдөөгө жардам берүү үчүн тексттик маалыматтарга сезимтал анализди колдонобуз.

Ар кандай социалдык медиа сайттары аны посттордун маанайын баалоо үчүн колдонушат, эгер эмоция өтө күчтүү же зордук-зомбулук болсо, же алардын босогосунан төмөн түшсө, билдирүү өчүрүлөт же жашырылат.

Сезимди талдоо сезимдерди аныктоодон тартып, текстти категорияга бөлүүгө чейин бардыгы үчүн колдонулушу мүмкүн.

Сезим талдоосунун эң популярдуу колдонулушу тексттик маалыматтарда болуп саналат, мында ал компанияга өнүмдөрдү баалоого же керектөөчүлөрдүн комментарийлерине көз салууга жардам берүү үчүн колдонулат.

Ар кандай социалдык медиа сайттары да аны посттордун маанайын баалоо үчүн колдонушат жана эгер эмоция өтө күчтүү же зордук-зомбулук болсо же алардын босогосунан төмөн түшүп кетсе, алар постту өчүрүшөт же жашырышат.

Сезим талдоосунун артыкчылыктары

Төмөндө көз жаздымда калтырбоо керек болгон сезим талдоосунун эң маанилүү артыкчылыктарынын айрымдары бар.

Сиздин максаттуу демографияңыздын арасында брендиңиздин кабыл алынышын баалоого жардам бериңиз.
Түздөн-түз кардар пикири продуктуну өнүктүрүүгө жардам берүү үчүн берилет.
Сатуудан түшкөн кирешени жана издөөнү көбөйтөт.
Өнүмүңүздүн чемпиондору үчүн сатуу мүмкүнчүлүктөрү көбөйдү.
Проактивдүү кардарларды тейлөө практикалык вариант болуп саналат.

Сандар сизге маркетинг кампаниясынын чийки көрсөткүчтөрү, издөө чалууларына катышуунун көлөмү жана кардарларды колдоо кызматында күтүлүп жаткан билеттердин саны сыяктуу маалыматты бере алат.

Бирок, ал белгилүү бир окуя эмне үчүн болгонун жана ага эмне себеп болгонун айтып бербейт. Мисалы, Google жана Facebook сыяктуу аналитика куралдары маркетинг аракеттериңиздин натыйжалуулугун баалоого жардам берет.

Бирок алар сизге ошол конкреттүү кампания эмне үчүн ийгиликтүү болгону тууралуу терең билим бербейт.

Сезим талдоосу бул жагынан оюнду өзгөртүү мүмкүнчүлүгүнө ээ.

Сезимдерди талдоо – Көйгөйдүн билдирүүсү

Максат твиттерге негизделген твиттерде АКШнын алты авиакомпаниясына карата жагымдуу, терс же нейтралдуу эмоцияларды аныктоо.

Бул стандарттык көзөмөлдөнүүчү окуу жумушу, анда биз текст сабын алдын ала аныкталган категорияларга бөлүшүбүз керек.

чечим

Бул көйгөйдү чечүү үчүн биз стандарттуу машина үйрөнүү процессин колдонобуз. Биз керектүү китепканаларды жана маалымат топтомдорун импорттоодон баштайбыз.

Андан кийин биз маалыматтарда кандайдыр бир калыптар бар-жоктугун аныктоо үчүн чалгындоочу маалыматтарды талдоо жүргүзөбүз. Андан кийин, биз тексттик киргизүүнүн сандык берилиштерин айландыруу үчүн текстти алдын ала иштетүүнү ишке ашырабыз машина үйрөнүү системасы колдоно алат.

Акырында, биз машина үйрөнүү ыкмаларын колдонуу менен сезимди талдоо моделдерибизди үйрөтөбүз жана баалайбыз.

1. Китепканаларды импорттоо

Керектүү китепканаларды жүктөө.

Китепканаларды импорттоо

2. Маалыматтар топтомун импорттоо

Бул макалада таба турган маалыматтар топтомуна негизделет Github. Берилиштер топтому төмөндө көрүнүп тургандай Pandas'тын CSV окуу функциясы аркылуу импорттолот:

Берилиштер топтомун импорттоо

head() функциясын колдонуп, маалымат топтомунун биринчи беш саптарын карап көрүңүз:

Баш маалымат топтому

Output:

Баш маалымат топтомунун чыгышы

3. Маалыматтарды талдоо

Келгиле, кандайдыр бир тенденциялар бар-жогун аныктоо үчүн маалыматтарды карап көрөлү. Бирок адегенде диаграммаларды көрүнөөраак кылуу үчүн демейки сюжеттин өлчөмүн өзгөртөбүз.

Сюжеттин өлчөмүн тууралоо

Ар бир авиакомпания алган твиттердин саны менен баштайлы. Бул үчүн тегерек диаграмманы колдонобуз:

Тегерек диаграмма

Ар бир авиакомпания үчүн коомдук твиттердин пайызы чыгарылышта көрсөтүлөт.

Тегерек диаграмма чыгаруу

Келгиле, бардык твиттерде сезимдер кандай бөлүштүрүлгөнүн карап көрөлү.

Семантикалык пирог диаграммасы

Output:

Семантикалык пирог диаграммасы

Эми ар бир конкреттүү авиакомпания үчүн маанайдын бөлүштүрүлүшүн карап көрөлү.

Натыйжаларга ылайык, дээрлик бардык авиакомпаниялар үчүн твиттердин басымдуу бөлүгү жагымсыз, нейтралдуу жана жакшы твиттер менен коштолгон. Virgin America, балким, үч сезимдин үлүшү салыштырууга боло турган жалгыз авиакомпания.

Ар бир авиакомпаниянын бөлүштүрүлүшү

Output:

Ар бир авиакомпаниянын продукциясын бөлүштүрүү

Акырында, биз Seaborn китепканасын үч сезим категориясындагы твиттерге орточо ишеним деңгээлин алуу үчүн колдонобуз.

Бар участогу

Output:

Bar Plot Output

Натыйжа терс твиттердин ишеним деңгээли оң же нейтралдуу твиттерге караганда жогору экенин көрсөтүп турат.

4. Маалыматтарды тазалоо

Көптөгөн жаргон терминдерди жана тыныш белгилерин твиттерден тапса болот. Машина үйрөнүү моделин үйрөтүүдөн мурун, биз твиттерибизди тазалашыбыз керек.

Бирок, биз твиттерди тазалоону баштоодон мурун, биз маалымат топтомубузду функцияларга жана энбелгилер топтомуна бөлүшүбүз керек.

Функциялар жана энбелгилер

Дайындарды функцияларга жана окуу топтомдоруна бөлгөндөн кийин тазалай алабыз. Бул үчүн кадимки сөз айкаштары колдонулат.

Үзгүлтүксүз туюнтма

5. Тексттин сандык чагылдырылышы

Машиналарды үйрөнүү моделдерин үйрөтүү үчүн статистикалык алгоритмдер математиканы колдонушат. Математика, экинчи жагынан, сандар менен гана иштейт.

Адегенде биз статистикалык алгоритмдер үчүн текстти сандарга айлантышыбыз керек. Мунун үч негизги жолу бар: Сөздөр баштыгы, TF-IDF жана Word2Vec.

Бактыга жараша, Python'дун Scikit-Learn модулундагы TfidfVectorizer классы текст өзгөчөлүктөрүн TF-IDF өзгөчөлүк векторлоруна айландыруу үчүн колдонулушу мүмкүн.

TF IDF

6. Маалыматтарга негизделген тренингдерди жана тесттерди түзүү

Акыр-аягы, алгоритмдерибизди үйрөтүүдөн мурун биз маалыматтарыбызды окутуу жана тестирлөө топтомуна бөлүшүбүз керек.

Тренинг топтому алгоритмди үйрөтүү үчүн колдонулат, ал эми тест топтому машина үйрөнүү моделинин иштешин баалоо үчүн колдонулат.

Поезд тести

7. Моделди иштеп чыгуу

Маалыматтар тренингге жана тесттик топтомдорго бөлүнгөндөн кийин, машыгуу маалыматтарынан үйрөнүү үчүн машинаны үйрөнүү ыкмалары колдонулат.

Сиз каалаган машинаны үйрөнүү алгоритмин колдоно аласыз. Бирок Random Forest ыкмасы нормалдаштырылбаган маалыматтар менен күрөшүүгө жөндөмдүү болгондуктан колдонулат.

Моделдик тренинг

8. Божомолдор жана моделди баалоо

Модель үйрөтүлгөндөн кийин, акыркы этап - болжолдоо. Бул үчүн биз үйрөткөн RandomForestClassifier классынын объектисине болжолдоо ыкмасын колдонушубуз керек.

Моделди болжолдоо

Акыр-аягы, башаламандык көрсөткүчтөрү, F1 өлчөмдөрү, тактык жана башкалар сыяктуу классификациялык чаралар машинаны үйрөнүү моделдеринин иштешин баалоо үчүн колдонулушу мүмкүн.

Классификация метрикасы

Output:

Классификация метрикасынын чыгышы

Биздин алгоритм натыйжалардан көрүнүп тургандай, 75.30 тактыгына жетти.

жыйынтыктоо

Сезим талдоо NLP эң көп жасалуучу жумуштардын бири, анткени ал белгилүү бир маселе боюнча жалпы коомдук пикирди аныктоого жардам берет.

Биз бир нече Python китепканалары сезимдерди талдоодо кандайча жардам бере аларын көрдүк.

Биз АКШнын алты авиакомпаниясы тууралуу коомдук твиттерди изилдеп, тактыкка болжол менен 75% жеттик.

Мен сизге жакшыраак натыйжаларга жетүү үчүн, логистикалык регрессия, SVM же KNN сыяктуу башка машина үйрөнүү алгоритмин сынап көрүүнү сунуштайт элем.

Python аркылуу NLP сезимин талдоо

Сезим талдоо деген эмне?

Сезим талдоосунун артыкчылыктары