ការវិភាគមនោសញ្ចេតនា NLP ដោយប្រើ Python

មាតិកា[លាក់][បង្ហាញ]

តើការវិភាគអារម្មណ៍គឺជាអ្វី?
អត្ថប្រយោជន៍នៃការវិភាគមនោសញ្ចេតនា
ការវិភាគអារម្មណ៍ - សេចក្តីថ្លែងការណ៍បញ្ហា+-
សន្និដ្ឋាន

អាជីវកម្មនឹងមានជំនាញក្នុងការទទួលបានទិន្នន័យអន្តរកម្មអតិថិជនត្រឹមឆ្នាំ 2021។

ម៉្យាងវិញទៀត ការពឹងផ្អែកខ្លាំងលើចំណុចទិន្នន័យទាំងនេះ ជារឿយៗនាំឱ្យស្ថាប័ននានាចាត់ទុកការបញ្ចូលរបស់អតិថិជនជាស្ថិតិ ដែលជាវិធីសាស្រ្តមួយវិមាត្រក្នុងការស្តាប់សំឡេងរបស់អតិថិជន។

សំឡេងរបស់អតិថិជនមិនអាចផ្លាកសញ្ញា ឬបំប្លែងទៅជាលេខបានទេ។

វាត្រូវតែត្រូវបានអាន condensed និង, ខាងលើទាំងអស់, យល់។

ការពិតគឺថាក្រុមហ៊ុនត្រូវតែស្តាប់យ៉ាងសកម្មនូវអ្វីដែលអ្នកប្រើប្រាស់របស់ពួកគេត្រូវនិយាយនៅគ្រប់ប៉ុស្តិ៍ដែលទាក់ទងជាមួយពួកគេ ថាតើវាតាមរយៈការហៅទូរសព្ទ អ៊ីមែល ឬការជជែកផ្ទាល់។

ក្រុមហ៊ុននីមួយៗគួរតែផ្តល់អាទិភាពដល់ការត្រួតពិនិត្យ និងវាយតម្លៃពីអារម្មណ៍នៃមតិអ្នកប្រើប្រាស់ ប៉ុន្តែក្រុមហ៊ុននានាបានព្យាយាមជាប្រពៃណីក្នុងការដោះស្រាយទិន្នន័យនេះ និងបំប្លែងវាទៅជាបញ្ញាដ៏មានអត្ថន័យ។

នេះមិនមែនជាករណីនៃការវិភាគអារម្មណ៍ទៀតទេ។

នៅក្នុងការបង្រៀននេះ យើងនឹងពិនិត្យមើលឱ្យកាន់តែដិតដល់នូវការវិភាគមនោសញ្ចេតនា គុណសម្បត្តិរបស់វា និងរបៀបប្រើប្រាស់ អិនអិលធី បណ្ណាល័យដើម្បីធ្វើការវិភាគមនោសញ្ចេតនាលើទិន្នន័យ។

តើការវិភាគអារម្មណ៍គឺជាអ្វី?

ការវិភាគមនោសញ្ចេតនា ដែលជារឿយៗគេស្គាល់ថាជាការសន្ទនា ការជីកយករ៉ែ គឺជាវិធីសាស្ត្រសម្រាប់ការវិភាគអារម្មណ៍ គំនិត និងទស្សនៈរបស់មនុស្ស។

ការវិភាគមនោសញ្ចេតនាអនុញ្ញាតឱ្យអាជីវកម្មទទួលបានការយល់ដឹងកាន់តែប្រសើរឡើងអំពីអ្នកប្រើប្រាស់របស់ពួកគេ បង្កើនប្រាក់ចំណូល និងលើកកម្ពស់ផលិតផល និងសេវាកម្មរបស់ពួកគេដោយផ្អែកលើការបញ្ចូលរបស់អតិថិជន។

ភាពខុសគ្នារវាងប្រព័ន្ធសូហ្វវែរដែលមានសមត្ថភាពវិភាគអារម្មណ៍របស់អតិថិជន និងបុគ្គលិកផ្នែកលក់/តំណាងសេវាកម្មអតិថិជនដែលព្យាយាមសន្មតថាវាគឺជាសមត្ថភាពរបស់អតីតក្នុងការទាញយកលទ្ធផលគោលបំណងពីអត្ថបទដើម — នេះត្រូវបានសម្រេចជាចម្បងតាមរយៈដំណើរការភាសាធម្មជាតិ (NLP) និង ការរៀនម៉ាស៊ីន បច្ចេកទេស។

ពីការកំណត់អត្តសញ្ញាណអារម្មណ៍រហូតដល់ការចាត់ថ្នាក់អត្ថបទ ការវិភាគមនោសញ្ចេតនាមានកម្មវិធីយ៉ាងទូលំទូលាយ។ យើងប្រើប្រាស់ការវិភាគមនោសញ្ចេតនាលើទិន្នន័យជាអត្ថបទ ដើម្បីជួយក្រុមហ៊ុនត្រួតពិនិត្យអារម្មណ៍នៃការវាយតម្លៃផលិតផល ឬមតិកែលម្អរបស់អ្នកប្រើប្រាស់។

គេហទំព័រប្រព័ន្ធផ្សព្វផ្សាយសង្គមផ្សេងៗប្រើវាដើម្បីវាយតម្លៃអារម្មណ៍នៃការបង្ហោះ ហើយប្រសិនបើអារម្មណ៍ខ្លាំងពេក ឬហឹង្សា ឬធ្លាក់ចុះក្រោមកម្រិតកំណត់ ការបង្ហោះនោះនឹងត្រូវលុប ឬលាក់។

ការវិភាគមនោសញ្ចេតនាអាចត្រូវបានប្រើសម្រាប់អ្វីៗគ្រប់យ៉ាងចាប់ពីការកំណត់អត្តសញ្ញាណអារម្មណ៍រហូតដល់ការចាត់ថ្នាក់អត្ថបទ។

ការប្រើប្រាស់ដ៏ពេញនិយមបំផុតនៃការវិភាគមនោសញ្ចេតនាគឺនៅលើទិន្នន័យអត្ថបទ ដែលវាត្រូវបានប្រើដើម្បីជួយក្រុមហ៊ុនក្នុងការតាមដានអារម្មណ៍នៃការវាយតម្លៃផលិតផល ឬមតិយោបល់របស់អ្នកប្រើប្រាស់។

គេហទំព័រប្រព័ន្ធផ្សព្វផ្សាយសង្គមផ្សេងៗក៏ប្រើវាដើម្បីវាយតម្លៃអារម្មណ៍នៃការបង្ហោះ ហើយប្រសិនបើអារម្មណ៍ខ្លាំងពេក ឬហឹង្សា ឬធ្លាក់ក្រោមកម្រិតកំណត់ ពួកគេនឹងលុប ឬលាក់ការបង្ហោះនោះ។

អត្ថប្រយោជន៍នៃការវិភាគមនោសញ្ចេតនា

ខាងក្រោមនេះគឺជាអត្ថប្រយោជន៍ដ៏សំខាន់មួយចំនួននៃការវិភាគមនោសញ្ចេតនាដែលមិនគួរត្រូវបានគេមើលរំលង។

ជួយក្នុងការវាយតម្លៃការយល់ឃើញនៃម៉ាករបស់អ្នកក្នុងចំណោមប្រជាសាស្រ្តគោលដៅរបស់អ្នក។
មតិកែលម្អរបស់អតិថិជនផ្ទាល់ត្រូវបានផ្តល់ជូនដើម្បីជួយអ្នកក្នុងការអភិវឌ្ឍន៍ផលិតផលរបស់អ្នក។
បង្កើនប្រាក់ចំណូលពីការលក់ និងការរំពឹងទុក។
ឱកាសលក់បន្តសម្រាប់ជើងឯកផលិតផលរបស់អ្នកបានកើនឡើង។
សេវាកម្មអតិថិជនសកម្មគឺជាជម្រើសជាក់ស្តែង។

លេខអាចផ្តល់ឱ្យអ្នកនូវព័ត៌មានដូចជាការអនុវត្តដើមនៃយុទ្ធនាការទីផ្សារ ចំនួននៃការចូលរួមនៅក្នុងការហៅទូរសព្ទដែលរំពឹងទុក និងចំនួនសំបុត្រដែលកំពុងរង់ចាំការគាំទ្រអតិថិជន។

ទោះយ៉ាងណាក៏ដោយ វានឹងមិនប្រាប់អ្នកពីមូលហេតុដែលព្រឹត្តិការណ៍ជាក់លាក់មួយបានកើតឡើង ឬបណ្តាលមកពីអ្វីនោះទេ។ ជាឧទាហរណ៍ ឧបករណ៍វិភាគដូចជា Google និង Facebook អាចជួយអ្នកវាយតម្លៃដំណើរការនៃកិច្ចខិតខំប្រឹងប្រែងទីផ្សាររបស់អ្នក។

ប៉ុន្តែពួកគេមិនផ្តល់ឱ្យអ្នកនូវចំណេះដឹងស៊ីជម្រៅអំពីមូលហេតុដែលយុទ្ធនាការជាក់លាក់នោះទទួលបានជោគជ័យនោះទេ។

ការវិភាគអារម្មណ៍មានសក្តានុពលក្នុងការផ្លាស់ប្តូរហ្គេមក្នុងរឿងនេះ។

ការវិភាគអារម្មណ៍ - សេចក្តីថ្លែងការណ៍បញ្ហា

គោលបំណងគឺដើម្បីកំណត់ថាតើ tweet មានភាពអំណោយផល អវិជ្ជមាន ឬអារម្មណ៍អព្យាក្រឹតទាក់ទងនឹងក្រុមហ៊ុនអាកាសចរណ៍អាមេរិកចំនួនប្រាំមួយដោយផ្អែកលើ tweets ។

នេះគឺជាការងារសិក្សាដែលស្ថិតក្រោមការគ្រប់គ្រងស្ដង់ដារ ដែលយើងត្រូវតែចាត់ថ្នាក់ខ្សែអក្សរទៅក្នុងប្រភេទដែលបានកំណត់ទុកជាមុនដែលបានផ្ដល់ឱ្យខ្សែអក្សរ។

ជាដំណោះស្រាយ

យើងនឹងប្រើដំណើរការរៀនតាមម៉ាស៊ីនស្តង់ដារ ដើម្បីដោះស្រាយបញ្ហានេះ។ យើងនឹងចាប់ផ្តើមដោយការនាំចូលបណ្ណាល័យ និងសំណុំទិន្នន័យចាំបាច់។

បន្ទាប់មក យើងនឹងធ្វើការវិភាគទិន្នន័យរុករកមួយចំនួន ដើម្បីកំណត់ថាតើមានលំនាំណាមួយនៅក្នុងទិន្នន័យ។ បន្ទាប់មក យើងនឹងធ្វើការដំណើរការអត្ថបទជាមុន ដើម្បីបង្វែរទិន្នន័យជាលេខដែលបញ្ចូលជាអក្សរថា ក ការរៀនម៉ាស៊ីន ប្រព័ន្ធអាចប្រើបាន។

ជាចុងក្រោយ យើងនឹងបណ្តុះបណ្តាល និងវាយតម្លៃគំរូការវិភាគមនោសញ្ចេតនារបស់យើង ដោយប្រើវិធីសាស្រ្តរៀនម៉ាស៊ីន។

1. ការនាំចូលបណ្ណាល័យ

ផ្ទុកបណ្ណាល័យចាំបាច់។

ការនាំចូលបណ្ណាល័យ

2. នាំចូលសំណុំទិន្នន័យ

អត្ថបទនេះនឹងផ្អែកលើសំណុំទិន្នន័យដែលអាចត្រូវបានរកឃើញនៅលើ Github. សំណុំទិន្នន័យនឹងត្រូវបាននាំចូលដោយប្រើមុខងារអាន CSV របស់ Pandas ដូចដែលបានឃើញខាងក្រោម៖

កំពុងនាំចូលសំណុំទិន្នន័យ

ដោយប្រើមុខងារ head() សូមពិនិត្យមើលជួរទាំងប្រាំដំបូងរបស់សំណុំទិន្នន័យ៖

សំណុំទិន្នន័យក្បាល

លទ្ធផល:

លទ្ធផលនៃសំណុំទិន្នន័យក្បាល

3. ការវិភាគទិន្នន័យ

អនុញ្ញាតឱ្យយើងពិនិត្យមើលទិន្នន័យដើម្បីកំណត់ថាតើមាននិន្នាការណាមួយ។ ប៉ុន្តែជាដំបូង យើងនឹងផ្លាស់ប្តូរទំហំគ្រោងលំនាំដើម ដើម្បីធ្វើឱ្យគំនូសតាងកាន់តែមើលឃើញ។

ការលៃតម្រូវទំហំគ្រោង

ចូរយើងចាប់ផ្តើមជាមួយនឹងចំនួន tweets ដែលទទួលបានដោយក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗ។ យើងនឹងប្រើតារាងចំណិតសម្រាប់រឿងនេះ៖

គំនូសតាងចំណិត

ភាគរយនៃ tweets សាធារណៈសម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗត្រូវបានបង្ហាញនៅក្នុងលទ្ធផល។

លទ្ធផលគំនូសតាងចំណិត

តោះមើលពីរបៀបដែលអារម្មណ៍ត្រូវបានចែកចាយនៅលើ tweets ទាំងអស់។

គំនូសតាងចំណិត Semantic

លទ្ធផល:

លទ្ធផលគំនូសតាងចំណិត Semantic

ឥឡូវនេះ ចូរយើងពិនិត្យមើលការចែកចាយមនោសញ្ចេតនាសម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍ជាក់លាក់នីមួយៗ។

យោងតាមលទ្ធផល ភាគច្រើននៃ tweets សម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍ស្ទើរតែទាំងអស់គឺមិនអំណោយផលទេ ដោយមាន tweets អព្យាក្រឹត និងល្អដូចខាងក្រោម។ Virgin America ប្រហែលជាក្រុមហ៊ុនអាកាសចរណ៍តែមួយគត់ដែលសមាមាត្រនៃអារម្មណ៍ទាំងបីអាចប្រៀបធៀបបាន។

ការចែកចាយរបស់ក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗ

លទ្ធផល:

ការចែកចាយទិន្នផលក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗ

ជាចុងក្រោយ យើងនឹងប្រើប្រាស់បណ្ណាល័យ Seaborn ដើម្បីទទួលបានកម្រិតទំនុកចិត្តជាមធ្យមសម្រាប់ tweets ពីប្រភេទមនោសញ្ចេតនាបី។

គ្រោងបារ

លទ្ធផល:

ទិន្នផលគ្រោងរបារ

លទ្ធផលបង្ហាញថាកម្រិតទំនុកចិត្តសម្រាប់ tweets អវិជ្ជមានគឺធំជាង tweets វិជ្ជមាន ឬអព្យាក្រឹត។

4. ការសម្អាតទិន្នន័យ

ពាក្យស្លោក និងសញ្ញាវណ្ណយុត្តិជាច្រើនអាចរកបាននៅក្នុងធ្វីត។ មុនពេលដែលយើងអាចបង្វឹកគំរូរៀនម៉ាស៊ីនបាន យើងត្រូវសម្អាត Tweet របស់យើង។

ទោះយ៉ាងណាក៏ដោយ មុននឹងយើងចាប់ផ្តើមសម្អាត tweets យើងគួរតែបំបែកសំណុំទិន្នន័យរបស់យើងទៅជាសំណុំមុខងារ និងស្លាក។

លក្ខណៈពិសេសនិងស្លាក

យើងអាចសម្អាតទិន្នន័យបាននៅពេលដែលយើងបានបំបែកវាជាលក្ខណៈពិសេស និងសំណុំបណ្ដុះបណ្ដាល។ កន្សោមធម្មតានឹងត្រូវបានប្រើដើម្បីធ្វើរឿងនេះ។

ការបញ្ចេញមតិធម្មតា

5. តំណាងលេខនៃអត្ថបទ

ដើម្បីបណ្ដុះបណ្ដាលគំរូសិក្សាតាមម៉ាស៊ីន ក្បួនដោះស្រាយស្ថិតិប្រើគណិតវិទ្យា។ ម្យ៉ាងវិញទៀត គណិតវិទ្យា ប្រើតែលេខប៉ុណ្ណោះ។

ដំបូងយើងត្រូវបំប្លែងអត្ថបទទៅជាលេខសម្រាប់ក្បួនដោះស្រាយស្ថិតិដើម្បីដោះស្រាយវា។ មានវិធីជាមូលដ្ឋានចំនួនបីក្នុងការធ្វើដូច្នេះ៖ Bag of Words, TF-IDF, និង Word2Vec ។

ជាសំណាងល្អ ថ្នាក់ TfidfVectorizer នៅក្នុងម៉ូឌុល Scikit-Learn របស់ Python អាចត្រូវបានប្រើដើម្បីបំប្លែងលក្ខណៈពិសេសអត្ថបទទៅជាវ៉ិចទ័រលក្ខណៈ TF-IDF ។

TF IDF

6. ការបង្កើតវគ្គបណ្តុះបណ្តាល និងតេស្តដែលជំរុញដោយទិន្នន័យ

ជាចុងក្រោយ យើងត្រូវបែងចែកទិន្នន័យរបស់យើងទៅជាសំណុំបណ្ដុះបណ្ដាល និងការធ្វើតេស្ត មុនពេលបណ្តុះបណ្តាលក្បួនដោះស្រាយរបស់យើង។

ឈុតបណ្តុះបណ្តាលនឹងត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលក្បួនដោះស្រាយ ហើយសំណុំតេស្តនឹងត្រូវបានប្រើដើម្បីវាយតម្លៃដំណើរការរបស់ម៉ូដែលរៀនម៉ាស៊ីន។

តេស្តរថភ្លើង

7. ការអភិវឌ្ឍន៍គំរូ

បន្ទាប់ពីទិន្នន័យត្រូវបានបំបែកទៅជាសំណុំបណ្តុះបណ្តាល និងសាកល្បង បច្ចេកទេសរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីរៀនពីទិន្នន័យបណ្តុះបណ្តាល។

អ្នកអាចប្រើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនណាមួយ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្រ្ត Random Forest នឹងត្រូវបានប្រើដោយសារតែសមត្ថភាពរបស់វាក្នុងការទប់ទល់នឹងទិន្នន័យដែលមិនមានលក្ខណៈធម្មតា។

ការបណ្តុះបណ្តាលគំរូ

8. ការទស្សន៍ទាយ និងការវាយតម្លៃគំរូ

បន្ទាប់ពីគំរូត្រូវបានបណ្តុះបណ្តាល ដំណាក់កាលចុងក្រោយគឺធ្វើការទស្សន៍ទាយ។ ដើម្បីធ្វើដូច្នេះ យើងត្រូវអនុវត្តវិធីសាស្ត្រព្យាករណ៍ចំពោះវត្ថុថ្នាក់ RandomForestClassifier ដែលយើងបានបណ្តុះបណ្តាល។

ការទស្សន៍ទាយគំរូ

ជាចុងក្រោយ វិធានការចាត់ថ្នាក់ដូចជា មាត្រដ្ឋានច្របូកច្របល់ វិធានការ F1 ភាពត្រឹមត្រូវ និងអ្វីៗផ្សេងទៀតអាចត្រូវបានប្រើដើម្បីវាយតម្លៃដំណើរការនៃគំរូសិក្សាម៉ាស៊ីន។

ចំណាត់ថ្នាក់ម៉ែត្រ

លទ្ធផល:

ចំណាត់ថ្នាក់លទ្ធផលម៉ែត្រ

ក្បួនដោះស្រាយរបស់យើងសម្រេចបាននូវភាពត្រឹមត្រូវ 75.30 ដូចដែលបានឃើញដោយលទ្ធផល។

សន្និដ្ឋាន

ការវិភាគអារម្មណ៍គឺជាការងារ NLP ញឹកញាប់បំផុតមួយចាប់តាំងពីវាជួយកំណត់មតិសាធារណៈទូទៅលើបញ្ហាជាក់លាក់មួយ។

យើងបានឃើញពីរបៀបដែលបណ្ណាល័យ Python អាចជួយក្នុងការវិភាគមនោសញ្ចេតនា។

យើងបានធ្វើការសិក្សាលើ tweets សាធារណៈអំពីក្រុមហ៊ុនអាកាសចរណ៍អាមេរិកចំនួនប្រាំមួយ ហើយបានឈានដល់ភាពត្រឹមត្រូវប្រហែល 75% ។

ខ្ញុំចង់ស្នើឱ្យអ្នកសាកល្បងប្រើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនផ្សេងទៀត ដូចជាការតំរែតំរង់ logistic, SVM, ឬ KNN ដើម្បីមើលថាតើអ្នកអាចសម្រេចបានលទ្ធផលប្រសើរជាងមុន។

ការវិភាគមនោសញ្ចេតនា NLP ដោយប្រើ Python

តើការវិភាគអារម្មណ៍គឺជាអ្វី?

អត្ថប្រយោជន៍នៃការវិភាគមនោសញ្ចេតនា