មាតិកា[លាក់][បង្ហាញ]
អាជីវកម្មនឹងមានជំនាញក្នុងការទទួលបានទិន្នន័យអន្តរកម្មអតិថិជនត្រឹមឆ្នាំ 2021។
ម៉្យាងវិញទៀត ការពឹងផ្អែកខ្លាំងលើចំណុចទិន្នន័យទាំងនេះ ជារឿយៗនាំឱ្យស្ថាប័ននានាចាត់ទុកការបញ្ចូលរបស់អតិថិជនជាស្ថិតិ ដែលជាវិធីសាស្រ្តមួយវិមាត្រក្នុងការស្តាប់សំឡេងរបស់អតិថិជន។
សំឡេងរបស់អតិថិជនមិនអាចផ្លាកសញ្ញា ឬបំប្លែងទៅជាលេខបានទេ។
វាត្រូវតែត្រូវបានអាន condensed និង, ខាងលើទាំងអស់, យល់។
ការពិតគឺថាក្រុមហ៊ុនត្រូវតែស្តាប់យ៉ាងសកម្មនូវអ្វីដែលអ្នកប្រើប្រាស់របស់ពួកគេត្រូវនិយាយនៅគ្រប់ប៉ុស្តិ៍ដែលទាក់ទងជាមួយពួកគេ ថាតើវាតាមរយៈការហៅទូរសព្ទ អ៊ីមែល ឬការជជែកផ្ទាល់។
ក្រុមហ៊ុននីមួយៗគួរតែផ្តល់អាទិភាពដល់ការត្រួតពិនិត្យ និងវាយតម្លៃពីអារម្មណ៍នៃមតិអ្នកប្រើប្រាស់ ប៉ុន្តែក្រុមហ៊ុននានាបានព្យាយាមជាប្រពៃណីក្នុងការដោះស្រាយទិន្នន័យនេះ និងបំប្លែងវាទៅជាបញ្ញាដ៏មានអត្ថន័យ។
នេះមិនមែនជាករណីនៃការវិភាគអារម្មណ៍ទៀតទេ។
នៅក្នុងការបង្រៀននេះ យើងនឹងពិនិត្យមើលឱ្យកាន់តែដិតដល់នូវការវិភាគមនោសញ្ចេតនា គុណសម្បត្តិរបស់វា និងរបៀបប្រើប្រាស់ អិនអិលធី បណ្ណាល័យដើម្បីធ្វើការវិភាគមនោសញ្ចេតនាលើទិន្នន័យ។
តើការវិភាគអារម្មណ៍គឺជាអ្វី?
ការវិភាគមនោសញ្ចេតនា ដែលជារឿយៗគេស្គាល់ថាជាការសន្ទនា ការជីកយករ៉ែ គឺជាវិធីសាស្ត្រសម្រាប់ការវិភាគអារម្មណ៍ គំនិត និងទស្សនៈរបស់មនុស្ស។
ការវិភាគមនោសញ្ចេតនាអនុញ្ញាតឱ្យអាជីវកម្មទទួលបានការយល់ដឹងកាន់តែប្រសើរឡើងអំពីអ្នកប្រើប្រាស់របស់ពួកគេ បង្កើនប្រាក់ចំណូល និងលើកកម្ពស់ផលិតផល និងសេវាកម្មរបស់ពួកគេដោយផ្អែកលើការបញ្ចូលរបស់អតិថិជន។
ភាពខុសគ្នារវាងប្រព័ន្ធសូហ្វវែរដែលមានសមត្ថភាពវិភាគអារម្មណ៍របស់អតិថិជន និងបុគ្គលិកផ្នែកលក់/តំណាងសេវាកម្មអតិថិជនដែលព្យាយាមសន្មតថាវាគឺជាសមត្ថភាពរបស់អតីតក្នុងការទាញយកលទ្ធផលគោលបំណងពីអត្ថបទដើម — នេះត្រូវបានសម្រេចជាចម្បងតាមរយៈដំណើរការភាសាធម្មជាតិ (NLP) និង ការរៀនម៉ាស៊ីន បច្ចេកទេស។
ពីការកំណត់អត្តសញ្ញាណអារម្មណ៍រហូតដល់ការចាត់ថ្នាក់អត្ថបទ ការវិភាគមនោសញ្ចេតនាមានកម្មវិធីយ៉ាងទូលំទូលាយ។ យើងប្រើប្រាស់ការវិភាគមនោសញ្ចេតនាលើទិន្នន័យជាអត្ថបទ ដើម្បីជួយក្រុមហ៊ុនត្រួតពិនិត្យអារម្មណ៍នៃការវាយតម្លៃផលិតផល ឬមតិកែលម្អរបស់អ្នកប្រើប្រាស់។
គេហទំព័រប្រព័ន្ធផ្សព្វផ្សាយសង្គមផ្សេងៗប្រើវាដើម្បីវាយតម្លៃអារម្មណ៍នៃការបង្ហោះ ហើយប្រសិនបើអារម្មណ៍ខ្លាំងពេក ឬហឹង្សា ឬធ្លាក់ចុះក្រោមកម្រិតកំណត់ ការបង្ហោះនោះនឹងត្រូវលុប ឬលាក់។
ការវិភាគមនោសញ្ចេតនាអាចត្រូវបានប្រើសម្រាប់អ្វីៗគ្រប់យ៉ាងចាប់ពីការកំណត់អត្តសញ្ញាណអារម្មណ៍រហូតដល់ការចាត់ថ្នាក់អត្ថបទ។
ការប្រើប្រាស់ដ៏ពេញនិយមបំផុតនៃការវិភាគមនោសញ្ចេតនាគឺនៅលើទិន្នន័យអត្ថបទ ដែលវាត្រូវបានប្រើដើម្បីជួយក្រុមហ៊ុនក្នុងការតាមដានអារម្មណ៍នៃការវាយតម្លៃផលិតផល ឬមតិយោបល់របស់អ្នកប្រើប្រាស់។
គេហទំព័រប្រព័ន្ធផ្សព្វផ្សាយសង្គមផ្សេងៗក៏ប្រើវាដើម្បីវាយតម្លៃអារម្មណ៍នៃការបង្ហោះ ហើយប្រសិនបើអារម្មណ៍ខ្លាំងពេក ឬហឹង្សា ឬធ្លាក់ក្រោមកម្រិតកំណត់ ពួកគេនឹងលុប ឬលាក់ការបង្ហោះនោះ។
អត្ថប្រយោជន៍នៃការវិភាគមនោសញ្ចេតនា
ខាងក្រោមនេះគឺជាអត្ថប្រយោជន៍ដ៏សំខាន់មួយចំនួននៃការវិភាគមនោសញ្ចេតនាដែលមិនគួរត្រូវបានគេមើលរំលង។
- ជួយក្នុងការវាយតម្លៃការយល់ឃើញនៃម៉ាករបស់អ្នកក្នុងចំណោមប្រជាសាស្រ្តគោលដៅរបស់អ្នក។
- មតិកែលម្អរបស់អតិថិជនផ្ទាល់ត្រូវបានផ្តល់ជូនដើម្បីជួយអ្នកក្នុងការអភិវឌ្ឍន៍ផលិតផលរបស់អ្នក។
- បង្កើនប្រាក់ចំណូលពីការលក់ និងការរំពឹងទុក។
- ឱកាសលក់បន្តសម្រាប់ជើងឯកផលិតផលរបស់អ្នកបានកើនឡើង។
- សេវាកម្មអតិថិជនសកម្មគឺជាជម្រើសជាក់ស្តែង។
លេខអាចផ្តល់ឱ្យអ្នកនូវព័ត៌មានដូចជាការអនុវត្តដើមនៃយុទ្ធនាការទីផ្សារ ចំនួននៃការចូលរួមនៅក្នុងការហៅទូរសព្ទដែលរំពឹងទុក និងចំនួនសំបុត្រដែលកំពុងរង់ចាំការគាំទ្រអតិថិជន។
ទោះយ៉ាងណាក៏ដោយ វានឹងមិនប្រាប់អ្នកពីមូលហេតុដែលព្រឹត្តិការណ៍ជាក់លាក់មួយបានកើតឡើង ឬបណ្តាលមកពីអ្វីនោះទេ។ ជាឧទាហរណ៍ ឧបករណ៍វិភាគដូចជា Google និង Facebook អាចជួយអ្នកវាយតម្លៃដំណើរការនៃកិច្ចខិតខំប្រឹងប្រែងទីផ្សាររបស់អ្នក។
ប៉ុន្តែពួកគេមិនផ្តល់ឱ្យអ្នកនូវចំណេះដឹងស៊ីជម្រៅអំពីមូលហេតុដែលយុទ្ធនាការជាក់លាក់នោះទទួលបានជោគជ័យនោះទេ។
ការវិភាគអារម្មណ៍មានសក្តានុពលក្នុងការផ្លាស់ប្តូរហ្គេមក្នុងរឿងនេះ។
ការវិភាគអារម្មណ៍ - សេចក្តីថ្លែងការណ៍បញ្ហា
គោលបំណងគឺដើម្បីកំណត់ថាតើ tweet មានភាពអំណោយផល អវិជ្ជមាន ឬអារម្មណ៍អព្យាក្រឹតទាក់ទងនឹងក្រុមហ៊ុនអាកាសចរណ៍អាមេរិកចំនួនប្រាំមួយដោយផ្អែកលើ tweets ។
នេះគឺជាការងារសិក្សាដែលស្ថិតក្រោមការគ្រប់គ្រងស្ដង់ដារ ដែលយើងត្រូវតែចាត់ថ្នាក់ខ្សែអក្សរទៅក្នុងប្រភេទដែលបានកំណត់ទុកជាមុនដែលបានផ្ដល់ឱ្យខ្សែអក្សរ។
ជាដំណោះស្រាយ
យើងនឹងប្រើដំណើរការរៀនតាមម៉ាស៊ីនស្តង់ដារ ដើម្បីដោះស្រាយបញ្ហានេះ។ យើងនឹងចាប់ផ្តើមដោយការនាំចូលបណ្ណាល័យ និងសំណុំទិន្នន័យចាំបាច់។
បន្ទាប់មក យើងនឹងធ្វើការវិភាគទិន្នន័យរុករកមួយចំនួន ដើម្បីកំណត់ថាតើមានលំនាំណាមួយនៅក្នុងទិន្នន័យ។ បន្ទាប់មក យើងនឹងធ្វើការដំណើរការអត្ថបទជាមុន ដើម្បីបង្វែរទិន្នន័យជាលេខដែលបញ្ចូលជាអក្សរថា ក ការរៀនម៉ាស៊ីន ប្រព័ន្ធអាចប្រើបាន។
ជាចុងក្រោយ យើងនឹងបណ្តុះបណ្តាល និងវាយតម្លៃគំរូការវិភាគមនោសញ្ចេតនារបស់យើង ដោយប្រើវិធីសាស្រ្តរៀនម៉ាស៊ីន។
1. ការនាំចូលបណ្ណាល័យ
ផ្ទុកបណ្ណាល័យចាំបាច់។
2. នាំចូលសំណុំទិន្នន័យ
អត្ថបទនេះនឹងផ្អែកលើសំណុំទិន្នន័យដែលអាចត្រូវបានរកឃើញនៅលើ Github. សំណុំទិន្នន័យនឹងត្រូវបាននាំចូលដោយប្រើមុខងារអាន CSV របស់ Pandas ដូចដែលបានឃើញខាងក្រោម៖
ដោយប្រើមុខងារ head() សូមពិនិត្យមើលជួរទាំងប្រាំដំបូងរបស់សំណុំទិន្នន័យ៖
លទ្ធផល:
3. ការវិភាគទិន្នន័យ
អនុញ្ញាតឱ្យយើងពិនិត្យមើលទិន្នន័យដើម្បីកំណត់ថាតើមាននិន្នាការណាមួយ។ ប៉ុន្តែជាដំបូង យើងនឹងផ្លាស់ប្តូរទំហំគ្រោងលំនាំដើម ដើម្បីធ្វើឱ្យគំនូសតាងកាន់តែមើលឃើញ។
ចូរយើងចាប់ផ្តើមជាមួយនឹងចំនួន tweets ដែលទទួលបានដោយក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗ។ យើងនឹងប្រើតារាងចំណិតសម្រាប់រឿងនេះ៖
ភាគរយនៃ tweets សាធារណៈសម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍នីមួយៗត្រូវបានបង្ហាញនៅក្នុងលទ្ធផល។
តោះមើលពីរបៀបដែលអារម្មណ៍ត្រូវបានចែកចាយនៅលើ tweets ទាំងអស់។
លទ្ធផល:
ឥឡូវនេះ ចូរយើងពិនិត្យមើលការចែកចាយមនោសញ្ចេតនាសម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍ជាក់លាក់នីមួយៗ។
យោងតាមលទ្ធផល ភាគច្រើននៃ tweets សម្រាប់ក្រុមហ៊ុនអាកាសចរណ៍ស្ទើរតែទាំងអស់គឺមិនអំណោយផលទេ ដោយមាន tweets អព្យាក្រឹត និងល្អដូចខាងក្រោម។ Virgin America ប្រហែលជាក្រុមហ៊ុនអាកាសចរណ៍តែមួយគត់ដែលសមាមាត្រនៃអារម្មណ៍ទាំងបីអាចប្រៀបធៀបបាន។
លទ្ធផល:
ជាចុងក្រោយ យើងនឹងប្រើប្រាស់បណ្ណាល័យ Seaborn ដើម្បីទទួលបានកម្រិតទំនុកចិត្តជាមធ្យមសម្រាប់ tweets ពីប្រភេទមនោសញ្ចេតនាបី។
លទ្ធផល:
លទ្ធផលបង្ហាញថាកម្រិតទំនុកចិត្តសម្រាប់ tweets អវិជ្ជមានគឺធំជាង tweets វិជ្ជមាន ឬអព្យាក្រឹត។
4. ការសម្អាតទិន្នន័យ
ពាក្យស្លោក និងសញ្ញាវណ្ណយុត្តិជាច្រើនអាចរកបាននៅក្នុងធ្វីត។ មុនពេលដែលយើងអាចបង្វឹកគំរូរៀនម៉ាស៊ីនបាន យើងត្រូវសម្អាត Tweet របស់យើង។
ទោះយ៉ាងណាក៏ដោយ មុននឹងយើងចាប់ផ្តើមសម្អាត tweets យើងគួរតែបំបែកសំណុំទិន្នន័យរបស់យើងទៅជាសំណុំមុខងារ និងស្លាក។
យើងអាចសម្អាតទិន្នន័យបាននៅពេលដែលយើងបានបំបែកវាជាលក្ខណៈពិសេស និងសំណុំបណ្ដុះបណ្ដាល។ កន្សោមធម្មតានឹងត្រូវបានប្រើដើម្បីធ្វើរឿងនេះ។
5. តំណាងលេខនៃអត្ថបទ
ដើម្បីបណ្ដុះបណ្ដាលគំរូសិក្សាតាមម៉ាស៊ីន ក្បួនដោះស្រាយស្ថិតិប្រើគណិតវិទ្យា។ ម្យ៉ាងវិញទៀត គណិតវិទ្យា ប្រើតែលេខប៉ុណ្ណោះ។
ដំបូងយើងត្រូវបំប្លែងអត្ថបទទៅជាលេខសម្រាប់ក្បួនដោះស្រាយស្ថិតិដើម្បីដោះស្រាយវា។ មានវិធីជាមូលដ្ឋានចំនួនបីក្នុងការធ្វើដូច្នេះ៖ Bag of Words, TF-IDF, និង Word2Vec ។
ជាសំណាងល្អ ថ្នាក់ TfidfVectorizer នៅក្នុងម៉ូឌុល Scikit-Learn របស់ Python អាចត្រូវបានប្រើដើម្បីបំប្លែងលក្ខណៈពិសេសអត្ថបទទៅជាវ៉ិចទ័រលក្ខណៈ TF-IDF ។
6. ការបង្កើតវគ្គបណ្តុះបណ្តាល និងតេស្តដែលជំរុញដោយទិន្នន័យ
ជាចុងក្រោយ យើងត្រូវបែងចែកទិន្នន័យរបស់យើងទៅជាសំណុំបណ្ដុះបណ្ដាល និងការធ្វើតេស្ត មុនពេលបណ្តុះបណ្តាលក្បួនដោះស្រាយរបស់យើង។
ឈុតបណ្តុះបណ្តាលនឹងត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលក្បួនដោះស្រាយ ហើយសំណុំតេស្តនឹងត្រូវបានប្រើដើម្បីវាយតម្លៃដំណើរការរបស់ម៉ូដែលរៀនម៉ាស៊ីន។
7. ការអភិវឌ្ឍន៍គំរូ
បន្ទាប់ពីទិន្នន័យត្រូវបានបំបែកទៅជាសំណុំបណ្តុះបណ្តាល និងសាកល្បង បច្ចេកទេសរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីរៀនពីទិន្នន័យបណ្តុះបណ្តាល។
អ្នកអាចប្រើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនណាមួយ។ ទោះជាយ៉ាងណាក៏ដោយ វិធីសាស្រ្ត Random Forest នឹងត្រូវបានប្រើដោយសារតែសមត្ថភាពរបស់វាក្នុងការទប់ទល់នឹងទិន្នន័យដែលមិនមានលក្ខណៈធម្មតា។
8. ការទស្សន៍ទាយ និងការវាយតម្លៃគំរូ
បន្ទាប់ពីគំរូត្រូវបានបណ្តុះបណ្តាល ដំណាក់កាលចុងក្រោយគឺធ្វើការទស្សន៍ទាយ។ ដើម្បីធ្វើដូច្នេះ យើងត្រូវអនុវត្តវិធីសាស្ត្រព្យាករណ៍ចំពោះវត្ថុថ្នាក់ RandomForestClassifier ដែលយើងបានបណ្តុះបណ្តាល។
ជាចុងក្រោយ វិធានការចាត់ថ្នាក់ដូចជា មាត្រដ្ឋានច្របូកច្របល់ វិធានការ F1 ភាពត្រឹមត្រូវ និងអ្វីៗផ្សេងទៀតអាចត្រូវបានប្រើដើម្បីវាយតម្លៃដំណើរការនៃគំរូសិក្សាម៉ាស៊ីន។
លទ្ធផល:
ក្បួនដោះស្រាយរបស់យើងសម្រេចបាននូវភាពត្រឹមត្រូវ 75.30 ដូចដែលបានឃើញដោយលទ្ធផល។
សន្និដ្ឋាន
ការវិភាគអារម្មណ៍គឺជាការងារ NLP ញឹកញាប់បំផុតមួយចាប់តាំងពីវាជួយកំណត់មតិសាធារណៈទូទៅលើបញ្ហាជាក់លាក់មួយ។
យើងបានឃើញពីរបៀបដែលបណ្ណាល័យ Python អាចជួយក្នុងការវិភាគមនោសញ្ចេតនា។
យើងបានធ្វើការសិក្សាលើ tweets សាធារណៈអំពីក្រុមហ៊ុនអាកាសចរណ៍អាមេរិកចំនួនប្រាំមួយ ហើយបានឈានដល់ភាពត្រឹមត្រូវប្រហែល 75% ។
ខ្ញុំចង់ស្នើឱ្យអ្នកសាកល្បងប្រើក្បួនដោះស្រាយការរៀនម៉ាស៊ីនផ្សេងទៀត ដូចជាការតំរែតំរង់ logistic, SVM, ឬ KNN ដើម្បីមើលថាតើអ្នកអាចសម្រេចបានលទ្ធផលប្រសើរជាងមុន។
សូមផ្ដល់យោបល់