ສາລະບານ[ເຊື່ອງ][ສະແດງ]
ທຸລະກິດຈະມີຄວາມຊໍານິຊໍານານໃນການຊື້ຂໍ້ມູນການໂຕ້ຕອບຂອງຜູ້ບໍລິໂພກໃນປີ 2021.
ໃນທາງກົງກັນຂ້າມ, ການເອື່ອຍອີງຫຼາຍເກີນໄປກ່ຽວກັບຈຸດຂໍ້ມູນເຫຼົ່ານີ້, ເລື້ອຍໆເຮັດໃຫ້ອົງການຈັດຕັ້ງປະຕິບັດການປ້ອນຂໍ້ມູນຂອງລູກຄ້າເປັນສະຖິຕິ - ເປັນວິທີການຫນຶ່ງມິຕິຫນຶ່ງເພື່ອຟັງສຽງຂອງລູກຄ້າ.
ສຽງຂອງລູກຄ້າບໍ່ສາມາດໃສ່ປ້າຍ ຫຼືປ່ຽນເປັນຕົວເລກໄດ້.
ມັນຕ້ອງໄດ້ຮັບການອ່ານ, ຫຍໍ້, ແລະ, ສໍາຄັນທີ່ສຸດ, ເຂົ້າໃຈໄດ້.
ຄວາມຈິງແລ້ວແມ່ນວ່າບໍລິສັດຕ້ອງໄດ້ຟັງຢ່າງຈິງຈັງກັບສິ່ງທີ່ຜູ້ບໍລິໂພກຂອງພວກເຂົາເວົ້າໃນທຸກຊ່ອງທາງທີ່ເຂົາເຈົ້າພົວພັນກັບພວກເຂົາ, ບໍ່ວ່າຈະຜ່ານທາງໂທລະສັບ, ອີເມວ, ຫຼືການສົນທະນາສົດ.
ທຸກໆບໍລິສັດຄວນຈັດລໍາດັບຄວາມສໍາຄັນໃນການຕິດຕາມແລະປະເມີນຄວາມຮູ້ສຶກຂອງຄວາມຄິດເຫັນຂອງຜູ້ບໍລິໂພກ, ແຕ່ບໍລິສັດຕ່າງໆໄດ້ຕໍ່ສູ້ແບບດັ້ງເດີມເພື່ອຈັດການກັບຂໍ້ມູນນີ້ແລະປ່ຽນມັນໄປສູ່ຄວາມສະຫລາດທີ່ມີຄວາມຫມາຍ.
ນີ້ບໍ່ແມ່ນກໍລະນີທີ່ມີການວິເຄາະຄວາມຮູ້ສຶກ.
ໃນບົດສອນນີ້, ພວກເຮົາຈະພິຈາລະນາຢ່າງລະອຽດກ່ຽວກັບການວິເຄາະຄວາມຮູ້ສຶກ, ຂໍ້ດີຂອງມັນ, ແລະວິທີການນໍາໃຊ້ NLTK ຫ້ອງສະຫມຸດເພື່ອເຮັດການວິເຄາະຄວາມຮູ້ສຶກກ່ຽວກັບຂໍ້ມູນ.
ການວິເຄາະຄວາມຮູ້ສຶກແມ່ນຫຍັງ?
ການວິເຄາະຄວາມຮູ້ສຶກ, ມັກເອີ້ນວ່າການສົນທະນາຂຸດຄົ້ນບໍ່ແຮ່, ແມ່ນວິທີການສໍາລັບການວິເຄາະຄວາມຮູ້ສຶກ, ຄວາມຄິດ, ແລະທັດສະນະຂອງຄົນ.
ການວິເຄາະຄວາມຮູ້ສຶກຊ່ວຍໃຫ້ທຸລະກິດມີຄວາມເຂົ້າໃຈດີຂຶ້ນຂອງຜູ້ບໍລິໂພກ, ເພີ່ມລາຍຮັບ, ແລະເສີມຂະຫຍາຍຜະລິດຕະພັນແລະການບໍລິການຂອງພວກເຂົາໂດຍອີງໃສ່ການປ້ອນຂໍ້ມູນຂອງລູກຄ້າ.
ຄວາມແຕກຕ່າງລະຫວ່າງລະບົບຊອບແວທີ່ສາມາດວິເຄາະຄວາມຮູ້ສຶກຂອງລູກຄ້າແລະຕົວແທນຝ່າຍຂາຍ / ບໍລິການລູກຄ້າທີ່ພະຍາຍາມ deduce ມັນແມ່ນຄວາມສາມາດຂອງອະດີດທີ່ຈະໄດ້ຜົນໄດ້ຮັບຈຸດປະສົງຈາກຂໍ້ຄວາມດິບ - ນີ້ແມ່ນສໍາເລັດຕົ້ນຕໍໂດຍຜ່ານການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ແລະ. ການຮຽນຮູ້ເຄື່ອງຈັກ ເຕັກນິກ.
ຈາກການລະບຸຄວາມຮູ້ສຶກເຖິງການຈັດປະເພດຂໍ້ຄວາມ, ການວິເຄາະຄວາມຮູ້ສຶກມີລະດັບຄວາມກ້ວາງຂອງຄໍາຮ້ອງສະຫມັກ. ພວກເຮົາໃຊ້ການວິເຄາະຄວາມຮູ້ສຶກກ່ຽວກັບຂໍ້ມູນຂໍ້ຄວາມເພື່ອຊ່ວຍບໍລິສັດກວດສອບຄວາມຮູ້ສຶກຂອງການປະເມີນຜົນຜະລິດຕະພັນຫຼືຄໍາຕິຊົມຂອງຜູ້ບໍລິໂພກ.
ສະຖານທີ່ສື່ມວນຊົນສັງຄົມທີ່ແຕກຕ່າງກັນໃຊ້ມັນເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງການໂພດ, ແລະຖ້າຄວາມຮູ້ສຶກທີ່ເຂັ້ມແຂງເກີນໄປຫຼືຮຸນແຮງ, ຫຼືຕໍ່າກວ່າເກນຂອງພວກເຂົາ, ໂພດຈະຖືກລຶບຫຼືເຊື່ອງໄວ້.
ການວິເຄາະຄວາມຮູ້ສຶກສາມາດຖືກນໍາໃຊ້ສໍາລັບທຸກສິ່ງທຸກຢ່າງຈາກການກໍານົດຄວາມຮູ້ສຶກເຖິງການຈັດປະເພດຂໍ້ຄວາມ.
ການນໍາໃຊ້ຫຼາຍທີ່ສຸດຂອງການວິເຄາະຄວາມຮູ້ສຶກແມ່ນກ່ຽວກັບຂໍ້ມູນຂໍ້ຄວາມ, ບ່ອນທີ່ມັນຖືກນໍາໃຊ້ເພື່ອຊ່ວຍໃຫ້ບໍລິສັດໃນການຕິດຕາມຄວາມຮູ້ສຶກຂອງການປະເມີນຜົນຜະລິດຕະພັນຫຼືຄວາມຄິດເຫັນຂອງຜູ້ບໍລິໂພກ.
ສະຖານທີ່ສື່ມວນຊົນສັງຄົມທີ່ແຕກຕ່າງກັນຍັງໃຊ້ມັນເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງການໂພດ, ແລະຖ້າຄວາມຮູ້ສຶກທີ່ເຂັ້ມແຂງເກີນໄປຫຼືຮຸນແຮງ, ຫຼືຕໍ່າກວ່າເກນຂອງພວກເຂົາ, ພວກເຂົາຈະລຶບຫຼືປິດບັງຂໍ້ຄວາມ.
ຜົນປະໂຫຍດຂອງການວິເຄາະຄວາມຮູ້ສຶກ
ຕໍ່ໄປນີ້ແມ່ນບາງຜົນປະໂຫຍດທີ່ສໍາຄັນທີ່ສຸດຂອງການວິເຄາະຄວາມຮູ້ສຶກທີ່ບໍ່ຄວນຖືກປະຕິເສດ.
- ຊ່ວຍໃນການປະເມີນຄວາມຮັບຮູ້ຂອງຍີ່ຫໍ້ຂອງທ່ານໃນບັນດາປະຊາກອນເປົ້າຫມາຍຂອງທ່ານ.
- ຄວາມຄິດເຫັນຂອງລູກຄ້າໂດຍກົງແມ່ນສະຫນອງໃຫ້ເພື່ອຊ່ວຍທ່ານໃນການພັດທະນາຜະລິດຕະພັນຂອງທ່ານ.
- ເພີ່ມລາຍໄດ້ຈາກການຂາຍແລະຄວາມສົດໃສດ້ານ.
- ໂອກາດ Upsell ສໍາລັບແຊ້ມຜະລິດຕະພັນຂອງທ່ານໄດ້ເພີ່ມຂຶ້ນ.
- ການບໍລິການລູກຄ້າແບບຕັ້ງໃຈເປັນທາງເລືອກທີ່ປະຕິບັດໄດ້.
ຕົວເລກສາມາດໃຫ້ຂໍ້ມູນແກ່ເຈົ້າໄດ້ ເຊັ່ນ: ປະສິດທິພາບຂອງການໂຄສະນາການຕະຫຼາດ, ຈໍານວນການມີສ່ວນພົວພັນໃນການໂທທີ່ຄາດຫວັງ, ແລະຈໍານວນປີ້ທີ່ລໍຖ້າຢູ່ໃນການຊ່ວຍເຫຼືອລູກຄ້າ.
ຢ່າງໃດກໍຕາມ, ມັນຈະບໍ່ບອກທ່ານວ່າເປັນຫຍັງເຫດການສະເພາະໃດຫນຶ່ງເກີດຂຶ້ນຫຼືສິ່ງທີ່ເຮັດໃຫ້ເກີດມັນ. ເຄື່ອງມືການວິເຄາະເຊັ່ນ Google ແລະ Facebook, ສໍາລັບຕົວຢ່າງ, ສາມາດຊ່ວຍທ່ານປະເມີນປະສິດທິພາບຂອງຄວາມພະຍາຍາມໃນການຕະຫຼາດຂອງທ່ານ.
ແຕ່ພວກເຂົາບໍ່ໄດ້ໃຫ້ຄວາມຮູ້ອັນເລິກເຊິ່ງແກ່ເຈົ້າວ່າ ເປັນຫຍັງແຄມເປນສະເພາະນັ້ນຈຶ່ງປະສົບຜົນສຳເລັດ.
ການວິເຄາະຄວາມຮູ້ສຶກມີທ່າແຮງທີ່ຈະມີການປ່ຽນແປງເກມໃນເລື່ອງນີ້.
ການວິເຄາະຄວາມຮູ້ສຶກ – ຖະແຫຼງການບັນຫາ
ຈຸດປະສົງແມ່ນເພື່ອກໍານົດວ່າ tweet ມີຄວາມເອື້ອອໍານວຍ, ທາງລົບ, ຫຼືເປັນກາງກ່ຽວກັບການຫົກສາຍການບິນຂອງສະຫະລັດອີງໃສ່ tweets.
ນີ້ແມ່ນວຽກການຮຽນຮູ້ແບບຄວບຄຸມແບບມາດຕະຖານທີ່ພວກເຮົາຕ້ອງຈັດປະເພດສະຕຣິງຂໍ້ຄວາມເປັນໝວດໝູ່ທີ່ກຳນົດໄວ້ລ່ວງໜ້າໃຫ້ກັບສະຕຣິງຂໍ້ຄວາມ.
ການແກ້ໄຂ
ພວກເຮົາຈະໃຊ້ຂະບວນການການຮຽນຮູ້ເຄື່ອງຈັກມາດຕະຖານເພື່ອແກ້ໄຂບັນຫານີ້. ພວກເຮົາຈະເລີ່ມຕົ້ນໂດຍການນໍາເຂົ້າຫ້ອງສະຫມຸດແລະຊຸດຂໍ້ມູນທີ່ຈໍາເປັນ.
ຫຼັງຈາກນັ້ນ, ພວກເຮົາຈະດໍາເນີນການວິເຄາະຂໍ້ມູນການສໍາຫຼວດເພື່ອກໍານົດວ່າມີຮູບແບບໃດໆໃນຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ພວກເຮົາຈະດໍາເນີນການປຸງແຕ່ງຂໍ້ຄວາມກ່ອນເພື່ອປ່ຽນການປ້ອນຂໍ້ມູນຕົວເລກທີ່ເປັນຂໍ້ຄວາມ a ການຮຽນຮູ້ເຄື່ອງຈັກ ລະບົບສາມາດນໍາໃຊ້.
ສຸດທ້າຍ, ພວກເຮົາຈະຝຶກອົບຮົມແລະປະເມີນແບບຈໍາລອງການວິເຄາະຄວາມຮູ້ສຶກຂອງພວກເຮົາໂດຍໃຊ້ວິທີການຮຽນຮູ້ເຄື່ອງຈັກ.
1. ການນໍາເຂົ້າຫ້ອງສະຫມຸດ
ໂຫລດຫ້ອງສະຫມຸດທີ່ຈໍາເປັນ.
2. ນໍາເຂົ້າຊຸດຂໍ້ມູນ
ບົດຄວາມນີ້ຈະອີງໃສ່ຊຸດຂໍ້ມູນທີ່ສາມາດຊອກຫາໄດ້ GitHub. ຊຸດຂໍ້ມູນຈະຖືກນໍາເຂົ້າໂດຍໃຊ້ຟັງຊັນ CSV ຂອງ Pandas, ດັ່ງທີ່ເຫັນຂ້າງລຸ່ມນີ້:
ການນໍາໃຊ້ຟັງຊັນ head(), ກວດເບິ່ງຫ້າແຖວທໍາອິດຂອງຊຸດຂໍ້ມູນ:
ຜົນໄດ້ຮັບ:
3. ການວິເຄາະຂໍ້ມູນ
ໃຫ້ພວກເຮົາກວດເບິ່ງຂໍ້ມູນເພື່ອກໍານົດວ່າມີແນວໂນ້ມໃດໆ. ແຕ່ກ່ອນອື່ນໝົດ, ພວກເຮົາຈະປ່ຽນຂະໜາດຂອງຕອນຕົ້ນເພື່ອເຮັດໃຫ້ຕາຕະລາງເຫັນໄດ້ຫຼາຍຂຶ້ນ.
ໃຫ້ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍຈໍານວນ tweets ທີ່ໄດ້ຮັບໂດຍແຕ່ລະສາຍການບິນ. ພວກເຮົາຈະໃຊ້ຕາຕະລາງ pie ສໍາລັບການນີ້:
ເປີເຊັນຂອງ tweets ສາທາລະນະສໍາລັບແຕ່ລະສາຍການບິນແມ່ນສະແດງຢູ່ໃນຜົນຜະລິດ.
ຂໍໃຫ້ພິຈາລະນາເບິ່ງວ່າຄວາມຮູ້ສຶກໄດ້ຖືກແຈກຢາຍຜ່ານທັງຫມົດຂອງ tweets.
ຜົນໄດ້ຮັບ:
ຕອນນີ້ໃຫ້ພວກເຮົາກວດເບິ່ງການແຈກຢາຍຄວາມຮູ້ສຶກສໍາລັບແຕ່ລະສາຍການບິນສະເພາະ.
ອີງຕາມຜົນໄດ້ຮັບ, ສ່ວນໃຫຍ່ຂອງ tweets ສໍາລັບເກືອບທຸກສາຍການບິນແມ່ນບໍ່ເອື້ອອໍານວຍ, ມີ tweets ທີ່ເປັນກາງແລະດີປະຕິບັດຕາມ. ເວີຈິນອາເມລິກາແມ່ນບາງທີສາຍການບິນດຽວທີ່ອັດຕາສ່ວນຂອງສາມຄວາມຮູ້ສຶກແມ່ນປຽບທຽບ.
ຜົນໄດ້ຮັບ:
ສຸດທ້າຍ, ພວກເຮົາຈະໃຊ້ຫ້ອງສະຫມຸດ Seaborn ເພື່ອໃຫ້ໄດ້ລະດັບຄວາມຫມັ້ນໃຈສະເລ່ຍສໍາລັບ tweets ຈາກສາມປະເພດຄວາມຮູ້ສຶກ.
ຜົນໄດ້ຮັບ:
ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນວ່າລະດັບຄວາມຫມັ້ນໃຈສໍາລັບ tweets ລົບແມ່ນຫຼາຍກ່ວາ tweets ໃນທາງບວກຫຼືເປັນກາງ.
4. ທໍາຄວາມສະອາດຂໍ້ມູນ
ຄໍາສັບ slang ຫຼາຍແລະເຄື່ອງຫມາຍວັກຕອນສາມາດພົບເຫັນຢູ່ໃນ tweets. ກ່ອນທີ່ພວກເຮົາສາມາດຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, ພວກເຮົາຈໍາເປັນຕ້ອງເຮັດຄວາມສະອາດ tweets ຂອງພວກເຮົາ.
ຢ່າງໃດກໍຕາມ, ກ່ອນທີ່ພວກເຮົາຈະເລີ່ມຕົ້ນທໍາຄວາມສະອາດ tweets, ພວກເຮົາຄວນຈະແຍກຊຸດຂໍ້ມູນຂອງພວກເຮົາເຂົ້າໄປໃນລັກສະນະແລະຊຸດປ້າຍຊື່.
ພວກເຮົາສາມາດເຮັດຄວາມສະອາດຂໍ້ມູນໄດ້ເມື່ອພວກເຮົາແຍກມັນອອກເປັນລັກສະນະແລະຊຸດການຝຶກອົບຮົມ. ການສະແດງອອກປົກກະຕິຈະຖືກນໍາໃຊ້ເພື່ອເຮັດສິ່ງນີ້.
5. ການເປັນຕົວແທນຕົວເລກຂອງຂໍ້ຄວາມ
ເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ສູດການຄິດໄລ່ສະຖິຕິໃຊ້ຄະນິດສາດ. ໃນທາງກົງກັນຂ້າມ, ຄະນິດສາດເຮັດວຽກກັບຕົວເລກເທົ່ານັ້ນ.
ກ່ອນອື່ນ ໝົດ ພວກເຮົາຕ້ອງປ່ຽນຂໍ້ຄວາມເປັນຕົວເລກ ສຳ ລັບສູດການຄິດໄລ່ທາງສະຖິຕິເພື່ອຈັດການກັບມັນ. ມີສາມວິທີພື້ນຖານຂອງການເຮັດເຊັ່ນ: Bag of Words, TF-IDF, ແລະ Word2Vec.
ໂຊກດີ, ຫ້ອງຮຽນ TfidfVectorizer ໃນໂມດູນ Scikit-Learn ຂອງ Python ສາມາດໃຊ້ເພື່ອປ່ຽນລັກສະນະຂໍ້ຄວາມເປັນ vectors ຄຸນສົມບັດ TF-IDF.
6. ການສ້າງຊຸດຝຶກອົບຮົມ ແລະ ການທົດສອບທີ່ຂັບເຄື່ອນດ້ວຍຂໍ້ມູນ
ສຸດທ້າຍ, ພວກເຮົາຕ້ອງແບ່ງຂໍ້ມູນຂອງພວກເຮົາເຂົ້າໄປໃນຊຸດການຝຶກອົບຮົມແລະການທົດສອບກ່ອນທີ່ຈະຝຶກອົບຮົມ algorithms ຂອງພວກເຮົາ.
ຊຸດຝຶກອົບຮົມຈະຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມ algorithm, ແລະຊຸດທົດສອບຈະຖືກນໍາໃຊ້ເພື່ອປະເມີນປະສິດທິພາບຂອງເຄື່ອງຈັກການຮຽນຮູ້.
7. ການພັດທະນາຕົວແບບ
ຫຼັງຈາກຂໍ້ມູນໄດ້ຖືກແຍກອອກເປັນຊຸດການຝຶກອົບຮົມແລະການທົດສອບ, ເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກຖືກນໍາໃຊ້ເພື່ອຮຽນຮູ້ຈາກຂໍ້ມູນການຝຶກອົບຮົມ.
ທ່ານສາມາດນໍາໃຊ້ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກໃດໆ. ວິທີການ Random Forest, ແນວໃດກໍ່ຕາມ, ຈະຖືກໃຊ້ເນື່ອງຈາກຄວາມສາມາດໃນການຮັບມືກັບຂໍ້ມູນທີ່ບໍ່ແມ່ນປົກກະຕິ.
8. ການຄາດເດົາ ແລະ ການປະເມີນແບບຈໍາລອງ
ຫຼັງຈາກຕົວແບບໄດ້ຮັບການຝຶກອົບຮົມ, ຂັ້ນຕອນສຸດທ້າຍແມ່ນເຮັດການຄາດເດົາ. ເພື່ອເຮັດສິ່ງນີ້, ພວກເຮົາຕ້ອງໃຊ້ວິທີການຄາດຄະເນກັບວັດຖຸຫ້ອງຮຽນ RandomForestClassifier ທີ່ພວກເຮົາຝຶກອົບຮົມ.
ສຸດທ້າຍ, ມາດຕະການການຈັດປະເພດເຊັ່ນ: ວັດແທກຄວາມສັບສົນ, ມາດຕະການ F1, ຄວາມຖືກຕ້ອງ, ແລະອື່ນໆສາມາດຖືກນໍາໃຊ້ເພື່ອປະເມີນການປະຕິບັດຂອງເຄື່ອງຈັກການຮຽນຮູ້ແບບຈໍາລອງ.
ຜົນໄດ້ຮັບ:
ສູດການຄິດໄລ່ຂອງພວກເຮົາບັນລຸຄວາມຖືກຕ້ອງຂອງ 75.30, ດັ່ງທີ່ເຫັນໂດຍຜົນໄດ້ຮັບ.
ສະຫຼຸບ
ການວິເຄາະຄວາມຮູ້ສຶກແມ່ນຫນຶ່ງໃນວຽກ NLP ເລື້ອຍໆທີ່ສຸດນັບຕັ້ງແຕ່ມັນຊ່ວຍກໍານົດຄວາມຄິດເຫັນຂອງສາທາລະນະໂດຍລວມກ່ຽວກັບບັນຫາສະເພາະໃດຫນຶ່ງ.
ພວກເຮົາໄດ້ເຫັນວ່າຫ້ອງສະຫມຸດ Python ສາມາດຊ່ວຍໃນການວິເຄາະຄວາມຮູ້ສຶກແນວໃດ.
ພວກເຮົາໄດ້ດໍາເນີນການສຶກສາ tweets ສາທາລະນະກ່ຽວກັບຫົກສາຍການບິນສະຫະລັດແລະບັນລຸຄວາມຖືກຕ້ອງປະມານ 75%.
ຂ້າພະເຈົ້າຂໍແນະນໍາໃຫ້ທ່ານລອງໃຊ້ວິທີການຮຽນຮູ້ເຄື່ອງຈັກອື່ນ, ເຊັ່ນ: logistic regression, SVM, ຫຼື KNN, ເພື່ອເບິ່ງວ່າທ່ານສາມາດບັນລຸຜົນໄດ້ຮັບທີ່ດີກວ່າ.
ອອກຈາກ Reply ເປັນ