ການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ກໍາລັງເປັນພະຍານເຖິງການປັບປຸງໃຫມ່. ແລະ, ຊຸດຂໍ້ມູນ Hugging Face ແມ່ນຢູ່ແຖວໜ້າຂອງທ່າອ່ຽງນີ້. ໃນບົດຄວາມນີ້, ພວກເຮົາຈະເບິ່ງຄວາມສໍາຄັນຂອງຊຸດຂໍ້ມູນ Hugging Face.
ນອກຈາກນີ້, ພວກເຮົາຈະເບິ່ງວິທີການທີ່ເຂົາເຈົ້າອາດຈະຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມແລະປະເມີນແບບຈໍາລອງ NLP.
Hugging Face ເປັນບໍລິສັດທີ່ສະໜອງຊຸດຂໍ້ມູນຕ່າງໆໃຫ້ກັບນັກພັດທະນາ.
ບໍ່ວ່າທ່ານຈະເປັນຜູ້ເລີ່ມຕົ້ນ ຫຼືຜູ້ຊ່ຽວຊານດ້ານ NLP ທີ່ມີປະສົບການ, ຂໍ້ມູນທີ່ໃຫ້ຢູ່ໃນໃບໜ້າກອດຈະເປັນປະໂຫຍດແກ່ທ່ານ. ເຂົ້າຮ່ວມກັບພວກເຮົາໃນຂະນະທີ່ພວກເຮົາຄົ້ນຫາພາກສະຫນາມຂອງ NLP ແລະຮຽນຮູ້ກ່ຽວກັບທ່າແຮງຂອງຊຸດຂໍ້ມູນ Hugging Face.
ກ່ອນອື່ນ ໝົດ, NLP ແມ່ນຫຍັງ?
ການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ແມ່ນສາຂາຂອງ ປັນຍາປະດິດ. ມັນສຶກສາວິທີການຄອມພິວເຕີພົວພັນກັບພາສາຂອງມະນຸດ (ທໍາມະຊາດ). NLP ປະກອບມີການສ້າງແບບຈໍາລອງທີ່ມີຄວາມສາມາດເຂົ້າໃຈແລະຕີຄວາມຫມາຍພາສາຂອງມະນຸດ. ເພາະສະນັ້ນ, ສູດການຄິດໄລ່ສາມາດປະຕິບັດວຽກງານເຊັ່ນການແປພາສາ, ການວິເຄາະຄວາມຮູ້ສຶກ, ແລະການຜະລິດຂໍ້ຄວາມ.
NLP ຖືກນໍາໃຊ້ໃນຫຼາຍໆດ້ານ, ລວມທັງການບໍລິການລູກຄ້າ, ການຕະຫຼາດ, ແລະການດູແລສຸຂະພາບ. ຈຸດປະສົງຂອງ NLP ແມ່ນເພື່ອໃຫ້ຄອມພິວເຕີສາມາດຕີຄວາມໝາຍ ແລະເຂົ້າໃຈພາສາຂອງມະນຸດໄດ້ຕາມທີ່ມັນຖືກຂຽນ ຫຼືເວົ້າໃນລັກສະນະທີ່ໃກ້ຄຽງກັບມະນຸດ.
ພາບລວມຂອງ ໃບຫນ້າກອດ
ໃບຫນ້າກອດ ແມ່ນການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ແລະທຸລະກິດເຕັກໂນໂລຊີການຮຽນຮູ້ເຄື່ອງຈັກ. ພວກເຂົາສະຫນອງຊັບພະຍາກອນທີ່ກວ້າງຂວາງເພື່ອຊ່ວຍນັກພັດທະນາໃນການເພີ່ມພື້ນທີ່ຂອງ NLP. ຜະລິດຕະພັນທີ່ຫນ້າສັງເກດທີ່ສຸດຂອງພວກເຂົາແມ່ນຫ້ອງສະຫມຸດ Transformers.
ມັນຖືກອອກແບບມາສໍາລັບຄໍາຮ້ອງສະຫມັກການປຸງແຕ່ງພາສາທໍາມະຊາດ. ນອກຈາກນີ້, ມັນສະຫນອງແບບຈໍາລອງທາງສ່ວນຫນ້າຂອງການຝຶກອົບຮົມສໍາລັບວຽກງານ NLP ຕ່າງໆເຊັ່ນການແປພາສາແລະການຕອບຄໍາຖາມ.
ການກອດໃບໜ້າ, ນອກຈາກຫ້ອງສະໝຸດ Transformers, ຍັງມີເວທີສຳລັບການແບ່ງປັນຊຸດຂໍ້ມູນການຮຽນຮູ້ຂອງເຄື່ອງຈັກ. ນີ້ເຮັດໃຫ້ມັນເປັນໄປໄດ້ໄວໃນການເຂົ້າເຖິງຄຸນນະພາບສູງ ຊຸດຂໍ້ມູນສໍາລັບການຝຶກອົບຮົມ ແບບຈໍາລອງຂອງພວກເຂົາ.
ພາລະກິດຂອງ Hugging Face ແມ່ນເພື່ອເຮັດໃຫ້ການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ເຂົ້າເຖິງໄດ້ຫຼາຍຂຶ້ນສໍາລັບນັກພັດທະນາ.
ຊຸດຂໍ້ມູນໃບໜ້າກອດຍອດນິຍົມທີ່ສຸດ
Cornell Movie-Dialogs Corpus
ນີ້ແມ່ນຊຸດຂໍ້ມູນທີ່ມີຊື່ສຽງຈາກ Hugging Face. Cornell Movie-Dialogs Corpus ປະກອບດ້ວຍບົດສົນທະນາທີ່ເອົາມາຈາກການສະແດງຮູບເງົາ. ຮູບແບບການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ອາດຈະໄດ້ຮັບການຝຶກອົບຮົມໂດຍໃຊ້ຂໍ້ມູນຂໍ້ຄວາມຈໍານວນຫຼວງຫຼາຍນີ້.
ຫຼາຍກວ່າ 220,579 ໂຕ້ຕອບລະຫວ່າງ 10,292 ຄູ່ຕົວລະຄອນຮູບເງົາແມ່ນລວມຢູ່ໃນຄໍເລັກຊັນ.
ທ່ານສາມາດນໍາໃຊ້ຊຸດຂໍ້ມູນນີ້ສໍາລັບວຽກງານ NLP ທີ່ຫຼາກຫຼາຍ. ຕົວຢ່າງ, ທ່ານສາມາດພັດທະນາການສ້າງພາສາແລະໂຄງການຕອບຄໍາຖາມ. ນອກຈາກນີ້, ທ່ານສາມາດສ້າງລະບົບການສົນທະນາ. ເພາະວ່າການເຈລະຈາໄດ້ກວມເອົາຫົວຂໍ້ທີ່ກວ້າງຂວາງດັ່ງກ່າວ. ຊຸດຂໍ້ມູນຍັງໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນໂຄງການຄົ້ນຄ້ວາ.
ດັ່ງນັ້ນ, ນີ້ແມ່ນເຄື່ອງມືທີ່ມີປະໂຫຍດສູງສໍາລັບນັກຄົ້ນຄວ້າແລະນັກພັດທະນາ NLP.
OpenWebText Corpus
OpenWebText Corpus ແມ່ນການເກັບກໍາຂອງຫນ້າເວັບອອນໄລນ໌ທີ່ທ່ານສາມາດຊອກຫາຢູ່ໃນເວທີ Hugging Face. ຊຸດຂໍ້ມູນນີ້ລວມມີໜ້າເວັບອອນລາຍຫຼາກຫຼາຍເຊັ່ນ: ບົດຄວາມ, ບລັອກ ແລະກະດານສົນທະນາ. ນອກຈາກນັ້ນ, ເຫຼົ່ານີ້ທັງຫມົດໄດ້ຮັບການຄັດເລືອກສໍາລັບຄຸນນະພາບສູງຂອງເຂົາເຈົ້າ.
ຊຸດຂໍ້ມູນແມ່ນມີຄຸນຄ່າໂດຍສະເພາະສໍາລັບການຝຶກອົບຮົມແລະການປະເມີນແບບຈໍາລອງ NLP. ດັ່ງນັ້ນ, ທ່ານສາມາດນໍາໃຊ້ຊຸດຂໍ້ມູນນີ້ສໍາລັບວຽກງານເຊັ່ນ: ການແປພາສາ, ແລະການສະຫຼຸບ. ນອກຈາກນັ້ນ, ທ່ານສາມາດປະຕິບັດການວິເຄາະຄວາມຮູ້ສຶກໂດຍໃຊ້ຊຸດຂໍ້ມູນນີ້ເຊິ່ງເປັນຊັບສິນອັນໃຫຍ່ຫຼວງສໍາລັບຄໍາຮ້ອງສະຫມັກຈໍານວນຫຼາຍ.
ທີມງານ Hugging Face ໄດ້ຈັດການ OpenWebText Corpus ເພື່ອໃຫ້ຕົວຢ່າງທີ່ມີຄຸນນະພາບສູງສໍາລັບການຝຶກອົບຮົມ. ມັນເປັນຊຸດຂໍ້ມູນໃຫຍ່ທີ່ມີຂໍ້ມູນຂໍ້ຄວາມຫຼາຍກວ່າ 570GB.
ເບີ
BERT (Bidirectional Encoder Representations from Transformers) ແມ່ນຮູບແບບ NLP. ມັນໄດ້ຮັບການຝຶກອົບຮົມກ່ອນແລະສາມາດເຂົ້າເຖິງໄດ້ໃນເວທີ Hugging Face. BERT ຖືກສ້າງຂື້ນໂດຍທີມງານ Google AI Language. ນອກຈາກນີ້, ມັນໄດ້ຖືກຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຂໍ້ຄວາມທີ່ກວ້າງຂວາງເພື່ອເຂົ້າໃຈສະພາບການຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໃດຫນຶ່ງ.
ເນື່ອງຈາກວ່າ BERT ແມ່ນຕົວແບບທີ່ອີງໃສ່ການຫັນປ່ຽນ, ມັນສາມາດປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນເຕັມເວລາດຽວແທນທີ່ຈະເປັນຄໍາດຽວໃນເວລາດຽວ. ຮູບແບບການຫັນເປັນການນໍາໃຊ້ ກົນໄກເອົາໃຈໃສ່ ເພື່ອຕີຄວາມຫມາຍການປ້ອນຂໍ້ມູນຕາມລໍາດັບ.
ຄຸນສົມບັດນີ້ເຮັດໃຫ້ BERT ສາມາດເຂົ້າໃຈສະພາບການຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໃດໜຶ່ງ.
ທ່ານສາມາດນໍາໃຊ້ BERT ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມ, ຄວາມເຂົ້າໃຈພາສາ, ນິຕິບຸກຄົນ ການກໍານົດ, ແລະການແກ້ໄຂບັນຫາຫຼັກ, ໃນບັນດາຄໍາຮ້ອງສະຫມັກ NLP ອື່ນໆ. ນອກຈາກນີ້, ມັນມີປະໂຫຍດໃນການສ້າງຂໍ້ຄວາມແລະຄວາມເຂົ້າໃຈໃນການອ່ານເຄື່ອງຈັກ.
ກອງກຳລັງ
SQuAD (ຊຸດຂໍ້ມູນການຕອບຄໍາຖາມ Stanford) ແມ່ນຖານຂໍ້ມູນຂອງຄໍາຖາມແລະຄໍາຕອບ. ທ່ານສາມາດນໍາໃຊ້ມັນເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການອ່ານຄວາມເຂົ້າໃຈຂອງເຄື່ອງຈັກ. ຊຸດຂໍ້ມູນປະກອບມີຫຼາຍກວ່າ 100,000 ຄໍາຖາມແລະຄໍາຕອບໃນຫຼາຍໆຫົວຂໍ້. SQuAD ແຕກຕ່າງຈາກຊຸດຂໍ້ມູນທີ່ຜ່ານມາ.
ມັນສຸມໃສ່ການສອບຖາມທີ່ຕ້ອງການຄວາມຮູ້ກ່ຽວກັບສະພາບການຂອງຂໍ້ຄວາມແທນທີ່ຈະເປັນພຽງແຕ່ຄໍາທີ່ກົງກັນ.
ດັ່ງນັ້ນ, ມັນເປັນຊັບພະຍາກອນທີ່ດີເລີດສໍາລັບການສ້າງແລະການທົດສອບແບບຈໍາລອງສໍາລັບການຕອບຄໍາຖາມແລະວຽກງານຄວາມເຂົ້າໃຈເຄື່ອງຈັກອື່ນໆ. ມະນຸດຂຽນຄໍາຖາມໃນ SQUAD ເຊັ່ນກັນ. ນີ້ສະຫນອງລະດັບສູງຂອງຄຸນນະພາບແລະຄວາມສອດຄ່ອງ.
ໂດຍລວມ, SQuAD ເປັນຊັບພະຍາກອນທີ່ມີຄຸນຄ່າສໍາລັບນັກຄົ້ນຄວ້າແລະນັກພັດທະນາ NLP.
MNLI
MNLI, ຫຼື Multi-Genre Natural Language Inference, ແມ່ນຊຸດຂໍ້ມູນທີ່ໃຊ້ໃນການຝຶກອົບຮົມ ແລະທົດສອບ ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ ສໍາລັບການ inference ພາສາທໍາມະຊາດ. ຈຸດປະສົງຂອງ MNLI ແມ່ນເພື່ອລະບຸວ່າຄໍາຖະແຫຼງທີ່ໃຫ້ມາເປັນຄວາມຈິງ, ບໍ່ຖືກຕ້ອງ, ຫຼືເປັນກາງໃນແສງສະຫວ່າງຂອງຄໍາຖະແຫຼງການອື່ນ.
MNLI ແຕກຕ່າງຈາກຊຸດຂໍ້ມູນທີ່ຜ່ານມາທີ່ມັນກວມເອົາຂໍ້ຄວາມທີ່ຫຼາກຫຼາຍຈາກຫຼາຍປະເພດ. ປະເພດເຫຼົ່ານີ້ແຕກຕ່າງກັນຈາກ fiction ກັບຕ່ອນຂ່າວ, ແລະເອກະສານຂອງລັດຖະບານ. ເນື່ອງຈາກຄວາມຜັນຜວນນີ້, MNLI ແມ່ນຕົວຢ່າງທີ່ເປັນຕົວແທນຫຼາຍຂຶ້ນຂອງຂໍ້ຄວາມໃນໂລກທີ່ແທ້ຈິງ. ມັນເຫັນໄດ້ຊັດເຈນດີກ່ວາຊຸດຂໍ້ມູນ inference ພາສາທໍາມະຊາດອື່ນໆຈໍານວນຫຼາຍ.
ມີຫຼາຍກວ່າ 400,000 ກໍລະນີໃນຊຸດຂໍ້ມູນ, MNLI ສະຫນອງຕົວຢ່າງທີ່ສໍາຄັນສໍາລັບຮູບແບບການຝຶກອົບຮົມ. ມັນຍັງປະກອບດ້ວຍຄໍາເຫັນສໍາລັບແຕ່ລະຕົວຢ່າງເພື່ອຊ່ວຍຕົວແບບໃນການຮຽນຮູ້ຂອງເຂົາເຈົ້າ.
ຄວາມຄິດສຸດທ້າຍ
ສຸດທ້າຍ, Hugging Face datasets ເປັນຊັບພະຍາກອນອັນລ້ຳຄ່າສຳລັບນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ NLP. ການກອດໃບຫນ້າໃຫ້ກອບສໍາລັບການພັດທະນາ NLP ໂດຍການໃຊ້ຊຸດຂໍ້ມູນທີ່ຫຼາກຫຼາຍ.
ພວກເຮົາຄິດວ່າຊຸດຂໍ້ມູນທີ່ຍິ່ງໃຫຍ່ທີ່ສຸດຂອງ Hugging Face ແມ່ນ OpenWebText Corpus.
ຊຸດຂໍ້ມູນຄຸນນະພາບສູງນີ້ມີຂໍ້ມູນຂໍ້ຄວາມຫຼາຍກວ່າ 570GB. ມັນເປັນຊັບພະຍາກອນທີ່ບໍ່ມີຄ່າສໍາລັບການຝຶກອົບຮົມແລະການປະເມີນແບບຈໍາລອງ NLP. ທ່ານສາມາດລອງໃຊ້ OpenWebText ແລະອື່ນໆໃນໂຄງການຕໍ່ໄປຂອງທ່ານ.
ອອກຈາກ Reply ເປັນ