ຊຸດຂໍ້ມູນໃບໜ້າກອດ: ການປົດລັອກທ່າແຮງ NLP

ການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ກໍາລັງເປັນພະຍານເຖິງການປັບປຸງໃຫມ່. ແລະ, ຊຸດຂໍ້ມູນ Hugging Face ແມ່ນຢູ່ແຖວໜ້າຂອງທ່າອ່ຽງນີ້. ໃນບົດຄວາມນີ້, ພວກເຮົາຈະເບິ່ງຄວາມສໍາຄັນຂອງຊຸດຂໍ້ມູນ Hugging Face.

ນອກຈາກນີ້, ພວກເຮົາຈະເບິ່ງວິທີການທີ່ເຂົາເຈົ້າອາດຈະຖືກນໍາໃຊ້ເພື່ອຝຶກອົບຮົມແລະປະເມີນແບບຈໍາລອງ NLP.

Hugging Face ເປັນບໍລິສັດທີ່ສະໜອງຊຸດຂໍ້ມູນຕ່າງໆໃຫ້ກັບນັກພັດທະນາ.

ບໍ່ວ່າທ່ານຈະເປັນຜູ້ເລີ່ມຕົ້ນ ຫຼືຜູ້ຊ່ຽວຊານດ້ານ NLP ທີ່ມີປະສົບການ, ຂໍ້ມູນທີ່ໃຫ້ຢູ່ໃນໃບໜ້າກອດຈະເປັນປະໂຫຍດແກ່ທ່ານ. ເຂົ້າຮ່ວມກັບພວກເຮົາໃນຂະນະທີ່ພວກເຮົາຄົ້ນຫາພາກສະຫນາມຂອງ NLP ແລະຮຽນຮູ້ກ່ຽວກັບທ່າແຮງຂອງຊຸດຂໍ້ມູນ Hugging Face.

ກ່ອນອື່ນ ໝົດ, NLP ແມ່ນຫຍັງ?

ການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ແມ່ນສາຂາຂອງ ປັນຍາປະດິດ. ມັນສຶກສາວິທີການຄອມພິວເຕີພົວພັນກັບພາສາຂອງມະນຸດ (ທໍາມະຊາດ). NLP ປະກອບມີການສ້າງແບບຈໍາລອງທີ່ມີຄວາມສາມາດເຂົ້າໃຈແລະຕີຄວາມຫມາຍພາສາຂອງມະນຸດ. ເພາະສະນັ້ນ, ສູດການຄິດໄລ່ສາມາດປະຕິບັດວຽກງານເຊັ່ນການແປພາສາ, ການວິເຄາະຄວາມຮູ້ສຶກ, ແລະການຜະລິດຂໍ້ຄວາມ.

NLP ຖືກນໍາໃຊ້ໃນຫຼາຍໆດ້ານ, ລວມທັງການບໍລິການລູກຄ້າ, ການຕະຫຼາດ, ແລະການດູແລສຸຂະພາບ. ຈຸດປະສົງຂອງ NLP ແມ່ນເພື່ອໃຫ້ຄອມພິວເຕີສາມາດຕີຄວາມໝາຍ ແລະເຂົ້າໃຈພາສາຂອງມະນຸດໄດ້ຕາມທີ່ມັນຖືກຂຽນ ຫຼືເວົ້າໃນລັກສະນະທີ່ໃກ້ຄຽງກັບມະນຸດ.

ພາບລວມຂອງ ໃບຫນ້າກອດ

ໃບຫນ້າກອດ ແມ່ນການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ແລະທຸລະກິດເຕັກໂນໂລຊີການຮຽນຮູ້ເຄື່ອງຈັກ. ພວກເຂົາສະຫນອງຊັບພະຍາກອນທີ່ກວ້າງຂວາງເພື່ອຊ່ວຍນັກພັດທະນາໃນການເພີ່ມພື້ນທີ່ຂອງ NLP. ຜະລິດຕະພັນທີ່ຫນ້າສັງເກດທີ່ສຸດຂອງພວກເຂົາແມ່ນຫ້ອງສະຫມຸດ Transformers.

ມັນຖືກອອກແບບມາສໍາລັບຄໍາຮ້ອງສະຫມັກການປຸງແຕ່ງພາສາທໍາມະຊາດ. ນອກຈາກນີ້, ມັນສະຫນອງແບບຈໍາລອງທາງສ່ວນຫນ້າຂອງການຝຶກອົບຮົມສໍາລັບວຽກງານ NLP ຕ່າງໆເຊັ່ນການແປພາສາແລະການຕອບຄໍາຖາມ.

ການກອດໃບໜ້າ, ນອກຈາກຫ້ອງສະໝຸດ Transformers, ຍັງມີເວທີສຳລັບການແບ່ງປັນຊຸດຂໍ້ມູນການຮຽນຮູ້ຂອງເຄື່ອງຈັກ. ນີ້ເຮັດໃຫ້ມັນເປັນໄປໄດ້ໄວໃນການເຂົ້າເຖິງຄຸນນະພາບສູງ ຊຸດຂໍ້ມູນສໍາລັບການຝຶກອົບຮົມ ແບບຈໍາລອງຂອງພວກເຂົາ.

ພາລະກິດຂອງ Hugging Face ແມ່ນເພື່ອເຮັດໃຫ້ການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ເຂົ້າເຖິງໄດ້ຫຼາຍຂຶ້ນສໍາລັບນັກພັດທະນາ.

ຊຸດຂໍ້ມູນໃບໜ້າກອດຍອດນິຍົມທີ່ສຸດ

Cornell Movie-Dialogs Corpus

ນີ້ແມ່ນຊຸດຂໍ້ມູນທີ່ມີຊື່ສຽງຈາກ Hugging Face. Cornell Movie-Dialogs Corpus ປະກອບດ້ວຍບົດສົນທະນາທີ່ເອົາມາຈາກການສະແດງຮູບເງົາ. ຮູບແບບການປະມວນຜົນພາສາທໍາມະຊາດ (NLP) ອາດຈະໄດ້ຮັບການຝຶກອົບຮົມໂດຍໃຊ້ຂໍ້ມູນຂໍ້ຄວາມຈໍານວນຫຼວງຫຼາຍນີ້.

ຫຼາຍກວ່າ 220,579 ໂຕ້ຕອບລະຫວ່າງ 10,292 ຄູ່ຕົວລະຄອນຮູບເງົາແມ່ນລວມຢູ່ໃນຄໍເລັກຊັນ.

ທ່ານສາມາດນໍາໃຊ້ຊຸດຂໍ້ມູນນີ້ສໍາລັບວຽກງານ NLP ທີ່ຫຼາກຫຼາຍ. ຕົວຢ່າງ, ທ່ານສາມາດພັດທະນາການສ້າງພາສາແລະໂຄງການຕອບຄໍາຖາມ. ນອກຈາກນີ້, ທ່ານສາມາດສ້າງລະບົບການສົນທະນາ. ເພາະວ່າການເຈລະຈາໄດ້ກວມເອົາຫົວຂໍ້ທີ່ກວ້າງຂວາງດັ່ງກ່າວ. ຊຸດຂໍ້ມູນຍັງໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນໂຄງການຄົ້ນຄ້ວາ.

ດັ່ງນັ້ນ, ນີ້ແມ່ນເຄື່ອງມືທີ່ມີປະໂຫຍດສູງສໍາລັບນັກຄົ້ນຄວ້າແລະນັກພັດທະນາ NLP.

OpenWebText Corpus

OpenWebText Corpus ແມ່ນການເກັບກໍາຂອງຫນ້າເວັບອອນໄລນ໌ທີ່ທ່ານສາມາດຊອກຫາຢູ່ໃນເວທີ Hugging Face. ຊຸດຂໍ້ມູນນີ້ລວມມີໜ້າເວັບອອນລາຍຫຼາກຫຼາຍເຊັ່ນ: ບົດຄວາມ, ບລັອກ ແລະກະດານສົນທະນາ. ນອກຈາກນັ້ນ, ເຫຼົ່ານີ້ທັງຫມົດໄດ້ຮັບການຄັດເລືອກສໍາລັບຄຸນນະພາບສູງຂອງເຂົາເຈົ້າ.

ຊຸດຂໍ້ມູນແມ່ນມີຄຸນຄ່າໂດຍສະເພາະສໍາລັບການຝຶກອົບຮົມແລະການປະເມີນແບບຈໍາລອງ NLP. ດັ່ງນັ້ນ, ທ່ານສາມາດນໍາໃຊ້ຊຸດຂໍ້ມູນນີ້ສໍາລັບວຽກງານເຊັ່ນ: ການແປພາສາ, ແລະການສະຫຼຸບ. ນອກຈາກນັ້ນ, ທ່ານສາມາດປະຕິບັດການວິເຄາະຄວາມຮູ້ສຶກໂດຍໃຊ້ຊຸດຂໍ້ມູນນີ້ເຊິ່ງເປັນຊັບສິນອັນໃຫຍ່ຫຼວງສໍາລັບຄໍາຮ້ອງສະຫມັກຈໍານວນຫຼາຍ.

ທີມງານ Hugging Face ໄດ້ຈັດການ OpenWebText Corpus ເພື່ອໃຫ້ຕົວຢ່າງທີ່ມີຄຸນນະພາບສູງສໍາລັບການຝຶກອົບຮົມ. ມັນເປັນຊຸດຂໍ້ມູນໃຫຍ່ທີ່ມີຂໍ້ມູນຂໍ້ຄວາມຫຼາຍກວ່າ 570GB.

ເບີ

BERT (Bidirectional Encoder Representations from Transformers) ແມ່ນຮູບແບບ NLP. ມັນໄດ້ຮັບການຝຶກອົບຮົມກ່ອນແລະສາມາດເຂົ້າເຖິງໄດ້ໃນເວທີ Hugging Face. BERT ຖືກສ້າງຂື້ນໂດຍທີມງານ Google AI Language. ນອກຈາກນີ້, ມັນໄດ້ຖືກຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຂໍ້ຄວາມທີ່ກວ້າງຂວາງເພື່ອເຂົ້າໃຈສະພາບການຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໃດຫນຶ່ງ.

ເນື່ອງຈາກວ່າ BERT ແມ່ນຕົວແບບທີ່ອີງໃສ່ການຫັນປ່ຽນ, ມັນສາມາດປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນເຕັມເວລາດຽວແທນທີ່ຈະເປັນຄໍາດຽວໃນເວລາດຽວ. ຮູບແບບການຫັນເປັນການນໍາໃຊ້ ກົນໄກເອົາໃຈໃສ່ ເພື່ອຕີຄວາມຫມາຍການປ້ອນຂໍ້ມູນຕາມລໍາດັບ.

ຄຸນສົມບັດນີ້ເຮັດໃຫ້ BERT ສາມາດເຂົ້າໃຈສະພາບການຂອງຄໍາສັບຕ່າງໆໃນປະໂຫຍກໃດໜຶ່ງ.

ທ່ານສາມາດນໍາໃຊ້ BERT ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມ, ຄວາມເຂົ້າໃຈພາສາ, ນິຕິບຸກຄົນ ການກໍານົດ, ແລະການແກ້ໄຂບັນຫາຫຼັກ, ໃນບັນດາຄໍາຮ້ອງສະຫມັກ NLP ອື່ນໆ. ນອກຈາກນີ້, ມັນມີປະໂຫຍດໃນການສ້າງຂໍ້ຄວາມແລະຄວາມເຂົ້າໃຈໃນການອ່ານເຄື່ອງຈັກ.

ກອງກຳລັງ

SQuAD (ຊຸດຂໍ້ມູນການຕອບຄໍາຖາມ Stanford) ແມ່ນຖານຂໍ້ມູນຂອງຄໍາຖາມແລະຄໍາຕອບ. ທ່ານສາມາດນໍາໃຊ້ມັນເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການອ່ານຄວາມເຂົ້າໃຈຂອງເຄື່ອງຈັກ. ຊຸດຂໍ້ມູນປະກອບມີຫຼາຍກວ່າ 100,000 ຄໍາຖາມແລະຄໍາຕອບໃນຫຼາຍໆຫົວຂໍ້. SQuAD ແຕກຕ່າງຈາກຊຸດຂໍ້ມູນທີ່ຜ່ານມາ.

ມັນສຸມໃສ່ການສອບຖາມທີ່ຕ້ອງການຄວາມຮູ້ກ່ຽວກັບສະພາບການຂອງຂໍ້ຄວາມແທນທີ່ຈະເປັນພຽງແຕ່ຄໍາທີ່ກົງກັນ.

ດັ່ງນັ້ນ, ມັນເປັນຊັບພະຍາກອນທີ່ດີເລີດສໍາລັບການສ້າງແລະການທົດສອບແບບຈໍາລອງສໍາລັບການຕອບຄໍາຖາມແລະວຽກງານຄວາມເຂົ້າໃຈເຄື່ອງຈັກອື່ນໆ. ມະນຸດຂຽນຄໍາຖາມໃນ SQUAD ເຊັ່ນກັນ. ນີ້ສະຫນອງລະດັບສູງຂອງຄຸນນະພາບແລະຄວາມສອດຄ່ອງ.

ໂດຍລວມ, SQuAD ເປັນຊັບພະຍາກອນທີ່ມີຄຸນຄ່າສໍາລັບນັກຄົ້ນຄວ້າແລະນັກພັດທະນາ NLP.

MNLI

MNLI, ຫຼື Multi-Genre Natural Language Inference, ແມ່ນຊຸດຂໍ້ມູນທີ່ໃຊ້ໃນການຝຶກອົບຮົມ ແລະທົດສອບ ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ ສໍາລັບການ inference ພາສາທໍາມະຊາດ. ຈຸດປະສົງຂອງ MNLI ແມ່ນເພື່ອລະບຸວ່າຄໍາຖະແຫຼງທີ່ໃຫ້ມາເປັນຄວາມຈິງ, ບໍ່ຖືກຕ້ອງ, ຫຼືເປັນກາງໃນແສງສະຫວ່າງຂອງຄໍາຖະແຫຼງການອື່ນ.

MNLI ແຕກຕ່າງຈາກຊຸດຂໍ້ມູນທີ່ຜ່ານມາທີ່ມັນກວມເອົາຂໍ້ຄວາມທີ່ຫຼາກຫຼາຍຈາກຫຼາຍປະເພດ. ປະເພດເຫຼົ່ານີ້ແຕກຕ່າງກັນຈາກ fiction ກັບຕ່ອນຂ່າວ, ແລະເອກະສານຂອງລັດຖະບານ. ເນື່ອງຈາກຄວາມຜັນຜວນນີ້, MNLI ແມ່ນຕົວຢ່າງທີ່ເປັນຕົວແທນຫຼາຍຂຶ້ນຂອງຂໍ້ຄວາມໃນໂລກທີ່ແທ້ຈິງ. ມັນເຫັນໄດ້ຊັດເຈນດີກ່ວາຊຸດຂໍ້ມູນ inference ພາສາທໍາມະຊາດອື່ນໆຈໍານວນຫຼາຍ.

ມີຫຼາຍກວ່າ 400,000 ກໍລະນີໃນຊຸດຂໍ້ມູນ, MNLI ສະຫນອງຕົວຢ່າງທີ່ສໍາຄັນສໍາລັບຮູບແບບການຝຶກອົບຮົມ. ມັນຍັງປະກອບດ້ວຍຄໍາເຫັນສໍາລັບແຕ່ລະຕົວຢ່າງເພື່ອຊ່ວຍຕົວແບບໃນການຮຽນຮູ້ຂອງເຂົາເຈົ້າ.

ຄວາມຄິດສຸດທ້າຍ

ສຸດທ້າຍ, Hugging Face datasets ເປັນຊັບພະຍາກອນອັນລ້ຳຄ່າສຳລັບນັກຄົ້ນຄວ້າ ແລະນັກພັດທະນາ NLP. ການກອດໃບຫນ້າໃຫ້ກອບສໍາລັບການພັດທະນາ NLP ໂດຍການໃຊ້ຊຸດຂໍ້ມູນທີ່ຫຼາກຫຼາຍ.

ພວກເຮົາຄິດວ່າຊຸດຂໍ້ມູນທີ່ຍິ່ງໃຫຍ່ທີ່ສຸດຂອງ Hugging Face ແມ່ນ OpenWebText Corpus.

ຊຸດຂໍ້ມູນຄຸນນະພາບສູງນີ້ມີຂໍ້ມູນຂໍ້ຄວາມຫຼາຍກວ່າ 570GB. ມັນເປັນຊັບພະຍາກອນທີ່ບໍ່ມີຄ່າສໍາລັບການຝຶກອົບຮົມແລະການປະເມີນແບບຈໍາລອງ NLP. ທ່ານສາມາດລອງໃຊ້ OpenWebText ແລະອື່ນໆໃນໂຄງການຕໍ່ໄປຂອງທ່ານ.

ຊຸດຂໍ້ມູນໃບໜ້າກອດ: ການປົດລັອກທ່າແຮງ NLP

ກ່ອນອື່ນ ໝົດ, NLP ແມ່ນຫຍັງ?

ພາບລວມຂອງ ໃບຫນ້າກອດ

ຊຸດຂໍ້ມູນໃບໜ້າກອດຍອດນິຍົມທີ່ສຸດ

Cornell Movie-Dialogs Corpus

OpenWebText Corpus

ເບີ

ກອງກຳລັງ

MNLI

ຄວາມຄິດສຸດທ້າຍ

ກ່ຽວກັບ İlke Candan Bengi

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

Colossyan vs Heygen

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

ຊຸດຂໍ້ມູນໃບໜ້າກອດ: ການປົດລັອກທ່າແຮງ NLP

ກ່ອນອື່ນ ໝົດ, NLP ແມ່ນຫຍັງ?

ພາບລວມຂອງ ໃບຫນ້າກອດ

ຊຸດຂໍ້ມູນໃບໜ້າກອດຍອດນິຍົມທີ່ສຸດ

Cornell Movie-Dialogs Corpus

OpenWebText Corpus

ເບີ

ກອງກຳລັງ

MNLI

ຄວາມຄິດສຸດທ້າຍ

ກ່ຽວ​ກັບ İlke Candan Bengi

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

10 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສໍາລັບສື່ມວນຊົນສັງຄົມ

Colossyan vs Heygen

10 ເຄື່ອງມືສ້າງວິດີໂອເຄື່ອນໄຫວ AI ທີ່ດີທີ່ສຸດ

ຕິດຕໍ່ພົວພັນ Reader

ອອກຈາກ Reply ເປັນ ຍົກເລີກການຕອບ

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

ກ່ຽວກັບ İlke Candan Bengi