Natural Language Processing (NLP) нь сайжруулалтын шинэ давалгааны гэрч болж байна. Мөн Hugging Face мэдээллийн багц нь энэ чиг хандлагын тэргүүн эгнээнд явж байна. Энэ нийтлэлд бид Hugging Face мэдээллийн багцын ач холбогдлыг авч үзэх болно.
Мөн бид тэдгээрийг NLP загваруудыг сургах, үнэлэхэд хэрхэн ашиглаж болохыг харах болно.
Hugging Face нь хөгжүүлэгчдэд олон төрлийн мэдээллийн багц нийлүүлдэг компани юм.
Та анхлан суралцагч эсвэл NLP-ийн туршлагатай мэргэжилтэн байгаа эсэхээс үл хамааран Hugging Face дээрх өгөгдөл танд хэрэг болно. Бидэнтэй нэгдэж, NLP-ийн талбарыг судалж, Hugging Face мэдээллийн багцын боломжийн талаар суралцаарай.
Нэгдүгээрт, NLP гэж юу вэ?
Natural Language Processing (NLP) нь нэг салбар юм хиймэл оюун. Энэ нь компьютер хүний (байгалийн) хэлтэй хэрхэн харьцаж байгааг судалдаг. NLP нь хүний хэлийг ойлгож, тайлбарлах чадвартай загваруудыг бий болгодог. Тиймээс алгоритмууд нь хэлний орчуулга, сэтгэл хөдлөлийн шинжилгээ, болон текст үйлдвэрлэл.
NLP нь харилцагчийн үйлчилгээ, маркетинг, эрүүл мэндийн үйлчилгээ зэрэг олон салбарт ашиглагддаг. NLP-ийн зорилго нь компьютерт хүний хэлийг хүнийхтэй ойролцоо байдлаар бичиж, ярьж байгаагаар нь тайлбарлаж, ойлгох боломжийг олгох явдал юм.
Дүгнэлт Тэврэлт нүүр
Тэврэлт нүүр нь байгалийн хэл боловсруулах (NLP) болон машин сургалтын технологийн бизнес юм. Тэд NLP-ийн талбарыг хөгжүүлэхэд хөгжүүлэгчдэд туслах өргөн хүрээний нөөцөөр хангадаг. Тэдний хамгийн анхаарал татахуйц бүтээгдэхүүн бол Transformers номын сан юм.
Энэ нь байгалийн хэл боловсруулах програмуудад зориулагдсан. Мөн хэлний орчуулга, асуултанд хариулах зэрэг олон төрлийн NLP даалгаврын хувьд урьдчилан бэлтгэгдсэн загваруудыг өгдөг.
Hugging Face нь Transformers номын сангаас гадна машин сургалтын мэдээллийн багцыг хуваалцах платформыг санал болгодог. Энэ нь өндөр чанартайг хурдан олж авах боломжийг олгодог сургалтын мэдээллийн багц тэдний загварууд.
Hugging Face-ийн эрхэм зорилго нь байгалийн хэлний боловсруулалтыг (NLP) хөгжүүлэгчдэд илүү хүртээмжтэй болгох явдал юм.
Хамгийн алдартай тэврүүлсэн царайны мэдээллийн багц
Корнеллийн кино-Диалогийн корпус
Энэ бол Hugging Face-ийн сайн мэдэх мэдээллийн багц юм. Cornell Movie-Dialogs Corpus нь киноны дэлгэцийн бүтээлээс авсан харилцан ярианаас бүрдэнэ. Байгалийн хэлний боловсруулалтын (NLP) загваруудыг энэ өргөн хэмжээний текст өгөгдлийг ашиглан сургаж болно.
Цуглуулгад 220,579 хос киноны дүрүүдийн 10,292 гаруй харилцах цонхыг оруулсан болно.
Та энэ өгөгдлийн багцыг төрөл бүрийн NLP даалгавруудад ашиглаж болно. Жишээлбэл, та хэл бүтээх, асуултанд хариулах төслүүдийг боловсруулж болно. Мөн та харилцан ярианы системийг үүсгэж болно. Учир нь яриа нь маш өргөн хүрээний сэдвийг хамардаг. Мэдээллийн багцыг мөн судалгааны төслүүдэд өргөнөөр ашигласан.
Тиймээс энэ нь NLP судлаач, хөгжүүлэгчдэд маш хэрэгтэй хэрэгсэл юм.
OpenWebText Corpus
OpenWebText Corpus нь Hugging Face платформ дээрээс олж болох онлайн хуудсуудын цуглуулга юм. Энэхүү өгөгдлийн багц нь нийтлэл, блог, форум гэх мэт өргөн хүрээний онлайн хуудсуудыг агуулдаг. Үүнээс гадна эдгээрийг бүгдийг нь өндөр чанартайгаар сонгосон.
Өгөгдлийн багц нь NLP загваруудыг сургах, үнэлэхэд онцгой ач холбогдолтой юм. Тиймээс та энэ дата багцыг орчуулга, нэгтгэн дүгнэх зэрэг ажлуудад ашиглаж болно. Мөн та олон програмын хувьд асар их хөрөнгө болох энэхүү өгөгдлийн багцыг ашиглан сэтгэлийн шинжилгээ хийх боломжтой.
Hugging Face баг нь OpenWebText Corpus-ийг бэлтгэн, сургалтад зориулж өндөр чанартай дээжийг бэлтгэсэн. Энэ нь 570 ГБ-аас дээш текст өгөгдөл бүхий том өгөгдлийн багц юм.
БЕРТ
BERT (Transformers-аас хоёр чиглэлт кодлогчийн төлөөлөл) нь NLP загвар юм. Үүнийг урьдчилан бэлтгэсэн бөгөөд Hugging Face платформ дээр ашиглах боломжтой. BERT-ийг Google AI хэлний баг бүтээсэн. Түүнчлэн, хэллэг дэх үгсийн контекстийг ойлгохын тулд асар том текст мэдээллийн багц дээр сургасан.
BERT нь трансформаторт суурилсан загвар учраас нэг үгийн оронд нэг удаад бүх оролтын дарааллыг боловсруулах боломжтой. Трансформатор дээр суурилсан загвар ашигладаг анхаарлын механизмууд дараалсан оролтыг тайлбарлах.
Энэ функц нь БЕРТ-д хэллэг дэх үгсийн агуулгыг ойлгох боломжийг олгодог.
Та текстийг ангилах, хэл ойлгоход зориулж BERT ашиглаж болно. нэртэй аж ахуйн нэгж бусад NLP програмуудын дунд таних, үндсэн тодорхойлолтын шийдэл. Түүнчлэн, энэ нь текст үүсгэх, машин уншихыг ойлгоход тустай.
SquaAD
SQuAD (Stanford Question Answering Dataset) нь асуулт хариултын мэдээллийн сан юм. Та үүнийг машинаар уншиж ойлгох загварыг сургахад ашиглаж болно. Мэдээллийн багц нь янз бүрийн сэдвээр 100,000 гаруй асуулт, хариултыг агуулдаг. SQuAD нь өмнөх мэдээллийн багцаас ялгаатай.
Энэ нь зөвхөн түлхүүр үгсийг тааруулахаас илүүтэй текстийн контекстийн талаархи мэдлэг шаарддаг асуулгад анхаарлаа хандуулдаг.
Үүний үр дүнд энэ нь асуултанд хариулах болон бусад машиныг ойлгох даалгаврын загваруудыг бий болгох, турших маш сайн эх сурвалж юм. Хүмүүс асуултаа SQuAD дээр бичдэг. Энэ нь өндөр чанартай, тогтвортой байдлыг хангадаг.
Ерөнхийдөө SQuAD бол NLP судлаач, хөгжүүлэгчдэд үнэ цэнэтэй эх сурвалж юм.
MNLI
MNLI буюу Multi-Genre Natural Language Inference нь сургах, туршихад ашигладаг өгөгдлийн багц юм машин сургалтын загварууд байгалийн хэлний дүгнэлтэд зориулагдсан. MNLI-ийн зорилго нь өгөгдсөн мэдэгдлийн үнэн, худал эсвэл төвийг сахисан эсэхийг тодорхойлох явдал юм.
MNLI нь олон төрлийн текстийн өргөн хүрээг хамарч байгаагаараа өмнөх мэдээллийн багцаас ялгаатай. Эдгээр төрөл нь уран зохиолоос мэдээ, засгийн газрын баримт бичиг хүртэл өөр өөр байдаг. Энэхүү хувьсах чадвараас шалтгаалан MNLI нь бодит ертөнцийн текстийг илүү төлөөлөх түүвэр юм. Энэ нь бусад олон байгалийн хэлний дүгнэлтийн өгөгдлийн багцаас илүү сайн байх нь ойлгомжтой.
Мэдээллийн багцад 400,000 гаруй тохиолдол байдаг тул MNLI нь сургалтын загварт олон тооны жишээ өгдөг. Энэ нь загвар бүрт суралцахад нь туслах үүднээс дээж бүрийн тайлбарыг агуулдаг.
Final бодол
Эцэст нь хэлэхэд, Hugging Face мэдээллийн багц нь NLP судлаач, хөгжүүлэгчдэд үнэлж баршгүй нөөц юм. Hugging Face нь олон төрлийн өгөгдлийн багцыг ашиглан NLP хөгжүүлэх тогтолцоог бүрдүүлдэг.
Бидний бодлоор Hugging Face-ийн хамгийн том мэдээллийн багц бол OpenWebText Corpus юм.
Энэхүү өндөр чанартай өгөгдлийн багц нь 570 ГБ гаруй текст өгөгдлийг агуулдаг. Энэ нь NLP загваруудыг сургах, үнэлэх үнэлж баршгүй эх сурвалж юм. Та дараагийн төслүүддээ OpenWebText болон бусад зүйлийг ашиглахыг оролдож болно.
хариу үлдээх