Nhazi Asụsụ eke (NLP) na-ahụ maka mmelite ọhụrụ. Na, ndetu data nnabata ihu na-ebute ụzọ na omume a. N'ime edemede a, anyị ga-eleba anya n'ihe ihe ndekọ data nke ịmakụ ihu dị.
Ọzọkwa, anyị ga-ahụ ka a ga-esi jiri ha zụọ na nyochaa ụdị NLP.
Ịmakụ Ihu bụ ụlọ ọrụ na-enye ndị mmepe ihe dị iche iche nke datasets.
Ma ị bụ onye mbido ma ọ bụ ọkachamara NLP nwere ahụmahụ, data enyere na ihu ịmakụ ga-abara gị uru. Soro anyị ka anyị na-enyocha mpaghara NLP wee mụta maka ike nke mkpuru datasets Ihu.
Nke mbu, gini bu NLP?
Nhazi asụsụ eke (NLP) bụ ngalaba nke Amamịghe echiche. Ọ na-amụ ka kọmputa na asụsụ mmadụ (eke) na-esi emekọrịta ihe. NLP gụnyere imepụta ụdị nwere ike ịghọta na ịtụgharị asụsụ mmadụ. N'ihi ya, algọridim nwere ike ịrụ ọrụ dị ka ntụgharị asụsụ, echiche nyocha, na mmepụta ederede.
A na-eji NLP na mpaghara dị iche iche, gụnyere ọrụ ndị ahịa, ịzụ ahịa, na ahụike. Ebumnuche nke NLP bụ ikwe ka kọmpụta kọwapụta na ịghọta asụsụ mmadụ ka edere ya ma ọ bụ kwuo ya n'ụzọ dị nso nke mmadụ.
Isi nke Mmakọ Ihu
Mmakọ Ihu bụ nhazi asụsụ eke (NLP) na azụmahịa teknụzụ mmụta igwe. Ha na-enye akụrụngwa dị iche iche iji nyere ndị mmepe aka ịkwalite mpaghara NLP. Ngwaahịa ha kacha pụta ìhè bụ ọba akwụkwọ Transformers.
Emebere ya maka ngwa nhazi asụsụ eke. Ọzọkwa, ọ na-enye ụdị a zụrụ azụ maka ọtụtụ ọrụ NLP dị ka ntụgharị asụsụ na ịza ajụjụ.
Ihu ịmakụ, na mgbakwunye na ọba akwụkwọ Transformers, na-enye ikpo okwu maka ịkekọrịta dataset mmụta igwe. Nke a na-eme ka o kwe omume ịnweta ogo dị elu ngwa ngwa datasets maka ọzụzụ ụdị ha.
Ebumnuche ịmakụ ihu bụ ime ka nhazi asụsụ eke (NLP) dịkwuo mfe maka ndị mmepe.
Ndekọ data ịmakụ ihu kacha ewu ewu
Ihe nkiri Cornell-Dialogs Corpus
Nke a bụ ihe ndekọ data amaara nke ọma sitere na ihu ịmakụ. Cornell Movie-Dialogs Corpus nwere mkparịta ụka ewepụtara na ihe nkiri nkiri. Enwere ike ịzụ ụdị nhazi asụsụ eke (NLP) site na iji oke data ederede a.
Ihe karịrị mkparịta ụka 220,579 n'etiti ụzọ abụọ agwa ihe nkiri 10,292 esonye na nchịkọta ahụ.
Ị nwere ike iji dataset a maka ọrụ NLP dị iche iche. Dịka ọmụmaatụ, ị nwere ike ịmepụta asụsụ na ọrụ azịza ajụjụ. Ọzọkwa, ị nwere ike ịmepụta usoro mkparịta ụka. n'ihi na okwu ndị ahụ na-ekpuchi ọtụtụ isiokwu dị iche iche. Ejikwala ihe ndekọ data ahụ nke ukwuu n'ọrụ nyocha.
N'ihi ya, nke a bụ ngwá ọrụ bara uru nke ukwuu maka ndị nchọpụta NLP na ndị mmepe.
OpenWebText Corpus
OpenWebText Corpus bụ mkpokọta ibe weebụ ị nwere ike ịhụ n'elu ikpo okwu Hugging Face. Nke a dataset gụnyere ọtụtụ ụdị nke ibe weebụ, dị ka akụkọ, blọọgụ, na forums. E wezụga nke ahụ, a họọrọ ndị a niile maka ịdị mma ha dị elu.
Ihe ndekọ data bara uru karịsịa maka ọzụzụ na ịtụle ụdị NLP. N'ihi ya, ịnwere ike iji setịpụ data a maka ọrụ dịka ntụgharị asụsụ na nchịkọta. Ọzọkwa, ị nwere ike ime nyocha mmetụta site na iji dataset a nke bụ nnukwu uru maka ọtụtụ ngwa.
Ndị otu Hugging Face chepụtara OpenWebText Corpus iji nye ihe nlele dị elu maka ọzụzụ. Ọ bụ nnukwu dataset nwere ihe karịrị 570GB nke data ederede.
BERT
BERT (Nnọchite anya Encoder Bidirectional sitere na Transformers) bụ ụdị NLP. A zụrụ ya nke ọma ma nwee ike ịnweta ya n'elu ikpo okwu ịmakụ ihu. Ndị otu asụsụ Google AI mere BERT. Ọzọkwa, a zụrụ ya na nnukwu ederede ederede iji ghọta ọnọdụ okwu dị na nkebiokwu.
N'ihi na BERT bụ ihe ngbanwe dabere, ọ nwere ike hazie usoro ntinye n'uju n'otu oge kama otu okwu n'otu oge. Ihe nlereanya dabere na transformer na-eji usoro nlebara anya iji kọwaa ntinye usoro.
Njirimara a na-enyere BERT aka ịghọta ọnọdụ okwu dị na nkebiokwu.
Ị nwere ike iji BERT maka nhazi ederede, nghọta asụsụ, aha aha njirimara, na mkpebi isi, n'etiti ngwa NLP ndị ọzọ. Ọzọkwa, ọ bara uru n'ịmepụta ederede na nghọta igwe ọgụgụ.
SQuAD
SQuAD (Stanford Ajụjụ Azịza Dataset) bụ nchekwa data nke ajụjụ na azịza. Ị nwere ike iji ya zụọ ụdị nghọta ọgụgụ igwe. Nhazi data ahụ gụnyere ihe karịrị 100,000 ajụjụ na azịza na isiokwu dị iche iche. SQuAD dị iche na datasets gara aga.
Ọ na-elekwasị anya n'ajụjụ ndị chọrọ ịma ihe dị n'akụkụ ederede kama ịbụ naanị okwu dakọtara.
N'ihi ya, ọ bụ ezigbo akụrụngwa maka imepụta na ịnwale ụdị maka ịza ajụjụ yana ọrụ nghọta igwe ndị ọzọ. Ụmụ mmadụ na-edekwa ajụjụ ndị a na SQuAD. Nke a na-enye ogo dị elu nke ịdị mma na nkwụsi ike.
N'ozuzu, SQuAD bụ ihe bara uru maka ndị nyocha NLP na ndị mmepe.
MNLI
MNLI, ma ọ bụ Multi-Genre Natural Language Inference, bụ dataset eji azụ ma nwalee ụdị igwe eji amụ ihe maka ntụle asụsụ eke. Ebumnuche MNLI bụ ịchọpụta ma nkwupụta e nyere ọ bụ eziokwu, ụgha, ma ọ bụ nnọpụiche n'ihi nkwupụta ọzọ.
MNLI dị iche na ntọala data ndị gara aga n'ihi na ọ na-ekpuchi ọtụtụ ederede site na ọtụtụ ụdị. Ụdị ndị a dịgasị iche site na akụkọ ifo gaa na mpempe akwụkwọ akụkọ, na akwụkwọ gọọmentị. N'ihi mgbanwe a, MNLI bụ ihe nleba anya karịa nke ederede ụwa. O doro anya na ọ ka mma karịa ọtụtụ ndetu data ntinye asụsụ okike ndị ọzọ.
N'ihe karịrị ikpe 400,000 na dataset, MNLI na-enye ọtụtụ ihe atụ maka ụdị ọzụzụ. O nwekwara nkọwa maka nlele ọ bụla iji nyere ụdịdị ahụ aka na mmụta ha.
Final Echiche
N'ikpeazụ, nchekwa data ịmakụ ihu bụ ihe bara uru maka ndị nyocha na ndị mmepe NLP. Ihu ịmakụ na-enye usoro maka mmepe NLP site na iji otu ụdị datasets dị iche iche.
Anyị chere nnukwu dataset nke ịmakụ ihu bụ OpenWebText Corpus.
Ntọala data dị elu nwere ihe karịrị 570GB nke data ederede. Ọ bụ akụrụngwa bara uru maka ọzụzụ na ịtụle ụdị NLP. Ị nwere ike ịnwale iji OpenWebText na ndị ọzọ na ọrụ gị na-esote.
Nkume a-aza