Habraaca Luqadda Dabiiciga ah (NLP) waxay markhaati ka tahay mowjad cusub oo horumarin ah. Iyo, Habaynta Wajiga xogta xogta ayaa safka hore kaga jirta isbeddelkan. Maqaalkan, waxaynu ku eegi doonaa muhiimada habaynka xogta wejiga.
Sidoo kale, waxaan arki doonaa sida loogu isticmaali karo tababarka iyo qiimeynta moodooyinka NLP.
Hugging Face waa shirkad siisa horumariyayaal xogo kala duwan leh.
Haddi aad tahay bilow ama khabiir khibrad leh oo NLP ah, xogta lagu bixiyo wejiga laabta ayaa ku anfici doonta. Nagu soo biir marka aan sahamineyno goobta NLP oo aan ka baranay wax ku saabsan suurtagalnimada keydinta xogta wejiga.
Marka hore, waa maxay NLP?
Habaynta Luuqadda Dabiiciga ah (NLP) waa laan ka mid ah sirdoonka macmal. Waxay daraasaysaa sida kombuyuutarku ula falgalaan luqadaha (dabiiciga ah) ee aadanaha. NLP waxay ka kooban tahay abuurista moodallo awood u leh inay fahmaan oo tarjumaan luqadda aadanaha. Sidaa darteed, algorithms waxay qaban karaan hawlo ay ka mid yihiin tarjumaada luqadda, falanqaynta dareenka, iyo soo saarista qoraalka.
NLP waxaa loo isticmaalaa meelo kala duwan, oo ay ku jiraan adeegga macaamiisha, suuqgeyn, iyo daryeelka caafimaadka. Ujeedada NLP waa in loo oggolaado kombiyuutarada inay tarjumaan oo fahmaan luqadda aadanaha sida loo qoro ama loogu hadlo si u dhow kan aadanaha.
Dulmar guud Wajiga isku duuban
Wajiga isku duuban waa farsamaynta luqadda dabiiciga ah (NLP) iyo ganacsiga tignoolajiyada barashada mashiinka. Waxay bixiyaan ilo badan oo kala duwan si ay uga caawiyaan horumarinta horumarinta aagga NLP. Wax soo saarkooda ugu mudan waa maktabadda Transformers.
Waxaa loogu talagalay codsiyada habaynta luqadda dabiiciga ah. Sidoo kale, waxay siisaa moodooyin horay loo tababbaray oo loogu talagalay hawlo kala duwan oo NLP ah sida tarjumaadda luqadda iyo ka jawaabista su'aalaha.
Wajiga laabta, marka lagu daro maktabadda Transformers, waxay bixisaa madal lagu wadaago xogta-barashada mashiinka. Tani waxay suurtogal ka dhigaysaa in si degdeg ah loo helo tayo sare leh xog-ururinta tababarka moodooyinkooda.
Hugging Face Hadafka waa in laga dhigo habaynta luqadda dabiiciga ah (NLP) mid ay heli karaan horumariyeyaasha.
Xogta Xidhiidhka Wajiga ee ugu Caansan
Filimka Cornell-Dialogs Corpus
Kani waa xog-ururin si fiican loo yaqaan oo ka timid Wajiga Hugging. Filimka Cornell-Dialogs Corpus waxa uu ka kooban yahay wada-hadallo laga soo qaatay riwaayadaha filimada. Qaababka habaynta luqadda dabiiciga ah (NLP) waxa laga yaabaa in lagu tababaro iyada oo la isticmaalayo xogtan qoraalka ah ee baaxadda leh.
In ka badan 220,579 kulan oo wada hadal ah oo u dhexeeya 10,292 lammaane filim ayaa lagu soo daray ururinta.
Waxaad u isticmaali kartaa xogtan hawlo kala duwan oo NLP ah. Tusaale ahaan, waxaad horumarin kartaa abuurista luqadda iyo mashaariicda su'aalaha laga jawaabayo. Sidoo kale, waxaad abuuri kartaa hababka wada hadalka. sababtoo ah wadahadaladu waxay ka kooban yihiin mowduucyo aad u ballaaran. Xogta xogta ayaa sidoo kale si weyn loogu isticmaalay mashaariicda cilmi-baarista.
Sidaa darteed, kani waa aalad aad waxtar u leh cilmi-baarayaasha NLP iyo horumariyeyaasha.
FurWebText Corpus
OpenWebText Corpus waa ururinta bogag online ah oo aad ka heli karto goobta Hugging Face. Xog-ururintan waxa ku jira bogag internet oo kala duwan, sida maqaallo, baloogyo, iyo goleyaal. Ka sokow, kuwaas oo dhan waxaa lagu doortay tayada sare.
Xog-ururinta ayaa si gaar ah qiimo ugu leh tababarka iyo qiimeynta moodooyinka NLP. Sidaa darteed, waxaad u isticmaali kartaa xogtan hawlaha sida tarjumaada, iyo soo koobidda. Sidoo kale, waxaad samayn kartaa falanqaynta dareenka adoo isticmaalaya xogtan taas oo hanti weyn u ah codsiyo badan.
Kooxda Hugging Face waxa ay hagaajiyeen OpenWebText Corpus si ay u bixiyaan muunad tayo sare leh oo tababarka ah. Waa kayd weyn oo xog qoraal ah oo ka badan 570GB.
BERT
BERT (Wakiilada Encoder-ka laba jiho ee Transformers) waa nooc NLP ah. Horay ayaa loo tababaray waxaana laga heli karaa goobta wejiga Hugging. BERT waxa sameeyay kooxda Luuqada Google AI Sidoo kale, waxa lagu tababbaray xog-ururin ballaadhan si loo fahmo macnaha guud ee erayada weedha.
Sababtoo ah BERT waa moodal ku salaysan transformer, waxay farsamayn kartaa isku xigxiga buuxa ee isku xigxiga hal mar halkii kalmadba mar. Qaabka loo yaqaan Transformer-ka ayaa la isticmaalaa hababka dareenka si loo turjumo gelinta taxanaha ah.
Habkani waxa uu u sahlayaa BERT in ay fahmaan macnaha guud ee erayada weedha.
Waxaad u isticmaali kartaa BERT kala soocida qoraalka, fahamka luqadda, cid magacowday aqoonsiga, iyo xallinta xudunta, iyo codsiyada kale ee NLP. Sidoo kale, waxay faa'iido u leedahay abuurista qoraalka iyo fahamka akhriska mashiinka.
Kooxda
SQuAD (Data-Jawaabta Su'aalaha Stanford) waa xog ururin su'aalo iyo jawaabo ah. Waxaad u isticmaali kartaa inaad ku tababarto moodooyinka fahamka akhriska mashiinka. Xog-ururinta waxa ku jira in ka badan 100,000 su'aalood iyo jawaabo mawduucyo kala duwan ah. SQuAD way ka duwan tahay xog-ururinta hore.
Waxay diiradda saartaa su'aalaha u baahan aqoonta qoraalka macnaha guud halkii ay ku ekaan lahayd ereyada muhiimka ah.
Natiijo ahaan, waa kheyraad aad u wanaagsan abuurista iyo tijaabinta moodooyinka su'aalaha-jawaabista iyo hawlaha kale ee fahamka mashiinka. Bani'aadamku waxay ku qoraan su'aalaha SQuAD sidoo kale. Tani waxay bixisaa heer sare oo tayo iyo joogto ah.
Guud ahaan, SQuAD waa kheyraad qiimo leh oo loogu talagalay cilmi-baarayaasha NLP iyo horumariyeyaasha.
MNLI
MNLI, ama Farriinta Luqadda Dabiiciga ah ee Noocyada Badan, waa xog-ururin loo isticmaalo in lagu tababaro laguna tijaabiyo moodooyinka barashada mashiinka afka dabiiciga ah. Ujeedada MNLI waa in la aqoonsado in hadalka la bixiyay uu run yahay, been yahay, ama dhexdhexaad yahay marka la eego hadal kale.
MNLI way kaga duwan tahay xog-ururinta hore taas oo daboolaysa qoraallo badan oo noocyo badan ah. Noocyadani waxay ku kala duwan yihiin khayaali ilaa qaybo wararka, iyo waraaqaha dawladda. Kala duwanaanshiyahan awgeed, MNLI waa muunad ka wakiil ah qoraalka dhabta ah ee aduunka. Sida muuqata way ka fiican tahay xog-ururinta luqadaha kale ee dabiiciga ah.
Iyadoo in ka badan 400,000 oo kiis ay ku jiraan xogta, MNLI waxay bixisaa tusaalooyin tiro badan oo loogu talagalay moodooyinka tababarka. Waxa kale oo ku jira faallooyin muunad kasta si ay u caawiyaan moodooyinka waxbarashadooda.
Afkaarta Final
Ugu dambeyntii, Hugging Face datasets ayaa ah kheyraad qiimo leh oo loogu talagalay cilmi-baarayaasha NLP iyo horumariyeyaasha. Hugging Face wuxuu bixiyaa qaab-dhismeedka horumarinta NLP iyadoo la adeegsanayo koox xog-ururin ah oo kala duwan.
Waxaan u maleyneynaa in Hugging Face xogtiisa ugu weyn ay tahay OpenWebText Corpus.
Xogta tayada sare leh waxay ka kooban tahay in ka badan 570GB oo xog qoraal ah. Waa kheyraad aad u qiimo badan oo loogu talagalay tababarka iyo qiimeynta moodooyinka NLP. Waxaad isku dayi kartaa inaad isticmaasho OpenWebText iyo kuwa kale mashaariicdaada xiga.
Leave a Reply