Natural Language Processing (NLP) သည် တိုးတက်မှုလှိုင်းသစ်ကို မြင်တွေ့နေရသည်။ ထို့အပြင်၊ Hugging Face ဒေတာအစုံများသည် ဤလမ်းကြောင်း၏ ရှေ့ဆုံးမှဖြစ်သည်။ ဤဆောင်းပါးတွင်၊ Hugging Face datasets ၏ အရေးပါပုံကို လေ့လာပါမည်။
ထို့အပြင်၊ ၎င်းတို့ကို NLP မော်ဒယ်များကို လေ့ကျင့်ရန်နှင့် အကဲဖြတ်ရန် ၎င်းတို့ကို မည်သို့အသုံးပြုရမည်ကို ကျွန်ုပ်တို့ မြင်တွေ့ရမည်ဖြစ်သည်။
Hugging Face သည် developer များအား dataset အမျိုးမျိုးဖြင့် ပံ့ပိုးပေးသော ကုမ္ပဏီတစ်ခုဖြစ်သည်။
သင်သည် အစပြုသူ သို့မဟုတ် အတွေ့အကြုံရှိ NLP ကျွမ်းကျင်သူဖြစ်ပါစေ၊ Hugging Face တွင် ပေးထားသည့် ဒေတာသည် သင့်အတွက် အကျိုးရှိမည်ဖြစ်သည်။ NLP နယ်ပယ်ကို စူးစမ်းလေ့လာပြီး Hugging Face datasets များ၏ အလားအလာများအကြောင်း လေ့လာရင်း ကျွန်ုပ်တို့နှင့် ပူးပေါင်းပါ။
ပထမဦးစွာ NLP ဆိုတာဘာလဲ။
Natural Language Processing (NLP) သည် ဌာနခွဲတစ်ခုဖြစ်သည်။ ဉာဏ်ရည်တု. ၎င်းသည် ကွန်ပျူတာများသည် လူသား (သဘာဝ) ဘာသာစကားများနှင့် မည်ကဲ့သို့ အကျိုးသက်ရောက်သည်ကို လေ့လာသည်။ NLP သည် လူသားဘာသာစကားကို နားလည်သဘောပေါက်ပြီး ဘာသာပြန်ဆိုနိုင်သည့် မော်ဒယ်များကို ဖန်တီးပေးပါသည်။ ထို့ကြောင့် algorithms သည် ဘာသာစကား ဘာသာပြန်ခြင်းကဲ့သို့သော လုပ်ငန်းဆောင်တာများကို လုပ်ဆောင်နိုင်သည်၊ စိတ်ဓါတ်ခွဲခြမ်းစိတ်ဖြာနှင့် စာသားထုတ်လုပ်မှု။
NLP ကို ဖောက်သည်ဝန်ဆောင်မှု၊ စျေးကွက်ရှာဖွေရေးနှင့် ကျန်းမာရေးစောင့်ရှောက်မှုအပါအဝင် နယ်ပယ်အမျိုးမျိုးတွင် အသုံးပြုသည်။ NLP ၏ ရည်ရွယ်ချက်မှာ လူသားဘာသာစကားကို လူသားများနှင့် နီးစပ်သည့်ပုံစံဖြင့် ရေးသားခြင်း သို့မဟုတ် ပြောဆိုသည့်အတိုင်း ကွန်ပျူတာများကို အဓိပ္ပါယ်ဖွင့်ဆိုခြင်းနှင့် နားလည်သဘောပေါက်နိုင်စေရန် ဖြစ်သည်။
ခြုံငုံသုံးသပ်ချက် မျက်နှာပွေ့ဖက်
မျက်နှာပွေ့ဖက် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) နှင့် စက်သင်ယူမှုနည်းပညာလုပ်ငန်းဖြစ်သည်။ ၎င်းတို့သည် NLP ၏ နယ်ပယ်ကို တိုးချဲ့ရာတွင် developer များအား ကူညီရန်အတွက် ကျယ်ပြန့်သောအရင်းအမြစ်များကို ပံ့ပိုးပေးပါသည်။ ၎င်းတို့၏ မှတ်သားဖွယ်အကောင်းဆုံးထုတ်ကုန်မှာ Transformers စာကြည့်တိုက်ဖြစ်သည်။
၎င်းကို သဘာဝဘာသာစကား လုပ်ဆောင်ခြင်းဆိုင်ရာ အသုံးချပရိုဂရမ်များအတွက် ဒီဇိုင်းထုတ်ထားသည်။ ထို့အပြင် ၎င်းသည် ဘာသာစကားဘာသာပြန်ခြင်းနှင့် မေးခွန်းဖြေဆိုခြင်းကဲ့သို့သော NLP လုပ်ဆောင်စရာအမျိုးမျိုးအတွက် ကြိုတင်လေ့ကျင့်ထားသောပုံစံများကို ထောက်ပံ့ပေးသည်။
Hugging Face၊ Transformers စာကြည့်တိုက်အပြင်၊ စက်-သင်ယူမှုဒေတာအတွဲများကို မျှဝေရန်အတွက် ပလပ်ဖောင်းတစ်ခု ပေးထားသည်။ ၎င်းသည် အရည်အသွေးမြင့်ကို လျင်မြန်စွာ ဝင်ရောက်နိုင်စေသည်။ သင်တန်းအတွက် datasets များ သူတို့ရဲ့မော်ဒယ်များ။
Hugging Face ၏ တာဝန်မှာ developer များအတွက် သဘာဝဘာသာစကား စီမံဆောင်ရွက်ပေးခြင်း (NLP) ကို ပိုမိုအသုံးပြုနိုင်စေရန်ဖြစ်သည်။
လူကြိုက်အများဆုံး Hugging Face Datasets
Cornell Movie-Dialogs Corpus
၎င်းသည် Hugging Face မှ နာမည်ကြီး ဒေတာအစုံဖြစ်သည်။ Cornell Movie-Dialogs Corpus တွင် ရုပ်ရှင်ဇာတ်ညွှန်းများမှ ထုတ်ယူထားသော ဒိုင်ယာလော့ခ်များ ပါဝင်သည်။ သဘာဝဘာသာစကားဖြင့် လုပ်ဆောင်ခြင်း (NLP) မော်ဒယ်များကို ဤကျယ်ပြန့်သော စာသားဒေတာပမာဏကို အသုံးပြု၍ လေ့ကျင့်နိုင်ပါသည်။
ရုပ်ရှင်ဇာတ်ကောင်အတွဲ 220,579 အကြား ဒိုင်ယာလော့ဂ်တွေ့ဆုံမှုပေါင်း 10,292 ကျော်ကို စုစည်းမှုတွင် ထည့်သွင်းထားသည်။
NLP လုပ်ငန်းများစွာအတွက် ဤဒေတာအစုံကို သင်အသုံးပြုနိုင်ပါသည်။ ဥပမာအားဖြင့်၊ သင်သည် ဘာသာစကားဖန်တီးမှုနှင့် အမေးအဖြေပရောဂျက်များကို ဖန်တီးနိုင်သည်။ ထို့အပြင်၊ သင်သည် ဒိုင်ယာလော့စနစ်များကို ဖန်တီးနိုင်သည်။ အဘယ်ကြောင့်ဆိုသော် ဆွေးနွေးပွဲများသည် ကျယ်ပြန့်သော အကြောင်းအရာများကို လွှမ်းခြုံထားသည်။ ဒေတာအစုံကို သုတေသနပရောဂျက်များတွင်လည်း အကျယ်တဝင့် အသုံးချခဲ့သည်။
ထို့ကြောင့်၊ ၎င်းသည် NLP သုတေသီများနှင့် developer များအတွက် အလွန်အသုံးဝင်သော tool တစ်ခုဖြစ်သည်။
OpenWebText Corpus
OpenWebText Corpus သည် Hugging Face ပလပ်ဖောင်းပေါ်တွင် သင်ရှာဖွေနိုင်သော အွန်လိုင်းစာမျက်နှာများ စုစည်းမှုတစ်ခုဖြစ်သည်။ ဤဒေတာအတွဲတွင် ဆောင်းပါးများ၊ ဘလော့ဂ်များနှင့် ဖိုရမ်များကဲ့သို့ ကျယ်ပြန့်သော အွန်လိုင်းစာမျက်နှာများ ပါဝင်သည်။ ထို့အပြင် ၎င်းတို့အားလုံးကို ၎င်းတို့၏ အရည်အသွေးမြင့်မားမှုအတွက် ရွေးချယ်ခဲ့သည်။
ဒေတာအတွဲသည် လေ့ကျင့်ရေးနှင့် NLP မော်ဒယ်များကို အကဲဖြတ်ခြင်းအတွက် အထူးတန်ဖိုးရှိသည်။ ထို့ကြောင့်၊ ဘာသာပြန်ခြင်းနှင့် အကျဉ်းချုပ်ခြင်းကဲ့သို့သော အလုပ်များအတွက် ဤဒေတာအတွဲကို သင်အသုံးပြုနိုင်ပါသည်။ ထို့အပြင်၊ သင်သည် အပလီကေးရှင်းများစွာအတွက် ကြီးမားသောပိုင်ဆိုင်မှုဖြစ်သည့် ဤဒေတာအတွဲကို အသုံးပြု၍ စိတ်ခံစားမှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာမှုကို လုပ်ဆောင်နိုင်သည်။
Hugging Face အဖွဲ့သည် လေ့ကျင့်မှုအတွက် အရည်အသွေးမြင့်နမူနာကို ပံ့ပိုးပေးရန်အတွက် OpenWebText Corpus ကို စီမံဖန်တီးပေးခဲ့ပါသည်။ ၎င်းသည် 570GB ထက်ပိုသော စာသားဒေတာပါသော ဒေတာအတွဲတစ်ခုဖြစ်သည်။
BERT
BERT (Transformers မှ Bidirectional Encoder ကိုယ်စားပြုမှုများ) သည် NLP မော်ဒယ်တစ်ခုဖြစ်သည်။ ၎င်းကို ကြိုတင်လေ့ကျင့်ထားပြီး Hugging Face ပလပ်ဖောင်းတွင် အသုံးပြုနိုင်သည်။ BERT ကို Google AI ဘာသာစကားအဖွဲ့မှ ဖန်တီးထားသည်။ ထို့အပြင်၊ ၎င်းသည် စကားစုတစ်ခုရှိ စကားလုံးများ၏ ဆက်စပ်မှုကို နားလည်ရန် ကျယ်ပြန့်သော စာသားဒေတာအတွဲပေါ်တွင် လေ့ကျင့်ထားသည်။
BERT သည် ထရန်စဖော်မာကို အခြေခံသည့် မော်ဒယ်ဖြစ်သောကြောင့်၊ ၎င်းသည် တစ်ကြိမ်လျှင် စကားလုံးတစ်လုံးတည်းအစား အပြည့်အ၀ထည့်သွင်းမှုအစီအစဥ်ကို တစ်ကြိမ်တည်းလုပ်ဆောင်နိုင်သည်။ Transformer အခြေပြု မော်ဒယ်ကို အသုံးပြုသည်။ အာရုံစူးစိုက်မှုယန္တရားများ ဆင့်ကဲထည့်သွင်းမှုကို အဓိပ္ပာယ်ဖွင့်ဆိုရန်။
ဤအင်္ဂါရပ်သည် BERT အား စကားစုတစ်ခုရှိ စကားလုံးများ၏ ဆက်စပ်မှုကို ဆုပ်ကိုင်နိုင်စေသည်။
သင်သည် BERT ကို စာသားအမျိုးအစားခွဲခြင်း၊ ဘာသာစကားနားလည်ရန်၊ entity ဟု အမည်ပေးထားသည်။ အခြား NLP အပလီကေးရှင်းများကြားတွင် ခွဲခြားသတ်မှတ်ခြင်းနှင့် coreference resolution တို့။ ထို့အပြင် ၎င်းသည် စာသားဖန်တီးခြင်းနှင့် နားလည်နိုင်သော စက်ဖတ်ခြင်းအတွက် အကျိုးရှိသည်။
SQuAD
SQuAD (Stanford Question Answering Dataset) သည် မေးခွန်းများနှင့် အဖြေများ၏ ဒေတာဘေ့စ်တစ်ခုဖြစ်သည်။ စက်ဖတ်ရှုနားလည်မှုပုံစံများကို လေ့ကျင့်ရန် ၎င်းကို သင်အသုံးပြုနိုင်သည်။ ဒေတာအစုံတွင် အကြောင်းအရာမျိုးစုံအတွက် မေးခွန်းများနှင့် တုံ့ပြန်ချက်ပေါင်း 100,000 ကျော်ပါဝင်သည်။ SQuAD သည် ယခင်ဒေတာအတွဲများနှင့် ကွဲပြားသည်။
၎င်းသည် သော့ချက်စာလုံးများနှင့် ကိုက်ညီသော စကားလုံးများကိုသာ မဟုတ်ဘဲ စာသား၏ ဆက်စပ်မှုကို အသိပညာ လိုအပ်သည့် မေးခွန်းများအပေါ် အာရုံစိုက်သည်။
ရလဒ်အနေဖြင့်၊ ၎င်းသည် အမေးအဖြေနှင့် အခြားစက်နားလည်မှုဆိုင်ရာ လုပ်ဆောင်စရာများအတွက် မော်ဒယ်များကို ဖန်တီးခြင်းနှင့် စမ်းသပ်ခြင်းအတွက် အကောင်းဆုံးအရင်းအမြစ်တစ်ခုဖြစ်သည်။ လူသားများသည် SQuAD တွင်လည်း မေးခွန်းများကို ရေးသားကြသည်။ ၎င်းသည် မြင့်မားသော အရည်အသွေးနှင့် ညီညွတ်မှုကို ပေးသည်။
ယေဘုယျအားဖြင့် SQuAD သည် NLP သုတေသီများနှင့် developer များအတွက် အဖိုးတန်အရင်းအမြစ်တစ်ခုဖြစ်သည်။
MNLI
MNLI သို့မဟုတ် Multi-Genre Natural Language Inference သည် လေ့ကျင့်ရန်နှင့် စမ်းသပ်ရန် အသုံးပြုသည့် ဒေတာအတွဲတစ်ခုဖြစ်သည်။ စက်သင်ယူမှုပုံစံများ သဘာဝဘာသာစကား အနုအရင့်အတွက်။ MNLI ၏ ရည်ရွယ်ချက်မှာ အခြားဖော်ပြချက်တစ်ခုကြောင့် ပေးထားသောထုတ်ပြန်ချက်သည် မှန်သည်ဖြစ်စေ၊ မှားသည်ဖြစ်စေ သို့မဟုတ် ကြားနေရှိမရှိ ခွဲခြားသတ်မှတ်ရန်ဖြစ်သည်။
MNLI သည် အမျိုးအစားများစွာမှ စာသားအမြောက်အမြားကို လွှမ်းခြုံထားသည့်အတွက် ယခင်ဒေတာအတွဲများနှင့် ကွဲပြားသည်။ ဤအမျိုးအစားများသည် ရသစာပေမှ သတင်းအပိုင်းများနှင့် အစိုးရသတင်းစာများအထိ ကွဲပြားသည်။ ဤကွဲပြားမှုများကြောင့် MNLI သည် ကမ္ဘာပေါ်ရှိ စာသားများ၏ ကိုယ်စားပြုနမူနာဖြစ်သည်။ ၎င်းသည် အခြားသော သဘာဝဘာသာစကား အနုမာနဒေတာအတွဲများထက် သာလွန်ကြောင်း ထင်ရှားသည်။
ဒေတာအတွဲတွင် အမှုပေါင်း 400,000 ကျော်ဖြင့် MNLI သည် လေ့ကျင့်ရေးမော်ဒယ်များအတွက် သိသာထင်ရှားသော ဥပမာများစွာကို ပေးပါသည်။ နမူနာတစ်ခုစီအတွက် မော်ဒယ်များကို ၎င်းတို့၏ သင်ယူမှုကို အထောက်အကူဖြစ်စေရန် မှတ်ချက်များပါရှိသည်။
နောက်ဆုံးထင်မြင်ချက်များ
နောက်ဆုံးအနေဖြင့် Hugging Face datasets သည် NLP သုတေသီများနှင့် developer များအတွက် တန်ဖိုးမဖြတ်နိုင်သော အရင်းအမြစ်တစ်ခုဖြစ်သည်။ Hugging Face သည် မတူကွဲပြားသော ဒေတာအတွဲများကို အသုံးပြုခြင်းဖြင့် NLP ဖွံ့ဖြိုးတိုးတက်မှုအတွက် မူဘောင်တစ်ခုကို ပံ့ပိုးပေးပါသည်။
Hugging Face ၏ အကြီးမားဆုံး ဒေတာအတွဲမှာ OpenWebText Corpus ဖြစ်သည်ဟု ကျွန်ုပ်တို့ ယူဆပါသည်။
ဤအရည်အသွေးမြင့်ဒေတာအတွဲတွင် စာသားဒေတာ 570GB ကျော်ပါရှိသည်။ ၎င်းသည် NLP မော်ဒယ်များကို လေ့ကျင့်ခြင်းနှင့် အကဲဖြတ်ခြင်းအတွက် အဖိုးမဖြတ်နိုင်သော အရင်းအမြစ်တစ်ခုဖြစ်သည်။ သင်၏နောက်ထပ်ပရောဂျက်များတွင် OpenWebText နှင့် အခြားအရာများကို သင်သုံးကြည့်ပါ။
တစ်ဦးစာပြန်ရန် Leave