د طبیعي ژبې پروسس کول (NLP) د پرمختګونو نوې څپې شاهد دي. او، د هګینګ مخ ډیټاسیټونه د دې رجحان په سر کې دي. پدې مقاله کې به موږ د هګینګ مخ ډیټاسیټونو اهمیت وګورو.
همچنان ، موږ به وګورو چې دوی څنګه د NLP ماډلونو روزنې او ارزونې لپاره کارول کیدی شي.
هګینګ فیس یو شرکت دی چې پراختیا کونکو ته مختلف ډیټاسیټونه چمتو کوي.
که تاسو پیل کونکی یاست یا د NLP تجربه لرونکی متخصص یاست ، په هګینګ فیس کې چمتو شوي معلومات به ستاسو لپاره ګټور وي. موږ سره یوځای شئ ځکه چې موږ د NLP ساحه وپلټو او د هګینګ فیس ډیټاسیټونو احتمال په اړه زده کړه وکړو.
لومړی، NLP څه شی دی؟
د طبیعي ژبې پروسس (NLP) یوه څانګه ده مصنوعي هوښیارتیا. دا مطالعه کوي چې کمپیوټر څنګه د انسان (طبیعي) ژبو سره تعامل کوي. NLP داسې ماډلونه رامینځته کوي چې د انساني ژبې د پوهیدو او تشریح کولو وړ وي. له همدې امله، الګوریتم کولی شي دندې ترسره کړي لکه د ژبې ژباړه، جذب تحلیل، او د متن تولید.
NLP په مختلفو برخو کې کارول کیږي، پشمول د پیرودونکي خدمت، بازار موندنه، او روغتیا پاملرنې. د NLP هدف دا دی چې کمپیوټرونو ته اجازه ورکړي چې د انسان ژبه تشریح او درک کړي لکه څنګه چې لیکل کیږي یا ویل کیږي لکه څنګه چې د انسانانو سره نږدې وي.
د غېږه
غېږه د طبیعي ژبې پروسس کولو (NLP) او د ماشین زده کړې ټیکنالوژۍ سوداګرۍ ده. دوی د NLP ساحې ته وده ورکولو کې پراختیا کونکو سره د مرستې لپاره پراخه سرچینې چمتو کوي. د دوی ترټولو د پام وړ محصول د ټرانسفارمر کتابتون دی.
دا د طبیعي ژبې پروسس کولو غوښتنلیکونو لپاره ډیزاین شوی. همچنان ، دا د مختلف NLP دندو لپاره دمخه روزل شوي ماډلونه چمتو کوي لکه د ژبې ژباړه او د پوښتنو ځوابونه.
هګینګ فیس، د ټرانسفارمر کتابتون سربیره، د ماشین زده کړې ډیټاسیټونو شریکولو لپاره یو پلیټ فارم وړاندې کوي. دا دا امکان ورکوي چې ژر تر ژره لوړ کیفیت ته لاسرسی ومومي د روزنې لپاره ډیټاسیټونه د دوی ماډلونه.
د هګینګ فیس ماموریت د طبیعي ژبې پروسس کول (NLP) د پراختیا کونکو لپاره د لاسرسي وړ کول دي.
ترټولو مشهور د هګینګ مخ ډیټا سیټونه
کارنیل فلم - ډیالوګ کارپس
دا د Hugging Face څخه یو پیژندل شوی ډیټا سیټ دی. Cornell Movie-Dialogs Corpus د فلم د سکرین پلې څخه اخیستل شوي ډیالوګونه لري. د طبیعي ژبې پروسس کولو (NLP) ماډلونه کیدای شي د دې پراخه متن ډیټا په کارولو سره روزل شي.
له 220,579 څخه ډیر ډیالوګ د 10,292 فلمي کرکټرونو جوړه په ټولګه کې شامل دي.
تاسو کولی شئ دا ډیټاسیټ د مختلف NLP دندو لپاره وکاروئ. د مثال په توګه، تاسو کولی شئ د ژبې جوړولو او د پوښتنې ځواب ورکولو پروژې رامینځته کړئ. همدارنګه، تاسو کولی شئ د خبرو اترو سیسټمونه جوړ کړئ. ځکه چې خبرې اترې دومره پراخې موضوعګانې پوښي. ډیټا سیټ هم په پراخه کچه په څیړنیزو پروژو کې کارول شوی.
لدې امله ، دا د NLP څیړونکو او پراختیا کونکو لپاره خورا ګټور وسیله ده.
OpenWebText Corpus
د OpenWebText Corpus د آنلاین پاڼو ټولګه ده چې تاسو یې د هګینګ مخ پلیټ فارم کې موندلی شئ. پدې ډیټاسیټ کې د آنلاین پاڼو پراخه لړۍ شامله ده، لکه مقالې، بلاګونه، او فورمونه. سربیره پردې، دا ټول د دوی د لوړ کیفیت لپاره غوره شوي.
ډیټاسیټ په ځانګړي ډول د NLP ماډلونو روزنې او ارزونې لپاره ارزښت لري. له همدې امله، تاسو کولی شئ دا ډاټا سیټ د دندو لکه ژباړې، او لنډیز لپاره وکاروئ. همچنان ، تاسو کولی شئ د دې ډیټاسیټ په کارولو سره د احساساتو تحلیل ترسره کړئ کوم چې د ډیری غوښتنلیکونو لپاره لویه پانګه ده.
د هګینګ مخ ټیم د روزنې لپاره د لوړ کیفیت نمونې چمتو کولو لپاره د OpenWebText Corpus جوړ کړی. دا یو لوی ډیټا سیټ دی چې د 570GB څخه ډیر متن ډیټا لري.
BERT
BERT (د ټرانسفارمرونو څخه دوه اړخیزه کوډونکي نمایندګي) د NLP ماډل دی. دا دمخه روزل شوی او د هګینګ مخ پلیټ فارم کې د لاسرسي وړ دی. BERT د ګوګل AI ژبې ټیم لخوا رامینځته شوی. همچنان ، دا په پراخه متن ډیټاسیټ کې روزل شوی ترڅو په یوه جمله کې د کلمو شرایط وپیژني.
ځکه چې BERT د ټرانسفارمر پر بنسټ ماډل دی، دا کولی شي په یو وخت کې د یوې کلمې پرځای په یوځل کې د بشپړ ان پټ ترتیب پروسس کړي. د ټرانسفارمر پر بنسټ ماډل کاروي د پاملرنې میکانیزمونه د ترتیبي آخذو تشریح کول.
دا خصوصیت BERT ته وړتیا ورکوي چې په یوه جمله کې د کلمو شرایط وپیژني.
تاسو کولی شئ د متن کټګورۍ، د ژبې د پوهیدو لپاره BERT وکاروئ، نومول شوی وجود د نورو NLP غوښتنلیکونو په مینځ کې پیژندنه، او د اصلي حل حل. همچنان ، دا د متن رامینځته کولو او د ماشین لوستلو پوهیدو کې ګټور دی.
سکواډ
SQuAD (د سټینفورډ پوښتنې ځواب ورکولو ډیټاسیټ) د پوښتنو او ځوابونو ډیټابیس دی. تاسو کولی شئ دا د ماشین لوستلو درک کولو ماډلونو روزلو لپاره وکاروئ. په ډیټا سیټ کې د مختلفو موضوعاتو په اړه له 100,000 څخه ډیر پوښتنې او ځوابونه شامل دي. SQuAD د پخوانیو ډیټاسیټونو څخه توپیر لري.
دا په پوښتنو تمرکز کوي چې د متن د شرایطو پوهه ته اړتیا لري نه یوازې د کلیدي کلمو سره.
د پایلې په توګه، دا د پوښتنو ځوابونو او د ماشین پوهاوي نورو کارونو لپاره د ماډلونو جوړولو او ازموینې لپاره یوه غوره سرچینه ده. انسانان سوالونه په SQuAD کې هم لیکي. دا د لوړ کیفیت او ثبات چمتو کوي.
په ټوله کې، SQuAD د NLP څیړونکو او پراختیا کونکو لپاره ارزښتناکه سرچینه ده.
MNLI
MNLI، یا د څو ژانر طبیعي ژبې انفرنس، یو ډیټا سیټ دی چې د روزنې او ازموینې لپاره کارول کیږي د ماشین زده کړې موډلونه د طبیعي ژبې د تحلیل لپاره. د MNLI موخه دا ده چې دا معلومه کړي چې آیا یو بیان ریښتیا دی، غلط دی، یا د بل بیان په رڼا کې بې طرفه دی.
MNLI د پخوانیو ډیټاسیټونو څخه توپیر لري چې دا د ډیری ژانرونو متنونو پراخه لړۍ پوښي. دا ژانرونه له افسانې څخه د خبرونو ټوټو، او دولتي کاغذونو پورې توپیر لري. د دې تغیر له امله، MNLI د ریښتیني نړۍ متن یو ډیر نمایشي نمونه ده. دا په ښکاره ډول د ډیری نورو طبیعي ژبو انفرنس ډیټاسیټونو څخه غوره دی.
په ډیټاسیټ کې د 400,000 څخه زیاتو قضیو سره، MNLI د روزنې ماډلونو لپاره د پام وړ شمیر مثالونه وړاندې کوي. دا د هرې نمونې لپاره تبصرې هم لري ترڅو موډلونو سره د دوی په زده کړه کې مرسته وکړي.
وروستۍ ليدتوګه:
په نهایت کې ، د هګینګ مخ ډیټاسیټونه د NLP څیړونکو او پراختیا کونکو لپاره ارزښتناکه سرچینه ده. هګینګ فیس د ډیټاسیټونو د متنوع ګروپ په کارولو سره د NLP پراختیا لپاره چوکاټ چمتو کوي.
موږ فکر کوو چې د هګینګ مخ ترټولو لوی ډیټاسیټ د OpenWebText Corpus دی.
دا د لوړ کیفیت ډیټاسیټ د 570GB څخه ډیر متن ډیټا لري. دا د NLP ماډلونو روزنې او ارزونې لپاره ارزښتناکه سرچینه ده. تاسو کولی شئ په خپلو راتلونکو پروژو کې د OpenWebText او نورو کارولو هڅه وکړئ.
یو ځواب ورکړئ ووځي