د مخ ډیټا سیټونو غیږه کول: د NLP احتمالي خلاصول

د طبیعي ژبې پروسس کول (NLP) د پرمختګونو نوې څپې شاهد دي. او، د هګینګ مخ ډیټاسیټونه د دې رجحان په سر کې دي. پدې مقاله کې به موږ د هګینګ مخ ډیټاسیټونو اهمیت وګورو.

همچنان ، موږ به وګورو چې دوی څنګه د NLP ماډلونو روزنې او ارزونې لپاره کارول کیدی شي.

هګینګ فیس یو شرکت دی چې پراختیا کونکو ته مختلف ډیټاسیټونه چمتو کوي.

که تاسو پیل کونکی یاست یا د NLP تجربه لرونکی متخصص یاست ، په هګینګ فیس کې چمتو شوي معلومات به ستاسو لپاره ګټور وي. موږ سره یوځای شئ ځکه چې موږ د NLP ساحه وپلټو او د هګینګ فیس ډیټاسیټونو احتمال په اړه زده کړه وکړو.

لومړی، NLP څه شی دی؟

د طبیعي ژبې پروسس (NLP) یوه څانګه ده مصنوعي هوښیارتیا. دا مطالعه کوي چې کمپیوټر څنګه د انسان (طبیعي) ژبو سره تعامل کوي. NLP داسې ماډلونه رامینځته کوي چې د انساني ژبې د پوهیدو او تشریح کولو وړ وي. له همدې امله، الګوریتم کولی شي دندې ترسره کړي لکه د ژبې ژباړه، جذب تحلیل، او د متن تولید.

NLP په مختلفو برخو کې کارول کیږي، پشمول د پیرودونکي خدمت، بازار موندنه، او روغتیا پاملرنې. د NLP هدف دا دی چې کمپیوټرونو ته اجازه ورکړي چې د انسان ژبه تشریح او درک کړي لکه څنګه چې لیکل کیږي یا ویل کیږي لکه څنګه چې د انسانانو سره نږدې وي.

د غېږه

غېږه د طبیعي ژبې پروسس کولو (NLP) او د ماشین زده کړې ټیکنالوژۍ سوداګرۍ ده. دوی د NLP ساحې ته وده ورکولو کې پراختیا کونکو سره د مرستې لپاره پراخه سرچینې چمتو کوي. د دوی ترټولو د پام وړ محصول د ټرانسفارمر کتابتون دی.

دا د طبیعي ژبې پروسس کولو غوښتنلیکونو لپاره ډیزاین شوی. همچنان ، دا د مختلف NLP دندو لپاره دمخه روزل شوي ماډلونه چمتو کوي لکه د ژبې ژباړه او د پوښتنو ځوابونه.

هګینګ فیس، د ټرانسفارمر کتابتون سربیره، د ماشین زده کړې ډیټاسیټونو شریکولو لپاره یو پلیټ فارم وړاندې کوي. دا دا امکان ورکوي چې ژر تر ژره لوړ کیفیت ته لاسرسی ومومي د روزنې لپاره ډیټاسیټونه د دوی ماډلونه.

د هګینګ فیس ماموریت د طبیعي ژبې پروسس کول (NLP) د پراختیا کونکو لپاره د لاسرسي وړ کول دي.

ترټولو مشهور د هګینګ مخ ډیټا سیټونه

کارنیل فلم - ډیالوګ کارپس

دا د Hugging Face څخه یو پیژندل شوی ډیټا سیټ دی. Cornell Movie-Dialogs Corpus د فلم د سکرین پلې څخه اخیستل شوي ډیالوګونه لري. د طبیعي ژبې پروسس کولو (NLP) ماډلونه کیدای شي د دې پراخه متن ډیټا په کارولو سره روزل شي.

له 220,579 څخه ډیر ډیالوګ د 10,292 فلمي کرکټرونو جوړه په ټولګه کې شامل دي.

تاسو کولی شئ دا ډیټاسیټ د مختلف NLP دندو لپاره وکاروئ. د مثال په توګه، تاسو کولی شئ د ژبې جوړولو او د پوښتنې ځواب ورکولو پروژې رامینځته کړئ. همدارنګه، تاسو کولی شئ د خبرو اترو سیسټمونه جوړ کړئ. ځکه چې خبرې اترې دومره پراخې موضوعګانې پوښي. ډیټا سیټ هم په پراخه کچه په څیړنیزو پروژو کې کارول شوی.

لدې امله ، دا د NLP څیړونکو او پراختیا کونکو لپاره خورا ګټور وسیله ده.

OpenWebText Corpus

د OpenWebText Corpus د آنلاین پاڼو ټولګه ده چې تاسو یې د هګینګ مخ پلیټ فارم کې موندلی شئ. پدې ډیټاسیټ کې د آنلاین پاڼو پراخه لړۍ شامله ده، لکه مقالې، بلاګونه، او فورمونه. سربیره پردې، دا ټول د دوی د لوړ کیفیت لپاره غوره شوي.

ډیټاسیټ په ځانګړي ډول د NLP ماډلونو روزنې او ارزونې لپاره ارزښت لري. له همدې امله، تاسو کولی شئ دا ډاټا سیټ د دندو لکه ژباړې، او لنډیز لپاره وکاروئ. همچنان ، تاسو کولی شئ د دې ډیټاسیټ په کارولو سره د احساساتو تحلیل ترسره کړئ کوم چې د ډیری غوښتنلیکونو لپاره لویه پانګه ده.

د هګینګ مخ ټیم د روزنې لپاره د لوړ کیفیت نمونې چمتو کولو لپاره د OpenWebText Corpus جوړ کړی. دا یو لوی ډیټا سیټ دی چې د 570GB څخه ډیر متن ډیټا لري.

BERT

BERT (د ټرانسفارمرونو څخه دوه اړخیزه کوډونکي نمایندګي) د NLP ماډل دی. دا دمخه روزل شوی او د هګینګ مخ پلیټ فارم کې د لاسرسي وړ دی. BERT د ګوګل AI ژبې ټیم لخوا رامینځته شوی. همچنان ، دا په پراخه متن ډیټاسیټ کې روزل شوی ترڅو په یوه جمله کې د کلمو شرایط وپیژني.

ځکه چې BERT د ټرانسفارمر پر بنسټ ماډل دی، دا کولی شي په یو وخت کې د یوې کلمې پرځای په یوځل کې د بشپړ ان پټ ترتیب پروسس کړي. د ټرانسفارمر پر بنسټ ماډل کاروي د پاملرنې میکانیزمونه د ترتیبي آخذو تشریح کول.

دا خصوصیت BERT ته وړتیا ورکوي چې په یوه جمله کې د کلمو شرایط وپیژني.

تاسو کولی شئ د متن کټګورۍ، د ژبې د پوهیدو لپاره BERT وکاروئ، نومول شوی وجود د نورو NLP غوښتنلیکونو په مینځ کې پیژندنه، او د اصلي حل حل. همچنان ، دا د متن رامینځته کولو او د ماشین لوستلو پوهیدو کې ګټور دی.

سکواډ

SQuAD (د سټینفورډ پوښتنې ځواب ورکولو ډیټاسیټ) د پوښتنو او ځوابونو ډیټابیس دی. تاسو کولی شئ دا د ماشین لوستلو درک کولو ماډلونو روزلو لپاره وکاروئ. په ډیټا سیټ کې د مختلفو موضوعاتو په اړه له 100,000 څخه ډیر پوښتنې او ځوابونه شامل دي. SQuAD د پخوانیو ډیټاسیټونو څخه توپیر لري.

دا په پوښتنو تمرکز کوي چې د متن د شرایطو پوهه ته اړتیا لري نه یوازې د کلیدي کلمو سره.

د پایلې په توګه، دا د پوښتنو ځوابونو او د ماشین پوهاوي نورو کارونو لپاره د ماډلونو جوړولو او ازموینې لپاره یوه غوره سرچینه ده. انسانان سوالونه په SQuAD کې هم لیکي. دا د لوړ کیفیت او ثبات چمتو کوي.

په ټوله کې، SQuAD د NLP څیړونکو او پراختیا کونکو لپاره ارزښتناکه سرچینه ده.

MNLI

MNLI، یا د څو ژانر طبیعي ژبې انفرنس، یو ډیټا سیټ دی چې د روزنې او ازموینې لپاره کارول کیږي د ماشین زده کړې موډلونه د طبیعي ژبې د تحلیل لپاره. د MNLI موخه دا ده چې دا معلومه کړي چې آیا یو بیان ریښتیا دی، غلط دی، یا د بل بیان په رڼا کې بې طرفه دی.

MNLI د پخوانیو ډیټاسیټونو څخه توپیر لري چې دا د ډیری ژانرونو متنونو پراخه لړۍ پوښي. دا ژانرونه له افسانې څخه د خبرونو ټوټو، او دولتي کاغذونو پورې توپیر لري. د دې تغیر له امله، MNLI د ریښتیني نړۍ متن یو ډیر نمایشي نمونه ده. دا په ښکاره ډول د ډیری نورو طبیعي ژبو انفرنس ډیټاسیټونو څخه غوره دی.

په ډیټاسیټ کې د 400,000 څخه زیاتو قضیو سره، MNLI د روزنې ماډلونو لپاره د پام وړ شمیر مثالونه وړاندې کوي. دا د هرې نمونې لپاره تبصرې هم لري ترڅو موډلونو سره د دوی په زده کړه کې مرسته وکړي.

وروستۍ ليدتوګه:

په نهایت کې ، د هګینګ مخ ډیټاسیټونه د NLP څیړونکو او پراختیا کونکو لپاره ارزښتناکه سرچینه ده. هګینګ فیس د ډیټاسیټونو د متنوع ګروپ په کارولو سره د NLP پراختیا لپاره چوکاټ چمتو کوي.

موږ فکر کوو چې د هګینګ مخ ترټولو لوی ډیټاسیټ د OpenWebText Corpus دی.

دا د لوړ کیفیت ډیټاسیټ د 570GB څخه ډیر متن ډیټا لري. دا د NLP ماډلونو روزنې او ارزونې لپاره ارزښتناکه سرچینه ده. تاسو کولی شئ په خپلو راتلونکو پروژو کې د OpenWebText او نورو کارولو هڅه وکړئ.

د مخ ډیټا سیټونو غیږه کول: د NLP احتمالي خلاصول

لومړی، NLP څه شی دی؟

د غېږه

ترټولو مشهور د هګینګ مخ ډیټا سیټونه

کارنیل فلم - ډیالوګ کارپس

OpenWebText Corpus

BERT

سکواډ

MNLI

وروستۍ ليدتوګه:

په اړه İlke Candan Bengi

په HashDork کې نورې مقالې:

ستاسو په AI کې د هیلوسینشن کمولو څرنګوالی

کولسیان vs هیګین

دا راتلونکي ټیک نیوز لیټر خوند نه کوي

د مخ ډیټا سیټونو غیږه کول: د NLP احتمالي خلاصول

لومړی، NLP څه شی دی؟

د غېږه

ترټولو مشهور د هګینګ مخ ډیټا سیټونه

کارنیل فلم - ډیالوګ کارپس

OpenWebText Corpus

BERT

سکواډ

MNLI

وروستۍ ليدتوګه:

په اړه İlke Candan Bengi

په HashDork کې نورې مقالې:

ستاسو په AI کې د هیلوسینشن کمولو څرنګوالی

د ټولنیزو رسنیو لپاره 10 غوره AI وسیلې

کولسیان vs هیګین

10 غوره AI متحرک ویډیو جوړونکي وسیلې

د لوستونکي اړیکو

یو ځواب ورکړئ ووځي ځواب لغوه کړه

دا راتلونکي ټیک نیوز لیټر خوند نه کوي