قدرتي ٻولي پروسيسنگ (اين ايل پي) سڌارن جي نئين لهر کي گواهي ڏئي رهي آهي. ۽، Hugging Face datasets هن رجحان جي اڳيان آهن. هن آرٽيڪل ۾، اسان هنگنگ فيس ڊيٽا سيٽ جي اهميت تي نظر ڪنداسين.
انهي سان گڏ، اسان ڏسنداسين ته اهي اين ايل پي ماڊل کي تربيت ۽ جائزو وٺڻ لاء ڪيئن استعمال ڪيا ويندا.
Hugging Face هڪ ڪمپني آهي جيڪا ڊولپرز کي مختلف قسم جي ڊيٽا سيٽن سان فراهم ڪري ٿي.
ڇا توهان شروعاتي آهيو يا هڪ تجربيڪار NLP ماهر، هنگنگ فيس تي مهيا ڪيل ڊيٽا توهان لاءِ ڪارآمد هوندي. اسان سان شامل ٿيو جيئن اسين اين ايل پي جي فيلڊ کي ڳوليون ٿا ۽ سکو هيگنگ فيس ڊيٽا سيٽن جي صلاحيت بابت.
پهريون، NLP ڇا آهي؟
قدرتي ٻولي پروسيسنگ (NLP) جي هڪ شاخ آهي مصنوعي انٽيلي جنس. اهو مطالعو ڪري ٿو ته ڪمپيوٽر ڪيئن انساني (قدرتي) ٻولين سان لهه وچڙ ۾ اچن ٿا. NLP انساني ٻولي کي سمجهڻ ۽ ان جي تشريح ڪرڻ جي قابل ماڊل ٺاهڻ ۾ شامل آهي. تنهن ڪري، الگورٿمس ڪم ڪري سگهن ٿا جهڙوڪ ٻولي ترجمو، جذبي تجزيه، ۽ ٽيڪسٽ جي پيداوار.
NLP مختلف علائقن ۾ استعمال ڪيو ويندو آهي، بشمول ڪسٽمر سروس، مارڪيٽنگ، ۽ صحت جي سار سنڀار. اين ايل پي جو مقصد ڪمپيوٽرن کي انساني ٻولي جي تشريح ۽ سمجھڻ جي اجازت ڏيڻ آهي جيئن ته اها لکجي يا ڳالهائي وڃي ٿي جيئن انسانن جي ويجهو هجي.
جو جائزو گلن جو منھن
گلن جو منھن هڪ قدرتي ٻولي پروسيسنگ (NLP) ۽ مشين سکيا ٽيڪنالاجي ڪاروبار آهي. اهي اين ايل پي جي علائقي کي اڳتي وڌائڻ ۾ ڊولپرز جي مدد لاءِ وسيع رينج مهيا ڪن ٿا. انهن جي سڀ کان وڌيڪ قابل ذڪر پيداوار ٽرانسفارمرز لائبريري آهي.
اهو قدرتي ٻولي پروسيسنگ ايپليڪيشنن لاء ٺهيل آهي. انهي سان گڏ، اهو مختلف قسم جي اين ايل پي ڪمن لاء اڳ-تربيت ٿيل ماڊل مهيا ڪري ٿو جهڙوڪ ٻولي ترجمو ۽ سوالن جا جواب.
Hugging Face، Transformers Library کان علاوه، مشين لرننگ ڊيٽا سيٽن کي شيئر ڪرڻ لاءِ پليٽ فارم پيش ڪري ٿو. اهو اهو ممڪن بڻائي ٿو ته جلدي اعلي معيار تائين رسائي حاصل ڪري تربيت لاء ڊيٽا سيٽ انهن جا ماڊل.
Hugging Face جو مشن ڊولپرز لاءِ قدرتي ٻولي پروسيسنگ (NLP) کي وڌيڪ رسائي لائق بڻائڻ آهي.
سڀ کان وڌيڪ مشهور هگنگ منهن ڊيٽا سيٽ
Cornell Movie-Dialogs Corpus
هي هگنگ منهن کان هڪ مشهور ڊيٽا سيٽ آهي. Cornell Movie-Dialogs Corpus فلمن جي اسڪرين پليز مان ورتل ڊائلاگس تي مشتمل آھي. قدرتي ٻولي پروسيسنگ (NLP) ماڊلز کي تربيت ڏني وڃي ٿي متن ڊيٽا جي هن وسيع مقدار کي استعمال ڪندي.
220,579 فلمي ڪردار جي جوڙي جي وچ ۾ 10,292 کان وڌيڪ ڊائلاگ مقابلا شامل آهن.
توھان استعمال ڪري سگھوٿا ھي ڊيٽا سيٽ مختلف قسم جي NLP ڪمن لاءِ. مثال طور، توھان ترقي ڪري سگھو ٿا ٻولي ٺاھڻ ۽ سوالن جا جواب ڏيڻ وارا منصوبا. پڻ، توھان ٺاھي سگھوٿا ڊائلاگ سسٽم. ڇاڪاڻ ته ڳالهه ٻولهه اهڙن موضوعن جي وسيع رينج کي ڍڪي ٿي. ڊيٽا سيٽ پڻ وڏي پيماني تي استعمال ڪيو ويو آهي تحقيق جي منصوبن ۾.
انهيء ڪري، هي هڪ انتهائي مفيد اوزار آهي اين ايل پي محقق ۽ ڊولپرز لاء.
OpenWebText Corpus
OpenWebText Corpus آن لائن صفحن جو ھڪڙو مجموعو آھي جيڪو توھان ڳولي سگھوٿا Hugging Face پليٽ فارم تي. ھن ڊيٽا سيٽ ۾ آن لائن صفحن جو ھڪڙو وسيع سلسلو شامل آھي، جھڙوڪ آرٽيڪل، بلاگ، ۽ فورم. ان کان سواء، اهي سڀئي انهن جي اعلي معيار لاء چونڊيا ويا آهن.
ڊيٽا سيٽ خاص طور تي NLP ماڊل جي تربيت ۽ جائزو وٺڻ لاءِ قيمتي آهي. تنهن ڪري، توهان هن ڊيٽا سيٽ کي ڪمن لاءِ استعمال ڪري سگهو ٿا جهڙوڪ ترجمو، ۽ اختصار. انهي سان گڏ، توهان هن ڊيٽا سيٽ کي استعمال ڪندي جذبي جو تجزيو ڪري سگهو ٿا جيڪو ڪيترن ئي ايپليڪيشنن لاء هڪ وڏو اثاثو آهي.
Hugging Face ٽيم تربيت لاءِ اعليٰ معيار جو نمونو مهيا ڪرڻ لاءِ OpenWebText Corpus کي تيار ڪيو. اهو 570GB کان وڌيڪ ٽيڪسٽ ڊيٽا سان گڏ هڪ وڏو ڊيٽا سيٽ آهي.
برٽ
BERT (ٽرانسفارمرز کان ٻه طرفي انڪوڊر نمائندگي) ھڪڙو اين ايل پي ماڊل آھي. اهو اڳ ۾ تربيت ڪئي وئي آهي ۽ هنگنگ منهن پليٽ فارم تي دستياب آهي. BERT ٺاهي وئي گوگل AI ٻولي ٽيم پاران. انهي سان گڏ، اهو هڪ وسيع متن جي ڊيٽا سيٽ تي تربيت ڏني وئي آهي هڪ جملي ۾ لفظن جي حوالي سان سمجھڻ لاء.
ڇاڪاڻ ته BERT هڪ ٽرانسفارمر تي ٻڌل ماڊل آهي، اهو هڪ وقت ۾ هڪ لفظ جي بدران هڪ ڀيرو مڪمل ان پٽ تسلسل کي پروسيس ڪري سگهي ٿو. هڪ ٽرانسفارمر جي بنياد تي ماڊل استعمال ڪري ٿو ڌيان ميڪانيزم ترتيب وار ان پٽ جي تشريح ڪرڻ.
هي خصوصيت BERT کي قابل بڻائي ٿي جملي ۾ لفظن جي حوالي سان.
توھان استعمال ڪري سگھو ٿا BERT متن جي درجه بندي، ٻولي سمجھڻ، نالي وارو ادارو ٻين اين ايل پي ايپليڪيشنن جي وچ ۾ سڃاڻپ، ۽ ڪور ريفرنس ريزوليشن. انهي سان گڏ، اهو متن ٺاهڻ ۽ مشين پڙهڻ کي سمجهڻ ۾ فائدي وارو آهي.
اسڪواڊ
SQuAD (Stanford Question Answering Dataset) سوالن ۽ جوابن جو ڊيٽابيس آھي. توھان ان کي استعمال ڪري سگھوٿا مشين پڙھڻ جي سمجھڻ واري ماڊل کي تربيت ڏيڻ لاءِ. ڊيٽا سيٽ ۾ مختلف عنوانن تي 100,000 کان وڌيڪ سوال ۽ جواب شامل آهن. SquaAD اڳوڻي ڊيٽا سيٽن کان مختلف آهي.
اهو سوالن تي ڌيان ڏئي ٿو جيڪي متن جي حوالي سان ڄاڻ جي ضرورت هونديون آهن بجاء صرف ملندڙ لفظن جي.
نتيجي طور، اهو هڪ بهترين وسيلو آهي ماڊل ٺاهڻ ۽ جانچڻ لاءِ سوالن جا جواب ڏيڻ ۽ ٻين مشيني سمجھڻ واري ڪمن لاءِ. انسان سوالن کي اسڪواڊ ۾ پڻ لکندا آهن. اهو اعلي معيار ۽ استحڪام فراهم ڪري ٿو.
مجموعي طور تي، SQuAD NLP محقق ۽ ڊولپرز لاء هڪ قيمتي وسيلو آهي.
ايم اين ايل آئي
MNLI، يا Multi-genre Natural Language Inference، ھڪڙو ڊيٽا سيٽ آھي جيڪو ٽريننگ ۽ ٽيسٽ ڪرڻ لاءِ استعمال ڪيو ويندو آھي مشيني سکيا جا ماڊل قدرتي ٻولي جي تشخيص لاء. MNLI جو مقصد اهو معلوم ڪرڻ آهي ته ڇا ڏنل بيان سچو آهي، غلط آهي، يا ڪنهن ٻئي بيان جي روشني ۾ غير جانبدار.
MNLI اڳوڻي ڊيٽا سيٽن کان مختلف آهي جنهن ۾ اهو ڪيترن ئي صنفن جي متنن جي وسيع رينج کي ڍڪي ٿو. اهي صنفون مختلف آهن افسانن کان خبرون ٽڪرن تائين، ۽ سرڪاري ڪاغذن تائين. ھن تبديليءَ جي ڪري، MNLI حقيقي دنيا جي متن جو وڌيڪ نمائندو نمونو آھي. اهو واضح طور تي ٻين ڪيترين ئي قدرتي ٻولين جي ڊيٽا سيٽن کان بهتر آهي.
ڊيٽا سيٽ ۾ 400,000 کان وڌيڪ ڪيسن سان، MNLI ٽريننگ ماڊلز لاءِ مثالن جو وڏو تعداد مهيا ڪري ٿو. اهو پڻ شامل آهي هر نموني لاء تبصرا انهن جي سکيا ۾ ماڊل جي مدد ڪرڻ لاء.
آخري سوچون
آخرڪار، هيگنگ فيس ڊيٽا سيٽس NLP محققن ۽ ڊولپرز لاءِ هڪ انمول وسيلو آهن. هيگنگ فيس ڊيٽا سيٽن جي متنوع گروپ کي استعمال ڪندي NLP ترقي لاءِ فريم ورڪ فراهم ڪري ٿو.
اسان سمجهون ٿا Hugging Face جو سڀ کان وڏو ڊيٽابيس OpenWebText Corpus آهي.
هي اعليٰ معيار جي ڊيٽا سيٽ ۾ 570GB کان وڌيڪ ٽيڪسٽ ڊيٽا شامل آهي. اهو NLP ماڊل جي تربيت ۽ جائزو وٺڻ لاءِ هڪ انمول وسيلو آهي. توھان ڪوشش ڪري سگھوٿا OpenWebText ۽ ٻين کي پنھنجي ايندڙ منصوبن ۾.
جواب ڇڏي وڃو