هر مشين لرننگ پروجيڪٽ هڪ سٺي ڊيٽا سيٽ تي ڀاڙي ٿو. اھو اھو وڏو ڊيٽا سيٽ آھي جيڪو توھان کي اجازت ڏيندو توھان جي ايم ايل ماڊل کي تربيت ۽ تصديق ڪرڻ. تنهن ڪري، هڪ ايم ايل پروجيڪٽ ۾ ڪم جو هڪ وڏو حصو توهان جي ضرورتن لاءِ مڪمل ڊيٽا سيٽ ڳولي رهيو آهي. تنهن هوندي، اهو هميشه ممڪن ناهي ته هڪ اختيار ڳولڻ لاء جيڪو توهان جي امتياز سان ٺهڪي اچي ٿو، ڪيتريون ئي فائلون جيڪي دلچسپ نظر اچن ٿيون، آخر ۾، نه آهن.
اهو بيشمار ڊيٽا سيٽن کي ڊائون لوڊ ڪرڻ وقت ضايع ڪرڻ ڏکيو ٿي سگهي ٿو جيستائين توهان هڪ مثالي سيٽ تي پهچي وڃو. انهي کي ذهن ۾ رکندي، اسان ڪجهه اختيارن کي گڏ ڪيو آهي جيڪي دلچسپ لڳي رهيا آهن ۽ توهان جي ايم ايل پروجيڪٽ کي ترقي ڪرڻ ۾ مدد ڪري سگھن ٿا. نوٽ ڪريو ته ڪجھ ارادا آھن ذاتي بدران تجارتي استعمال لاءِ، تنھنڪري انھن اختيارن کي ڏسو جيئن ML ڪائنات ۾ تجربو حاصل ڪرڻ جو طريقو.
ڊيٽا سيٽ جي بنياديات
ان کان اڳ جو اسان ڊيٽا سيٽن جو ذڪر ڪريون، اسان کي ڪجهه اصطلاحن جي وضاحت ڪرڻ گهرجي. مصنوعي ذھني منصوبن ۾، خاص طور تي مشين سکيا, ڊيٽا جي هڪ وڏي مقدار جي ضرورت آهي، جنهن کي الورورٿم کي تربيت ڏيڻ لاء استعمال ڪيو ويندو. ڊيٽا جو اهو مقدار هڪ ڊيٽابيس ۾ گڏ ڪيو ويو آهي، جيڪو هڪ الورورٿم سکڻ لاء انتهائي مفيد آهي.
هن ڊيٽا سان، الورورٿم کي تربيت ڏني وئي آهي - پڻ آزمائشي - ۽ نمونن کي ڳولڻ، رشتا قائم ڪرڻ ۽ اهڙيء طرح خودمختياري سان فيصلا ڪرڻ جي قابل ٿي وڃي ٿي. بغير تربيت، مشين سکيا algorithms ڪنهن به عمل کي انجام ڏيڻ جي قابل نه آهن. تنهن ڪري، بهتر تربيتي ڊيٽا، بهتر نموني انجام ڏيندو. ڊيٽابيس لاءِ پروجيڪٽ لاءِ ڪارآمد ٿيڻ لاءِ، اهو مقدار بابت ناهي: اهو پڻ درجه بندي بابت آهي.
مثالي طور، ڊيٽا کي چڱي طرح ليبل ڪيو وڃي. chatbots جي معاملي بابت سوچيو: ٻولي داخل ڪرڻ ضروري آهي، پر محتاط نحوي تجزيي کي لازمي طور تي ڪيو وڃي ته جيئن ٺاهيل الگورٿم سمجهي سگهي ٿو جڏهن ڳالهائيندڙ slang استعمال ڪري رهيو آهي. صرف ان کان پوء مجازي اسسٽنٽ جواب شروع ڪرڻ جي قابل هوندو جيڪو صارف طرفان درخواست ڪئي وئي هئي.
ڊيٽا سيٽ سروي، صارف جي خريداري ڊيٽا، خدمتن تي ڇڏيل تشخيص، ۽ ٻين ڪيترن ئي طريقن سان ٺاهي سگھجن ٿيون جيڪي CSV فائل ۾ ڪالمن ۽ قطار ۾ منظم ڪيل مفيد معلومات گڏ ڪرڻ جي اجازت ڏين ٿيون.
ان کان اڳ جو توهان مڪمل ڊيٽا سيٽ جي ڳولا ۾ نڪرو، اهو ضروري آهي ته توهان پنهنجي پروجيڪٽ جي مقصد کي ڄاڻو، خاص طور تي جيڪڏهن اهو ڪنهن مخصوص علائقي مان آهي، جهڙوڪ موسم، ماليات، صحت وغيره. اهو ان ذريعن کي ترتيب ڏيندو جنهن مان توهان پنهنجو ذريعو حاصل ڪندا. ڊيٽا سيٽ.
ML لاء ڊيٽا سيٽ
چيٽ بوٽ ٽريننگ
هڪ مؤثر چيٽ بٽ کي وڏي تعداد ۾ ٽريننگ ڊيٽا جي ضرورت هوندي آهي ته جيئن صارف جي سوالن کي انساني مداخلت کان سواءِ جلدي حل ڪيو وڃي. جڏهن ته، چيٽ بوٽ جي ترقي ۾ بنيادي رڪاوٽ حقيقي، ڪم تي مبني ڊائلاگ ڊيٽا حاصل ڪري رهي آهي انهن مشين لرننگ تي ٻڌل سسٽم کي تربيت ڏيڻ لاء.
هڪ گفتگو وارو ڊيٽا سيٽ ڊيٽا گڏ ڪري ٿو سوال ۽ جواب جي شڪل ۾. اھو مثالي آھي ٽريننگ چيٽ بوٽن لاءِ جيڪو سامعين کي خودڪار جواب ڏيندو. هن ڊيٽا جي بغير، چيٽ بٽ جلدي صارف جي سوالن کي حل ڪرڻ يا انساني مداخلت جي ضرورت کان سواء صارف جي سوالن جو جواب ڏيڻ ۾ ناڪام ٿيندو.
انهن ڊيٽا سيٽن کي استعمال ڪندي، ڪاروبار هڪ اوزار ٺاهي سگهي ٿو جيڪو گراهڪن کي 24/7 تڪڙو جواب فراهم ڪري ٿو ۽ خاص طور تي سستو آهي ماڻهن جي ٽيم جي مقابلي ۾ جيڪو ڪسٽمر سپورٽ ڪري رهيو آهي.
1. سوال-جواب ڊيٽا سيٽ
هي ڊيٽا سيٽ وڪيپيڊيا مضمونن، سوالن ۽ انهن جي هٿرادو ٺاهيل جوابن جو هڪ سيٽ مهيا ڪري ٿو. اهو هڪ ڊيٽا سيٽ آهي جيڪو 2008 ۽ 2010 جي وچ ۾ استعمال لاءِ گڏ ڪيو ويو آهي علمي تحقيق.
2. ٻولي ڊيٽا
ٻولي ڊيٽا ھڪڙو ڊيٽابيس آھي جيڪو Yahoo پاران منظم ڪيل معلومات سان گڏ ڪمپني جي ڪجھ خدمتن مان ٺاھيو ويو آھي، جھڙوڪ Yahoo! جواب، جيڪو صارفين لاءِ سوال ۽ جواب پوسٽ ڪرڻ لاءِ کليل ڪميونٽي طور ڪم ڪري ٿو.
3. WikiQA
WikiQA ڪورپس پڻ سوالن ۽ جوابن جي هڪ سيٽ تي مشتمل آهي. سوالن جو ذريعو Bing آهي، جڏهن ته جواب هڪ وڪيپيڊيا صفحي سان ڳنڍيل آهن جن سان ابتدائي سوال حل ڪرڻ جي صلاحيت آهي.
مجموعي طور تي، ڊيٽا سيٽ ۾ 3,000 کان وڌيڪ سوال ۽ 29,258 جملن جو هڪ سيٽ آهي، جن مان اٽڪل 1,400 کي لاڳاپيل سوالن جي جوابن جي طور تي درجه بندي ڪيو ويو آهي.
سرڪاري ڊيٽا
حڪومتن پاران ٺاهيل ڊيٽا سيٽ ڊيموگرافڪ ڊيٽا آڻيندا آهن، جيڪي سماجي رجحانات کي سمجهڻ، عوامي پاليسيون ٺاهڻ، ۽ سماج کي بهتر بڻائڻ سان لاڳاپيل منصوبن لاءِ بهترين ان پٽ آهن. هي سياسي مهمن، ٽارگيٽ ڪيل اشتهارن، يا مارڪيٽ جي تجزيي لاءِ ڪارائتو ٿي سگهي ٿو.
اهي ڊيٽا سيٽون عام طور تي گمنام ڊيٽا تي مشتمل هونديون آهن، تنهن ڪري جڏهن ماڊل خام ڊيٽا تائين رسائي ڪري سگهن ٿا، اتي ذاتي رازداري جي ڪا به ڀڃڪڙي ناهي.
4. Data.gov
2009 ۾ شروع ڪيو ويو، Data.gov ڊيٽا لاء اتر آمريڪي ذريعو آهي. ان جي فهرست متاثر ڪندڙ آهي: 218,000 ڊيٽا سيٽن کان وڌيڪ جيڪي فارميٽ، ٽيگ، قسمن ۽ عنوانن جي ذريعي ورهائڻ جي اجازت ڏين ٿا.
5. EU اوپن ڊيٽا پورٽل
يورپي يونين جي اوپن ڊيٽا پورٽل يورپي يونين جي ادارن پاران حصيداري ڪيل کليل ڊيٽا تائين رسائي فراهم ڪري ٿي. اهي ڊيٽا آهن جيڪي تجارتي ۽ غير تجارتي استعمال لاء ارادو ڪري سگهجن ٿيون. استعمال ڪندڙ جي اختيار ۾ 15.5 هزار کان وڌيڪ ڊيٽا سيٽس آهن، جن ۾ صحت، توانائي، ماحول، ثقافت ۽ تعليم جهڙا موضوع شامل آهن.
صحت واري ڊيٽا
دنيا ۾ جاري صحت جي بحران جي نتيجي ۾، صحت جي تنظيمن پاران ٺاهيل ڊيٽا سيٽ زندگيون بچائڻ لاءِ موثر حل تيار ڪرڻ لاءِ ضروري آهن. اهي ڊيٽا سيٽ خطرن جي عنصر کي سڃاڻڻ، بيمارين جي منتقلي جي نمونن کي ڪم ڪرڻ، ۽ تشخيص کي تيز ڪرڻ ۾ مدد ڪري سگھن ٿا.
انهن ڊيٽا سيٽن تي مشتمل آهي صحت جي رڪارڊ، مريضن جي ڊيموگرافڪ، بيماري جي پکيڙ، دوائن جي استعمال، غذائي قدر، ۽ گهڻو ڪجهه.
6. گلوبل هيلٿ آبزرويٽري
هي ڊيٽا سيٽ ورلڊ هيلٿ آرگنائيزيشن (ڊبليو ايڇ او) جي هڪ شروعات آهي. اهو صحت جي مختلف شعبن سان لاڳاپيل عوامي ڊيٽا مهيا ڪري ٿو، موضوعن جي ترتيب سان ترتيب ڏنل صحت جو نظام، تمباکو جي استعمال تي ڪنٽرول، زچگي، ايڇ آءِ وي/ايڊز وغيره. اتي پڻ اختيار آهي ته COVID-19 تي ڊيٽا سان صلاح ڪرڻ جو.
7. CORD-19
CORD-19 COVID-19 ۽ نئين ڪورونا وائرس بابت ٻين مضمونن تي علمي اشاعتن جو هڪ مجموعو آهي. اهو هڪ کليل ڊيٽا سيٽ آهي جنهن جو مقصد COVID-19 تي نئين بصيرت پيدا ڪرڻ آهي.
اقتصادي ڊيٽا
مالي ماحول سان لاڳاپيل ڊيٽا سيٽون عام طور تي وڏي مقدار ۾ معلومات گڏ ڪن ٿيون، ڇاڪاڻ ته اهو عام آهي ته اهي هڪ ڊگهي وقت تائين گڏ ڪيا ويا آهن. اهي اقتصادي اڳڪٿيون ٺاهڻ يا سيڙپڪاري جي رجحانن کي قائم ڪرڻ لاءِ مثالي آهن.
صحيح مالي ڊيٽا سيٽن سان، a مشين لرننگ ماڊل پيش ڪيل اثاثن جي رويي جي اڳڪٿي ڪرڻ جي قابل ٿي سگھي ٿو. اهو ئي سبب آهي ته مالياتي شعبي هڪ مؤثر ML ماڊل ٺاهڻ لاءِ پنهنجي طاقت ۾ سڀ ڪجهه ڪري رهيو آهي، جيئن ڪا به شيءِ جيڪا چڱيءَ طرح اڳڪٿي ڪري سگهي ٿي ان ۾ لکين ڊالر پيدا ڪرڻ جي صلاحيت آهي. مشين لرننگ اڳ ۾ ئي شهرين جي رويي جي اڳڪٿي ڪري رهي آهي، جيڪو اثر انداز ٿي رهيو آهي ته پاليسي ساز پنهنجو ڪم ڪري رهيا آهن.
8. بين الاقوامي پئسي فنڊ
IMF ڊيٽا سيٽ اقتصادي ۽ مالي اشارن جي هڪ حد رکي ٿو، ميمبر ملڪ جا انگ اکر، ۽ ٻيا قرض ۽ مٽا سٽا جي شرح ڊيٽا.
9. ورلڊ بينڪ
ورلڊ بئنڪ جي مخزن ۾ مختلف ڊيٽا سيٽ شامل آهن جن ۾ مختلف ملڪن جي اقتصادي معلومات شامل آهن. براعظمن ۾ ورهايل 17,000 کان وڌيڪ ڊيٽا سيٽون آهن.
مصنوعات ۽ خدمتن جو جائزو
جذبي جي تجزيي کي مختلف شعبن ۾ پنهنجون ايپليڪيشنون مليون آهن جيڪي هاڻي ادارن جي مدد ڪري رهيا آهن اندازو لڳائڻ ۽ انهن جي گراهڪن يا گراهڪ کان صحيح طريقي سان سکڻ. جذبي جو تجزيو سوشل ميڊيا جي نگراني، برانڊ مانيٽرنگ، گراهڪ جو آواز (VoC)، ڪسٽمر سروس، ۽ مارڪيٽ ريسرچ لاءِ استعمال ڪيو پيو وڃي.
جذبي جو تجزيو اين ايل پي استعمال ڪري ٿو (نيورو-لساني پروگرامنگ) طريقا ۽ الگورتھم جيڪي يا ته اصولن تي ٻڌل آھن، ھائبرڊ آھن، يا ڊيٽا سيٽن مان ڊيٽا سکڻ لاءِ مشين لرننگ ٽيڪنڪ تي ڀاڙين ٿا.
جذبي جي تجزيي ۾ گهربل ڊيٽا کي خاص هجڻ گهرجي ۽ وڏي مقدار ۾ گهربل هجي. جذباتي تجزيي جي تربيتي عمل جي باري ۾ سڀ کان وڌيڪ مشڪل حصو وڏي مقدار ۾ ڊيٽا ڳولڻ نه آهي؛ ان جي بدران، اهو لاڳاپيل ڊيٽا سيٽ ڳولڻ آهي. انهن ڊيٽا سيٽن کي لازمي طور تي جذبي جي تجزيي جي ايپليڪيشنن جي وسيع علائقي کي ڍڪڻ ۽ ڪيسن کي استعمال ڪرڻ گهرجي.
10. ايم ايم ڊي جائزو
هن ڊيٽا سيٽ تي مشتمل آهي اٽڪل 35 ملين Amazon جائزو، گڏ ڪيل معلومات جي 18 سالن جي عرصي تائين. اهو پراڊڪٽ، صارف، ۽ جائزو جي مواد جو هڪ ڊيٽابيس آهي.
11. Yelp جائزو
Yelp ان جي خدمت مان گڏ ڪيل معلومات جي بنياد تي ڊيٽا سيٽ پڻ پيش ڪري ٿو. هتي 8 ملين کان وڌيڪ تبصرا آهن، 1 ملين تجويزون، گڏوگڏ لڳ ڀڳ 1.5 ملين خاصيتون جيڪي ڪاروبار سان لاڳاپيل آهن، جهڙوڪ کولڻ جا ڪلاڪ ۽ دستيابي.
12. IMDB جائزو
ھن ڊيٽابيس ۾ 25 ھزار کان وڌيڪ فلمن جي نظرثانين جو ھڪڙو سيٽ آھي تربيت لاءِ ۽ ٻيو 25 ھزار ٽيسٽن لاءِ IMDB پيج تان غير رسمي طور تي ورتو ويو، فلم جي درجه بندي ۾ خاص. اهو پڻ غير ليبل ٿيل ڊيٽا کي اضافي طور پيش ڪري ٿو.
ML ۾ پهرين مرحلن لاء ڊيٽا سيٽ
13. شراب جي معيار جي ڊيٽا سيٽ
هي ڊيٽا سيٽ شراب سان لاڳاپيل معلومات مهيا ڪري ٿو، ٻنهي ڳاڙهي ۽ سائي، اتر پرتگال ۾ پيدا ڪيل. مقصد شراب جي معيار کي فزيڪو ڪيميڪل ٽيسٽ جي بنياد تي بيان ڪرڻ آهي. انهن لاءِ دلچسپ آهي جيڪي مشق ڪرڻ چاهيندا آهن اڳڪٿي وارو نظام ٺاهڻ.
14. ٽائيٽينڪ ڊيٽا سيٽ
هي ڊيٽا سيٽ ٽائيٽينڪ مان 887 حقيقي مسافرن کان ڊيٽا آڻيندو آهي، هر ڪالم جي وضاحت ڪندي ته اهي بچيا آهن، انهن جي عمر، مسافر طبقي، جنس، ۽ بورڊنگ فيس جيڪي ادا ڪيا ويا آهن. هي ڊيٽا سيٽ ڪيگل پليٽ فارم پاران شروع ڪيل هڪ چيلنج جو حصو هو، جنهن جو مقصد هڪ اهڙو ماڊل ٺاهڻ هو جيڪو اڳڪٿي ڪري سگهي ته ٽائيٽينڪ جي ٻڏڻ کان ڪهڙا مسافر بچيا.
ٻين ڊيٽا سيٽ ڳولڻ لاء پليٽ فارم
جيڪڏھن توھان اڳتي وڌڻ چاھيو ٿا ۽ پنھنجو پنھنجو ڊيٽا سيٽ ڳولڻ چاھيو ٿا، بھترين طريقو آھي براؤز ڪرڻ جو سڀ کان وڌيڪ مشهور ذخيرا مشين سکيا ڪائنات:
ڪانگ
Kaggle، Google LLC جو هڪ ماتحت، ڊيٽا سائنسدانن ۽ مشين لرننگ جي ماهرن جي هڪ آن لائن ڪميونٽي آهي. Kaggle صارفين کي ڊيٽا سيٽ ڳولڻ ۽ شايع ڪرڻ جي اجازت ڏئي ٿو، ويب تي ٻڌل ڊيٽا سائنس ماحول ۾ ماڊل ڳولڻ ۽ ٺاهڻ؛ ٻين ڊيٽا سائنسدانن سان ڪم ڪريو ۽ مشين سکيا انجنيئر، ۽ ڊيٽا سائنس جي چئلينجن کي حل ڪرڻ لاءِ مقابلن ۾ حصو وٺڻ.
Kaggle 2010 ۾ مشين لرننگ مقابلا پيش ڪندي شروع ڪئي ۽ ھاڻي عوامي پيشڪش پڻ ڪري ٿي ڊيٽا پليٽ فارمڊيٽا سائنس ۽ مصنوعي ذهانت جي تعليم لاءِ ڪلائوڊ تي ٻڌل ورڪ بينچ.
ڊيٽا سيٽ ڳولا
Dataset سرچ گوگل کان هڪ سرچ انجڻ آهي جيڪا تحقيق ڪندڙن کي آن لائن ڊيٽا ڳولڻ ۾ مدد ڪري ٿي جيڪا استعمال لاءِ آزاد طور تي دستياب آهي. ويب تي، تقريبن ڪنهن به موضوع بابت لکين ڊيٽا سيٽ آهن جيڪي توهان جي دلچسپي رکن ٿا.
جيڪڏھن توھان ڳولي رھيا آھيو ھڪڙو ڪتو خريد ڪرڻ لاءِ، توھان ڳولي سگھوٿا ڪتا خريد ڪندڙن جون شڪايتون گڏ ڪرڻ واري ڊيٽا سيٽ يا ڪتي جي معرفت تي مطالعو. يا جيڪڏهن توهان اسڪائينگ پسند ڪريو ٿا، توهان سکي ريسارٽس جي آمدني يا زخم جي شرح ۽ شموليت نمبرن تي ڊيٽا ڳولي سگهو ٿا. ڊيٽا سيٽ سرچ انڊيڪس ڪيو آهي لڳ ڀڳ 25 ملين انهن ڊيٽا سيٽن مان، توهان کي ڊيٽا سيٽ ڳولڻ لاءِ هڪ واحد جڳهه ڏيو ۽ لنڪ ڳولڻ لاءِ جتي ڊيٽا آهي.
UCI مشين لرننگ مخزن
UCI مشين لرننگ ريپوزٽري ڊيٽابيس، ڊومين ٿيوريز، ۽ ڊيٽا جنريٽرن جو مجموعو آهي جيڪي مشين لرننگ ڪميونٽي پاران مشين لرننگ الگورٿمز جي تجرباتي تجزيي لاءِ استعمال ڪيا ويندا آهن. آرڪائيو هڪ ايف ٽي پي آرڪائيو جي طور تي 1987 ۾ ڊيوڊ آه ۽ ساٿي گريجوئيٽ شاگردن پاران يو سي ارون ۾ ٺاهيو ويو.
ان وقت کان وٺي، ان کي وڏي پيماني تي استعمال ڪيو ويو آهي شاگردن، استادن، ۽ محققن سڄي دنيا ۾ ML ڊيٽا سيٽ جي بنيادي ماخذ طور. آرڪائيو جي اثر جي اشاري جي طور تي، ان کي 1000 ڀيرا وڌيڪ حوالو ڏنو ويو آهي، ان کي ڪمپيوٽر سائنس جي سڀني کان مٿي 100 سڀ کان وڌيڪ حوالو ڏنو ويو "پيپرز" مان هڪ ٺاهيو.
ڪونڊل
Quandl ھڪڙو پليٽ فارم آھي جيڪو پنھنجي صارفين کي اقتصادي، مالي، ۽ متبادل ڊيٽا سيٽ مهيا ڪري ٿو. صارف مفت ڊيٽا ڊائون لوڊ ڪري سگھن ٿا، ادا ڪيل ڊيٽا خريد ڪري سگھن ٿا يا Quandl تي ڊيٽا وڪرو ڪري سگھن ٿا. جي ترقي لاء هڪ مفيد اوزار ٿي سگهي ٿو واپاري الگورتھم، مثال طور.
ٿڪل
انهن اوزارن کي ڳولڻ سان، توهان کي پڪ آهي ته توهان پنهنجي منصوبن لاءِ بهترين ان پٽ ڳوليندا. پڪ ڪريو ته ڊيٽا سيٽ چونڊيو جيڪو توهان جي مخصوص ضرورتن لاءِ سڀ کان وڌيڪ موزون آهي ۽ هميشه ذهن ۾ رکو: اهو صرف مقدار بابت ناهي، پر معيار پڻ. dataset ڪنهن جو بنياد آهي مشين لرننگ پروجيڪٽ ۽ اهو ضروري آهي ته معيار جي ڊيٽا تي تعمير ڪيو وڃي ته جيئن غلط نتيجن تي پهچڻ جي خطري کان بچڻ لاء.
جواب ڇڏي وڃو