ہر مشین لرننگ پروجیکٹ ایک اچھے ڈیٹا سیٹ پر انحصار کرتا ہے۔ یہ یہ بڑا ڈیٹا سیٹ ہے جو آپ کو اپنے ML ماڈل کی تربیت اور تصدیق کرنے کی اجازت دے گا۔ لہذا، ML پروجیکٹ میں کام کا ایک بڑا حصہ آپ کی ضروریات کے لیے بہترین ڈیٹاسیٹ تلاش کر رہا ہے۔ تاہم، ایسا آپشن تلاش کرنا ہمیشہ ممکن نہیں ہوتا ہے جو آپ کی خواہش کے مطابق ہو، کیونکہ بہت سی فائلیں جو دلچسپ لگتی ہیں، آخر میں، نہیں ہیں۔
جب تک آپ کسی مثالی سیٹ پر نہ پہنچیں ان گنت ڈیٹاسیٹس کو ڈاؤن لوڈ کرنے میں وقت ضائع کرنا مشکل ہو سکتا ہے۔ اس بات کو ذہن میں رکھتے ہوئے، ہم نے کچھ ایسے اختیارات اکٹھے کیے ہیں جو دلچسپ معلوم ہوتے ہیں اور آپ کے ایم ایل پروجیکٹ کو تیار کرنے میں آپ کی مدد کر سکتے ہیں۔ نوٹ کریں کہ کچھ تجارتی استعمال کے بجائے ذاتی استعمال کے لیے ہیں، لہذا ان اختیارات کو ML کائنات میں تجربہ حاصل کرنے کے طریقے کے طور پر دیکھیں۔
ڈیٹاسیٹس کی بنیادی باتیں
اس سے پہلے کہ ہم ڈیٹاسیٹس کا ذکر کریں، ہمیں کچھ اصطلاحات کی وضاحت کرنی چاہیے۔ خاص طور پر مصنوعی ذہانت کے منصوبوں میں مشین لرننگ, ڈیٹا کی ایک بڑی مقدار کی ضرورت ہے، جو الگورتھم کو تربیت دینے کے لیے استعمال کیا جائے گا۔ ڈیٹا کی یہ مقدار ایک ڈیٹا بیس میں جمع کی جاتی ہے، جو الگورتھم سکھانے کے لیے انتہائی مفید ہے۔
اس ڈیٹا کے ساتھ، الگورتھم کو تربیت دی جاتی ہے – جانچ بھی کی جاتی ہے – اور پیٹرن تلاش کرنے، تعلقات قائم کرنے اور اس طرح خود مختاری سے فیصلے کرنے کے قابل ہو جاتا ہے۔ تربیت کے بغیر، مشین لرننگ الگورتھم کوئی کارروائی کرنے سے قاصر ہیں۔ لہذا، تربیت کا ڈیٹا جتنا بہتر ہوگا، ماڈل اتنا ہی بہتر کارکردگی کا مظاہرہ کرے گا۔ پروجیکٹ کے لیے ڈیٹا بیس کے مفید ہونے کے لیے، یہ مقدار کے بارے میں نہیں ہے: یہ درجہ بندی کے بارے میں بھی ہے۔
مثالی طور پر، ڈیٹا کو اچھی طرح سے لیبل کیا جانا چاہئے. چیٹ بوٹس کے معاملے کے بارے میں سوچیں: زبان کا اندراج ضروری ہے، لیکن محتاط نحوی تجزیہ کیا جانا چاہیے تاکہ تخلیق کردہ الگورتھم سمجھ سکے کہ جب بات کرنے والا سلیگ استعمال کر رہا ہے۔ تب ہی ورچوئل اسسٹنٹ صارف کی درخواست کے مطابق جواب شروع کر سکے گا۔
ڈیٹا سیٹس کو سروے، صارف کی خریداری کے ڈیٹا، خدمات پر چھوڑے گئے جائزوں، اور بہت سے دوسرے طریقوں سے تیار کیا جا سکتا ہے جو CSV فائل میں کالموں اور قطاروں میں منظم مفید معلومات کو جمع کرنے کی اجازت دیتے ہیں۔
اس سے پہلے کہ آپ کامل ڈیٹاسیٹ کی تلاش میں نکلیں، یہ ضروری ہے کہ آپ اپنے پروجیکٹ کا مقصد جان لیں، خاص طور پر اگر یہ کسی مخصوص علاقے سے ہے، جیسے کہ موسم، مالیات، صحت وغیرہ۔ ڈیٹاسیٹ
ML کے لیے ڈیٹا سیٹس
چیٹ بوٹ کی تربیت
ایک موثر چیٹ بوٹ کو انسانی مداخلت کے بغیر صارف کے استفسارات کو تیزی سے حل کرنے کے لیے بہت زیادہ تربیتی ڈیٹا کی ضرورت ہوتی ہے۔ تاہم، چیٹ بوٹ کی ترقی میں بنیادی رکاوٹ ان مشین لرننگ پر مبنی نظاموں کو تربیت دینے کے لیے حقیقت پسندانہ، ٹاسک پر مبنی ڈائیلاگ ڈیٹا حاصل کرنا ہے۔
ایک مکالماتی ڈیٹاسیٹ سوال اور جواب کی شکل میں ڈیٹا اکٹھا کرتا ہے۔ یہ چیٹ بوٹس کی تربیت کے لیے مثالی ہے جو سامعین کو خودکار جوابات دیں گے۔ اس ڈیٹا کے بغیر، چیٹ بوٹ صارف کے سوالات کو فوری طور پر حل کرنے یا انسانی مداخلت کی ضرورت کے بغیر صارف کے سوالات کے جواب دینے میں ناکام ہو جائے گا۔
ان ڈیٹا سیٹس کا استعمال کرتے ہوئے، کاروبار ایک ایسا ٹول بنا سکتے ہیں جو صارفین کو 24/7 فوری جوابات فراہم کرتا ہے اور صارفین کی مدد کرنے والے لوگوں کی ٹیم کے مقابلے میں نمایاں طور پر سستا ہے۔
1. سوال جواب ڈیٹا سیٹ
یہ ڈیٹا سیٹ ویکیپیڈیا کے مضامین، سوالات اور ان کے متعلقہ دستی طور پر تیار کردہ جوابات کا ایک سیٹ فراہم کرتا ہے۔ یہ ایک ڈیٹا سیٹ ہے جو 2008 اور 2010 کے درمیان استعمال کے لیے جمع کیا گیا تھا۔ تعلیمی تحقیق.
2. زبان کا ڈیٹا
زبان کا ڈیٹا ایک ڈیٹا بیس ہے جس کا انتظام Yahoo کے ذریعے کیا جاتا ہے جس میں کمپنی کی کچھ خدمات، جیسے Yahoo! جواب، جو صارفین کے لیے سوالات اور جوابات پوسٹ کرنے کے لیے ایک کھلی برادری کے طور پر کام کرتا ہے۔
3. WikiQA
WikiQA کارپس بھی سوالات اور جوابات کے ایک سیٹ پر مشتمل ہے۔ سوالات کا ماخذ بنگ ہے، جب کہ جوابات ابتدائی سوال کو حل کرنے کی صلاحیت کے ساتھ ویکیپیڈیا کے صفحے سے منسلک ہوتے ہیں۔
مجموعی طور پر، ڈیٹاسیٹ میں 3,000 سے زیادہ سوالات اور 29,258 جملوں کا ایک مجموعہ ہے، جن میں سے تقریباً 1,400 کو متعلقہ سوال کے جوابات کے طور پر درجہ بندی کیا گیا ہے۔
حکومتی اعداد و شمار
حکومتوں کی طرف سے تیار کردہ ڈیٹا سیٹ ڈیموگرافک ڈیٹا لاتے ہیں، جو سماجی رجحانات کو سمجھنے، عوامی پالیسیاں بنانے اور معاشرے کو بہتر بنانے سے متعلق منصوبوں کے لیے بہترین معلومات ہیں۔ یہ سیاسی مہمات، ٹارگٹ ایڈورٹائزنگ، یا مارکیٹ کے تجزیے کے لیے مفید ہو سکتا ہے۔
ان ڈیٹاسیٹس میں عام طور پر گمنام ڈیٹا ہوتا ہے، لہذا جب کہ ماڈلز خام ڈیٹا تک رسائی حاصل کر سکتے ہیں، ذاتی رازداری کی کوئی خلاف ورزی نہیں ہوتی ہے۔
4. Data.gov
2009 میں شروع کیا گیا، Data.gov ڈیٹا کے لیے شمالی امریکہ کا ذریعہ ہے۔ اس کا کیٹلاگ متاثر کن ہے: 218,000 سے زیادہ ڈیٹا سیٹس جو فارمیٹ، ٹیگز، اقسام اور عنوانات کے لحاظ سے تقسیم کی اجازت دیتے ہیں۔
5. EU اوپن ڈیٹا پورٹل
EU اوپن ڈیٹا پورٹل یورپی یونین کے اداروں کے اشتراک کردہ اوپن ڈیٹا تک رسائی فراہم کرتا ہے۔ یہ وہ ڈیٹا ہیں جو تجارتی اور غیر تجارتی استعمال کے لیے ہو سکتے ہیں۔ صارف کے اختیار میں 15.5 ہزار سے زیادہ ڈیٹا سیٹس ہیں، جن میں صحت، توانائی، ماحولیات، ثقافت اور تعلیم جیسے موضوعات شامل ہیں۔
صحت کا ڈیٹا
دنیا بھر میں جاری صحت کے بحران کے تناظر میں، صحت کی تنظیموں کے ذریعہ تیار کردہ ڈیٹاسیٹس جان بچانے کے لیے موثر حل تیار کرنے کے لیے ضروری ہیں۔ یہ ڈیٹا سیٹ خطرے کے عوامل کی نشاندہی کرنے، بیماری کی منتقلی کے نمونوں پر کام کرنے، اور تشخیص کو تیز کرنے میں مدد کر سکتے ہیں۔
یہ ڈیٹا سیٹس صحت کے ریکارڈ، مریضوں کی آبادی، بیماری کے پھیلاؤ، دواؤں کے استعمال، غذائی اقدار اور بہت کچھ پر مشتمل ہیں۔
6. گلوبل ہیلتھ آبزرویٹری
یہ ڈیٹا سیٹ ورلڈ ہیلتھ آرگنائزیشن (WHO) کا ایک اقدام ہے۔ یہ صحت کے مختلف شعبوں سے متعلق عوامی ڈیٹا فراہم کرتا ہے، جو کہ صحت کے نظام، تمباکو کے استعمال پر کنٹرول، زچگی، ایچ آئی وی/ایڈز وغیرہ جیسے موضوعات کے مطابق ترتیب دیا جاتا ہے۔ COVID-19 پر ڈیٹا سے مشورہ کرنے کا اختیار بھی ہے۔
7. CORD-19
CORD-19 COVID-19 پر تعلیمی اشاعتوں اور نئے کورونا وائرس کے بارے میں دیگر مضامین کا ایک کارپس ہے۔ یہ ایک کھلا ڈیٹاسیٹ ہے جس کا مقصد COVID-19 پر نئی بصیرتیں پیدا کرنا ہے۔
معاشیات کا ڈیٹا
مالیاتی ماحول سے متعلق ڈیٹاسیٹس عام طور پر بہت زیادہ معلومات جمع کرتے ہیں، کیونکہ یہ عام بات ہے کہ وہ طویل عرصے سے جمع کیے گئے ہیں۔ وہ اقتصادی پیشین گوئیاں بنانے یا سرمایہ کاری کے رجحانات قائم کرنے کے لیے مثالی ہیں۔
صحیح مالیاتی ڈیٹاسیٹس کے ساتھ، a مشین لرننگ ماڈل کسی دیے گئے اثاثے کے رویے کی پیشن گوئی کرنے کے قابل ہو سکتا ہے۔ یہی وجہ ہے کہ مالیاتی شعبہ ایک موثر ML ماڈل بنانے کے لیے اپنی طاقت میں سب کچھ کر رہا ہے، کیونکہ کوئی بھی چیز جو معقول حد تک اچھی طرح سے پیش گوئی کر سکتی ہے اس میں لاکھوں ڈالر کمانے کی صلاحیت ہوتی ہے۔ مشین لرننگ پہلے ہی شہریوں کے رویے کی پیشین گوئی کر رہی ہے، جو پالیسی سازوں کے اپنے کام کرنے کے طریقے کو متاثر کر رہی ہے۔
8. بین الاقوامی مالیاتی فنڈ
IMF ڈیٹاسیٹ میں اقتصادی اور مالیاتی اشاریوں، رکن ممالک کے اعداد و شمار، اور قرض اور شرح مبادلہ کے دیگر اعداد و شمار موجود ہیں۔
9. ورلڈ بینک
ورلڈ بینک کے ذخیرے میں مختلف ممالک کی اقتصادی معلومات کے ساتھ مختلف ڈیٹا سیٹس موجود ہیں۔ براعظموں کے لحاظ سے تقسیم کردہ 17,000 سے زیادہ ڈیٹا سیٹس ہیں۔
مصنوعات اور خدمات کے جائزے
جذباتی تجزیہ نے مختلف شعبوں میں اپنی ایپلی کیشنز تلاش کی ہیں جو اب کاروباری اداروں کو اپنے گاہکوں یا گاہکوں سے صحیح طریقے سے اندازہ لگانے اور سیکھنے میں مدد کر رہی ہیں۔ جذباتی تجزیہ سوشل میڈیا کی نگرانی، برانڈ کی نگرانی، صارف کی آواز (VoC)، کسٹمر سروس، اور مارکیٹ ریسرچ کے لیے تیزی سے استعمال ہو رہا ہے۔
جذباتی تجزیہ NLP کا استعمال کرتا ہے۔ (نیورو لسانی پروگرامنگ) طریقے اور الگورتھم جو یا تو اصول پر مبنی، ہائبرڈ ہیں، یا ڈیٹا سیٹس سے ڈیٹا سیکھنے کے لیے مشین لرننگ تکنیک پر انحصار کرتے ہیں۔
جذبات کے تجزیے میں درکار ڈیٹا کو خصوصی ہونا چاہیے اور بڑی مقدار میں درکار ہے۔ جذبات کے تجزیہ کے تربیتی عمل کے بارے میں سب سے مشکل حصہ بڑی مقدار میں ڈیٹا تلاش نہیں کرنا ہے۔ اس کے بجائے، متعلقہ ڈیٹاسیٹس کو تلاش کرنا ہے۔ ان ڈیٹا سیٹس میں جذباتی تجزیہ کی ایپلی کیشنز اور استعمال کے کیسز کے وسیع علاقے کا احاطہ کرنا چاہیے۔
10. ایمیزون جائزہ
یہ ڈیٹاسیٹ تقریباً 35 ملین Amazon جائزوں پر مشتمل ہے، جو کہ اکٹھی کی گئی معلومات کے 18 سال کی مدت پر محیط ہے۔ یہ پروڈکٹ، صارف اور جائزہ کے مواد کا ڈیٹا سیٹ ہے۔
11. Yelp جائزہ
Yelp اپنی سروس سے جمع کی گئی معلومات پر مبنی ڈیٹا سیٹ بھی پیش کرتا ہے۔ 8 ملین سے زیادہ جائزے، 1 ملین ٹپس، نیز کاروبار سے متعلق تقریباً 1.5 ملین صفات، جیسے کھلنے کے اوقات اور دستیابی۔
12. آئی ایم ڈی بی جائزہ
اس ڈیٹا بیس میں تربیت کے لیے 25 ہزار سے زیادہ فلموں کے جائزوں کا ایک سیٹ اور 25 ہزار سے زیادہ ٹیسٹوں کے لیے جو IMDB صفحہ سے غیر رسمی طور پر لیے گئے، فلم کی درجہ بندی میں مہارت رکھتا ہے۔ یہ بغیر لیبل والے ڈیٹا کو اضافی کے طور پر بھی پیش کرتا ہے۔
ML میں پہلے مراحل کے لیے ڈیٹا سیٹ
13. شراب کے معیار کا ڈیٹاسیٹ
یہ ڈیٹا سیٹ شمالی پرتگال میں تیار کی جانے والی سرخ اور سبز دونوں شراب سے متعلق معلومات فراہم کرتا ہے۔ مقصد فزیوکیمیکل ٹیسٹوں کی بنیاد پر شراب کے معیار کی وضاحت کرنا ہے۔ ان لوگوں کے لیے دلچسپ جو پیشین گوئی کا نظام بنانے کی مشق کرنا چاہتے ہیں۔
14. ٹائٹینک ڈیٹاسیٹ
یہ ڈیٹاسیٹ ٹائٹینک کے 887 حقیقی مسافروں کا ڈیٹا لاتا ہے، جس میں ہر کالم یہ بتاتا ہے کہ آیا وہ زندہ رہے، ان کی عمر، مسافر کی کلاس، جنس، اور بورڈنگ فیس جو انہوں نے ادا کی۔ یہ ڈیٹاسیٹ کاگل پلیٹ فارم کی طرف سے شروع کیے گئے چیلنج کا حصہ تھا، جس کا مقصد ایک ایسا ماڈل بنانا تھا جس سے یہ اندازہ لگایا جا سکے کہ کون سے مسافر ٹائٹینک کے ڈوبنے سے بچ گئے۔
دیگر ڈیٹاسیٹس تلاش کرنے کے لیے پلیٹ فارم
اگر آپ مزید جانا چاہتے ہیں اور اپنا ڈیٹا سیٹ تلاش کرنا چاہتے ہیں، تو بہترین طریقہ یہ ہے کہ آپ کے سب سے مشہور ذخیروں کو براؤز کریں۔ مشین لرننگ کائنات:
کاگل
Kaggle، Google LLC کا ذیلی ادارہ، ڈیٹا سائنسدانوں اور مشین لرننگ پیشہ ور افراد کی ایک آن لائن کمیونٹی ہے۔ Kaggle صارفین کو ڈیٹا سیٹس تلاش کرنے اور شائع کرنے، ویب پر مبنی ڈیٹا سائنس ماحول میں ماڈلز کی تلاش اور تخلیق کرنے کی اجازت دیتا ہے۔ دوسرے ڈیٹا سائنسدانوں کے ساتھ کام کریں اور مشین لرننگ انجینئرز، اور ڈیٹا سائنس کے چیلنجوں کو حل کرنے کے لیے مقابلوں میں حصہ لیں۔
Kaggle نے 2010 میں مشین لرننگ مقابلوں کی پیشکش کے ذریعے آغاز کیا اور اب ایک عوامی پیشکش بھی کرتا ہے ڈیٹا پلیٹ فارمڈیٹا سائنس اور مصنوعی ذہانت کی تعلیم کے لیے کلاؤڈ پر مبنی ورک بینچ۔
ڈیٹا سیٹ کی تلاش
ڈیٹا سیٹ سرچ گوگل کا ایک سرچ انجن ہے جو محققین کو آن لائن ڈیٹا تلاش کرنے میں مدد کرتا ہے جو استعمال کے لیے آزادانہ طور پر دستیاب ہے۔ ویب پر، آپ کی دلچسپی کے تقریباً کسی بھی موضوع کے بارے میں لاکھوں ڈیٹا سیٹس موجود ہیں۔
اگر آپ کتے کا بچہ خریدنا چاہتے ہیں، تو آپ کو کتے کے خریداروں کی شکایات یا کتے کے ادراک پر مطالعہ کرنے والے ڈیٹا سیٹس مل سکتے ہیں۔ یا اگر آپ سکینگ پسند کرتے ہیں، تو آپ سکی ریزورٹس کی آمدنی یا چوٹ کی شرح اور شرکت کے نمبروں سے متعلق ڈیٹا تلاش کر سکتے ہیں۔ ڈیٹا سیٹ کی تلاش نے ان ڈیٹا سیٹس میں سے تقریباً 25 ملین کو انڈیکس کیا ہے، جس سے آپ کو ڈیٹا سیٹس تلاش کرنے اور ڈیٹا کے لنکس تلاش کرنے کے لیے ایک جگہ ملتی ہے۔
UCI مشین لرننگ ریپوزٹری
UCI مشین لرننگ ریپوزٹری ڈیٹا بیسز، ڈومین تھیوریز، اور ڈیٹا جنریٹرز کا ایک مجموعہ ہے جو مشین لرننگ کمیونٹی کے ذریعے مشین لرننگ الگورتھم کے تجرباتی تجزیہ کے لیے استعمال کیا جاتا ہے۔ آرکائیو کو ایف ٹی پی آرکائیو کے طور پر 1987 میں ڈیوڈ آہا اور یو سی ارون کے ساتھی گریجویٹ طلباء نے بنایا تھا۔
اس وقت سے، یہ پوری دنیا میں طلباء، معلمین، اور محققین ML ڈیٹاسیٹس کے بنیادی ماخذ کے طور پر بڑے پیمانے پر استعمال کر رہے ہیں۔ محفوظ شدہ دستاویزات کے اثرات کے اشارے کے طور پر، اس کا 1000 سے زیادہ مرتبہ حوالہ دیا گیا ہے، جس سے یہ کمپیوٹر سائنس کے سب سے اوپر 100 سب سے زیادہ حوالہ کردہ "کاغذات" میں سے ایک ہے۔
کوانڈل
Quandl ایک ایسا پلیٹ فارم ہے جو اپنے صارفین کو معاشی، مالی اور متبادل ڈیٹا سیٹ فراہم کرتا ہے۔ صارفین مفت ڈیٹا ڈاؤن لوڈ کر سکتے ہیں، ادا شدہ ڈیٹا خرید سکتے ہیں یا Quandl کو ڈیٹا بیچ سکتے ہیں۔ کی ترقی کے لیے یہ ایک مفید آلہ ثابت ہو سکتا ہے۔ تجارتی الگورتھم، مثال کے طور پر.
نتیجہ
ان ٹولز کو دریافت کرنے سے، آپ کو یقینی طور پر اپنے پروجیکٹس کے لیے زبردست ان پٹ ملیں گے۔ اس ڈیٹاسیٹ کا انتخاب یقینی بنائیں جو آپ کی مخصوص ضروریات کے لیے موزوں ترین ہو اور ہمیشہ ذہن میں رکھیں: یہ صرف مقدار کے بارے میں نہیں ہے، بلکہ معیار کے بارے میں بھی ہے۔ ڈیٹاسیٹ کسی کی بنیاد ہے۔ مشین لرننگ پروجیکٹ اور ناقص نتائج پر پہنچنے کے خطرے سے بچنے کے لیے معیاری ڈیٹا تیار کرنا ضروری ہے۔
جواب دیجئے