هر پروژه یادگیری ماشینی بر یک مجموعه داده خوب متکی است. این مجموعه داده بزرگ است که به شما امکان می دهد مدل ML خود را آموزش داده و اعتبار سنجی کنید. بنابراین، بخش بزرگی از کار در پروژه ML یافتن مجموعه داده مناسب برای نیازهای شماست. با این حال، همیشه نمیتوان گزینهای را پیدا کرد که متناسب با جاهطلبی شما باشد، زیرا بسیاری از فایلهایی که در نهایت جالب به نظر میرسند، اینطور نیستند.
هدر دادن زمان برای دانلود مجموعه داده های بی شماری تا زمانی که به یک مجموعه ایده آل برسید می تواند دلهره آور باشد. با در نظر گرفتن این موضوع، ما گزینههایی را گردآوری کردهایم که جالب به نظر میرسند و میتوانند به شما در توسعه پروژه ML خود کمک کنند. توجه داشته باشید که برخی برای استفاده شخصی به جای تجاری در نظر گرفته شده اند، بنابراین به این گزینه ها به عنوان راهی برای کسب تجربه در دنیای ML نگاه کنید.
مبانی مجموعه داده ها
قبل از ذکر مجموعه داده ها، باید چند اصطلاح را تعریف کنیم. به ویژه در پروژه های هوش مصنوعی فراگیری ماشینمقدار زیادی داده مورد نیاز است که برای آموزش الگوریتم استفاده خواهد شد. این مقدار داده در یک پایگاه داده جمع آوری می شود که برای آموزش یک الگوریتم بسیار مفید است.
با این داده ها، الگوریتم آموزش داده می شود - همچنین آزمایش می شود - و قادر به یافتن الگوها، ایجاد روابط و بنابراین تصمیم گیری مستقل می شود. بدون آموزش، فراگیری ماشین الگوریتم ها قادر به انجام هیچ عملی نیستند. بنابراین، هر چه داده های آموزشی بهتر باشد، مدل عملکرد بهتری خواهد داشت. برای اینکه یک پایگاه داده برای پروژه مفید باشد، موضوع کمیت نیست، بلکه مربوط به طبقه بندی است.
در حالت ایده آل، داده ها باید به خوبی برچسب گذاری شوند. در مورد چت بات ها فکر کنید: درج زبان مهم است، اما باید تجزیه و تحلیل نحوی دقیقی انجام شود تا الگوریتم ایجاد شده بتواند بفهمد که چه زمانی طرف مقابل از زبان عامیانه استفاده می کند. تنها در این صورت است که دستیار مجازی می تواند پاسخ را مطابق با درخواست کاربر راه اندازی کند.
مجموعه دادهها را میتوان از نظرسنجیها، دادههای خرید کاربر، ارزیابیهای باقیمانده در سرویسها، و به روشهای بسیار دیگری تولید کرد که امکان جمعآوری اطلاعات مفید سازماندهی شده در ستونها و ردیفها در یک فایل CSV را فراهم میکند.
قبل از اینکه به دنبال مجموعه داده کامل باشید، مهم است که هدف پروژه خود را بدانید، به خصوص اگر از یک منطقه خاص مانند آب و هوا، مالی، بهداشت و غیره باشد. مجموعه داده
مجموعه داده ها برای ML
آموزش چت بات
یک چت بات موثر به حجم عظیمی از داده های آموزشی نیاز دارد تا بتواند به سرعت سوالات کاربران را بدون دخالت انسان حل کند. با این حال، گلوگاه اصلی در توسعه ربات چت، به دست آوردن داده های گفتگوی واقعی و وظیفه محور برای آموزش این سیستم های مبتنی بر یادگیری ماشین است.
یک مجموعه داده محاوره ای داده ها را در قالب پرسش و پاسخ جمع آوری می کند. این برای آموزش ربات های چت که پاسخ های خودکار را به مخاطب می دهد ایده آل است. بدون این داده ها، ربات چت نمی تواند به سرعت سؤالات کاربر را حل کند یا به سؤالات کاربر بدون نیاز به دخالت انسان پاسخ دهد.
با استفاده از این مجموعه دادهها، کسبوکارها میتوانند ابزاری ایجاد کنند که پاسخهای سریعی را به مشتریان ارائه میدهد و به طور قابلتوجهی ارزانتر از داشتن تیمی از افراد است که پشتیبانی مشتری را انجام میدهند.
1. مجموعه داده پرسش و پاسخ
این مجموعه داده مجموعهای از مقالات ویکیپدیا، سؤالات و پاسخهای مربوطه را که بهصورت دستی تولید میشوند، ارائه میکند. این مجموعه داده ای است که بین سال های 2008 و 2010 برای استفاده در آن جمع آوری شده است تحقیقات دانشگاهی.
2. داده های زبان
Language Data پایگاه داده ای است که توسط یاهو مدیریت می شود و اطلاعات آن از برخی خدمات این شرکت مانند Yahoo! پاسخ، که به عنوان یک انجمن باز برای ارسال پرسش و پاسخ برای کاربران کار می کند.
3. WikiQA
مجموعه WikiQA نیز شامل مجموعهای از پرسشها و پاسخها است. منبع سؤالات بینگ است، در حالی که پاسخ ها به صفحه ویکی پدیا با پتانسیل حل سؤال اولیه پیوند دارند.
در مجموع، بیش از 3,000 سوال و مجموعه ای از 29,258 جمله در مجموعه داده وجود دارد که حدود 1,400 مورد آن به عنوان پاسخ به یک سوال مربوطه طبقه بندی شده است.
داده های دولتی
مجموعه دادههای تولید شده توسط دولتها دادههای جمعیتی را به ارمغان میآورند، که ورودیهای خوبی برای پروژههای مرتبط با درک روندهای اجتماعی، ایجاد سیاستهای عمومی و بهبود جامعه هستند. این می تواند برای کمپین های سیاسی، تبلیغات هدفمند یا تحلیل بازار مفید باشد.
این مجموعه دادهها معمولاً حاوی دادههای ناشناس هستند، بنابراین در حالی که مدلها میتوانند به دادههای خام دسترسی داشته باشند، هیچ گونه نقض حریم خصوصی شخصی وجود ندارد.
4. داده.gov
Data.gov که در سال 2009 راه اندازی شد، منبع داده های آمریکای شمالی است. کاتالوگ آن قابل توجه است: بیش از 218,000 مجموعه داده که امکان تقسیم بندی بر اساس قالب، برچسب ها، انواع و موضوعات را فراهم می کند.
5. پورتال داده باز اتحادیه اروپا
پورتال داده های باز اتحادیه اروپا دسترسی به داده های باز به اشتراک گذاشته شده توسط مؤسسات اتحادیه اروپا را فراهم می کند. اینها داده هایی هستند که می توانند برای استفاده تجاری و غیر تجاری در نظر گرفته شوند. بیش از 15.5 هزار مجموعه داده در اختیار کاربر قرار دارد که موضوعاتی مانند سلامت، انرژی، محیط زیست، فرهنگ و آموزش را پوشش می دهد.
داده های بهداشتی
در پی بحران بهداشتی مداوم در سراسر جهان، مجموعه داده های تولید شده توسط سازمان های بهداشتی برای توسعه راه حل های موثر برای نجات جان انسان ها ضروری است. این مجموعه داده ها می توانند به شناسایی عوامل خطر، تعیین الگوهای انتقال بیماری و سرعت بخشیدن به تشخیص کمک کنند.
این مجموعه داده ها شامل سوابق بهداشتی، جمعیت شناسی بیماران، شیوع بیماری، مصرف دارویی، ارزش های تغذیه ای و بسیاری موارد دیگر است.
6. رصدخانه جهانی بهداشت
این مجموعه داده ابتکار سازمان بهداشت جهانی (WHO) است. دادههای عمومی مربوط به حوزههای مختلف سلامت را ارائه میکند که بر اساس موضوعاتی مانند سیستمهای بهداشتی، کنترل مصرف دخانیات، زایمان، HIV/AIDS و غیره سازماندهی شدهاند. همچنین گزینهای برای مشورت با دادههای COVID-19 وجود دارد.
7. CORD-19
CORD-19 مجموعه ای از نشریات دانشگاهی در مورد COVID-19 و سایر مقالات در مورد کروناویروس جدید است. این یک مجموعه داده باز است که برای ایجاد بینش جدید در مورد COVID-19 طراحی شده است.
داده های اقتصاد
مجموعه دادههای مربوط به محیط مالی معمولاً حجم عظیمی از اطلاعات را جمعآوری میکنند، زیرا معمولاً برای مدت طولانی جمعآوری شدهاند. آنها برای ایجاد پیش بینی های اقتصادی یا ایجاد روند سرمایه گذاری ایده آل هستند.
با مجموعه داده های مالی مناسب، الف مدل یادگیری ماشین ممکن است بتواند رفتار یک دارایی معین را پیش بینی کند. به همین دلیل است که بخش مالی تمام تلاش خود را برای ایجاد یک مدل موثر ML انجام می دهد، زیرا هر چیزی که بتواند حتی به خوبی پیش بینی کند، پتانسیل تولید میلیون ها دلار را دارد. یادگیری ماشین در حال حاضر رفتار شهروندان را پیشبینی میکند، که بر نحوه انجام وظایف سیاستگذاران تأثیر میگذارد.
8. صندوق بین المللی پول
مجموعه داده صندوق بین المللی پول طیفی از شاخص های اقتصادی و مالی، آمار کشورهای عضو و سایر داده های وام و نرخ ارز را در خود جای داده است.
9. بانک جهانی
مخزن بانک جهانی شامل مجموعه داده های مختلف با اطلاعات اقتصادی از کشورهای مختلف است. بیش از 17,000 مجموعه داده بر اساس قاره ها تقسیم شده است.
بررسی محصولات و خدمات
تحلیل احساسات کاربردهای خود را در زمینه های مختلف پیدا کرده است که اکنون به شرکت ها کمک می کند تا مشتریان یا مشتریان خود را به درستی تخمین بزنند و از آنها یاد بگیرند. تحلیل احساسات به طور فزاینده ای برای نظارت بر رسانه های اجتماعی، نظارت بر برند، صدای مشتری (VoC)، خدمات مشتری و تحقیقات بازار مورد استفاده قرار می گیرد.
تحلیل احساسات از NLP استفاده می کند روشها و الگوریتمهایی (برنامهنویسی عصبی-زبانی) که یا مبتنی بر قانون، ترکیبی یا متکی به تکنیکهای یادگیری ماشینی برای یادگیری دادهها از مجموعه دادهها هستند.
داده های مورد نیاز در تجزیه و تحلیل احساسات باید تخصصی باشد و در مقادیر زیاد مورد نیاز است. چالش برانگیزترین بخش در مورد فرآیند آموزش تحلیل احساسات، یافتن داده ها در مقادیر زیاد نیست. در عوض، برای یافتن مجموعه داده های مربوطه است. این مجموعه داده ها باید حوزه وسیعی از کاربردهای تحلیل احساسات و موارد استفاده را پوشش دهند.
10. بررسیهای آمازون
این مجموعه داده شامل حدود 35 میلیون بررسی آمازون است که یک دوره 18 ساله از اطلاعات جمع آوری شده را در بر می گیرد. این مجموعه داده ای از محتوای محصول، کاربر و بررسی است.
11. نظرات Yelp
Yelp همچنین مجموعه داده ای را بر اساس اطلاعات جمع آوری شده از سرویس خود ارائه می دهد. بیش از 8 میلیون بررسی، 1 میلیون نکته، به علاوه تقریباً 1.5 میلیون ویژگی مربوط به مشاغل، مانند ساعات کاری و در دسترس بودن، وجود دارد.
12. بررسی های IMDB
این پایگاه شامل مجموعه ای از بیش از 25 هزار نقد فیلم برای آموزش و 25 هزار مورد دیگر برای تست هایی است که به طور غیررسمی از صفحه imdb تخصصی رتبه بندی فیلم گرفته شده است. همچنین داده های بدون برچسب را به عنوان اطلاعات اضافی ارائه می دهد.
مجموعه داده ها برای اولین گام ها در ML
13. مجموعه داده های کیفیت شراب
این مجموعه داده اطلاعات مربوط به شراب، قرمز و سبز، تولید شده در شمال پرتغال را ارائه می دهد. هدف این است که کیفیت شراب را بر اساس آزمایش های فیزیکوشیمیایی تعریف کنیم. برای کسانی که می خواهند ایجاد یک سیستم پیش بینی را تمرین کنند جالب است.
14. مجموعه داده تایتانیک
این مجموعه دادهها را از 887 مسافر واقعی کشتی تایتانیک به ارمغان میآورد که در هر ستون مشخص میشود که آیا زنده ماندهاند، سن، طبقه مسافر، جنسیت و هزینه سوار شدنشان. این مجموعه داده بخشی از چالشی بود که توسط پلتفرم کاگل راه اندازی شد و هدف آن ایجاد مدلی بود که بتواند پیش بینی کند کدام مسافران از غرق شدن تایتانیک جان سالم به در می برند.
پلتفرم هایی برای یافتن سایر مجموعه های داده
اگر میخواهید جلوتر بروید و مجموعه دادههای خود را پیدا کنید، بهترین راه این است که در میان معروفترین مخازن این مجموعه جستجو کنید. فراگیری ماشین کائنات:
کجگل
Kaggle، زیرمجموعه Google LLC، یک جامعه آنلاین از دانشمندان داده و متخصصان یادگیری ماشین است. Kaggle به کاربران اجازه می دهد تا مجموعه داده ها را پیدا و منتشر کنند، مدل ها را در یک محیط علم داده مبتنی بر وب ایجاد کنند. کار با سایر دانشمندان داده و مهندسین یادگیری ماشینو در مسابقاتی برای حل چالش های علم داده شرکت کنید.
Kaggle در سال 2010 با ارائه مسابقات یادگیری ماشینی شروع به کار کرد و در حال حاضر نیز عمومی را ارائه می دهد بستر داده، یک میز کار مبتنی بر ابر برای علوم داده و آموزش هوش مصنوعی.
جستجوی مجموعه داده
Dataset Search یک موتور جستجو از Google است که به محققان کمک می کند تا داده های آنلاین را که به صورت رایگان برای استفاده در دسترس هستند پیدا کنند. در سرتاسر وب، میلیون ها مجموعه داده در مورد تقریباً هر موضوعی که به شما علاقه دارد وجود دارد.
اگر به دنبال خرید یک توله سگ هستید، میتوانید مجموعه دادههایی را پیدا کنید که شکایات خریداران تولهسگ را جمعآوری میکند یا مطالعاتی در مورد شناخت تولهسگ انجام میدهد. یا اگر به اسکی علاقه دارید، می توانید داده هایی در مورد درآمد پیست های اسکی یا میزان آسیب دیدگی و تعداد مشارکت پیدا کنید. جستجوی مجموعه داده تقریباً 25 میلیون از این مجموعه دادهها را فهرستبندی کرده است و به شما یک مکان واحد برای جستجوی مجموعههای داده و یافتن پیوندهایی به مکان دادهها میدهد.
مخزن یادگیری ماشین UCI
مخزن یادگیری ماشین UCI مجموعهای از پایگاههای داده، نظریههای دامنه و تولیدکنندههای داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتمهای یادگیری ماشین استفاده میشود. این آرشیو به عنوان یک آرشیو ftp در سال 1987 توسط دیوید آها و سایر دانشجویان فارغ التحصیل دانشگاه UC Irvine ایجاد شد.
از آن زمان، به طور گسترده توسط دانش آموزان، مربیان و محققان در سراسر جهان به عنوان منبع اصلی مجموعه داده های ML استفاده شده است. به عنوان نشانه ای از تأثیر آرشیو، بیش از 1000 بار مورد استناد قرار گرفته است، که آن را به یکی از 100 مقاله پر استناد در تمام علوم رایانه تبدیل کرده است.
چهارگوش
Quandl پلتفرمی است که مجموعه داده های اقتصادی، مالی و جایگزین را در اختیار کاربران خود قرار می دهد. کاربران میتوانند دادههای رایگان را دانلود کنند، دادههای پولی بخرند یا دادهها را به Quandl بفروشند. می تواند ابزار مفیدی برای توسعه باشد الگوریتم های معاملاتی، به عنوان مثال.
نتیجه
با کاوش در این ابزارها، مطمئناً ورودی های عالی برای پروژه های خود پیدا خواهید کرد. مطمئن شوید که مجموعه داده ای را انتخاب کنید که برای نیازهای خاص شما مناسب تر است و همیشه به خاطر داشته باشید: این فقط کمیت نیست، بلکه کیفیت نیز مهم است. مجموعه داده اساس هر کدام است پروژه یادگیری ماشینی و ضروری است که بر روی داده های با کیفیت به منظور جلوگیری از خطر رسیدن به نتیجه گیری های نادرست ایجاد شود.
پاسخ دهید