14 بهترین مجموعه داده برای یادگیری ماشین

فهرست مندرجات[پنهان شدن][نمایش]

مبانی مجموعه داده ها
مجموعه داده ها برای ML+-
پلتفرم هایی برای یافتن سایر مجموعه های داده+-
نتیجه

هر پروژه یادگیری ماشینی بر یک مجموعه داده خوب متکی است. این مجموعه داده بزرگ است که به شما امکان می دهد مدل ML خود را آموزش داده و اعتبار سنجی کنید. بنابراین، بخش بزرگی از کار در پروژه ML یافتن مجموعه داده مناسب برای نیازهای شماست. با این حال، همیشه نمی‌توان گزینه‌ای را پیدا کرد که متناسب با جاه‌طلبی شما باشد، زیرا بسیاری از فایل‌هایی که در نهایت جالب به نظر می‌رسند، اینطور نیستند.

هدر دادن زمان برای دانلود مجموعه داده های بی شماری تا زمانی که به یک مجموعه ایده آل برسید می تواند دلهره آور باشد. با در نظر گرفتن این موضوع، ما گزینه‌هایی را گردآوری کرده‌ایم که جالب به نظر می‌رسند و می‌توانند به شما در توسعه پروژه ML خود کمک کنند. توجه داشته باشید که برخی برای استفاده شخصی به جای تجاری در نظر گرفته شده اند، بنابراین به این گزینه ها به عنوان راهی برای کسب تجربه در دنیای ML نگاه کنید.

مبانی مجموعه داده ها

قبل از ذکر مجموعه داده ها، باید چند اصطلاح را تعریف کنیم. به ویژه در پروژه های هوش مصنوعی فراگیری ماشینمقدار زیادی داده مورد نیاز است که برای آموزش الگوریتم استفاده خواهد شد. این مقدار داده در یک پایگاه داده جمع آوری می شود که برای آموزش یک الگوریتم بسیار مفید است.

با این داده ها، الگوریتم آموزش داده می شود - همچنین آزمایش می شود - و قادر به یافتن الگوها، ایجاد روابط و بنابراین تصمیم گیری مستقل می شود. بدون آموزش، فراگیری ماشین الگوریتم ها قادر به انجام هیچ عملی نیستند. بنابراین، هر چه داده های آموزشی بهتر باشد، مدل عملکرد بهتری خواهد داشت. برای اینکه یک پایگاه داده برای پروژه مفید باشد، موضوع کمیت نیست، بلکه مربوط به طبقه بندی است.

در حالت ایده آل، داده ها باید به خوبی برچسب گذاری شوند. در مورد چت بات ها فکر کنید: درج زبان مهم است، اما باید تجزیه و تحلیل نحوی دقیقی انجام شود تا الگوریتم ایجاد شده بتواند بفهمد که چه زمانی طرف مقابل از زبان عامیانه استفاده می کند. تنها در این صورت است که دستیار مجازی می تواند پاسخ را مطابق با درخواست کاربر راه اندازی کند.

مجموعه داده‌ها را می‌توان از نظرسنجی‌ها، داده‌های خرید کاربر، ارزیابی‌های باقی‌مانده در سرویس‌ها، و به روش‌های بسیار دیگری تولید کرد که امکان جمع‌آوری اطلاعات مفید سازمان‌دهی شده در ستون‌ها و ردیف‌ها در یک فایل CSV را فراهم می‌کند.

قبل از اینکه به دنبال مجموعه داده کامل باشید، مهم است که هدف پروژه خود را بدانید، به خصوص اگر از یک منطقه خاص مانند آب و هوا، مالی، بهداشت و غیره باشد. مجموعه داده

مجموعه داده ها برای ML

آموزش چت بات

یک چت بات موثر به حجم عظیمی از داده های آموزشی نیاز دارد تا بتواند به سرعت سوالات کاربران را بدون دخالت انسان حل کند. با این حال، گلوگاه اصلی در توسعه ربات چت، به دست آوردن داده های گفتگوی واقعی و وظیفه محور برای آموزش این سیستم های مبتنی بر یادگیری ماشین است.

یک مجموعه داده محاوره ای داده ها را در قالب پرسش و پاسخ جمع آوری می کند. این برای آموزش ربات های چت که پاسخ های خودکار را به مخاطب می دهد ایده آل است. بدون این داده ها، ربات چت نمی تواند به سرعت سؤالات کاربر را حل کند یا به سؤالات کاربر بدون نیاز به دخالت انسان پاسخ دهد.

با استفاده از این مجموعه داده‌ها، کسب‌وکارها می‌توانند ابزاری ایجاد کنند که پاسخ‌های سریعی را به مشتریان ارائه می‌دهد و به طور قابل‌توجهی ارزان‌تر از داشتن تیمی از افراد است که پشتیبانی مشتری را انجام می‌دهند.

1. مجموعه داده پرسش و پاسخ

این مجموعه داده مجموعه‌ای از مقالات ویکی‌پدیا، سؤالات و پاسخ‌های مربوطه را که به‌صورت دستی تولید می‌شوند، ارائه می‌کند. این مجموعه داده ای است که بین سال های 2008 و 2010 برای استفاده در آن جمع آوری شده است تحقیقات دانشگاهی.

2. داده های زبان

Language Data پایگاه داده ای است که توسط یاهو مدیریت می شود و اطلاعات آن از برخی خدمات این شرکت مانند Yahoo! پاسخ، که به عنوان یک انجمن باز برای ارسال پرسش و پاسخ برای کاربران کار می کند.

مجموعه داده 1

3. WikiQA

مجموعه WikiQA نیز شامل مجموعه‌ای از پرسش‌ها و پاسخ‌ها است. منبع سؤالات بینگ است، در حالی که پاسخ ها به صفحه ویکی پدیا با پتانسیل حل سؤال اولیه پیوند دارند.

مجموعه داده 2 در مجموع، بیش از 3,000 سوال و مجموعه ای از 29,258 جمله در مجموعه داده وجود دارد که حدود 1,400 مورد آن به عنوان پاسخ به یک سوال مربوطه طبقه بندی شده است.

داده های دولتی

مجموعه داده‌های تولید شده توسط دولت‌ها داده‌های جمعیتی را به ارمغان می‌آورند، که ورودی‌های خوبی برای پروژه‌های مرتبط با درک روندهای اجتماعی، ایجاد سیاست‌های عمومی و بهبود جامعه هستند. این می تواند برای کمپین های سیاسی، تبلیغات هدفمند یا تحلیل بازار مفید باشد.

این مجموعه داده‌ها معمولاً حاوی داده‌های ناشناس هستند، بنابراین در حالی که مدل‌ها می‌توانند به داده‌های خام دسترسی داشته باشند، هیچ گونه نقض حریم خصوصی شخصی وجود ندارد.

4. داده.gov

Data.gov که در سال 2009 راه اندازی شد، منبع داده های آمریکای شمالی است. کاتالوگ آن قابل توجه است: بیش از 218,000 مجموعه داده که امکان تقسیم بندی بر اساس قالب، برچسب ها، انواع و موضوعات را فراهم می کند.

5. پورتال داده باز اتحادیه اروپا

پورتال داده های باز اتحادیه اروپا دسترسی به داده های باز به اشتراک گذاشته شده توسط مؤسسات اتحادیه اروپا را فراهم می کند. اینها داده هایی هستند که می توانند برای استفاده تجاری و غیر تجاری در نظر گرفته شوند. بیش از 15.5 هزار مجموعه داده در اختیار کاربر قرار دارد که موضوعاتی مانند سلامت، انرژی، محیط زیست، فرهنگ و آموزش را پوشش می دهد.

داده های بهداشتی

در پی بحران بهداشتی مداوم در سراسر جهان، مجموعه داده های تولید شده توسط سازمان های بهداشتی برای توسعه راه حل های موثر برای نجات جان انسان ها ضروری است. این مجموعه داده ها می توانند به شناسایی عوامل خطر، تعیین الگوهای انتقال بیماری و سرعت بخشیدن به تشخیص کمک کنند.

این مجموعه داده ها شامل سوابق بهداشتی، جمعیت شناسی بیماران، شیوع بیماری، مصرف دارویی، ارزش های تغذیه ای و بسیاری موارد دیگر است.

6. رصدخانه جهانی بهداشت

این مجموعه داده ابتکار سازمان بهداشت جهانی (WHO) است. داده‌های عمومی مربوط به حوزه‌های مختلف سلامت را ارائه می‌کند که بر اساس موضوعاتی مانند سیستم‌های بهداشتی، کنترل مصرف دخانیات، زایمان، HIV/AIDS و غیره سازمان‌دهی شده‌اند. همچنین گزینه‌ای برای مشورت با داده‌های COVID-19 وجود دارد.

7. CORD-19

CORD-19 مجموعه ای از نشریات دانشگاهی در مورد COVID-19 و سایر مقالات در مورد کروناویروس جدید است. این یک مجموعه داده باز است که برای ایجاد بینش جدید در مورد COVID-19 طراحی شده است.

مجموعه داده 7

داده های اقتصاد

مجموعه داده‌های مربوط به محیط مالی معمولاً حجم عظیمی از اطلاعات را جمع‌آوری می‌کنند، زیرا معمولاً برای مدت طولانی جمع‌آوری شده‌اند. آنها برای ایجاد پیش بینی های اقتصادی یا ایجاد روند سرمایه گذاری ایده آل هستند.

با مجموعه داده های مالی مناسب، الف مدل یادگیری ماشین ممکن است بتواند رفتار یک دارایی معین را پیش بینی کند. به همین دلیل است که بخش مالی تمام تلاش خود را برای ایجاد یک مدل موثر ML انجام می دهد، زیرا هر چیزی که بتواند حتی به خوبی پیش بینی کند، پتانسیل تولید میلیون ها دلار را دارد. یادگیری ماشین در حال حاضر رفتار شهروندان را پیش‌بینی می‌کند، که بر نحوه انجام وظایف سیاست‌گذاران تأثیر می‌گذارد.

8. صندوق بین المللی پول

مجموعه داده صندوق بین المللی پول طیفی از شاخص های اقتصادی و مالی، آمار کشورهای عضو و سایر داده های وام و نرخ ارز را در خود جای داده است.

9. بانک جهانی

مخزن بانک جهانی شامل مجموعه داده های مختلف با اطلاعات اقتصادی از کشورهای مختلف است. بیش از 17,000 مجموعه داده بر اساس قاره ها تقسیم شده است.

88 مجموعه داده 7

بررسی محصولات و خدمات

تحلیل احساسات کاربردهای خود را در زمینه های مختلف پیدا کرده است که اکنون به شرکت ها کمک می کند تا مشتریان یا مشتریان خود را به درستی تخمین بزنند و از آنها یاد بگیرند. تحلیل احساسات به طور فزاینده ای برای نظارت بر رسانه های اجتماعی، نظارت بر برند، صدای مشتری (VoC)، خدمات مشتری و تحقیقات بازار مورد استفاده قرار می گیرد.

تحلیل احساسات از NLP استفاده می کند روش‌ها و الگوریتم‌هایی (برنامه‌نویسی عصبی-زبانی) که یا مبتنی بر قانون، ترکیبی یا متکی به تکنیک‌های یادگیری ماشینی برای یادگیری داده‌ها از مجموعه داده‌ها هستند.

داده های مورد نیاز در تجزیه و تحلیل احساسات باید تخصصی باشد و در مقادیر زیاد مورد نیاز است. چالش برانگیزترین بخش در مورد فرآیند آموزش تحلیل احساسات، یافتن داده ها در مقادیر زیاد نیست. در عوض، برای یافتن مجموعه داده های مربوطه است. این مجموعه داده ها باید حوزه وسیعی از کاربردهای تحلیل احساسات و موارد استفاده را پوشش دهند.

10. بررسیهای آمازون

این مجموعه داده شامل حدود 35 میلیون بررسی آمازون است که یک دوره 18 ساله از اطلاعات جمع آوری شده را در بر می گیرد. این مجموعه داده ای از محتوای محصول، کاربر و بررسی است.

11. نظرات Yelp

Yelp همچنین مجموعه داده ای را بر اساس اطلاعات جمع آوری شده از سرویس خود ارائه می دهد. بیش از 8 میلیون بررسی، 1 میلیون نکته، به علاوه تقریباً 1.5 میلیون ویژگی مربوط به مشاغل، مانند ساعات کاری و در دسترس بودن، وجود دارد.

12. بررسی های IMDB

این پایگاه شامل مجموعه ای از بیش از 25 هزار نقد فیلم برای آموزش و 25 هزار مورد دیگر برای تست هایی است که به طور غیررسمی از صفحه imdb تخصصی رتبه بندی فیلم گرفته شده است. همچنین داده های بدون برچسب را به عنوان اطلاعات اضافی ارائه می دهد.

مجموعه داده ها برای اولین گام ها در ML

13. مجموعه داده های کیفیت شراب

این مجموعه داده اطلاعات مربوط به شراب، قرمز و سبز، تولید شده در شمال پرتغال را ارائه می دهد. هدف این است که کیفیت شراب را بر اساس آزمایش های فیزیکوشیمیایی تعریف کنیم. برای کسانی که می خواهند ایجاد یک سیستم پیش بینی را تمرین کنند جالب است.

14. مجموعه داده تایتانیک

این مجموعه داده‌ها را از 887 مسافر واقعی کشتی تایتانیک به ارمغان می‌آورد که در هر ستون مشخص می‌شود که آیا زنده مانده‌اند، سن، طبقه مسافر، جنسیت و هزینه سوار شدنشان. این مجموعه داده بخشی از چالشی بود که توسط پلتفرم کاگل راه اندازی شد و هدف آن ایجاد مدلی بود که بتواند پیش بینی کند کدام مسافران از غرق شدن تایتانیک جان سالم به در می برند.

پلتفرم هایی برای یافتن سایر مجموعه های داده

اگر می‌خواهید جلوتر بروید و مجموعه داده‌های خود را پیدا کنید، بهترین راه این است که در میان معروف‌ترین مخازن این مجموعه جستجو کنید. فراگیری ماشین کائنات:

کجگل

Kaggle، زیرمجموعه Google LLC، یک جامعه آنلاین از دانشمندان داده و متخصصان یادگیری ماشین است. Kaggle به کاربران اجازه می دهد تا مجموعه داده ها را پیدا و منتشر کنند، مدل ها را در یک محیط علم داده مبتنی بر وب ایجاد کنند. کار با سایر دانشمندان داده و مهندسین یادگیری ماشینو در مسابقاتی برای حل چالش های علم داده شرکت کنید.

Kaggle در سال 2010 با ارائه مسابقات یادگیری ماشینی شروع به کار کرد و در حال حاضر نیز عمومی را ارائه می دهد بستر داده، یک میز کار مبتنی بر ابر برای علوم داده و آموزش هوش مصنوعی.

جستجوی مجموعه داده

Dataset Search یک موتور جستجو از Google است که به محققان کمک می کند تا داده های آنلاین را که به صورت رایگان برای استفاده در دسترس هستند پیدا کنند. در سرتاسر وب، میلیون ها مجموعه داده در مورد تقریباً هر موضوعی که به شما علاقه دارد وجود دارد.

اگر به دنبال خرید یک توله سگ هستید، می‌توانید مجموعه داده‌هایی را پیدا کنید که شکایات خریداران توله‌سگ را جمع‌آوری می‌کند یا مطالعاتی در مورد شناخت توله‌سگ انجام می‌دهد. یا اگر به اسکی علاقه دارید، می توانید داده هایی در مورد درآمد پیست های اسکی یا میزان آسیب دیدگی و تعداد مشارکت پیدا کنید. جستجوی مجموعه داده تقریباً 25 میلیون از این مجموعه داده‌ها را فهرست‌بندی کرده است و به شما یک مکان واحد برای جستجوی مجموعه‌های داده و یافتن پیوندهایی به مکان داده‌ها می‌دهد.

مخزن یادگیری ماشین UCI

مخزن یادگیری ماشین UCI مجموعه‌ای از پایگاه‌های داده، نظریه‌های دامنه و تولیدکننده‌های داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتم‌های یادگیری ماشین استفاده می‌شود. این آرشیو به عنوان یک آرشیو ftp در سال 1987 توسط دیوید آها و سایر دانشجویان فارغ التحصیل دانشگاه UC Irvine ایجاد شد.

از آن زمان، به طور گسترده توسط دانش آموزان، مربیان و محققان در سراسر جهان به عنوان منبع اصلی مجموعه داده های ML استفاده شده است. به عنوان نشانه ای از تأثیر آرشیو، بیش از 1000 بار مورد استناد قرار گرفته است، که آن را به یکی از 100 مقاله پر استناد در تمام علوم رایانه تبدیل کرده است.

چهارگوش

Quandl پلتفرمی است که مجموعه داده های اقتصادی، مالی و جایگزین را در اختیار کاربران خود قرار می دهد. کاربران می‌توانند داده‌های رایگان را دانلود کنند، داده‌های پولی بخرند یا داده‌ها را به Quandl بفروشند. می تواند ابزار مفیدی برای توسعه باشد الگوریتم های معاملاتی، به عنوان مثال.

نتیجه

با کاوش در این ابزارها، مطمئناً ورودی های عالی برای پروژه های خود پیدا خواهید کرد. مطمئن شوید که مجموعه داده ای را انتخاب کنید که برای نیازهای خاص شما مناسب تر است و همیشه به خاطر داشته باشید: این فقط کمیت نیست، بلکه کیفیت نیز مهم است. مجموعه داده اساس هر کدام است پروژه یادگیری ماشینی و ضروری است که بر روی داده های با کیفیت به منظور جلوگیری از خطر رسیدن به نتیجه گیری های نادرست ایجاد شود.

بهترین مجموعه داده ها برای یادگیری ماشینی

14 بهترین مجموعه داده برای یادگیری ماشینی

مبانی مجموعه داده ها