14 найкращих наборів даних для машинного навчання

Зміст[Сховати][Показати]

Основи наборів даних
Набори даних для ML+-
Платформи для пошуку інших наборів даних+-
Висновок

Кожен проект машинного навчання покладається на хороший набір даних. Саме цей великий набір даних дозволить вам навчати та перевіряти вашу модель ML. Отже, велика частина роботи в проекті ML — це пошук ідеального набору даних для ваших потреб. Однак не завжди можна знайти варіант, який відповідає вашим амбіціям, оскільки багато файлів, які виглядають цікавими, зрештою, не є такими.

Може бути складно витрачати час на завантаження незліченних наборів даних, поки ви не знайдете ідеальний набір. Маючи це на увазі, ми зібрали кілька варіантів, які здаються цікавими і можуть допомогти вам розробити ваш проект ML. Зауважте, що деякі з них призначені для особистого, а не для комерційного використання, тому подивіться на ці параметри як на спосіб отримати досвід у всесвіті машинного навчання.

Основи наборів даних

Перш ніж говорити про набори даних, ми повинні визначити деякі терміни. Особливо в проектах зі штучним інтелектом машинне навчання, необхідна велика кількість даних, які будуть використовуватися для навчання алгоритму. Ця кількість даних збирається в базі даних, що надзвичайно корисно для навчання алгоритму.

З цими даними алгоритм навчається – також тестується – і стає здатним знаходити закономірності, встановлювати зв’язки і, таким чином, самостійно приймати рішення. Без навчання, машинне навчання алгоритми не можуть виконати жодну дію. Отже, чим краще навчальні дані, тим краще буде працювати модель. Щоб база даних була корисною для проекту, справа не в кількості, а й у класифікації.

В ідеалі дані повинні бути добре позначені. Подумайте про чат-боти: вставка мови важлива, але необхідно зробити ретельний синтаксичний аналіз, щоб створений алгоритм міг зрозуміти, коли співрозмовник використовує сленг. Тільки тоді віртуальний помічник зможе запустити відповідь відповідно до запиту користувача.

Набори даних можна генерувати з опитувань, даних про покупки користувачів, оцінок, залишених у службах, і багатьма іншими способами, які дозволяють збирати корисну інформацію, організовану в стовпці та рядки у файлі CSV.

Перш ніж приступити до пошуку ідеального набору даних, важливо знати мету свого проекту, особливо якщо він належить до певної області, наприклад, погода, фінанси, здоров’я тощо. Це буде диктувати джерело, з якого ви отримаєте свої набір даних.

Набори даних для ML

Навчання чат-бота

Ефективний чат-бот вимагає величезної кількості навчальних даних, щоб швидко вирішувати запити користувачів без участі людини. Однак основним вузьким місцем у розробці чат-ботів є отримання реалістичних, орієнтованих на завдання діалогових даних для навчання цих систем на основі машинного навчання.

Розмовний набір даних збирає дані у форматі запитання та відповіді. Він ідеально підходить для навчання чат-ботів, які будуть давати автоматичні відповіді аудиторії. Без цих даних чат-бот не зможе швидко вирішити запити користувачів або відповісти на запитання користувачів без участі людини.

Використовуючи ці набори даних, підприємства можуть створити інструмент, який надає клієнтам швидкі відповіді 24/7 і значно дешевше, ніж мати команду людей, які займаються підтримкою клієнтів.

1. Набір даних запитань-відповідей

Цей набір даних містить набір статей Вікіпедії, запитань і відповідних відповідей, створених вручну. Це набір даних, зібраний між 2008 і 2010 роками для використання в наукові дослідження.

2. Мовні дані

Мовні дані — це база даних, якою керує Yahoo, з інформацією, отриманою за допомогою деяких служб компанії, наприклад Yahoo! Answer, яка працює як відкрита спільнота для користувачів, щоб публікувати запитання та відповіді.

Набори даних 1

3. WikiQA

Корпус WikiQA також складається з набору запитань і відповідей. Джерелом запитань є Bing, а відповіді посилаються на сторінку Вікіпедії, яка може вирішити початкове запитання.

Набори даних 2 Загалом у наборі даних понад 3,000 запитань і набір із 29,258 речень, з яких близько 1,400 були віднесені до категорії відповідей на відповідне запитання.

Урядові дані

Набори даних, створені урядами, містять демографічні дані, які є чудовими вхідними матеріалами для проектів, пов’язаних із розумінням соціальних тенденцій, створенням державної політики та покращенням суспільства. Це може бути корисно для політичних кампаній, цільової реклами або аналізу ринку.

Ці набори даних зазвичай містять анонімізовані дані, тому, хоча моделі можуть отримати доступ до необроблених даних, немає жодних порушень конфіденційності.

4. Data.gov

Data.gov, запущений у 2009 році, є північноамериканським джерелом даних. Його каталог вражає: понад 218,000 XNUMX наборів даних, які дозволяють сегментувати за форматом, тегами, типами та темами.

5. Портал відкритих даних ЄС

Портал відкритих даних ЄС надає доступ до відкритих даних, якими поділяються установи Європейського Союзу. Це дані, які можуть бути призначені для комерційного та некомерційного використання. У розпорядженні користувача понад 15.5 тисяч наборів даних, які охоплюють такі теми, як здоров’я, енергетика, навколишнє середовище, культура та освіта.

Дані про стан здоров’я

У зв’язку з триваючою кризою охорони здоров’я в усьому світі набори даних, створені організаціями охорони здоров’я, мають важливе значення для розробки ефективних рішень для порятунку життів. Ці набори даних можуть допомогти визначити фактори ризику, визначити схеми передачі захворювання та прискорити діагностику.

Ці набори даних складаються з медичних карт, демографічних даних пацієнтів, поширеності захворювань, використання лікарських засобів, харчової цінності та багато іншого.

6. Глобальна обсерваторія здоров'я

Цей набір даних є ініціативою Всесвітньої організації охорони здоров’я (ВООЗ). Він надає публічні дані, пов’язані з різними сферами охорони здоров’я, упорядковані за такими темами, як системи охорони здоров’я, контроль над вживанням тютюну, материнство, ВІЛ/СНІД тощо. Також є можливість ознайомитися з даними щодо COVID-19.

7. ШНУР-19

CORD-19 — це корпус академічних публікацій про COVID-19 та інших статей про новий коронавірус. Це відкритий набір даних, призначений для створення нових уявлень про COVID-19.

Набори даних7

Економічні дані

Набори даних, пов’язані з фінансовим середовищем, зазвичай збирають величезну кількість інформації, оскільки зазвичай вони збираються протягом тривалого часу. Вони ідеально підходять для створення економічних прогнозів або встановлення інвестиційних тенденцій.

Маючи правильні набори фінансових даних, a Модель машинного навчання може передбачити поведінку даного активу. Ось чому фінансовий сектор робить усе, що в його силах, щоб створити ефективну модель ML, оскільки все, що може передбачити навіть достатньо добре, має потенціал для отримання мільйонів доларів. Машинне навчання вже передбачає поведінку громадян, що впливає на те, як політики виконують свою роботу.

8. Міжнародний валютний фонд

Набір даних МВФ містить ряд економічних і фінансових показників, статистику країн-членів та інші дані про позики та обмінні курси.

9. Всесвітній банк

Репозиторій Світового банку містить різні набори даних з економічною інформацією з різних країн. Існує понад 17,000 XNUMX наборів даних, розділених за континентами.

88наборів даних7

Огляди товарів і послуг

Аналіз настроїв знайшов своє застосування в різних сферах, які зараз допомагають підприємствам правильно оцінювати та вчитися у своїх клієнтів або клієнтів. Аналіз настроїв все частіше використовується для моніторингу соціальних мереж, моніторингу бренду, голосу клієнта (VoC), обслуговування клієнтів та дослідження ринку.

Аналіз настроїв використовує НЛП (нейро-лінгвістичне програмування) методи та алгоритми, які засновані на правилах, гібриді або покладаються на методи машинного навчання для вивчення даних із наборів даних.

Дані, необхідні для аналізу настроїв, мають бути спеціалізованими і потрібні у великих кількостях. Найскладніша частина процесу навчання аналізу настроїв – це не пошук даних у великих обсягах; замість цього потрібно знайти відповідні набори даних. Ці набори даних повинні охоплювати широку область застосування аналізу настроїв і варіантів використання.

10. Відгуки Амазонки

Цей набір даних містить близько 35 мільйонів оглядів Amazon, які охоплюють 18-річний період зібраної інформації. Це набір даних продукту, користувача та вмісту огляду.

11. Yelp Огляди

Yelp також пропонує набір даних на основі інформації, зібраної з його сервісу. Існує понад 8 мільйонів відгуків, 1 мільйон підказок, а також майже 1.5 мільйона атрибутів, пов’язаних із підприємствами, як-от години роботи та доступність.

12. Огляди IMDB

Ця база даних містить набір з понад 25 тисяч кінооглядів для навчання і ще 25 тисяч для тестів, взятих неофіційно зі сторінки IMDB, що спеціалізується на рейтингах фільмів. Він також пропонує немарковані дані як додаткову інформацію.

Набори даних для перших кроків у ML

13. Набір даних про якість вина

Цей набір даних містить інформацію про вино, як червоне, так і зелене, вироблене на півночі Португалії. Мета – визначити якість вина на основі фізико-хімічних випробувань. Цікаво для тих, хто хоче потренуватися у створенні системи прогнозів.

14. Набір даних "Титанік".

Цей набір даних містить дані про 887 реальних пасажирів «Титаніка», причому кожен стовпець визначає, чи вижили вони, їхній вік, клас пасажира, стать і плату за посадку. Цей набір даних був частиною завдання, запущеного платформою Kaggle, метою якої було створити модель, яка могла б передбачити, які пасажири вижили після затоплення Титаніка.

Платформи для пошуку інших наборів даних

Якщо ви хочете піти далі та знайти власний набір даних, найкращим способом буде переглянути найвідоміші репозиторії машинне навчання Всесвіт:

Згорнути

Kaggle, дочірня компанія Google LLC, — це онлайн-спільнота науковців з даних і фахівців з машинного навчання. Kaggle дозволяє користувачам знаходити та публікувати набори даних, досліджувати та створювати моделі у веб-середовищі науки про дані; працювати з іншими науковцями даних та Інженери з машинного навчання, а також брати участь у конкурсах для вирішення завдань науки про дані.

Kaggle стартував у 2010 році, пропонуючи конкурси з машинного навчання, а тепер також пропонує громадськість платформа даних, хмарний робочий стіл для вивчення даних та штучного інтелекту.

Пошук наборів даних

Dataset Search — це пошукова система від Google, яка допомагає дослідникам знаходити дані в Інтернеті, які є вільно доступними для використання. У мережі є мільйони наборів даних майже з будь-якої теми, яка вас цікавить.

Якщо ви хочете купити цуценя, ви можете знайти набори даних, які збирають скарги покупців цуценят або дослідження пізнання цуценят. Або, якщо вам подобається кататися на лижах, ви можете знайти дані про прибуток гірськолижних курортів або рівень травматизму та кількість учасників. Пошук у наборах даних проіндексував майже 25 мільйонів цих наборів даних, що дає вам єдине місце для пошуку наборів даних і пошуку посилань на те, де знаходяться дані.

Репозиторій машинного навчання UCI

Репозиторій машинного навчання UCI – це набір баз даних, теорій доменів і генераторів даних, які використовуються спільнотою машинного навчання для емпіричного аналізу алгоритмів машинного навчання. Архів був створений як ftp-архів у 1987 році Девідом Ага та його колегами-аспірантами Каліфорнійського університету в Ірвіні.

З того часу він широко використовується студентами, викладачами та дослідниками по всьому світу як основне джерело наборів даних ML. Як ознака впливу архіву, його цитували понад 1000 разів, що робить його одним із 100 найбільш цитованих «статей» у всій інформатиці.

Куандль

Quandl — це платформа, яка надає своїм користувачам економічні, фінансові та альтернативні набори даних. Користувачі можуть завантажувати безкоштовні дані, купувати платні дані або продавати дані Quandl. Це може бути корисним інструментом для розвитку торгові алгоритми, наприклад.

Висновок

Досліджуючи ці інструменти, ви обов’язково знайдете чудові вхідні дані для своїх проектів. Обов’язково виберіть набір даних, який найбільше підходить для ваших конкретних потреб, і завжди пам’ятайте: це стосується не лише кількості, а й якості. Набір даних є основою будь-якого Проект машинного навчання і важливо спиратися на якісні дані, щоб уникнути ризику отримання помилкових висновків.

Найкращі набори даних для машинного навчання

14 найкращих наборів даних для машинного навчання

Основи наборів даних