Содержание[Скрывать][Показывать]
Каждый проект машинного обучения опирается на хороший набор данных. Именно этот большой набор данных позволит вам обучить и проверить вашу модель машинного обучения. Таким образом, большая часть работы в проекте машинного обучения заключается в поиске идеального набора данных для ваших нужд. Однако не всегда можно найти вариант, соответствующий вашим амбициям, так как многие файлы, которые выглядят интересно, в итоге таковыми не являются.
Может быть пугающе тратить время на загрузку бесчисленных наборов данных, пока вы не получите идеальный набор. Имея это в виду, мы собрали несколько вариантов, которые кажутся интересными и могут помочь вам в разработке вашего проекта машинного обучения. Обратите внимание, что некоторые из них предназначены для личного, а не коммерческого использования, поэтому рассмотрите эти варианты как способ получить опыт во вселенной ML.
Основы наборов данных
Прежде чем мы упомянем наборы данных, мы должны определить некоторые термины. В проектах искусственного интеллекта, особенно Машинное обучение, требуется большой объем данных, которые будут использоваться для обучения алгоритма. Этот объем данных собирается в базе данных, что чрезвычайно полезно для обучения алгоритму.
С помощью этих данных алгоритм обучается — а также тестируется — и становится способным находить закономерности, устанавливать отношения и, таким образом, принимать решения автономно. Без обучения, Машинное обучение алгоритмы не могут выполнять никаких действий. Следовательно, чем лучше данные для обучения, тем лучше будет работать модель. Чтобы база данных была полезной для проекта, важно не количество, а классификация.
В идеале данные должны быть хорошо помечены. Подумайте о случае с чат-ботами: языковая вставка важна, но необходимо провести тщательный синтаксический анализ, чтобы созданный алгоритм мог понять, когда собеседник использует сленг. Только тогда виртуальный помощник сможет запустить ответ в соответствии с запросом пользователя.
Наборы данных могут быть созданы на основе опросов, данных о покупках пользователей, оценок, оставленных в сервисах, и многими другими способами, которые позволяют собирать полезную информацию, организованную в столбцы и строки в файле CSV.
Прежде чем вы отправитесь на поиски идеального набора данных, важно, чтобы вы знали цель своего проекта, особенно если он относится к определенной области, такой как погода, финансы, здоровье и т. д. Это будет определять источник, из которого вы будете получать свои данные. набор данных.
Наборы данных для машинного обучения
Обучение чат-бота
Эффективному чат-боту требуется огромное количество обучающих данных, чтобы быстро решать запросы пользователей без вмешательства человека. Однако основным узким местом в разработке чат-ботов является получение реалистичных, ориентированных на задачи диалоговых данных для обучения этих систем, основанных на машинном обучении.
Диалоговый набор данных собирает данные в формате вопросов и ответов. Он идеально подходит для обучения чат-ботов, которые будут давать автоматические ответы аудитории. Без этих данных чат-бот не сможет быстро решать запросы пользователей или отвечать на вопросы пользователей без необходимости вмешательства человека.
Используя эти наборы данных, предприятия могут создать инструмент, который обеспечивает быстрые ответы клиентам 24 часа в сутки 7 дней в неделю и значительно дешевле, чем команда людей, занимающихся поддержкой клиентов.
1. Набор данных вопрос-ответ
Этот набор данных содержит набор статей из Википедии, вопросы и соответствующие ответы, сгенерированные вручную. Это набор данных, собранный в период с 2008 по 2010 год для использования в научные исследования.
2. Языковые данные
Language Data — это управляемая Yahoo база данных с информацией, полученной из некоторых служб компании, таких как Yahoo! Ответ, который работает как открытое сообщество, где пользователи могут публиковать вопросы и ответы.
3. ВикиКК
Корпус WikiQA также состоит из набора вопросов и ответов. Источником вопросов является Bing, а ответы ссылаются на страницу Википедии, которая потенциально может ответить на первоначальный вопрос.
Всего в наборе данных более 3,000 вопросов и набор из 29,258 1,400 предложений, из которых около XNUMX отнесены к категории ответов на соответствующий вопрос.
Правительственные данные
Наборы данных, созданные правительствами, содержат демографические данные, которые являются отличным вкладом в проекты, связанные с пониманием социальных тенденций, созданием государственной политики и улучшением общества. Это может быть полезно для политических кампаний, целевой рекламы или анализа рынка.
Эти наборы данных обычно содержат анонимные данные, поэтому, несмотря на то, что модели могут получать доступ к необработанным данным, нарушения личной конфиденциальности не происходит.
4. Data.gov
Data.gov, запущенный в 2009 году, является источником данных в Северной Америке. Его каталог впечатляет: более 218,000 XNUMX наборов данных, которые позволяют сегментировать по формату, тегам, типам и темам.
5. Портал открытых данных ЕС
Портал открытых данных ЕС предоставляет доступ к открытым данным, которыми обмениваются учреждения Европейского Союза. Это данные, которые могут быть предназначены для коммерческого и некоммерческого использования. В распоряжении пользователя более 15.5 тысяч наборов данных, охватывающих такие темы, как здоровье, энергетика, окружающая среда, культура и образование.
Данные о здоровье
В связи с продолжающимся кризисом в области здравоохранения во всем мире наборы данных, созданные организациями здравоохранения, необходимы для разработки эффективных решений для спасения жизней. Эти наборы данных могут помочь определить факторы риска, выявить закономерности передачи заболеваний и ускорить диагностику.
Эти наборы данных состоят из медицинских карт, демографических данных пациентов, распространенности заболеваний, использования в медицинских целях, пищевой ценности и многого другого.
6. Глобальная обсерватория здравоохранения
Этот набор данных является инициативой Всемирной организации здравоохранения (ВОЗ). Он предоставляет общедоступные данные, относящиеся к различным областям здравоохранения, сгруппированные по таким темам, как системы здравоохранения, борьба с употреблением табака, материнство, ВИЧ/СПИД и т. д. Существует также возможность ознакомиться с данными о COVID-19.
7. КОРД-19
CORD-19 — это сборник академических публикаций о COVID-19 и других статей о новом коронавирусе. Это открытый набор данных, предназначенный для получения новой информации о COVID-19.
Экономические данные
Наборы данных, связанные с финансовой средой, обычно собирают огромное количество информации, поскольку обычно они собирались в течение длительного времени. Они идеально подходят для создания экономических прогнозов или установления инвестиционных тенденций.
Имея правильные наборы финансовых данных, Модель машинного обучения может быть в состоянии предсказать поведение данного актива. Вот почему финансовый сектор делает все, что в его силах, чтобы создать эффективную модель машинного обучения, поскольку все, что может предсказывать даже достаточно хорошо, может принести миллионы долларов. Машинное обучение уже предсказывает поведение граждан, что влияет на то, как политики выполняют свою работу.
8. Международный Валютный Фонд
Набор данных МВФ содержит ряд экономических и финансовых показателей, статистику стран-членов и другие данные о займах и обменных курсах.
9. Всемирный банк
Репозиторий Всемирного банка содержит различные наборы данных с экономической информацией из разных стран. Существует более 17,000 XNUMX наборов данных, разделенных по континентам.
Обзоры продуктов и услуг
Анализ настроений нашел свое применение в различных областях, которые теперь помогают предприятиям правильно оценивать и учиться у своих клиентов или заказчиков. Анализ настроений все чаще используется для мониторинга социальных сетей, мониторинга бренда, голоса клиента (VoC), обслуживания клиентов и исследования рынка.
Анализ настроений использует НЛП (нейролингвистическое программирование) методы и алгоритмы, основанные на правилах, гибридные или основанные на методах машинного обучения для извлечения данных из наборов данных.
Данные, необходимые для анализа настроений, должны быть специализированными и требоваться в больших количествах. Самая сложная часть процесса обучения анализу тональности заключается не в поиске данных в больших объемах; вместо этого нужно найти соответствующие наборы данных. Эти наборы данных должны охватывать широкий спектр приложений и вариантов использования для анализа тональности.
10. Amazon отзывы
Этот набор данных содержит около 35 миллионов отзывов об Amazon за 18-летний период сбора информации. Это набор данных о продуктах, пользователях и отзывах.
11. Yelp Отзывы
Yelp также предлагает набор данных, основанный на информации, полученной от его сервиса. Существует более 8 миллионов отзывов, 1 миллион советов, а также почти 1.5 миллиона атрибутов, связанных с бизнесом, таких как часы работы и доступность.
12. IMDB Отзывы
Эта база данных содержит набор из более чем 25 тысяч обзоров фильмов для обучения и еще 25 тысяч для тестов, взятых неофициально со страницы IMDB, специализирующейся на рейтингах фильмов. Он также предлагает немаркированные данные в качестве дополнительных.
Наборы данных для первых шагов в ML
13. Набор данных о качестве вина
Этот набор данных содержит информацию о вине, как красном, так и зеленом, произведенном в северной Португалии. Цель состоит в том, чтобы определить качество вина на основе физико-химических тестов. Интересно для тех, кто хочет попрактиковаться в создании системы прогнозирования.
14. Набор данных Titanic
Этот набор данных содержит данные о 887 реальных пассажирах Титаника, причем в каждом столбце указано, выжили ли они, их возраст, класс пассажиров, пол и плата за посадку, которую они заплатили. Этот набор данных был частью задачи, запущенной платформой Kaggle, целью которой было создание модели, которая могла бы предсказать, какие пассажиры выжили после крушения Титаника.
Платформы для поиска других наборов данных
Если вы хотите пойти дальше и найти свой собственный набор данных, лучше всего просмотреть самые известные репозитории Машинное обучение вселенная:
Kaggle
Kaggle, дочерняя компания Google LLC, представляет собой онлайн-сообщество специалистов по данным и машинному обучению. Kaggle позволяет пользователям находить и публиковать наборы данных, исследовать и создавать модели в веб-среде обработки данных; работать с другими учеными данных и Инженеры машинного обученияи участвуйте в конкурсах по решению задач науки о данных.
Kaggle начал свою деятельность в 2010 году, предлагая конкурсы по машинному обучению, а теперь также предлагает общедоступную платформа данных, облачное рабочее место для науки о данных и обучения искусственному интеллекту.
Поиск набора данных
Dataset Search — это поисковая система от Google, которая помогает исследователям находить онлайн-данные, которые находятся в свободном доступе для использования. В Интернете есть миллионы наборов данных практически по любой интересующей вас теме.
Если вы хотите купить щенка, вы можете найти наборы данных, в которых собраны жалобы покупателей щенков или исследования когнитивных способностей щенков. Или, если вам нравится кататься на лыжах, вы можете найти данные о доходах горнолыжных курортов, уровне травматизма и количестве участников. Служба поиска наборов данных проиндексировала почти 25 миллионов таких наборов данных, предоставив вам единое место для поиска наборов данных и ссылок на места их хранения.
UCI Хранилище Машинного Обучения
Репозиторий машинного обучения UCI представляет собой набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения. Архив был создан как ftp-архив в 1987 году Дэвидом Ага и его коллегами-аспирантами Калифорнийского университета в Ирвине.
С тех пор он широко используется студентами, преподавателями и исследователями во всем мире в качестве основного источника наборов данных машинного обучения. Как показатель влияния архива, он был процитирован более 1000 раз, что сделало его одним из 100 самых цитируемых «документов» по информатике.
Куандл
Quandl — это платформа, которая предоставляет своим пользователям наборы экономических, финансовых и альтернативных данных. Пользователи могут загружать бесплатные данные, покупать платные данные или продавать данные Quandl. Это может быть полезным инструментом для развития торговые алгоритмы, Например.
Заключение
Изучая эти инструменты, вы обязательно найдете отличные материалы для своих проектов. Обязательно выберите набор данных, наиболее подходящий для ваших конкретных нужд, и всегда помните: дело не только в количестве, но и в качестве. Набор данных является основой любого Проект машинного обучения и важно опираться на качественные данные, чтобы избежать риска ошибочных выводов.
Оставьте комментарий