Содержание[Скрывать][Показывать]
- 1. Набор данных атрибутов CelebFaces
- 2. ДОТА
- 3. Набор данных Google для сравнения выражений лица
- 4. Визуальный геном
- 5. ЛибриРечь
- 6. Городские пространства
- 7. Кинетический набор данных
- 8. CelebAMask-HQ
- 9. Пенн Трибэнк
- 10. ВоксСелеб
- 11. ШЕСТЬ лучей
- 12. Аварии в США
- 13. Распознавание глазных заболеваний
- 14. Болезнь сердца
- 15. КЛЕВР
- 16. Универсальные зависимости
- 17. КИТТИ – 360
- 18. MOT (отслеживание нескольких объектов)
- 19. ПАСКАЛЬ 3D+
- 20. Лицевые деформируемые модели животных.
- 21. Набор данных MPII Human Post
- 22. УКФ101
- 23. Аудиосет
- 24. Стэнфордский вывод на естественном языке
- 25. Визуальный ответ на вопрос
- Заключение
В настоящее время большинство из нас сосредоточено на разработке моделей машинного обучения и искусственного интеллекта и решении проблем с использованием текущих наборов данных. Но сначала мы должны определить набор данных, его значение и роль в разработке надежных решений ИИ и МО.
Сегодня у нас есть множество наборов данных с открытым исходным кодом, на которых можно проводить исследования или разрабатывать приложения для решения реальных проблем в различных секторах.
Однако нехватка высококачественных наборов количественных данных является источником беспокойства. Данные значительно выросли, и в будущем они будут продолжать расти более быстрыми темпами.
В этом посте мы рассмотрим свободно доступные наборы данных, которые вы можете использовать для разработки своего следующего проекта ИИ.
1. Набор данных атрибутов CelebFaces
Набор данных атрибутов CelebFaces (CelebA) содержит более 200 тысяч фотографий знаменитостей и 40 аннотаций атрибутов для каждого изображения, что делает его отличной отправной точкой для таких проектов, как распознавание лица, обнаружение лиц, локализация ориентиров (или компонентов лица), а также редактирование и синтез лиц. Кроме того, фотографии в этой коллекции содержат широкий спектр вариантов положения и фоновых помех.
2. DOTA
DOTA (набор данных Обнаружение объекта in Aerial Photos) — это крупномасштабный набор данных для обнаружения объектов, который включает 15 общих категорий (например, корабль, самолет, автомобиль и т. д.), 1411 изображений для обучения и 458 изображений для проверки.
3. Набор данных Google для сравнения выражений лица
Набор данных сравнения выражения лица Google содержит около 500,000 156,000 троек изображений, включая XNUMX XNUMX фотографий лиц. Стоит отметить, что каждый триплет в этом наборе данных был аннотирован как минимум шестью оценщиками.
Этот набор данных полезен для проектов, связанных с анализом выражений лица, таких как поиск изображений на основе выражений, категоризация эмоций, синтез выражений и т. д. Для получения доступа к набору данных необходимо заполнить краткую форму.
4. Визуальный геном
Данные об ответах на визуальные вопросы в среде с множественным выбором доступны в Visual Genome. Он состоит из 101,174 1.7 фотографий MSCOCO с 17 миллионами пар QA, в среднем по XNUMX вопросов на изображение.
По сравнению с набором данных Visual Question Answering набор данных Visual Genome имеет более справедливое распределение по шести типам вопросов: что, где, когда, кто, почему и как.
Кроме того, набор данных Visual Genome включает в себя 108 XNUMX фотографий, которые были сильно помечены объектами, свойствами и связями.
5. ЛибриРечь
Корпус LibriSpeech представляет собой коллекцию около 1,000 часов аудиокниг из проекта LibriVox. Большинство аудиокниг происходит из Project Gutenberg.
Данные обучения разделены на три части по 100 часов, 360 часов и 500 часов, в то время как данные разработки и тестирования имеют продолжительность звука примерно 5 часов.
6. Городские пространства
Одна из самых известных крупномасштабных баз данных стереовидео с городскими видами называется The Cityscapes.
Благодаря аннотациям с точностью до пикселя, которые включают в себя местоположение GPS, температуру наружного воздуха, данные об эго-движении и правильные стерео перспективы, он включает в себя записи из 50 различных городов Германии.
7. Кинетический набор данных
Одним из самых известных наборов видеоданных для распознавания человеческой деятельности в большом масштабе и с хорошим качеством является набор данных Kinetics. Существует не менее 600 видеоклипов для каждого из 600 классов человеческой деятельности, всего более 500,000 XNUMX.
Фильмы взяты с YouTube; каждый длится около 10 секунд и содержит только один класс активности.
8. CelebAMask-HQ
CelebAMask-HQ — это коллекция из 30,000 19 фотографий лица в высоком разрешении с тщательно прокомментированными масками и XNUMX классами, включающими такие компоненты лица, как кожа, нос, глаза, брови, уши, рот, губы, волосы, шляпа, очки, серьги, ожерелье, шея, материал.
Набор данных можно использовать для тестирования и обучения распознаванию лиц, анализу лиц и GAN для алгоритмов генерации и редактирования лиц.
9. Пенн Трибэнк
Одним из наиболее известных и часто используемых корпусов для оценки моделей маркировки последовательностей является английский корпус Penn Treebank (PTB), в частности часть корпуса, соответствующая статьям Wall Street Journal.
Каждое слово должно иметь свою часть речи, помеченную как компонент задания. Уровень символов и уровень слов языковое моделирование также часто использует корпус.
10. VoxCeleb
VoxCeleb — это крупномасштабный набор данных для идентификации речи, сгенерированный автоматически из СМИ с открытым исходным кодом. VoxCeleb имеет более миллиона высказываний из более чем 6 динамиков.
Поскольку набор данных включает в себя аудиовизуальные данные, его можно использовать для различных дополнительных приложений, включая визуальный синтез речи, разделение речи, кросс-модальную передачу от лица к голосу или наоборот, а также обучение распознаванию лиц из видео в дополнение к текущему распознаванию лиц. наборы данных.
11. Шесть лучей
Набор данных SIXray включает в себя 1,059,231 XNUMX XNUMX рентгеновский снимок, сделанный на станциях метро и аннотированный инспекторами по безопасности людей для обнаружения шести основных видов запрещенных предметов: пистолетов, ножей, гаечных ключей, плоскогубцев, ножниц и молотков. Кроме того, ограничивающие рамки для каждого запрещенного элемента были вручную добавлены в тестовые наборы, чтобы оценить производительность локализации объекта.
12. Аварии в США
Суть проекта уже раскрывается в названии набора данных US Accidents. Этот набор данных об автомобильных авариях по всей стране включает информацию с февраля 2016 года по декабрь 2021 года и охватывает 49 штатов США.
В настоящее время в этой коллекции содержится около 1.5 миллиона записей об авариях. Он был собран в режиме реального времени с использованием нескольких API трафика.
Эти API-интерфейсы передают информацию о дорожном движении, собранную из различных источников, включая камеры дорожного движения, правоохранительные органы, а также транспортные департаменты США и штатов.
13. Распознавание глазных заболеваний
Организованная офтальмологическая база данных Ocular Disease Intelligent Recognition (ODIR) содержит информацию о 5,000 пациентов, включая их возраст, цвет глазного дна левого и правого глаза, а также диагностические ключевые слова медицинских работников.
Этот набор данных представляет собой фактический набор данных о пациентах из различных больниц и медицинских учреждений в Китае, которые приобрела компания Shanggong Medical Technology Co., Ltd. С управление контролем качества, аннотации были помечены квалифицированными читателями.
14. Болезнь сердца
Этот набор данных о сердечных заболеваниях помогает определить наличие болезни сердца у пациента на основе 76 параметров, таких как возраст, пол, вид боли в груди, артериальное давление в покое и т. д.
С 303 случаями база данных пытается просто отличить наличие болезни (значение 1,2,3,4) от ее отсутствия (значение 0).
15. КЛЕВР
Набор данных CLEVR (композиционный язык и элементарное визуальное мышление) имитирует визуальные ответы на вопросы. Он состоит из фотографий трехмерных объектов, каждая из которых сопровождается серией очень сложных вопросов, разделенных на несколько категорий.
Для всех обучающих и проверочных изображений и вопросов набор данных включает 70,000 700,000 фотографий и 15,000 150,000 вопросов для обучения, 15,000 150,000 изображений и XNUMX XNUMX вопросов для проверки, а также XNUMX XNUMX изображений и XNUMX XNUMX вопросов для тестирования с использованием объектов, ответов, графов сцен и функциональных программ.
16. Универсальные зависимости
Проект Universal Dependencies (UD) направлен на создание кросс-лингвистически единообразных морфологических и синтаксических древовидных аннотаций для многих языков. Версия 2.7, выпущенная в 2020 году, имеет 183 банка деревьев на 104 языках.
Аннотация состоит из универсальных тегов POW, заголовков зависимостей и универсальных меток зависимостей.
17. КИТТИ – 360
Один из наиболее часто используемых наборов данных для мобильных роботов и автономное вождение KITTI (Технологический институт Карлсруэ и Технологический институт Toyota).
Он состоит из многочасовых сценариев дорожного движения, которые были сняты с использованием ряда датчиков, таких как RGB с высоким разрешением, стерео в оттенках серого и камеры 3D-лазерного сканера. Набор данных со временем улучшался несколькими исследователями, которые вручную аннотировали различные его части в соответствии со своими потребностями.
18. MOT (отслеживание нескольких объектов)
MOT (Multiple Object Tracking) — это набор данных для отслеживания нескольких объектов, который включает внутренние и наружные пейзажи общественных мест, включая пешеходов в качестве объектов, представляющих интерес. Видео каждой сцены разбито на две части: одна для обучения, а другая для тестирования.
Набор данных включает обнаружение объектов в кадрах видео с использованием трех детекторов: SDP, Faster-RCNN и DPM.
19. ПАСКАЛЬ 3D+
Многоракурсный набор данных Pascal3D+ состоит из фотографий, собранных в дикой природе, т. е. изображений категорий предметов с высокой изменчивостью, снятых в неконтролируемых обстоятельствах, в людных местах и в различных положениях. Pascal3D+ включает 12 категорий жестких объектов, взятых из набора данных PASCAL VOC 2012.
На этих элементах отмечена информация о положении (азимут, высота и расстояние до камеры). Pascal3D+ дополнительно включает фотографии с комментариями позы из коллекции ImageNet в этих 12 категориях.
20. Лицевые деформируемые модели животных
Цель проекта «Деформируемые лица животных» (FDMA) состоит в том, чтобы бросить вызов существующим методологиям идентификации и отслеживания ориентиров лица человека и разработать новые алгоритмы, которые могут справиться со значительно большей изменчивостью, характерной для черт лица животных.
Алгоритмы проекта продемонстрировали способность распознавать и отслеживать ориентиры на человеческих лицах, имея дело с отклонениями, вызванными изменениями эмоций или положения лица, частичными окклюзиями и освещением.
21. Набор данных MPII Human Post
Набор данных MPII Human Pose содержит около 25 15 фотографий, 3 7 XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX из которых являются тестовыми образцами.
Позиции вручную помечены до 16 суставов тела, а фотографии взяты из фильмов YouTube, охватывающих 410 различных человеческих действий.
22. UCF101
Набор данных UCF101 содержит 13,320 101 видеоклипов, организованных в 101 категорию. Эти XNUMX категория разделены на пять категорий: движения тела, взаимодействие человека с человеком, взаимодействие человека с объектом, игра на музыкальных инструментах и спорт.
Видео взяты с YouTube и имеют продолжительность 27 часов.
23. Аудиосет
Audioset — это набор данных аудиособытий, состоящий из более чем 2 миллионов 10-секундных видеосегментов с аннотациями, сделанными людьми. Для аннотирования этих данных используется иерархическая онтология, включающая 632 типа событий, из чего следует, что один и тот же звук может быть помечен по-разному.
24. Стэнфордский вывод на естественном языке
Набор данных SNLI (Stanford Natural Language Inference) содержит 570 тысяч пар предложений, которые были вручную классифицированы как следствия, противоречия или нейтральные.
Предпосылки представляют собой описания изображений на Flickr30k, тогда как гипотезы разрабатывались аннотаторами из краудсорсинга, которым была предоставлена предпосылка и проинструктированы генерировать влекущие за собой, противоречащие и нейтральные утверждения.
25. Визуальный ответ на вопрос
Визуальные ответы на вопросы (VQA) — это набор данных, который содержит открытые вопросы, касающиеся изображений. Чтобы ответить на эти вопросы, вам нужно понять видение, язык и здравый смысл.
Заключение
По мере того, как машинное обучение и искусственный интеллект (ИИ) становятся все более распространенными практически в каждом бизнесе и в нашей повседневной жизни, растет и количество ресурсов и информации, доступных по этому вопросу.
Готовые общедоступные наборы данных обеспечивают отличную отправную точку для разработки моделей ИИ, а также позволяют опытным программистам машинного обучения экономить время и сосредоточиться на других элементах своих проектов.
Оставьте комментарий