Зміст[Сховати][Показати]
- 1. Набір даних атрибутів CelebFaces
- 2. DOTA
- 3. Порівняльний набір даних Google Facial Expression
- 4. Візуальний геном
- 5. LibriSpeech
- 6. Міські простори
- 7. Набір даних Kinetics
- 8. CelebAMask-HQ
- 9. Пенн Трібенк
- 10. VoxCeleb
- 11. ШЕСТИ промінь
- 12. Аварії в США
- 13. Розпізнавання очних захворювань
- 14. Хвороба серця
- 15. CLEVR
- 16. Універсальні залежності
- 17. КІТІ – 360
- 18. MOT (відстеження кількох об'єктів)
- 19. PASCAL 3D+
- 20. Лицьові деформовані моделі тварин
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Аудіонабір
- 24. Стенфордський висновок про природну мову
- 25. Візуальна відповідь на питання
- Висновок
Сьогодні більшість із нас зосереджено на розробці машинного навчання та моделей штучного інтелекту та вирішенні проблем за допомогою поточних наборів даних. Але спочатку ми повинні визначити набір даних, його значення та роль у розробці потужних рішень штучного інтелекту та машинного навчання.
Сьогодні ми маємо безліч наборів даних з відкритим кодом, на основі яких можна проводити дослідження або розробляти програми для вирішення реальних проблем у різних секторах.
Однак дефіцит високоякісних кількісних наборів даних викликає занепокоєння. Дані надзвичайно зросли, і в майбутньому вони продовжуватимуть збільшуватися швидше.
У цій публікації ми розглянемо вільно доступні набори даних, які ви можете використовувати для розробки свого наступного проекту ШІ.
1. Набір даних атрибутів CelebFaces
Набір атрибутів CelebFaces (CelebA) містить понад 200 тисяч фотографій знаменитостей і 40 анотацій атрибутів для кожного зображення, що робить його чудовою відправною точкою для таких проектів, як розпізнавання обличчя, виявлення обличчя, локалізація орієнтира (або компонента обличчя), редагування та синтез обличчя. Крім того, фотографії в цій колекції містять широкий спектр варіантів позиції та безладного фону.
2. DOTA
DOTA (Набір даних Виявлення об'єктів в аерофотознімках) — це великомасштабний набір даних для виявлення об’єктів, який включає 15 загальних категорій (наприклад, корабель, літак, автомобіль тощо), 1411 зображень для навчання та 458 зображень для перевірки.
3. Набір даних порівняння виразу обличчя Google
Набір даних порівняння виразів обличчя Google містить близько 500,000 156,000 триплетів зображень, включаючи XNUMX XNUMX фотографій облич. Варто зазначити, що кожен триплет у цьому наборі даних був анотований принаймні шістьма оцінювачами.
Цей набір даних корисний для проектів, пов’язаних з аналізом виразу обличчя, наприклад пошуку зображення на основі виразу, категоризації емоцій, синтезу виразу обличчя тощо. Щоб отримати доступ до набору даних, необхідно заповнити коротку форму.
4. Візуальний геном
Дані Visual Question Answering у середовищі з кількома варіантами відповідей доступні у Visual Genome. Він складається зі 101,174 1.7 фотографій MSCOCO з 17 мільйонами пар QA, в середньому XNUMX запитань на зображення.
У порівнянні з набором даних Visual Question Answering набір даних Visual Genome має більш справедливий розподіл між шістьма типами запитань: що, де, коли, хто, чому та як.
Крім того, набір даних Visual Genome включає 108 тис. фотографій, які були сильно позначені об’єктами, властивостями та зв’язками.
5. LibriSpeech
Корпус LibriSpeech — це колекція з близько 1,000 годин аудіокниг проекту LibriVox. Більшість аудіокниг походить від проекту Гутенберг.
Навчальні дані поділено на три частини по 100 годин, 360 годин і 500 годин, тоді як дані розробки та тестування мають тривалість аудіо приблизно 5 годин.
6. Міські простори
Одна з найвідоміших великомасштабних баз даних стереовідео з видами міста називається The Cityscapes.
Завдяки анотаціям із точністю до пікселів, які включають дані про місцезнаходження GPS, зовнішню температуру, дані про його-рух і правильні стереоракурси, він включає записи з 50 різних міст Німеччини.
7. Набір даних Kinetics
Одним із найвідоміших наборів відеоданих для розпізнавання людської діяльності у великому масштабі та з гарною якістю є набір даних Kinetics. Існує щонайменше 600 відеокліпів для кожного з 600 класів людської діяльності, а загалом понад 500,000 XNUMX.
Фільми були вилучені з YouTube; кожен із них триває приблизно 10 секунд і містить лише один клас активності.
8. CelebAMask-HQ
CelebAMask-HQ — це колекція з 30,000 19 фотографій облич з високою роздільною здатністю з ретельно анотованими масками та XNUMX класами, які включають такі компоненти обличчя, як шкіра, ніс, очі, брови, вуха, рот, губи, волосся, капелюх, окуляри, сережки, намисто, горловина, матеріал.
Набір даних можна використовувати для тестування та навчання розпізнавання обличчя, аналізу обличчя та GAN для алгоритмів створення та редагування обличчя.
9. Пенн Трінкбанк
Одним із найбільш помітних і часто використовуваних корпусів для оцінки моделей для позначення послідовностей є корпус English Penn Treebank (PTB), зокрема частина корпусу, що відповідає статтям Wall Street Journal.
Кожне слово має мати свою частину мови, яка є складовою завдання. Рівень символів і рівень слів мовне моделювання також часто використовує корпус.
10. VoxCeleb
VoxCeleb — це масштабний набір даних ідентифікації мовлення, створений автоматично з ЗМІ з відкритим кодом. VoxCeleb містить понад мільйон висловлювань від понад 6 тисяч спікерів.
Оскільки набір даних містить аудіовізуальні дані, його можна використовувати для різноманітних додаткових програм, зокрема для візуального синтезу мовлення, розділення мовлення, крос-модального перенесення від обличчя до голосу чи навпаки, а також для навчання розпізнаванню обличчя з відео на додаток до поточного розпізнавання обличчя. набори даних.
11. ШІСТИЙ промінь
Набір даних SIXray включає 1,059,231 XNUMX XNUMX рентгенівський знімок, зібраний на станціях метро та анотований інспекторами безпеки, щоб виявити шість основних типів заборонених предметів: пістолети, ножі, гайкові ключі, плоскогубці, ножиці та молотки. Крім того, обмежувальні рамки для кожного забороненого елемента були вручну додані до наборів для тестування, щоб оцінити ефективність локалізації об’єктів.
12. Аварії в США
Суть проекту розкривається вже з назви набору даних «Аварії в США». Цей набір даних про загальнонаціональні автомобільні аварії містить інформацію з лютого 2016 року по грудень 2021 року та охоплює 49 штатів США.
Зараз у цій колекції міститься приблизно 1.5 мільйона записів про нещасні випадки. Він був зібраний у режимі реального часу за допомогою кількох API трафіку.
Ці API передають інформацію про дорожній рух, зібрану з різних джерел, включаючи камери руху, правоохоронні органи, а також департамент транспорту США та штату.
13. Розпізнавання очних захворювань
Організована офтальмологічна база даних Ocular Disease Intelligent Recognition (ODIR) містить інформацію про 5,000 пацієнтів, включаючи їхній вік, колір очного дна лівого та правого ока та діагностичні ключові слова медичних працівників.
Цей набір даних є фактичною колекцією даних пацієнтів із різних лікарень і медичних закладів Китаю, які придбала Shanggong Medical Technology Co., Ltd. с управління контролем якості, анотації були позначені тегами досвідченими людьми.
14. Хвороба серця
Цей набір даних про захворювання серця допомагає визначити наявність захворювання серця у пацієнта на основі 76 параметрів, таких як вік, стать, вид болю в грудях, артеріальний тиск у спокої тощо.
З 303 випадками база даних намагається просто відрізнити існування хвороби (значення 1,2,3,4) від її відсутності (значення 0).
15. CLEVR
Набір даних CLEVR (Compositional Language and Elementary Visual Reasoning) імітує Visual Question Answering. Він складається з фотографій тривимірних об’єктів, кожна фотографія супроводжується низкою композиційних запитань, розділених на кілька категорій.
Для всіх тренувальних і перевірочних зображень і запитань набір даних містить 70,000 700,000 фотографій і 15,000 150,000 запитань для навчання, 15,000 150,000 зображень і XNUMX XNUMX запитань для перевірки, а також XNUMX XNUMX зображень і XNUMX XNUMX запитань для тестування з об’єктами, відповідями, графіками сцен і функціональними програмами.
16. Універсальні залежності
Проект Universal Dependencies (UD) має на меті створити міжмовну уніфіковану морфологічну та синтаксичну анотацію банку дерев для багатьох мов. Версія 2.7, яка була випущена в 2020 році, містить 183 дерева 104 мовами.
Анотація складається з універсальних тегів POW, заголовків залежностей і універсальних міток залежностей.
17. КІТІ – 360
Один із найбільш часто використовуваних наборів даних для мобільних роботів і автономне водіння є KITTI (Технологічний інститут Карлсруе та Технологічний інститут Toyota).
Він складається з багатогодинних сценаріїв дорожнього руху, які були зняті за допомогою різноманітних датчиків, таких як камери RGB високої роздільної здатності, стереовідтінки сірого та 3D-камери лазерного сканера. Набір даних з часом вдосконалювався декількома дослідниками, які вручну анотували різні його частини відповідно до своїх потреб.
18. MOT (відстеження кількох об'єктів)
MOT (Multiple Object Tracking) — це набір даних для відстеження кількох об’єктів, який включає внутрішні та зовнішні пейзажі громадських місць, які включають пішоходів як об’єкти інтересу. Відео кожної сцени розбивається на дві частини, одну для навчання, а іншу для тестування.
Набір даних включає виявлення об'єктів у відеокадрах за допомогою трьох детекторів: SDP, Faster-RCNN і DPM.
19. PASCAL 3D+
Багатопрозорий набір даних Pascal3D+ складається з фотографій, зібраних у природі, тобто зображень категорій предметів із високою мінливістю, знятих у неконтрольованих обставинах, у багатолюдному середовищі та в різних положеннях. Pascal3D+ містить 12 жорстких категорій об’єктів, взятих із набору даних PASCAL VOC 2012.
На цих предметах позначається інформація про положення (азимут, висота та відстань до камери). Pascal3D+ додатково включає в ці 12 категорій фотографії з анотованими позами з колекції ImageNet.
20. Лицьові деформовані моделі тварин
Метою проекту Facial Deformable Models of Animals (FDMA) є випробування поточних методологій ідентифікації та відстеження орієнтирів обличчя людини та розробка нових алгоритмів, які можуть впоратися зі значно більшою мінливістю, характерною для характеристик обличчя тварин.
Алгоритми проекту продемонстрували здатність розпізнавати та відстежувати орієнтири на людських обличчях, маючи справу з відхиленнями, спричиненими змінами в емоціях або положеннях обличчя, частковими оклюзіями та освітленням.
21. MPII Human Post Dataset
Набір MPII Human Pose Dataset містить близько 25 тис. фотографій, 15 тис. з яких є зразками для навчання, 3 тис. з яких є зразками перевірки та 7 тис. з яких є зразками для тестування.
Позиції вручну позначені до 16 суглобів тіла, а фотографії взяті з фільмів YouTube, які охоплюють 410 різних видів людської діяльності.
22. UCF101
Набір даних UCF101 містить 13,320 відеокліпів, упорядкованих у 101 категорію. Ці 101 категорія поділяються на п’ять категорій: рухи тіла, взаємодія між людиною, взаємодія між людиною та об’єктом, гра на музичних інструментах і спорт.
Відео з YouTube і складаються з 27 годин.
23. Audioset
Audioset — це набір даних аудіоподій, що складається з понад 2 мільйонів анотованих людьми 10-секундних відеосегментів. Щоб анотувати ці дані, використовується ієрархічна онтологія, що включає 632 типи подій, що означає, що той самий звук може бути позначений по-різному.
24. Стенфордський висновок природної мови
Набір даних SNLI (Стенфордський висновок про природну мову) містить 570 тисяч пар речень, які вручну класифіковані як втягнення, протиріччя або нейтральні.
Передумовами є описи зображень на Flickr30k, тоді як гіпотези були розроблені краудсорсинговими анотаторами, яким було надано передумову та вказівки генерувати пов’язані, суперечливі та нейтральні твердження.
25. Візуальна відповідь на питання
Візуальна відповідь на запитання (VQA) — це набір даних, який містить відкриті запитання щодо зображень. Щоб відповісти на ці запитання, вам потрібно осягнути бачення, мову та здоровий глузд.
Висновок
Оскільки машинне навчання та штучний інтелект (ШІ) стають все більш поширеними практично в кожному бізнесі та в нашому повсякденному житті, кількість доступних ресурсів та інформації на цю тему також зростає.
Готові загальнодоступні набори даних є чудовою відправною точкою для розробки моделей AI, а також дозволяють досвідченим програмістам ML заощадити час і зосередитися на інших елементах своїх проектів.
залишити коментар