Змест[Схаваць][Паказаць]
- 1. Набор даных атрыбутаў CelebFaces
- 2. ДОТА
- 3. Набор параўнання выразаў твару Google
- 4. Візуальны геном
- 5. LibriПрамова
- 6. Гарадскія прасторы
- 7. Набор дадзеных Kinetics
- 8. CelebAMask-HQ
- 9. Пэн Трыбэнк
- 10. VoxCeleb
- 11. ШЭСТЫ прамень
- 12. Аварыі ў ЗША
- 13. Распазнаванне вочных захворванняў
- 14. Хваробы сэрца
- 15. CLEVR
- 16. Універсальныя залежнасці
- 17. КІЦІ – 360
- 18. MOT (адсочванне некалькіх аб'ектаў)
- 19. PASCAL 3D+
- 20. Тваравыя дэфарматыўныя мадэлі жывёл
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Аўдыянабор
- 24. Стэнфардскі вывад аб натуральнай мове
- 25. Візуальны адказ на пытанне
- заключэнне
У наш час большасць з нас засяроджана на распрацоўцы мадэляў машыннага навучання і штучнага інтэлекту і вырашэнні праблем з выкарыстаннем сучасных набораў даных. Але спачатку мы павінны вызначыць набор даных, яго значэнне і ролю ў распрацоўцы моцных рашэнняў AI і ML.
Сёння ў нас ёсць мноства набораў даных з адкрытым зыходным кодам, на якіх можна праводзіць даследаванні або распрацоўваць прыкладанні для вырашэння праблем рэальнага свету ў розных сектарах.
Аднак дэфіцыт высакаякасных колькасных набораў даных выклікае непакой. Дадзеныя значна выраслі і ў будучыні будуць павялічвацца больш хуткімі тэмпамі.
У гэтай публікацыі мы разгледзім наборы даных, даступных у вольным доступе, якія вы можаце выкарыстоўваць для распрацоўкі свайго наступнага праекта штучнага інтэлекту.
1. Набор даных атрыбутаў CelebFaces
CelebFaces Attributes Dataset (CelebA) змяшчае больш за 200 тыс. фатаграфій знакамітасцей і 40 анатацый атрыбутаў для кожнай выявы, што робіць яго выдатнай адпраўной кропкай для такіх праектаў, як распазнанне асобы, выяўленне твараў, лакалізацыя арыенціраў (або кампанентаў твару), а таксама рэдагаванне і сінтэз твараў. Акрамя таго, фатаграфіі ў гэтай калекцыі ўтрымліваюць шырокі спектр варыянтаў размяшчэння і беспарадак фону.
2. DOTA
DOTA (Набор дадзеных выяўленне аб'екта у аэрафотаздымках) - гэта буйнамаштабны набор даных для выяўлення аб'ектаў, які ўключае 15 агульных катэгорый (напрыклад, карабель, самалёт, аўтамабіль і г.д.), 1411 малюнкаў для навучання і 458 малюнкаў для праверкі.
3. Набор параўнання выразаў твару Google
Набор даных параўнання выразаў твару Google утрымлівае каля 500,000 156,000 троек малюнкаў, у тым ліку XNUMX XNUMX фатаграфій твараў. Варта адзначыць, што кожны трыплет у гэтым наборы дадзеных быў анатаваны як мінімум шасцю ацэншчыкамі.
Гэты набор даных карысны для праектаў, звязаных з аналізам выразаў твару, такіх як пошук малюнкаў на аснове выразаў, катэгарызацыі эмоцый, сінтэз выразаў і г.д. Каб атрымаць доступ да набору дадзеных, неабходна запоўніць кароткую форму.
4. Візуальны геном
Даныя візуальных адказаў на пытанні ў асяроддзі з некалькімі варыянтамі даступныя ў Visual Genome. Ён складаецца з 101,174 1.7 фатаграфій MSCOCO з 17 мільёна пар QA, у сярэднім XNUMX пытанняў на выяву.
У параўнанні з наборам даных Visual Question Answering набор даных Visual Genome мае больш справядлівае размеркаванне па шасці тыпах пытанняў: што, дзе, калі, хто, чаму і як.
Акрамя таго, набор даных Visual Genome уключае 108 тыс. фатаграфій, якія былі моцна пазначаны аб'ектамі, уласцівасцямі і сувязямі.
5. LibriSpeech
Корпус LibriSpeech - гэта калекцыя з каля 1,000 гадзін аўдыякніг праекта LibriVox. Большасць аўдыякніг паходзяць з праекта Гутэнберг.
Навучальныя даныя падзелены на тры часткі па 100 гадзін, 360 гадзін і 500 гадзін, у той час як даныя распрацоўкі і тэставання складаюць аўдыяпрацягласць прыкладна 5 гадзін.
6. Гарадскія прасторы
Адна з самых вядомых буйнамаштабных баз стэрэавідэа з гарадскімі відамі называецца The Cityscapes.
З дакладнымі да пікселяў анатацыямі, якія ўключаюць месцазнаходжанне GPS, вонкавую тэмпературу, даныя эга-руху і правыя стэрэаперспектывы, ён уключае запісы з 50 розных гарадоў Германіі.
7. Набор дадзеных Kinetics
Адзін з самых вядомых набораў відэаданых для распазнання чалавечай дзейнасці ў вялікіх маштабах і з добрай якасцю - гэта набор даных Kinetics. Ёсць не менш за 600 відэаролікаў для кожнага з 600 класаў чалавечай дзейнасці, агульнай колькасцю больш за 500,000 XNUMX.
Фільмы былі знятыя з YouTube; кожны з іх доўжыцца каля 10 секунд і мае ў спісе толькі адзін клас актыўнасці.
8. CelebAMask-HQ
CelebAMask-HQ - гэта калекцыя з 30,000 19 фотаздымкаў твараў з высокім разрозненнем з старанна анатаванымі маскамі і XNUMX класамі, якія ўключаюць такія кампаненты твару, як скура, нос, вочы, бровы, вушы, рот, вусны, валасы, капялюш, акуляры, завушніцы, каралі, гарлавіна, матэрыял.
Набор даных можа быць выкарыстаны для тэсціравання і навучання распазнавання твараў, аналізу твараў і GAN для алгарытмаў стварэння і рэдагавання твараў.
9. Пэн Трыбэнк
Адным з найбольш вядомых і часта выкарыстоўваных корпусаў для ацэнкі мадэляў для пазначэння паслядоўнасці з'яўляецца англійскі Penn Treebank (PTB), у прыватнасці, частка корпуса, якая адпавядае артыкулам Wall Street Journal.
Кожнае слова павінна мець сваю часціну мовы, пазначаную як кампанент задання. Узровень персанажа і ўзровень слова моўнае мадэляванне таксама часта выкарыстоўвае корпус.
10. VoxCeleb
VoxCeleb - гэта буйнамаштабны набор даных ідэнтыфікацыі маўлення, створаны аўтаматычна з СМІ з адкрытым зыходным кодам. VoxCeleb змяшчае больш за мільён выказванняў больш чым 6 тыс. носьбітаў.
Паколькі набор даных уключае аўдыявізуальныя матэрыялы, яго можна выкарыстоўваць для розных дадатковых прыкладанняў, у тым ліку для візуальнага сінтэзу маўлення, падзелу маўлення, крос-мадальнай перадачы з твару на голас ці наадварот, а таксама для навучання распазнаванню твараў з відэа ў дадатак да цяперашняга распазнавання твараў наборы даных.
11. ШАСЦІ прамень
Набор даных SIXray уключае 1,059,231 XNUMX XNUMX рэнтгенаўскіх здымкаў, сабраных са станцый метро і анатаваных інспектарамі бяспекі, каб выявіць шэсць асноўных відаў забароненых прадметаў: пісталеты, нажы, гаечныя ключы, абцугі, нажніцы і малаткі. Акрамя таго, абмежавальныя рамкі для кожнага забароненага элемента былі ўручную дададзены ў тэставыя наборы для ацэнкі прадукцыйнасці лакалізацыі аб'екта.
12. Аварыі ў ЗША
Сутнасць праекта раскрываецца ўжо па назве набору даных «Аварыі ў ЗША». Гэты набор даных аб агульнанацыянальных аўтамабільных аварыях уключае інфармацыю з лютага 2016 г. па снежань 2021 г. і ахоплівае 49 штатаў ЗША.
Зараз у гэтай калекцыі прысутнічае каля 1.5 мільёна запісаў аб аварыях. Ён быў сабраны ў рэжыме рэальнага часу з выкарыстаннем некалькіх API трафіку.
Гэтыя API перадаюць інфармацыю аб дарожным руху, сабраную з розных крыніц, уключаючы дарожныя камеры, праваахоўныя органы, а таксама дэпартаменты транспарту ЗША і штатаў.
13. Распазнанне вочных захворванняў
Арганізаваная афтальмалагічная база дадзеных Ocular Disease Intelligent Recognition (ODIR) змяшчае інфармацыю аб 5,000 пацыентах, уключаючы іх узрост, колер вочнага дна левага і правага вока і ключавыя словы для дыягностыкі медыцынскіх работнікаў.
Гэты набор даных з'яўляецца фактычнай калекцыяй даных пацыентаў з розных бальніц і медыцынскіх устаноў Кітая, якія набыла Shanggong Medical Technology Co., Ltd. з кіраванне кантролем якасці, анатацыі былі пазначаны кваліфікаванымі чытачамі.
14. хвароба сэрца
Гэты набор даных аб хваробах сэрца дапамагае вызначыць наяўнасць хваробы сэрца ў пацыента на аснове 76 параметраў, такіх як узрост, пол, тып болю ў грудзях, крывяны ціск у стане спакою і г.д.
З 303 выпадкамі база дадзеных імкнецца проста адрозніць наяўнасць хваробы (значэнне 1,2,3,4) ад яе адсутнасці (значэнне 0).
15. CLEVR
Набор даных CLEVR (кампазіцыйная мова і элементарнае візуальнае разважанне) імітуе візуальны адказ на пытанні. Ён складаецца з фотаздымкаў трохмерных аб'ектаў, прычым кожная фатаграфія суправаджаецца шэрагам высокакампазіцыйных пытанняў, падзеленых на некалькі катэгорый.
Для ўсіх малюнкаў і пытанняў для навучання і праверкі набор даных уключае 70,000 700,000 фатаграфій і 15,000 150,000 пытанняў для навучання, 15,000 150,000 малюнкаў і XNUMX XNUMX пытанняў для праверкі і XNUMX XNUMX малюнкаў і XNUMX XNUMX пытанняў для тэсціравання аб'ектаў, адказаў, графікаў сцэн і функцыянальных праграм.
16. Універсальныя залежнасці
Праект Universal Dependencies (UD) накіраваны на стварэнне крос-лінгвістычна аднастайнай марфалогіі і сінтаксіснай анатацыі дрэвападобнага банка для многіх моў. Версія 2.7, якая была выпушчана ў 2020 годзе, мае 183 базы дрэў на 104 мовах.
Анатацыя складаецца з універсальных тэгаў POW, загалоўкаў залежнасцей і універсальных метак залежнасцей.
17. КІЦІ – 360
Адзін з найбольш часта выкарыстоўваюцца набораў дадзеных для мабільных робатаў і аўтаномнае кіраванне аўтамабілем з'яўляецца KITTI (тэхналагічны інстытут Карлсруэ і тэхналагічны інстытут Toyota).
Ён складаецца з шматгадзінных сцэнарыяў дарожнага руху, якія былі зафіксаваны з выкарыстаннем розных датчыкаў, такіх як RGB высокай раздзяляльнасці, стэрэакамеры ў адценнях шэрага і 3D-лазерны сканер. Набор даных з цягам часу ўдасканальваўся некалькімі даследчыкамі, якія ўручную анатавалі розныя яго часткі ў адпаведнасці са сваімі патрэбамі.
18. MOT (адсочванне некалькіх аб'ектаў)
MOT (адсочванне некалькіх аб'ектаў) - гэта набор даных для адсочвання некалькіх аб'ектаў, які ўключае ўнутраныя і адкрытыя пейзажы грамадскіх месцаў, якія ўключаюць у сябе пешаходаў у якасці аб'ектаў цікавасці. Відэа кожнай сцэны разбіваецца на дзве часткі: адна для навучання, а другая для тэставання.
Набор даных уключае выяўлення аб'ектаў у кадрах відэа з дапамогай трох дэтэктараў: SDP, Faster-RCNN і DPM.
19. PASCAL 3D+
Набор даных Pascal3D+ з многімі праглядамі складаецца з фотаздымкаў, сабраных у дзікай прыродзе, г.зн. выяваў катэгорый прадметаў з высокай зменлівасцю, зробленых у некантраляваных абставінах, у людных умовах і ў розных месцах. Pascal3D+ уключае 12 жорсткіх катэгорый аб'ектаў, узятых з набору даных PASCAL VOC 2012.
На гэтых элементах пазначана інфармацыя аб становішчы (азімут, вышыня і адлегласць да камеры). У гэтыя 3 катэгорый Pascal12D+ дадаткова змяшчае фатаграфіі з анатацыямі ў позах з калекцыі ImageNet.
20. Тваравыя дэфармаваныя мадэлі жывёл
Мэтай праекта Facial Deformable Models of Animals (FDMA) з'яўляецца аспрэчванне сучасных метадалогій ідэнтыфікацыі і адсочвання арыенціраў асобы чалавека і распрацоўка новых алгарытмаў, якія могуць справіцца са значна большай зменлівасцю, характэрнай для характарыстык твару жывёл.
Алгарытмы праекта прадэманстравалі здольнасць распазнаваць і адсочваць арыенціры на чалавечых тварах, маючы справу з адхіленнямі, выкліканымі зменамі эмоцый або становішча твару, частковай аклюзіі і асвятлення.
21. Набор дадзеных MPII Human Post
Набор дадзеных MPII Human Pose Dataset змяшчае каля 25 тыс. фотаздымкаў, 15 тыс. з якіх з'яўляюцца навучальнымі ўзорамі, 3 тыс. з якіх - праверкавымі і 7 тыс. - тэставымі.
Пазіцыі ўручную пазначаны да 16 суставаў цела, а фатаграфіі ўзяты з фільмаў YouTube, якія ахопліваюць 410 розных відаў дзейнасці чалавека.
22. UCF101
Набор дадзеных UCF101 змяшчае 13,320 101 відэакліпаў, арганізаваных па 101 катэгорыі. Гэтыя XNUMX катэгорыя падзелены на пяць катэгорый: рухі цела, узаемадзеянне чалавека з чалавекам, узаемадзеянне чалавека з аб'ектам, гульня на музычных інструментах і спорт.
Відэа з YouTube і складаюць 27 гадзін.
23. Аўдыянабор
Audioset - гэта набор даных аўдыяпадзей, які складаецца з больш чым 2 мільёнаў 10-секундных відэасегментаў з каментарамі чалавека. Для анатавання гэтых даных выкарыстоўваецца іерархічная анталогія, якая змяшчае 632 тыпы падзей, што азначае, што адзін і той жа гук можа быць пазначаны па-рознаму.
24. Стэнфардскі вывад аб натуральнай мове
Набор даных SNLI (Стэнфардскі вывад аб натуральнай мове) утрымлівае 570 тысяч пар прапаноў, якія былі ўручную класіфікаваны як уцягванне, супярэчнасць або нейтральнасць.
Памяшканнем з'яўляюцца апісанні малюнкаў Flickr30k, у той час як гіпотэзы былі распрацаваны краўдсорсінгавымі анататарамі, якім была прадастаўлена перадумова і праінструктавана ствараць заключныя, супярэчлівыя і нейтральныя выказванні.
25. Візуальны адказ на пытанне
Візуальны адказ на пытанні (VQA) - гэта набор даных, які змяшчае адкрытыя пытанні адносна малюнкаў. Каб адказаць на гэтыя пытанні, трэба авалодаць зрокам, мовай і здаровым сэнсам.
заключэнне
Паколькі машыннае навучанне і штучны інтэлект (AI) становяцца ўсё больш распаўсюджанымі практычна ў кожным бізнэсе і ў нашым паўсядзённым жыцці, расце і колькасць даступных рэсурсаў і інфармацыі па гэтай тэме.
Гатовыя агульнадаступныя наборы даных забяспечваюць выдатную адпраўную кропку для распрацоўкі мадэляў штучнага інтэлекту, а таксама дазваляюць вопытным праграмістам ML зэканоміць час і засяродзіцца на іншых элементах сваіх праектаў.
Пакінуць каментар