Saturs[Paslēpt][Rādīt]
- 1. CelebFaces atribūtu datu kopa
- 2. DOTA
- 3. Google sejas izteiksmes salīdzināšanas datu kopa
- 4. Vizuālais genoms
- 5. LibriSpeech
- 6. Pilsētas telpas
- 7. Kinētikas datu kopa
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. ASV nelaimes gadījumi
- 13. Acu slimību atpazīšana
- 14. Sirds slimība
- 15. CLEVR
- 16. Universālās atkarības
- 17. KITI – 360
- 18. MOT (vairāku objektu izsekošana)
- 19. PASCAL 3D+
- 20. Dzīvnieku sejas deformējamie modeļi
- 21. MPII cilvēka pasta datu kopa
- 22. UCF101
- 23. Audioset
- 24. Stenfordas dabiskās valodas secinājumi
- 25. Vizuāla jautājumu atbildēšana
- Secinājumi
Mūsdienās lielākā daļa no mums koncentrējas uz mašīnmācības un AI modeļu izstrādi un problēmu risināšanu, izmantojot pašreizējās datu kopas. Bet vispirms mums ir jādefinē datu kopa, tās nozīme un loma spēcīgu AI un ML risinājumu izstrādē.
Mūsdienās mums ir daudz atvērtā pirmkoda datu kopu, kurās veikt pētījumus vai izstrādāt lietojumprogrammas, lai risinātu reālās pasaules problēmas dažādās nozarēs.
Tomēr augstas kvalitātes kvantitatīvo datu kopu trūkums rada bažas. Dati ir ārkārtīgi pieauguši, un nākotnē tie pieaugs straujāk.
Šajā ziņojumā mēs apskatīsim brīvi pieejamās datu kopas, kuras varat izmantot sava nākamā AI projekta izstrādei.
1. CelebFaces atribūtu datu kopa
CelebFaces atribūtu datu kopa (CelebA) satur vairāk nekā 200 40 slavenību fotoattēlu un XNUMX atribūtu anotācijas katram attēlam, padarot to par lielisku sākumpunktu tādiem projektiem kā sejas atpazīšana, sejas noteikšana, orientieru (vai sejas komponentu) lokalizācija un sejas rediģēšana un sintēze. Turklāt šīs kolekcijas fotoattēli satur plašu pozīciju variantu klāstu un fona jucekli.
2. DOTA
DOTA (datu kopa no Objektu noteikšana in Aerial Photos) ir liela mēroga datu kopa objektu noteikšanai, kas ietver 15 izplatītas kategorijas (piemēram, kuģis, lidmašīna, automašīna utt.), 1411 attēlus apmācībai un 458 attēlus apstiprināšanai.
3. Google sejas izteiksmes salīdzināšanas datu kopa
Google sejas izteiksmes salīdzināšanas datu kopā ir aptuveni 500,000 156,000 attēlu trīskāršu, tostarp XNUMX XNUMX sejas fotoattēlu. Ir vērts atzīmēt, ka katru tripletu šajā datu kopā atzīmēja vismaz seši cilvēku vērtētāji.
Šī datu kopa ir noderīga projektiem, kas ietver sejas izteiksmes analīzi, piemēram, uz izteiksmi balstītu attēlu izgūšanu, emociju kategorizēšanu, izteiksmes sintēzi utt. Lai piekļūtu datu kopai, ir jāaizpilda īsa veidlapa.
4. Vizuālais genoms
Visual Question Atbilžu dati vairāku atbilžu variantu vidē ir pieejami Visual Genome. To veido 101,174 1.7 MSCOCO fotoattēli ar 17 miljoniem kvalitātes nodrošināšanas pāru, un katrā attēlā ir vidēji XNUMX jautājumi.
Salīdzinot ar Visual Question Answering datu kopu, Visual Genome datu kopai ir taisnīgāks sadalījums pa sešiem jautājumu veidiem: Kas, Kur, Kad, Kas, Kāpēc un Kā.
Turklāt Visual Genome datu kopā ir 108 XNUMX fotoattēlu, kas ir ļoti marķēti ar objektiem, rekvizītiem un savienojumiem.
5. LibriSpeech
LibriSpeech korpuss ir aptuveni 1,000 stundu audiogrāmatu kolekcija no projekta LibriVox. Lielākā daļa audiogrāmatu nāk no projekta Gutenberg.
Apmācības dati ir sadalīti trīs nodalījumos pa 100 h, 360 hr un 500 hr komplektiem, savukārt izstrādes un testa dati ir aptuveni 5 h audio garumā.
6. Pilsētas telpas
Viena no vispazīstamākajām liela mēroga stereo video datu bāzēm ar pilsētas skatiem tiek saukta par pilsētas ainavām.
Ar pikseļu precīzām anotācijām, kas ietver GPS atrašanās vietas, āra temperatūru, ego kustības datus un pareizo stereo perspektīvu, tas ietver ierakstus no 50 dažādām Vācijas pilsētām.
7. Kinētikas datu kopa
Viena no vispazīstamākajām video datu kopām cilvēka darbības atpazīšanai lielā mērogā un labā kvalitātē ir Kinetics datu kopa. Katrā no 600 cilvēku darbības klasēm ir vismaz 600 videoklipu, kopā vairāk nekā 500,000 XNUMX.
Filmas tika izņemtas no YouTube; Katrs no tiem ir aptuveni 10 sekundes garš, un tajā ir norādīta tikai viena aktivitātes klase.
8. CelebAMask-HQ
CelebAMask-HQ ir 30,000 19 augstas izšķirtspējas sejas fotoattēlu kolekcija ar rūpīgi anotētām maskām un XNUMX klasēm, kas ietver sejas komponentus, piemēram, ādu, degunu, acis, uzacis, ausis, mute, lūpas, mati, cepure, brilles, auskari, kaklarota, kakls, materiāls.
Datu kopu var izmantot, lai pārbaudītu un apmācītu sejas atpazīšanu, sejas parsēšanu un GAN seju ģenerēšanas un rediģēšanas algoritmiem.
9. Penn Treebank
Viens no visievērojamākajiem un biežāk izmantotajiem korpusiem secības marķēšanas modeļu novērtēšanai ir angļu Penn Treebank (PTB) korpuss, jo īpaši tā korpusa daļa, kas atbilst Wall Street Journal rakstiem.
Katram vārdam sava runas daļa ir jāatzīmē kā uzdevuma sastāvdaļa. Rakstzīmju un vārdu līmenī valodas modelēšana arī bieži izmanto korpusu.
10. VoxCeleb
VoxCeleb ir liela mēroga runas identifikācijas datu kopa, kas automātiski ģenerēta no atvērtā pirmkoda mediji. VoxCeleb ir vairāk nekā miljons izteikumu no vairāk nekā 6 XNUMX skaļruņiem.
Tā kā datu kopā ir iekļauts audiovizuālais datu kopums, to var izmantot dažādām papildu lietojumprogrammām, tostarp vizuālai runas sintēzei, runas atdalīšanai, starpmodālai pārsūtīšanai no sejas uz balsi vai otrādi, kā arī sejas atpazīšanas apmācībai no video, lai papildinātu pašreizējo sejas atpazīšanu. datu kopas.
11. SIXray
SIXray datu kopā ir iekļauts 1,059,231 XNUMX XNUMX rentgena attēls, kas savākts no metro stacijām un ar anotācijām ar cilvēku drošības inspektoriem, lai atklātu sešus galvenos aizliegto priekšmetu veidus: pistoles, nažus, uzgriežņu atslēgas, knaibles, šķēres un āmurus. Turklāt, lai novērtētu objektu lokalizācijas veiktspēju, testēšanas kopām ir manuāli pievienoti ierobežojošie lodziņi katram neatļautajam vienumam.
12. ASV nelaimes gadījumi
Projekta būtību jau atklāj datu kopas nosaukums US Accidents. Šī datu kopa par valsts mēroga autoavārijām ietver informāciju no 2016. gada februāra līdz 2021. gada decembrim un aptver 49 ASV štatus.
Tagad šajā kolekcijā ir aptuveni 1.5 miljoni negadījumu ierakstu. Tas tika apkopots reāllaikā, izmantojot vairākas trafika API.
Šīs API pārraida satiksmes informāciju, kas iegūta no dažādiem avotiem, tostarp satiksmes kamerām, tiesībaizsardzības organizācijām un ASV un valsts transporta departamentiem.
13. Acu slimību atpazīšana
Organizētā oftalmoloģiskā datu bāze Acu slimību inteliģentā atpazīšana (ODIR) satur informāciju par 5,000 pacientiem, tostarp viņu vecumu, kreisās un labās acs dibena krāsu un medicīnas speciālistu diagnostikas atslēgvārdus.
Šī datu kopa ir faktiska pacientu datu kolekcija no dažādām Ķīnas slimnīcām un medicīnas iestādēm, ko ir ieguvis Shanggong Medical Technology Co., Ltd. Ar kvalitātes kontroles vadība, anotācijas atzīmēja prasmīgi lasītāji.
14. Sirds slimība
Šī sirds slimību datu kopa palīdz noteikt sirds slimības esamību pacientam, pamatojoties uz 76 parametriem, piemēram, vecumu, dzimumu, sāpju veidu krūtīs, asinsspiedienu miera stāvoklī un tā tālāk.
Ar 303 gadījumiem datu bāze cenšas vienkārši atšķirt slimības esamību (vērtība 1,2,3,4) no tās neesamības (vērtība 0).
15. CLEVR
CLEVR datu kopa (kompozīcijas valoda un elementārais vizuālais pamatojums) atdarina vizuālo jautājumu atbildēšanu. Tas sastāv no 3D atveidotu objektu fotogrāfijām, un katrai fotogrāfijai pievienota virkne ļoti kompozīcijas jautājumu, kas iedalīti vairākās kategorijās.
Visiem vilcienu un validācijas attēliem un jautājumiem datu kopa ietver 70,000 700,000 fotoattēlu un 15,000 150,000 jautājumu apmācībai, 15,000 150,000 attēlu un XNUMX XNUMX jautājumu apstiprināšanai, kā arī XNUMX XNUMX attēlu un XNUMX XNUMX jautājumu testēšanai, kas ietver objektus, atbildes, ainu programmu grafikus un funkcionālo programmu grafikus.
16. Universālās atkarības
Universālo atkarību (UD) projekta mērķis ir izveidot starplingvistiski vienotu morfoloģiju un sintakses koku banku anotāciju daudzām valodām. Versijā 2.7, kas tika izlaista 2020. gadā, ir 183 koku bankas 104 valodās.
Anotācija sastāv no universālajiem POW tagiem, atkarības galvām un universālajām atkarības etiķetēm.
17. KITIJA – 360
Viena no visbiežāk izmantotajām datu kopām mobilajiem robotiem un autonoma braukšana ir KITTI (Karlsrūes Tehnoloģiju institūts un Toyota Tehnoloģiskais institūts).
To veido stundu vērti satiksmes scenāriji, kas tika uzņemti, izmantojot dažādas sensoru modalitātes, piemēram, augstas izšķirtspējas RGB, pelēktoņu stereo un 3D lāzera skenera kameras. Datu kopu laika gaitā ir uzlabojuši vairāki pētnieki, kuri manuāli anotēja dažādas tās daļas, lai tās atbilstu savām vajadzībām.
18. MOT (vairāku objektu izsekošana)
MOT (vairāku objektu izsekošana) ir vairāku objektu izsekošanas datu kopa, kas ietver publisku vietu iekštelpu un āra ainavas, kurās kā interesējošie objekti ir iekļauti gājēji. Katras ainas videoklips ir sadalīts divās daļās, no kurām viena ir paredzēta apmācībai, bet otra - pārbaudei.
Datu kopa ietver objektu noteikšana video kadros, izmantojot trīs detektorus: SDP, Faster-RCNN un DPM.
19. PASCAL 3D+
Pascal3D+ vairāku skatu datu kopa sastāv no fotogrāfijām, kas savāktas savvaļā, ti, priekšmetu kategoriju attēliem ar lielu mainīgumu, kas uzņemti nekontrolētos apstākļos, pārpildītā vidē un dažādās pozīcijās. Pascal3D+ ietver 12 stingras objektu kategorijas, kas iegūtas no PASCAL VOC 2012 datu kopas.
Uz šiem priekšmetiem ir atzīmēta informācija par stāju (azimuts, augstums un attālums līdz kamerai). Pascal3D+ šajās 12 kategorijās papildus ietver fotoattēlus ar pozu anotāciju no ImageNet kolekcijas.
20. Dzīvnieku sejas deformējamie modeļi
Projekta Facial Deformable Models of Animals (FDMA) mērķis ir apstrīdēt pašreizējās metodoloģijas cilvēka sejas orientieru identificēšanā un izsekošanas jomā un izstrādāt jaunus algoritmus, kas spēj tikt galā ar ievērojami lielāku mainīgumu, kas raksturīgs dzīvnieku sejas īpašībām.
Projekta algoritmi demonstrēja spēju atpazīt un izsekot orientierus uz cilvēku sejām, vienlaikus risinot atšķirības, ko izraisa sejas emociju vai pozīciju izmaiņas, daļēja oklūzija un apgaismojums.
21. MPII cilvēka pasta datu kopa
MPII cilvēka pozas datu kopā ir aptuveni 25 15 fotoattēlu, no kuriem 3 7 ir apmācības paraugi, XNUMX XNUMX no tiem ir validācijas paraugi un XNUMX K ir pārbaudes paraugi.
Pozīcijas ir manuāli marķētas ar līdz pat 16 ķermeņa locītavām, un fotogrāfijas ir ņemtas no YouTube filmām, kas aptver 410 dažādas cilvēka darbības.
22. UCF101
UCF101 datu kopā ir 13,320 101 videoklipi, kas sakārtoti 101 kategorijā. Šīs XNUMX kategorijas ir sadalītas piecās kategorijās: ķermeņa kustības, cilvēka un cilvēka mijiedarbība, cilvēka un objekta mijiedarbība, mūzikas instrumentu spēle un sports.
Videoklipi ir no YouTube, un to ilgums ir 27 stundas.
23. Audioset
Audioset ir audio notikumu datu kopa, kas sastāv no vairāk nekā 2 miljoniem cilvēku anotētu 10 sekunžu video segmentu. Lai komentētu šos datus, tiek izmantota hierarhiska ontoloģija, kas ietver 632 notikumu veidus, kas nozīmē, ka viena un tā pati skaņa var tikt apzīmēta atšķirīgi.
24. Stenfordas dabiskās valodas secinājumi
SNLI datu kopā (Stanford Natural Language Inference) ir 570 XNUMX teikumu pāru, kas ir manuāli klasificēti kā saistība, pretruna vai neitrāla.
Telpas ir Flickr30k attēlu apraksti, savukārt hipotēzes izstrādāja pūļa anotatori, kuriem tika nodrošināts priekšnoteikums un norādījumi radīt saistošus, pretrunīgus un neitrālus apgalvojumus.
25. Vizuāla atbildes uz jautājumiem
Visual Question Answering (VQA) ir datu kopa, kurā ir atvērti jautājumi par attēliem. Lai atbildētu uz šiem jautājumiem, jums ir jāsaprot redzējums, valoda un veselais saprāts.
Secinājumi
Tā kā mašīnmācība un mākslīgais intelekts (AI) kļūst arvien izplatītākas praktiski katrā biznesā un mūsu ikdienas dzīvē, pieaug arī pieejamo resursu un informācijas skaits par šo tēmu.
Gatavās publiskās datu kopas ir lielisks sākumpunkts AI modeļu izstrādei, vienlaikus ļaujot pieredzējušiem ML programmētājiem ietaupīt laiku un koncentrēties uz citiem savu projektu elementiem.
Atstāj atbildi