Sisukord[Peida][Näita]
- 1. CelebFaces'i atribuutide andmestik
- 2. DOTA
- 3. Google Facial Expression võrdlusandmestik
- 4. Visuaalne genoom
- 5. LibriSpeech
- 6. Linnaruumid
- 7. Kineetika andmestik
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. USA õnnetused
- 13. Silmahaiguste äratundmine
- 14. Südamehaigus
- 15. CLEVR
- 16. Universaalsed sõltuvused
- 17. KITTI – 360
- 18. MOT (mitme objekti jälgimine)
- 19. PASCAL 3D+
- 20. Loomade näo deformeeruvad mudelid
- 21. MPII inimpostituse andmestik
- 22. UCF101
- 23. Heliseade
- 24. Stanfordi loomuliku keele järeldus
- 25. Visuaalne küsimusele vastamine
- Järeldus
Tänapäeval on enamik meist keskendunud masinõppe ja AI mudelite arendamisele ning probleemide lahendamisele praeguste andmekogumite abil. Kuid kõigepealt peame määratlema andmekogumi, selle olulisuse ja rolli tugevate AI- ja ML-lahenduste väljatöötamisel.
Tänaseks on meil hulgaliselt avatud lähtekoodiga andmekogumeid, mille põhjal teha uuringuid või arendada rakendusi, et lahendada reaalmaailma probleeme erinevates sektorites.
Kvaliteetsete kvantitatiivsete andmekogumite nappus tekitab aga muret. Andmed on tohutult kasvanud ja laienevad ka tulevikus kiiremini.
Selles postituses käsitleme vabalt saadaolevaid andmekogumeid, mida saate kasutada oma järgmise AI-projekti arendamiseks.
1. CelebFaces'i atribuutide andmestik
CelebFaces'i atribuutide andmekogum (CelebA) sisaldab üle 200 40 kuulsuste foto ja XNUMX atribuudimärki iga pildi kohta, muutes selle suurepäraseks lähtepunktiks selliste projektide jaoks nagu näotuvastus, näotuvastus, maamärkide (või näokomponentide) lokaliseerimine ning näo redigeerimine ja süntees. Lisaks sisaldavad selle kollektsiooni fotod laias valikus asendivariante ja taustade segadust.
2. DOTA
DOTA (andmekogum Objekti tuvastamine in Aerial Photos) on suuremahuline andmekogum objektide tuvastamiseks, mis sisaldab 15 tavalist kategooriat (nt laev, lennuk, auto jne), 1411 pilti koolituseks ja 458 pilti kinnitamiseks.
3. Google'i näoilme võrdlusandmekogum
Google'i näoilmete võrdlusandmekogum sisaldab umbes 500,000 156,000 pildikolmikut, sealhulgas XNUMX XNUMX näofotot. Väärib märkimist, et igale selle andmestiku kolmikule märkisid vähemalt kuus hindajat.
See andmestik on kasulik näoilmeanalüüsi hõlmavate projektide jaoks, nagu ilmepõhine pildiotsing, emotsioonide kategoriseerimine, väljenduse süntees ja nii edasi. Andmestikule juurdepääsu saamiseks tuleb täita lühike vorm.
4. Visuaalne genoom
Visuaalsele küsimusele vastamise andmed valikvastustega keskkonnas on saadaval Visual Genome'is. See koosneb 101,174 1.7 MSCOCO fotost koos 17 miljoni QA paariga ja keskmiselt XNUMX küsimust pildi kohta.
Võrreldes Visual Question Answering andmestikuga on visuaalse genoomi andmekogumil õiglasem jaotus kuue küsimuse tüübi vahel: Mis, Kus, Millal, Kes, Miks ja Kuidas.
Lisaks sisaldab Visual Genome'i andmestik 108K fotot, mis on tugevalt märgistatud objektide, omaduste ja ühendustega.
5. LibriSpeech
LibriSpeechi korpus on kogumik umbes 1,000 tunnist LibriVoxi projekti audioraamatutest. Enamik audioraamatuid pärineb projektist Gutenberg.
Treeningandmed on jagatud kolmeks 100-, 360- ja 500-tunniseks osaks, samal ajal kui arendus- ja testiandmed on heli pikkusega ligikaudu 5 tundi.
6. Linnaruumid
Üks tuntumaid suuremahulisi linnavaadetega stereovideote andmebaase kannab nime The Cityscapes.
Pikslitäpsete märkustega, mis sisaldavad GPS-i asukohti, välistemperatuuri, ego liikumise andmeid ja õigeid stereoperspektiive, sisaldab see salvestusi 50 erinevast Saksamaa linnast.
7. Kineetika andmestik
Üks tuntumaid videoandmekogumeid inimtegevuse laiaulatuslikuks ja kvaliteetseks tuvastamiseks on Kinetics andmestik. Iga 600 inimtegevuse klassi kohta on vähemalt 600 videoklippi, kokku üle 500,000 XNUMX.
Filmid on tõmmatud YouTube'ist; igaüks neist on umbes 10 sekundit pikk ja selles on loetletud ainult üks tegevusklass.
8. CelebAMask-HQ
CelebAMask-HQ on kogumik 30,000 19 kõrge eraldusvõimega näofotost koos hoolikalt kommenteeritud maskidega ja XNUMX klassiga, mis sisaldavad selliseid näokomponente nagu nahk, nina, silmad, kulmud, kõrvad, suu, huuled, juuksed, müts, prillid, kõrvarõngad, kaelakee, kael, materjal.
Andmekogumit saab kasutada näotuvastuse, näo sõelumise ja GAN-ide testimiseks ja koolitamiseks näo genereerimise ja redigeerimise algoritmide jaoks.
9. Penn Treebank
Üks tähelepanuväärsemaid ja sagedamini kasutatavaid korpuseid järjestuste märgistamise mudelite hindamiseks on ingliskeelne Penn Treebank (PTB) korpus, eriti see korpuse osa, mis vastab Wall Street Journali artiklitele.
Igal sõnal peab olema oma kõneosa märgistatud ülesande komponendina. Tähemärgi ja sõna tasandil keele modelleerimine kasutab sageli ka korpust.
10. VoxCeleb
VoxCeleb on suuremahuline kõnetuvastuse andmestik, mis genereeritakse automaatselt avatud lähtekoodiga meedia. VoxCelebil on üle miljoni ütluse enam kui 6 XNUMX kõlarist.
Kuna andmestik sisaldab audiovisuaalset teavet, saab seda kasutada mitmesuguste lisarakenduste jaoks, sealhulgas visuaalne kõne süntees, kõne eraldamine, ristmodaalne ülekanne näolt häälele või vastupidi ning näotuvastuse treenimine videost, et täiendada praegust näotuvastust. andmestikud.
11. SIXray
SIXray andmestik sisaldab 1,059,231 XNUMX XNUMX röntgenipilti, mis on kogutud metroojaamadest ja millele on lisatud inimjulgeolekuinspektorite märkused, et tuvastada kuut tüüpi keelatud esemeid: püstolid, noad, mutrivõtmed, tangid, käärid ja haamrid. Lisaks on testimiskomplektidele käsitsi lisatud iga keelatud üksuse piirdekastid, et hinnata objektide lokaliseerimise toimivust.
12. USA õnnetused
Projekti sisu paljastab juba andmestiku nimi US Accidents. See üleriigiliste autoõnnetuste andmekogum sisaldab teavet veebruarist 2016 kuni detsembrini 2021 ja hõlmab 49 USA osariiki.
Nüüd on selles kogus ligikaudu 1.5 miljonit õnnetuste kirjet. See koguti reaalajas, kasutades mitut liikluse API-d.
Need API-d edastavad liiklusteavet, mis on kogutud erinevatest allikatest, sealhulgas liikluskaameratest, õiguskaitseorganisatsioonidest ning USA ja osariigi transpordiametitest.
13. Silmahaiguste äratundmine
Korraldatud oftalmoloogiline andmebaas Ocular Disease Intelligent Recognition (ODIR) sisaldab teavet 5,000 patsiendi kohta, sealhulgas nende vanust, vasaku ja parema silma silmapõhja värvi ning meditsiinitöötajate diagnostilisi märksõnu.
See andmestik on tegelik patsientide andmete kogu erinevatest Hiina haiglatest ja meditsiiniasutustest, mille Shanggong Medical Technology Co., Ltd. on omandanud. Koos kvaliteedikontrolli juhtimine, märkused märgistasid vilunud inimlugejad.
14. Südamehaigus
See südamehaiguste andmestik aitab tuvastada südamehaiguse olemasolu patsiendil 76 parameetri alusel, nagu vanus, sugu, valu rinnus, puhkevererõhk ja nii edasi.
303 juhtumi puhul püüab andmebaas lihtsalt eristada haiguse olemasolu (väärtus 1,2,3,4) selle puudumisest (väärtus 0).
15. CLEVR
CLEVR-i andmestik (kompositsioonikeel ja elementaarne visuaalne arutluskäik) jäljendab visuaalset küsimusele vastamist. See koosneb 3D-renderdatud objektide fotodest, kusjuures iga fotoga kaasneb rida väga kompositsioonilisi küsimusi, mis on jagatud mitmesse kategooriasse.
Kõigi koolitus- ja valideerimispiltide ja küsimuste jaoks sisaldab andmekogum 70,000 700,000 fotot ja 15,000 150,000 küsimust koolituseks, 15,000 150,000 pilti ja XNUMX XNUMX küsimust valideerimiseks ning XNUMX XNUMX pilti ja XNUMX XNUMX küsimust testimiseks, mis hõlmavad objekte, vastuseid, stseeniprogrammide graafikuid ja.
16. Universaalsed sõltuvused
Universaalsete sõltuvuste (UD) projekti eesmärk on luua paljude keelte jaoks keeleliselt ühtne morfoloogia ja süntaksipuupanga annotatsioon. 2.7. aastal välja antud versioonis 2020 on 183 puupanka 104 keeles.
Annotatsioon koosneb universaalsetest POW-siltidest, sõltuvuspeadest ja universaalsetest sõltuvussiltidest.
17. KITTI – 360
Üks sagedamini kasutatavaid andmekogumeid mobiilsete robotite ja autonoomne sõit on KITTI (Karlsruhe Tehnoloogiainstituut ja Toyota Tehnoloogiainstituut).
See koosneb tundidepikkustest liiklusstsenaariumitest, mis on jäädvustatud mitmesuguste anduriviisidega, nagu kõrge eraldusvõimega RGB-, halltoonide stereo- ja 3D-laserskannerkaamerad. Andmestikku on aja jooksul täiustanud mitmed teadlased, kes kirjutasid selle erinevaid osi käsitsi oma vajadustele vastavaks.
18. MOT (mitme objekti jälgimine)
MOT (Multiple Object Tracking) on andmekogum mitme objekti jälgimiseks, mis hõlmab avalike asukohtade sise- ja välismaastikke, mis hõlmavad huviobjektidena jalakäijaid. Iga stseeni video on jagatud kaheks osaks, millest üks on mõeldud treeninguks ja teine testimiseks.
Andmekogum sisaldab objektide tuvastamine videokaadrites, kasutades kolme detektorit: SDP, Faster-RCNN ja DPM.
19. PASCAL 3D+
Pascal3D+ mitmevaateline andmestik koosneb looduses kogutud fotodest, st suure varieeruvusega üksuste kategooriate kujutistest, mis on jäädvustatud kontrollimatutes tingimustes, rahvarohketes keskkondades ja erinevates asukohtades. Pascal3D+ sisaldab 12 jäika objektikategooriat, mis on võetud PASCAL VOC 2012 andmestikust.
Nendele üksustele on märgitud teave asendi kohta (asimuut, kõrgus ja kaugus kaamerast). Pascal3D+ sisaldab lisaks poosimärkusega fotosid ImageNeti kollektsioonist nendes 12 kategoorias.
20. Loomade näo deformeeruvad mudelid
Projekti Facial Deformable Models of Animals (FDMA) eesmärk on vaidlustada praeguseid metoodikaid inimese näo maamärkide tuvastamisel ja jälgimisel ning töötada välja uued algoritmid, mis suudaksid toime tulla loomade näoomadustele omase oluliselt suurema varieeruvusega.
Projekti algoritmid näitasid võimet ära tunda ja jälgida inimeste nägude maamärke, tegeledes näo emotsioonide või asendi muutustest, osalistest oklusioonidest ja valgustusest tingitud erinevustega.
21. MPII inimpostituse andmestik
MPII inimpooside andmestik sisaldab umbes 25 15 fotot, millest 3 7 on treeningnäidised, XNUMX XNUMX neist on valideerimisnäidised ja XNUMX XNUMX testimisnäidised.
Asendid on käsitsi märgistatud kuni 16 kehaliigesega ning fotod on võetud YouTube'i filmidest, mis hõlmavad 410 erinevat inimtegevust.
22. UCF101
Andmekogum UCF101 sisaldab 13,320 101 videoklippi, mis on jagatud 101 kategooriasse. Need XNUMX kategooriat on jagatud viide kategooriasse: kehaliigutused, inimese ja inimese suhtlus, inimese ja objekti vastasmõju, muusikariistamäng ja sport.
Videod pärinevad YouTube'ist ja kestavad 27 tundi.
23. Audiokomplekt
Audioset on helisündmuste andmestik, mis koosneb enam kui 2 miljonist inimese poolt kommenteeritud 10-sekundilisest videolõigust. Nende andmete märkimiseks kasutatakse 632 sündmusetüübist koosnevat hierarhilist ontoloogiat, mis tähendab, et sama heli võib olla erinevalt märgistatud.
24. Stanfordi loomuliku keele järeldus
SNLI andmestik (Stanford Natural Language Inference) sisaldab 570 XNUMX lausepaari, mis on käsitsi liigitatud tagajärjeks, vastuoluks või neutraalseks.
Eeldused on Flickr30k piltide kirjeldused, samas kui hüpoteesid töötasid välja rahvahulgast pärit annotaatorid, kellele anti eeldus ja juhendati tekitama kaasahaaravaid, vastuolulisi ja neutraalseid väiteid.
25. Visuaalne küsimustele vastamine
Visual Question Answering (VQA) on andmestik, mis sisaldab avatud küsimusi piltide kohta. Nendele küsimustele vastamiseks peate mõistma nägemust, keelt ja tervet mõistust.
Järeldus
Kuna masinõpe ja tehisintellekt (AI) muutuvad levinumaks praktiliselt igas ettevõttes ja meie igapäevaelus, väheneb ka selle teema kohta saadaolevate ressursside ja teabe hulk.
Valmis avalikud andmekogumid on suurepärane lähtepunkt AI mudelite väljatöötamiseks, võimaldades samal ajal kogenud ML programmeerijatel aega säästa ja keskenduda oma projektide muudele elementidele.
Jäta vastus