25 najboljših alternativnih naborov podatkov za usposabljanje AI (2024)

Dandanes je večina od nas osredotočena na razvoj strojnega učenja in modelov umetne inteligence ter reševanje težav z uporabo trenutnih naborov podatkov. Najprej pa moramo opredeliti nabor podatkov, njegov pomen in vlogo pri razvoju močnih rešitev AI in ML.

Danes imamo na voljo množico odprtokodnih naborov podatkov, na podlagi katerih lahko izvajamo raziskave ali razvijamo aplikacije za reševanje vprašanj iz resničnega sveta v različnih sektorjih.

Vendar pa je pomanjkanje visokokakovostnih kvantitativnih podatkovnih nizov vir skrbi. Podatki so se izjemno povečali in se bodo v prihodnosti še hitreje širili.

V tej objavi bomo obravnavali prosto dostopne nabore podatkov, ki jih lahko uporabite za razvoj svojega naslednjega projekta AI.

1. Nabor podatkov o atributih CelebFaces

CelebFaces Attributes Dataset (CelebA) vsebuje več kot 200 fotografij slavnih in 40 opomb atributov za vsako sliko, zaradi česar je odlično izhodišče za projekte, kot je npr. prepoznavanje obraza, zaznavanje obrazov, lokalizacija znamenitosti (ali obrazne komponente) ter urejanje in sinteza obrazov. Poleg tega fotografije v tej zbirki vsebujejo široko paleto variant položaja in nereda v ozadju.

2. DOTA

DOTA (nabor podatkov o Zaznavanje objektov v fotografijah iz zraka) je obsežen nabor podatkov za zaznavanje objektov, ki vključuje 15 običajnih kategorij (npr. ladja, letalo, avto itd.), 1411 slik za usposabljanje in 458 slik za validacijo.

3. Googlov primerjalni nabor obraznih izrazov

Googlov nabor podatkov za primerjavo obraznih izrazov vsebuje približno 500,000 trojčkov slik, vključno s 156,000 fotografijami obrazov. Treba je omeniti, da je vsak trojček v tem naboru podatkov komentiralo vsaj šest človeških ocenjevalcev.

Ta niz podatkov je uporaben za projekte, ki vključujejo analizo obraznih izrazov, kot je iskanje slik na podlagi izrazov, kategorizacija čustev, sinteza izrazov itd. Za dostop do nabora podatkov je treba izpolniti kratek obrazec.

4. Vizualni genom

Visual Question Answering podatki v okolju z več izbirami so na voljo v Visual Genome. Sestavljen je iz 101,174 fotografij MSCOCO z 1.7 milijona parov QA, s povprečno 17 vprašanji na sliko.

V primerjavi z naborom podatkov Visual Question Answering ima nabor podatkov Visual Genome pravičnejšo porazdelitev med šestimi vrstami vprašanj: Kaj, Kje, Kdaj, Kdo, Zakaj in Kako.

Poleg tega nabor podatkov Visual Genome vključuje 108K fotografij, ki so bile močno označene s predmeti, lastnostmi in povezavami.

5. LibriSpeech

Korpus LibriSpeech je zbirka okoli 1,000 ur zvočnih knjig iz projekta LibriVox. Večina zvočnih knjig izvira iz projekta Gutenberg.

Podatki o vadbi so razdeljeni na tri razdelke po 100-urnih, 360-urnih in 500-urnih nizih, medtem ko podatki o razvijanju in preskusu trajajo približno 5 ur zvoka.

6. Mestni prostori

Ena najbolj znanih obsežnih baz podatkov stereo videoposnetkov z urbanimi pogledi se imenuje The Cityscapes.

Z do pikslov natančnimi opombami, ki vključujejo lokacije GPS, zunanjo temperaturo, podatke o gibanju ega in desne stereo perspektive, vključuje posnetke iz 50 različnih nemških mest.

7. Nabor podatkov o kinetiki

Eden najbolj znanih naborov video podatkov za prepoznavanje človeške dejavnosti v velikem obsegu in z dobro kakovostjo je nabor podatkov Kinetics. Obstaja vsaj 600 videoposnetkov za vsakega od 600 razredov človekove dejavnosti, skupno več kot 500,000.

Filme so potegnili z YouTuba; vsaka je dolga približno 10 sekund in ima naveden samo en razred dejavnosti.

8. CelebAMask-HQ

CelebAMask-HQ je zbirka 30,000 fotografij obraza v visoki ločljivosti s skrbno označenimi maskami in 19 razredi, ki vključujejo obrazne komponente, kot so koža, nos, oči, obrvi, ušesa, usta, ustnice, lasje, klobuk, očala, uhani, ogrlica, vrat, material.

Nabor podatkov je mogoče uporabiti za testiranje in usposabljanje prepoznavanja obrazov, razčlenjevanja obrazov in GAN za algoritme za ustvarjanje in urejanje obrazov.

9. Penn Treebank

Eden najbolj opaznih in pogosto uporabljenih korpusov za ocenjevanje modelov za označevanje zaporedij je angleški korpus Penn Treebank (PTB), zlasti del korpusa, ki ustreza člankom Wall Street Journala.

Vsaka beseda mora imeti svoj del govora označen kot sestavni del naloge. Raven znakov in besed jezikovno modeliranje pogosto uporablja tudi korpus.

10. VoxCeleb

VoxCeleb je obsežen nabor podatkov za identifikacijo govora, ustvarjen samodejno iz odprtokodni mediji. VoxCeleb ima več kot milijon izjav več kot 6k govorcev.

Ker nabor podatkov vključuje avdiovizualne vsebine, jih je mogoče uporabiti za različne dodatne aplikacije, vključno s sintezo vizualnega govora, ločevanjem govora, navzkrižnim prenosom iz obraza v glas ali obratno ter usposabljanjem za prepoznavanje obraza iz videa za dopolnitev trenutnega prepoznavanja obraza. nabori podatkov.

11. SIXray

Podatkovni nabor SIXray vključuje 1,059,231 rentgenskih slik, zbranih s postaj podzemne železnice in opomb s strani inšpektorjev za varnost ljudi, da bi odkrili šest glavnih vrst prepovedanih predmetov: pištole, noži, ključi, klešče, škarje in kladiva. Poleg tega so bili omejevalni okvirji za vsak nedovoljen element ročno dodani testnim nizom, da se oceni uspešnost lokalizacije objekta.

12. Nesreče v ZDA

Vsebino projekta razkriva že ime zbirke podatkov, Nesreče v ZDA. Ta nabor podatkov o avtomobilskih nesrečah po vsej državi vključuje podatke od februarja 2016 do decembra 2021 in zajema 49 zveznih držav v ZDA.

V tej zbirki je zdaj prisotnih približno 1.5 milijona zapisov o nesrečah. Zbrani so bili v realnem času z uporabo več prometnih API-jev.

Ti API-ji prenašajo prometne informacije, zbrane iz različnih virov, vključno s prometnimi kamerami, organizacijami kazenskega pregona ter ministrstvom za promet ZDA in zveznimi državami.

13. Prepoznavanje očesnih bolezni

Urejena oftalmološka zbirka podatkov Ocular Disease Intelligent Recognition (ODIR) vsebuje informacije o 5,000 bolnikih, vključno z njihovo starostjo, barvo očesnega fundusa v levem in desnem očesu ter diagnostične ključne besede zdravstvenih delavcev.

Ta nabor podatkov je dejanska zbirka podatkov o bolnikih iz različnih bolnišnic in zdravstvenih ustanov na Kitajskem, ki jih je pridobil Shanggong Medical Technology Co., Ltd. z vodenje nadzora kakovosti, so opombe označili izkušeni bralci.

14. Bolezni srca

Ta niz podatkov o bolezni srca pomaga pri ugotavljanju obstoja bolezni srca pri bolniku na podlagi 76 parametrov, kot so starost, spol, vrsta bolečine v prsih, krvni tlak v mirovanju itd.

S 303 primeri zbirka podatkov poskuša preprosto razlikovati obstoj bolezni (vrednost 1,2,3,4) od njene odsotnosti (vrednost 0).

15. CLEVR

Nabor podatkov CLEVR (Compositional Language and Elementary Visual Reasoning) posnema Visual Question Answering. Sestavljen je iz fotografij 3D-upodobljenih predmetov, pri čemer vsako fotografijo spremlja vrsta zelo sestavljivih vprašanj, razdeljenih v več kategorij.

Za vse slike in vprašanja o usposabljanju in validaciji nabor podatkov obsega 70,000 fotografij in 700,000 vprašanj za usposabljanje, 15,000 slik in 150,000 vprašanj za validacijo ter 15,000 slik in 150,000 vprašanj za testiranje, ki vključuje predmete, odgovore, grafe scene in funkcionalne programe.

16. Univerzalne odvisnosti

Namen projekta univerzalnih odvisnosti (UD) je ustvariti medjezikovno enotno morfologijo in sintakso drevesnih opomb za številne jezike. Različica 2.7, ki je bila izdana leta 2020, ima 183 drevesnih bank v 104 jezikih.

Opomba je sestavljena iz univerzalnih oznak POW, glav odvisnosti in univerzalnih oznak odvisnosti.

17. KITTI – 360

Eden najpogosteje uporabljenih naborov podatkov za mobilne robote in avtonomna vožnja je KITTI (Tehnološki inštitut Karlsruhe in Toyotin tehnološki inštitut).

Sestavljen je iz ur prometnih scenarijev, ki so bili zajeti z vrsto senzorjev, kot so RGB visoke ločljivosti, stereo v sivinah in 3D laserske kamere. Nabor podatkov je sčasoma izboljšalo več raziskovalcev, ki so ročno označili različne njegove dele, da so ustrezali njihovim potrebam.

18. MOT (sledenje več objektom)

MOT (Multiple Object Tracking) je nabor podatkov za sledenje več objektom, ki vključuje notranjo in zunanjo kuliso javnih lokacij, ki vključujejo pešce kot predmete zanimanja. Posnetek vsakega prizora je razdeljen na dva dela, enega za usposabljanje in drugega za testiranje.

Nabor podatkov vključuje zaznavanje predmetov v video okvirih z uporabo treh detektorjev: SDP, Faster-RCNN in DPM.

19. PASCAL 3D+

Nabor podatkov Pascal3D+ z več pogledi je sestavljen iz fotografij, zbranih v naravi, tj. slik kategorij predmetov z visoko variabilnostjo, posnetih v nenadzorovanih okoliščinah, v gneči in na različnih položajih. Pascal3D+ vključuje 12 kategorij togih objektov, vzetih iz nabora podatkov PASCAL VOC 2012.

Na teh elementih so označene informacije o drži (azimut, višina in razdalja do kamere). Pascal3D+ v teh 12 kategorijah dodatno vključuje fotografije z označenimi pozami iz zbirke ImageNet.

20. Obrazni deformabilni modeli živali

Cilj projekta Facial Deformable Models of Animals (FDMA) je izzvati sedanje metodologije pri prepoznavanju in sledenju mejnikov človeškega obraza ter razviti nove algoritme, ki se lahko spopadejo s precej večjo variabilnostjo, ki je značilna za obrazne značilnosti živali.

Algoritmi projekta so pokazali sposobnost prepoznavanja in sledenja mejnikom na človeških obrazih, medtem ko se ukvarjajo z odstopanji, ki jih povzročajo spremembe obraznih čustev ali položajev, delnih okluzij in osvetlitve.

21. Nabor podatkov o človeški objavi MPII

Nabor podatkov MPII Human Pose Dataset vsebuje približno 25K fotografij, od katerih je 15K vzorcev za usposabljanje, od tega 3K vzorcev za preverjanje veljavnosti in 7K vzorcev za testiranje.

Položaji so ročno označeni z do 16 telesnimi sklepi, fotografije pa so vzete iz YouTube filmov, ki pokrivajo 410 različnih človeških dejavnosti.

22. UCF101

Nabor podatkov UCF101 vsebuje 13,320 video posnetkov, razvrščenih v 101 kategorijo. Teh 101 kategorij je razdeljenih v pet kategorij: telesni gibi, interakcije človek-človek, interakcije človek-predmet, igranje glasbil in šport.

Videoposnetki so iz YouTuba in trajajo 27 ur.

23. Audioset

Audioset je nabor podatkov o zvočnih dogodkih, sestavljen iz več kot 2 milijonov 10-sekundnih video segmentov s človeškimi opombami. Za označevanje teh podatkov je uporabljena hierarhična ontologija, ki obsega 632 vrst dogodkov, kar pomeni, da je lahko isti zvok drugače označen.

24. Stanfordsko sklepanje o naravnem jeziku

Nabor podatkov SNLI (Stanford Natural Language Inference) vsebuje 570 parov stavkov, ki so bili ročno kategorizirani kot vključevanje, protislovje ali nevtralno.

Premise so opisi slik Flickr30k, medtem ko so hipoteze razvili množični opombevalci, ki so dobili predpostavko in jim je bilo naročeno, naj ustvarijo vsestranske, protislovne in nevtralne izjave.

25. Vizualno odgovarjanje na vprašanja

Visual Question Answering (VQA) je nabor podatkov, ki vsebuje odprta vprašanja v zvezi s slikami. Če želite odgovoriti na ta vprašanja, morate razumeti vizijo, jezik in zdrav razum.

zaključek

Ker postajata strojno učenje in umetna inteligenca (AI) vse bolj razširjena v praktično vseh podjetjih in v našem vsakdanjem življenju, se povečuje tudi število virov in informacij, ki so na voljo na to temo.

Pripravljeni javni nabori podatkov zagotavljajo odlično izhodišče za razvoj modelov umetne inteligence, hkrati pa izkušenim programerjem ML omogočajo, da prihranijo čas in se osredotočijo na druge elemente svojih projektov.

Najboljši alternativni nabori podatkov za usposabljanje AI

25 najboljših alternativnih naborov podatkov za usposabljanje z umetno inteligenco

1. Nabor podatkov o atributih CelebFaces

2. DOTA

3. Googlov primerjalni nabor obraznih izrazov

4. Vizualni genom

5. LibriSpeech

6. Mestni prostori

7. Nabor podatkov o kinetiki

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nesreče v ZDA

13. Prepoznavanje očesnih bolezni

14. Bolezni srca

15. CLEVR

16. Univerzalne odvisnosti

17. KITTI – 360

18. MOT (sledenje več objektom)

19. PASCAL 3D+

20. Obrazni deformabilni modeli živali

21. Nabor podatkov o človeški objavi MPII

22. UCF101

23. Audioset

24. Stanfordsko sklepanje o naravnem jeziku

25. Vizualno odgovarjanje na vprašanja

zaključek

O meni Jay

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

Colossyan proti Heygenu

To glasilo o tehnologiji prihodnosti ni zanič

25 najboljših alternativnih naborov podatkov za usposabljanje z umetno inteligenco

1. Nabor podatkov o atributih CelebFaces

2. DOTA

3. Googlov primerjalni nabor obraznih izrazov

4. Vizualni genom

5. LibriSpeech

6. Mestni prostori

7. Nabor podatkov o kinetiki

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nesreče v ZDA

13. Prepoznavanje očesnih bolezni

14. Bolezni srca

15. CLEVR

16. Univerzalne odvisnosti

17. KITTI – 360

18. MOT (sledenje več objektom)

19. PASCAL 3D+

20. Obrazni deformabilni modeli živali

21. Nabor podatkov o človeški objavi MPII

22. UCF101

23. Audioset

24. Stanfordsko sklepanje o naravnem jeziku

25. Vizualno odgovarjanje na vprašanja

zaključek

O meni Jay

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

10 najboljših orodij AI za družbena omrežja

Colossyan proti Heygenu

10 najboljših orodij za ustvarjanje animiranih videoposnetkov z umetno inteligenco

Spletna Interakcije

Pustite Odgovori preklicati odgovor

To glasilo o tehnologiji prihodnosti ni zanič