25 geriausi alternatyvaus AI mokymo duomenų rinkiniai (2024 m.)

Šiuo metu dauguma iš mūsų yra susitelkę į mašininio mokymosi ir AI modelių kūrimą ir problemų sprendimą naudodami dabartinius duomenų rinkinius. Tačiau pirmiausia turime apibrėžti duomenų rinkinį, jo reikšmę ir vaidmenį kuriant stiprius AI ir ML sprendimus.

Šiandien turime daugybę atvirojo kodo duomenų rinkinių, kurių pagrindu galime atlikti tyrimus arba kurti taikomąsias programas, skirtas spręsti realaus pasaulio problemas įvairiuose sektoriuose.

Tačiau nerimą kelia aukštos kokybės kiekybinių duomenų rinkinių trūkumas. Duomenų skaičius nepaprastai išaugo ir ateityje plėsis sparčiau.

Šiame įraše apžvelgsime laisvai prieinamus duomenų rinkinius, kuriuos galite panaudoti kurdami kitą AI projektą.

1. „CelebFaces“ atributų duomenų rinkinys

„CelebFaces“ atributų duomenų rinkinyje (CelebA) yra daugiau nei 200 40 įžymybių nuotraukų ir XNUMX atributų komentarų kiekvienam vaizdui, todėl tai puikus atspirties taškas tokiems projektams kaip veido atpažinimas, veido aptikimas, orientyro (arba veido komponento) lokalizavimas ir veido redagavimas bei sintezė. Be to, šios kolekcijos nuotraukose yra daugybė pozicijų variantų ir fono netvarkos.

2. DOTA

DOTA (duomenų rinkinys Objekto aptikimas Aerial Photos) yra didelio masto duomenų rinkinys objektų aptikimui, kurį sudaro 15 bendrų kategorijų (pvz., laivas, lėktuvas, automobilis ir kt.), 1411 vaizdų, skirtų mokymui, ir 458 vaizdai, skirti patvirtinimui.

3. „Google“ veido išraiškų palyginimo duomenų rinkinys

„Google“ veido išraiškų palyginimo duomenų rinkinyje yra apie 500,000 156,000 nuotraukų trynukų, įskaitant XNUMX XNUMX veido nuotraukų. Verta paminėti, kad kiekvienas šio duomenų rinkinio tripletas buvo komentuojamas mažiausiai šešių žmonių vertintojų.

Šis duomenų rinkinys yra naudingas projektams, susijusiems su veido išraiškos analize, pvz., išraiškomis pagrįsto vaizdo gavimas, emocijų skirstymas į kategorijas, išraiškos sintezė ir pan. Norint gauti prieigą prie duomenų rinkinio, reikia užpildyti trumpą formą.

4. Vizualus genomas

Visual Question Answering duomenys kelių pasirinkimų aplinkoje yra Visual Genome. Jį sudaro 101,174 1.7 MSCOCO nuotraukos su 17 milijono kokybės užtikrinimo porų, o kiekviename paveikslėlyje vidutiniškai yra XNUMX klausimų.

Palyginti su Visual Question Answering duomenų rinkiniu, Visual Genome duomenų rinkinys yra teisingesnis paskirstymas tarp šešių tipų klausimų: kas, kur, kada, kas, kodėl ir kaip.

Be to, „Visual Genome“ duomenų rinkinyje yra 108 XNUMX nuotraukų, kurios buvo labai pažymėtos objektais, savybėmis ir ryšiais.

5. LibriSpeech

„LibriSpeech“ korpusas yra maždaug 1,000 valandų garso knygų iš projekto „LibriVox“ kolekcija. Dauguma garsinių knygų yra iš projekto Gutenberg.

Mokymo duomenys yra suskirstyti į tris dalis: 100 val., 360 val. ir 500 val. rinkinių, o kūrimo ir bandymo duomenys yra maždaug 5 val. garso ilgio.

6. Miesto erdvės

Viena iš labiausiai žinomų didelės apimties stereo vaizdo įrašų su miesto vaizdais duomenų bazių vadinama „The Cityscapes“.

Su pikselių tikslumu pateikiamomis pastabomis, apimančiomis GPS vietas, lauko temperatūrą, ego judėjimo duomenis ir teisingas stereofonines perspektyvas, jame yra įrašai iš 50 skirtingų Vokietijos miestų.

7. Kinetikos duomenų rinkinys

Vienas iš labiausiai žinomų vaizdo duomenų rinkinių, skirtų didelio masto ir geros kokybės žmogaus veiklai atpažinti, yra Kinetics duomenų rinkinys. Kiekvienai iš 600 žmogaus veiklos klasių yra mažiausiai 600 vaizdo klipų, iš viso daugiau nei 500,000 XNUMX.

Filmai buvo paimti iš YouTube; Kiekvienas iš jų yra maždaug 10 sekundžių ilgio ir turi tik vieną veiklos klasę.

8. CelebAMask-HQ

CelebAMask-HQ yra 30,000 19 didelės raiškos veido nuotraukų kolekcija su kruopščiai anotuotomis kaukėmis ir XNUMX klasių, apimančių veido komponentus, tokius kaip oda, nosis, akys, antakiai, ausys, burna, lūpos, plaukai, skrybėlė, akiniai, auskarai, karoliai, kaklas, medžiaga.

Duomenų rinkinys gali būti naudojamas veido atpažinimo, veido analizavimo ir GAN testavimui ir mokymui veido generavimo ir redagavimo algoritmams.

9. Penn Treebank

Vienas žymiausių ir dažniausiai naudojamų korpusų sekos žymėjimo modeliams įvertinti yra anglų Penn Treebank (PTB) korpusas, ypač korpuso dalis, atitinkanti Wall Street Journal straipsnius.

Kiekvienas žodis turi turėti savo kalbos dalį, pažymėtą kaip užduoties komponentą. Simbolių ir žodžių lygiu kalbos modeliavimas taip pat dažnai naudoja korpusą.

10. VoxCeleb

„VoxCeleb“ yra didelio masto kalbos identifikavimo duomenų rinkinys, automatiškai generuojamas iš atvirojo kodo medija. „VoxCeleb“ turi daugiau nei milijoną pasisakymų iš daugiau nei 6 tūkst. garsiakalbių.

Kadangi duomenų rinkinyje yra garso ir vaizdo, jis gali būti naudojamas įvairioms papildomoms programoms, įskaitant vaizdinę kalbos sintezę, kalbos atskyrimą, kelių modalinį perkėlimą iš veido į balsą arba atvirkščiai ir veido atpažinimo iš vaizdo įrašo mokymą, kad papildytų dabartinį veido atpažinimą. duomenų rinkinius.

11. SIXray

SIXray duomenų rinkinyje yra 1,059,231 XNUMX XNUMX rentgeno nuotrauka, surinkta iš metro stočių ir komentuota žmonių saugumo inspektorių, siekiant aptikti šešias pagrindines draudžiamų daiktų rūšis: pistoletus, peilius, veržliarakčius, reples, žirkles ir plaktukus. Be to, kiekvieno neleidžiamo elemento apribojimo langeliai buvo rankiniu būdu įtraukti į testavimo rinkinius, kad būtų galima įvertinti objekto lokalizavimo našumą.

12. JAV avarijos

Projekto esmę jau atskleidžia duomenų rinkinio pavadinimas „US Accidents“. Šis duomenų rinkinys apie automobilių avarijas visoje šalyje apima informaciją nuo 2016 m. vasario iki 2021 m. gruodžio mėn. ir apima 49 JAV valstijas.

Dabar šioje kolekcijoje yra apie 1.5 milijono nelaimingų atsitikimų įrašų. Jis buvo renkamas realiuoju laiku, naudojant kelias srauto API.

Šios API perduoda eismo informaciją, surinktą iš įvairių šaltinių, įskaitant eismo kameras, teisėsaugos organizacijas ir JAV bei valstijų transporto departamentus.

13. Akių ligų atpažinimas

Sutvarkytoje oftalmologinėje duomenų bazėje Ocular Disease Intelligent Recognition (ODIR) pateikiama informacija apie 5,000 pacientų, įskaitant jų amžių, kairiosios ir dešinės akies dugno spalvą ir medicinos specialistų diagnostikos raktinius žodžius.

Šis duomenų rinkinys yra faktinis pacientų duomenų rinkinys iš įvairių Kinijos ligoninių ir medicinos įstaigų, kurias įsigijo Shanggong Medical Technology Co., Ltd. Su kokybės kontrolės valdymas, komentarus pažymėjo įgudę skaitytojai.

14. Širdies liga

Šis širdies ligų duomenų rinkinys padeda nustatyti paciento širdies ligą pagal 76 parametrus, tokius kaip amžius, lytis, krūtinės skausmo pobūdis, ramybės būsenos kraujospūdis ir kt.

Su 303 atvejais duomenų bazė siekia tiesiog atskirti ligos buvimą (reikšmė 1,2,3,4) nuo jos nebuvimo (reikšmė 0).

15. CLEVR

CLEVR duomenų rinkinys (kompozicijos kalba ir elementarus vizualinis samprotavimas) imituoja vaizdinį atsakymą į klausimus. Ją sudaro 3D atvaizduotų objektų nuotraukos, o kiekviena nuotrauka pateikiama kartu su daug sudėtingų klausimų, suskirstytų į kelias kategorijas.

Visų treniruočių ir patvirtinimo paveikslėlių ir klausimų duomenų rinkinį sudaro 70,000 700,000 nuotraukų ir 15,000 150,000 klausimų mokymui, 15,000 150,000 vaizdų ir XNUMX XNUMX klausimų patvirtinimui ir XNUMX XNUMX vaizdų ir XNUMX XNUMX klausimų, susijusių su objektais, atsakymais, scenos programų grafikais ir bandymais.

16. Visuotinės priklausomybės

Visuotinių priklausomybių (UD) projektu siekiama sukurti vienodą kelių kalbų morfologiją ir sintaksės medžio banko anotaciją daugeliui kalbų. 2.7 versijoje, kuri buvo išleista 2020 m., yra 183 medžių bankai 104 kalbomis.

Anotacija sudaryta iš universalių POW žymų, priklausomybės galvučių ir universalių priklausomybės etikečių.

17. KITTI – 360

Vienas iš dažniausiai naudojamų duomenų rinkinių mobiliesiems robotams ir autonominis vairavimas yra KITTI (Karlsruhe technologijos institutas ir Toyota technologijos institutas).

Jį sudaro kelių valandų trukmės eismo scenarijai, užfiksuoti naudojant įvairius jutiklių būdus, pvz., didelės raiškos RGB, pilkų atspalvių stereofonines ir 3D lazerinio skaitytuvo kameras. Duomenų rinkinį laikui bėgant patobulino keli mokslininkai, kurie rankiniu būdu komentavo įvairias jo dalis, kad atitiktų jų poreikius.

18. MOT (kelių objektų sekimas)

MOT (Multiple Object Tracking) yra kelių objektų stebėjimo duomenų rinkinys, apimantis viešųjų vietų vidaus ir lauko peizažus, kuriuose kaip dominantys objektai yra pėstieji. Kiekvienos scenos vaizdo įrašas yra padalintas į dvi dalis – viena skirta mokymui, o kita – testavimui.

Duomenų rinkinys apima objektų aptikimo vaizdo kadruose naudojant tris detektorius: SDP, Faster-RCNN ir DPM.

19. PASCAL 3D+

Pascal3D+ kelių rodinių duomenų rinkinys sudarytas iš gamtoje surinktų nuotraukų, ty labai kintamų elementų kategorijų vaizdų, užfiksuotų nekontroliuojamomis aplinkybėmis, perpildytoje aplinkoje ir įvairiose pozicijose. Pascal3D+ apima 12 nelanksčių objektų kategorijų, paimtų iš PASCAL VOC 2012 duomenų rinkinio.

Ant šių elementų pažymėta laikysenos informacija (azimutas, aukštis ir atstumas iki fotoaparato). Pascal3D+ šiose 12 kategorijų papildomai apima nuotraukas su poza anotuotais iš ImageNet kolekcijos.

20. Veido deformuojantys gyvūnų modeliai

Projekto „Facial Deformable Models of Animals“ (FDMA) tikslas – mesti iššūkį dabartinėms žmogaus veido orientyrų identifikavimo ir sekimo metodikoms bei sukurti naujus algoritmus, galinčius susidoroti su žymiai didesniu gyvūnų veido charakteristikų kintamumu.

Projekto algoritmai parodė gebėjimą atpažinti ir sekti orientyrus žmonių veiduose, sprendžiant skirtumus, atsiradusius dėl veido emocijų ar pozicijų pokyčių, dalinių okliuzijų ir apšvietimo.

21. MPII žmogaus pašto duomenų rinkinys

MPII žmogaus pozos duomenų rinkinyje yra apie 25 15 nuotraukų, iš kurių 3 7 yra mokomieji pavyzdžiai, XNUMX XNUMX yra patvirtinimo pavyzdžiai ir XNUMX XNUMX yra bandomieji pavyzdžiai.

Padėtys rankiniu būdu pažymėtos iki 16 kūno sąnarių, o nuotraukos paimtos iš „YouTube“ filmų, apimančių 410 įvairių žmogaus veiklų.

22. UCF101

UCF101 duomenų rinkinyje yra 13,320 101 vaizdo klipų, suskirstytų į 101 kategoriją. Šios XNUMX kategorija suskirstyta į penkias kategorijas: kūno judesiai, žmogaus ir žmogaus sąveika, žmogaus ir objekto sąveika, grojimas muzikos instrumentais ir sportas.

Vaizdo įrašai yra iš „YouTube“ ir trunka 27 valandas.

23. Garso rinkinys

Audioset yra garso įvykių duomenų rinkinys, sudarytas iš daugiau nei 2 milijonų žmogaus anotuotų 10 sekundžių vaizdo įrašo segmentų. Šiems duomenims komentuoti naudojama hierarchinė ontologija, kurią sudaro 632 įvykių tipai, o tai reiškia, kad tas pats garsas gali būti pažymėtas skirtingai.

24. Stanfordo natūralios kalbos išvada

SNLI duomenų rinkinyje (Stanford Natural Language Inference) yra 570 XNUMX sakinių porų, kurios buvo rankiniu būdu suskirstytos į įtakas, prieštaravimus arba neutralias kategorijas.

Prielaidos yra „Flickr30k“ paveikslėlių aprašymai, o hipotezes sukūrė minios šaltinių komentatoriai, kuriems buvo sudaryta prielaida ir nurodyta generuoti įtikinančius, prieštaraujančius ir neutralius teiginius.

25. Vaizdinis atsakymas į klausimus

Visual Question Answering (VQA) yra duomenų rinkinys, kuriame yra atvirų klausimų apie paveikslėlius. Norėdami atsakyti į šiuos klausimus, turite suvokti viziją, kalbą ir sveiką protą.

Išvada

Kadangi mašininis mokymasis ir dirbtinis intelektas (AI) tampa vis labiau paplitęs praktiškai kiekviename versle ir mūsų kasdieniame gyvenime, didėja išteklių ir informacijos šia tema.

Paruošti viešieji duomenų rinkiniai yra puikus atspirties taškas kuriant AI modelius, taip pat leidžia patyrusiems ML programuotojams sutaupyti laiko ir sutelkti dėmesį į kitus savo projektų elementus.

Geriausi alternatyvaus AI mokymo duomenų rinkiniai

25 geriausi alternatyvaus AI mokymo duomenų rinkiniai

1. „CelebFaces“ atributų duomenų rinkinys

2. DOTA

3. „Google“ veido išraiškų palyginimo duomenų rinkinys

4. Vizualus genomas

5. LibriSpeech

6. Miesto erdvės

7. Kinetikos duomenų rinkinys

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. JAV avarijos

13. Akių ligų atpažinimas

14. Širdies liga

15. CLEVR

16. Visuotinės priklausomybės

17. KITTI – 360

18. MOT (kelių objektų sekimas)

19. PASCAL 3D+

20. Veido deformuojantys gyvūnų modeliai

21. MPII žmogaus pašto duomenų rinkinys

22. UCF101

23. Garso rinkinys

24. Stanfordo natūralios kalbos išvada

25. Vaizdinis atsakymas į klausimus

Išvada

Apie mus Kėkštas

Daugiau straipsnių apie HashDork:

Kaip sumažinti haliucinacijas jūsų AI

Colossyanas prieš Heygeną

Šis ateities technologijų informacinis biuletenis nėra blogas

25 geriausi alternatyvaus AI mokymo duomenų rinkiniai

1. „CelebFaces“ atributų duomenų rinkinys

2. DOTA

3. „Google“ veido išraiškų palyginimo duomenų rinkinys

4. Vizualus genomas

5. LibriSpeech

6. Miesto erdvės

7. Kinetikos duomenų rinkinys

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. JAV avarijos

13. Akių ligų atpažinimas

14. Širdies liga

15. CLEVR

16. Visuotinės priklausomybės

17. KITTI – 360

18. MOT (kelių objektų sekimas)

19. PASCAL 3D+

20. Veido deformuojantys gyvūnų modeliai

21. MPII žmogaus pašto duomenų rinkinys

22. UCF101

23. Garso rinkinys

24. Stanfordo natūralios kalbos išvada

25. Vaizdinis atsakymas į klausimus

Išvada

Apie mus Kėkštas

Daugiau straipsnių apie HashDork:

Kaip sumažinti haliucinacijas jūsų AI

10 geriausių AI įrankių socialinei žiniasklaidai

Colossyanas prieš Heygeną

10 geriausių AI animacinių vaizdo įrašų kūrimo įrankių

Skaitytojas Sąveika

Palikti atsakymą Atšaukti atsakymą

Šis ateities technologijų informacinis biuletenis nėra blogas