25 najboljih alternativnih skupova podataka za obuku AI (2024.)

Danas je većina nas usredotočena na razvoj strojnog učenja i modela umjetne inteligencije i rješavanje problema korištenjem trenutnih skupova podataka. Ali prvo moramo definirati skup podataka, njegovu važnost i ulogu u razvoju snažnih AI i ML rješenja.

Danas imamo mnoštvo skupova podataka otvorenog koda na kojima možemo provoditi istraživanja ili razvijati aplikacije za rješavanje problema iz stvarnog svijeta u raznim sektorima.

Međutim, nedostatak visokokvalitetnih kvantitativnih skupova podataka izvor je zabrinutosti. Broj podataka iznimno je porastao i nastavit će se širiti bržom brzinom u budućnosti.

U ovom ćemo postu pokriti besplatno dostupne skupove podataka koje možete upotrijebiti za razvoj svog sljedećeg AI projekta.

1. Skup podataka o atributima CelebFaces

CelebFaces Attributes Dataset (CelebA) sadrži više od 200 fotografija slavnih i 40 komentara atributa za svaku sliku, što ga čini izvrsnom polaznom točkom za projekte kao što su prepoznavanje lica, prepoznavanje lica, lokalizacija orijentira (ili komponente lica) i uređivanje i sinteza lica. Nadalje, fotografije u ovoj kolekciji sadrže širok raspon varijanti položaja i nereda pozadine.

2. DOTA

DOTA (Skup podataka od Otkrivanje objekta u fotografijama iz zraka) skup je podataka velikih razmjera za otkrivanje objekata koji uključuje 15 uobičajenih kategorija (npr. brod, avion, automobil itd.), 1411 slika za obuku i 458 slika za provjeru valjanosti.

3. Google skup podataka za usporedbu izraza lica

Google skup podataka za usporedbu izraza lica sadrži oko 500,000 trostrukih slika, uključujući 156,000 fotografija lica. Vrijedno je napomenuti da je svaki triplet u ovom skupu podataka komentiralo najmanje šest ljudskih ocjenjivača.

Ovaj skup podataka koristan je za projekte koji uključuju analizu izraza lica, kao što je dohvaćanje slika na temelju izraza, kategorizacija emocija, sinteza izraza i tako dalje. Za pristup skupu podataka potrebno je ispuniti kratki obrazac.

4. Vizualni genom

Visual Question Answering podaci u okruženju s više izbora dostupni su u Visual Genome. Sastoji se od 101,174 MSCOCO fotografije s 1.7 milijuna QA parova, s prosječno 17 pitanja po slici.

U usporedbi sa skupom podataka Visual Question Answering, skup podataka Visual Genome ima pravedniju raspodjelu u šest vrsta pitanja: Što, Gdje, Kada, Tko, Zašto i Kako.

Osim toga, skup podataka Visual Genome uključuje 108K fotografija koje su snažno označene objektima, svojstvima i vezama.

5. LibriSpeech

Korpus LibriSpeech zbirka je od oko 1,000 sati audioknjiga iz projekta LibriVox. Većina audio knjiga potječe iz projekta Gutenberg.

Podaci o treningu podijeljeni su u tri dijela od skupova od 100 sati, 360 sati i 500 sati, dok podaci o razvojnim i testnim podacima traju otprilike 5 sati zvuka.

6. Gradski prostori

Jedna od najpoznatijih velikih baza podataka stereo videa s urbanim pogledima zove se The Cityscapes.

Uz piksel točne bilješke koje uključuju GPS lokacije, vanjsku temperaturu, podatke o kretanju ega i desne stereo perspektive, uključuje snimke iz 50 različitih njemačkih gradova.

7. Kinetički skup podataka

Jedan od najpoznatijih video skupova podataka za prepoznavanje ljudske aktivnosti u velikim razmjerima i dobre kvalitete je skup podataka Kinetics. Postoji najmanje 600 video isječaka za svaku od 600 klasa ljudskih aktivnosti, ukupno preko 500,000.

Filmovi su povučeni s YouTubea; svaki traje oko 10 sekundi i ima naveden samo jedan razred aktivnosti.

8. CelebAMask-HQ

CelebAMask-HQ zbirka je od 30,000 19 fotografija lica visoke rezolucije s pažljivo označenim maskama i XNUMX klasa koje uključuju komponente lica kao što su koža, nos, oči, obrve, uši, usta, usne, kosa, šešir, naočale, naušnice, ogrlica, vrat, materijal.

Skup podataka može se koristiti za testiranje i treniranje prepoznavanja lica, raščlanjivanja lica i GAN-ova za algoritme za generiranje i uređivanje lica.

9. Penn Treebank

Jedan od najznačajnijih i najčešće korištenih korpusa za procjenu modela za označavanje sekvenci je engleski Penn Treebank (PTB) korpus, posebno dio korpusa koji odgovara člancima Wall Street Journala.

Svaka riječ mora imati svoj dio govora označen kao sastavni dio zadatka. Razina znakova i razina riječi jezično modeliranje također često koristi korpus.

10. VoxCeleb

VoxCeleb je skup podataka za identifikaciju govora velikih razmjera koji se automatski generira iz mediji otvorenog koda. VoxCeleb ima preko milijun izjava od preko 6k govornika.

Budući da skup podataka uključuje audio-vizualno, može se koristiti za razne dodatne aplikacije, uključujući vizualnu sintezu govora, odvajanje govora, međumodalni prijenos s lica na glas ili obrnuto, i obuku prepoznavanja lica iz videa kao dopunu trenutnog prepoznavanja lica skupovi podataka.

11. SIXray

Skup podataka SIXray uključuje 1,059,231 rendgenskih slika prikupljenih sa stanica podzemne željeznice i označenih od strane inspektora ljudske sigurnosti kako bi se otkrilo šest glavnih vrsta zabranjenih predmeta: pištolji, noževi, ključevi, kliješta, škare i čekići. Nadalje, granični okviri za svaku nedopuštenu stavku ručno su dodani skupovima za testiranje kako bi se procijenila izvedba lokalizacije objekta.

12. Nesreće u SAD-u

Sadržaj projekta otkriva već naziv skupa podataka, US Accidents. Ovaj skup podataka o automobilskim nesrećama diljem zemlje uključuje informacije od veljače 2016. do prosinca 2021. i pokriva 49 država u SAD-u.

Otprilike 1.5 milijuna zapisa o nesrećama sada je prisutno u ovoj zbirci. Prikupljen je u stvarnom vremenu korištenjem nekoliko prometnih API-ja.

Ovi API-ji prenose informacije o prometu prikupljene iz različitih izvora, uključujući prometne kamere, organizacije za provođenje zakona te američke i državne službe za promet.

13. Prepoznavanje očnih bolesti

Organizirana oftalmološka baza podataka Ocular Disease Intelligent Recognition (ODIR) sadrži informacije o 5,000 pacijenata, uključujući njihovu dob, boju fundusa u lijevom i desnom oku i dijagnostičke ključne riječi medicinskih stručnjaka.

Ovaj skup podataka stvarna je zbirka podataka o pacijentima iz raznih bolnica i medicinskih ustanova u Kini koje je preuzeo Shanggong Medical Technology Co., Ltd. S upravljanje kontrolom kvalitete, komentare su označili vješti čitatelji.

14. Bolesti srca

Ovaj skup podataka o bolestima srca pomaže u prepoznavanju postojanja bolesti srca kod pacijenta na temelju 76 parametara kao što su dob, spol, vrsta boli u prsima, krvni tlak u mirovanju i tako dalje.

S 303 slučaja, baza podataka nastoji jednostavno razlikovati postojanje bolesti (vrijednost 1,2,3,4) od njezine odsutnosti (vrijednost 0).

15. CLEVR

Skup podataka CLEVR (Compositional Language and Elementary Visual Reasoning) oponaša Visual Question Answering. Sastoji se od fotografija 3D-renderiranih objekata, a svaka fotografija je popraćena nizom vrlo složenih pitanja podijeljenih u nekoliko kategorija.

Za sve slike i pitanja za treniranje i provjeru valjanosti skup podataka sadrži 70,000 700,000 fotografija i 15,000 150,000 pitanja za obuku, 15,000 150,000 slika i XNUMX XNUMX pitanja za provjeru valjanosti te XNUMX XNUMX slika i XNUMX XNUMX pitanja za testiranje koja uključuju objekte, odgovore, grafikone scene i funkcionalne programe.

16. Univerzalne ovisnosti

Projekt Universal Dependencies (UD) ima za cilj stvoriti međujezično ujednačenu morfologiju i sintaktičku oznaku banke stabala za mnoge jezike. Verzija 2.7, koja je objavljena 2020., ima 183 banke stabala na 104 jezika.

Napomena se sastoji od univerzalnih POW oznaka, glava ovisnosti i univerzalnih oznaka ovisnosti.

17. KITTI – 360

Jedan od najčešće korištenih skupova podataka za mobilne robote i autonomna vožnja je KITTI (Karlsruhe Institute of Technology i Toyota Technological Institute).

Sastoji se od sati prometnih scenarija koji su snimljeni korištenjem niza modaliteta senzora, kao što su RGB visoke rezolucije, stereo u sivim tonovima i 3D laserske kamere. Skup podataka je tijekom vremena poboljšan od strane nekoliko istraživača koji su ručno označili različite dijelove kako bi odgovarali njihovim potrebama.

18. MOT (Praćenje više objekata)

MOT (Multiple Object Tracking) je skup podataka za praćenje više objekata koji uključuje unutarnje i vanjske krajolike javnih lokacija koje uključuju pješake kao objekte interesa. Video svake scene podijeljen je u dva dijela, jedan za obuku, a drugi za testiranje.

Skup podataka uključuje detekcije objekata u video okvirima pomoću tri detektora: SDP, Faster-RCNN i DPM.

19. PASCAL 3D+

Skup podataka Pascal3D+ s više pogleda sastoji se od fotografija prikupljenih u prirodi, tj. slika kategorija predmeta s velikom varijabilnošću, snimljenih u nekontroliranim okolnostima, u prepunim okruženjima i na različitim položajima. Pascal3D+ uključuje 12 krutih kategorija objekata izvučenih iz skupa podataka PASCAL VOC 2012.

Ove stavke imaju označene informacije o položaju (azimut, elevacija i udaljenost do kamere). Pascal3D+ dodatno uključuje fotografije označene pozama iz kolekcije ImageNet u ovih 12 kategorija.

20. Deformabilni modeli lica životinja

Cilj projekta Facial Deformable Models of Animals (FDMA) je osporiti trenutne metodologije u identifikaciji i praćenju orijentira ljudskog lica te razviti nove algoritme koji se mogu nositi sa znatno većom varijabilnošću koja je karakteristična za karakteristike lica životinja.

Algoritmi projekta pokazali su sposobnost prepoznavanja i praćenja orijentira na ljudskim licima dok se bave varijacijama izazvanim promjenama u emocijama ili položajima lica, djelomičnim okluzijama i osvjetljenjem.

21. Skup podataka o MPII ljudskim postovima

MPII Human Pose Dataset sadrži oko 25K fotografija, od kojih su 15K uzorci za obuku, 3K od kojih su uzorci za provjeru valjanosti i 7K od kojih su uzorci za testiranje.

Položaji su ručno označeni s do 16 tjelesnih zglobova, a fotografije su preuzete s YouTube filmova koji pokrivaju 410 različitih ljudskih aktivnosti.

22. UCF101

Skup podataka UCF101 sadrži 13,320 101 video zapisa organiziranih u 101 kategoriju. Tih XNUMX kategorija podijeljena je u pet kategorija: tjelesni pokreti, interakcije između ljudi, interakcije između ljudi i predmeta, sviranje glazbenih instrumenata i sport.

Videozapisi su s YouTubea i traju 27 sati.

23. Audioset

Audioset je skup podataka o audio događajima sastavljen od više od 2 milijuna video segmenata od 10 sekundi s ljudskim komentarima. Za označavanje ovih podataka koristi se hijerarhijska ontologija koja se sastoji od 632 tipa događaja, što implicira da isti zvuk može biti različito označen.

24. Zaključivanje prirodnog jezika Stanforda

Skup podataka SNLI (Stanford Natural Language Inference) sadrži 570 tisuća parova rečenica koje su ručno kategorizirane kao povlačenje, proturječje ili neutralno.

Premise su opisi slika na Flickr30k, dok su hipoteze razvili anotatori angažirani u mnoštvu koji su dobili premisu i uputili ih da generiraju sadržajne, proturječne i neutralne izjave.

25. Vizualno odgovaranje na pitanja

Visual Question Answering (VQA) je skup podataka koji sadrži otvorena pitanja u vezi sa slikama. Da biste odgovorili na ova pitanja, morate shvatiti viziju, jezik i zdrav razum.

Zaključak

Kako strojno učenje i umjetna inteligencija (AI) postaju sve prisutniji u praktički svakom poslu iu našem svakodnevnom životu, tako raste i broj dostupnih resursa i informacija o toj temi.

Gotovi javni skupovi podataka pružaju izvrsnu početnu točku za razvoj AI modela, a istovremeno omogućuju iskusnim ML programerima da uštede vrijeme i usredotoče se na druge elemente svojih projekata.

Najbolji alternativni skupovi podataka za obuku AI-ja

25 najboljih alternativnih skupova podataka za obuku umjetne inteligencije

1. Skup podataka o atributima CelebFaces

2. DOTA

3. Google skup podataka za usporedbu izraza lica

4. Vizualni genom

5. LibriSpeech

6. Gradski prostori

7. Kinetički skup podataka

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nesreće u SAD-u

13. Prepoznavanje očnih bolesti

14. Bolesti srca

15. CLEVR

16. Univerzalne ovisnosti

17. KITTI – 360

18. MOT (Praćenje više objekata)

19. PASCAL 3D+

20. Deformabilni modeli lica životinja

21. Skup podataka o MPII ljudskim postovima

22. UCF101

23. Audioset

24. Zaključivanje prirodnog jezika Stanforda

25. Vizualno odgovaranje na pitanja

Zaključak

O nama kreja

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj umjetnoj inteligenciji

Colossyan protiv Heygena

Ovaj bilten o tehnologiji budućnosti nije loš

25 najboljih alternativnih skupova podataka za obuku umjetne inteligencije

1. Skup podataka o atributima CelebFaces

2. DOTA

3. Google skup podataka za usporedbu izraza lica

4. Vizualni genom

5. LibriSpeech

6. Gradski prostori

7. Kinetički skup podataka

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nesreće u SAD-u

13. Prepoznavanje očnih bolesti

14. Bolesti srca

15. CLEVR

16. Univerzalne ovisnosti

17. KITTI – 360

18. MOT (Praćenje više objekata)

19. PASCAL 3D+

20. Deformabilni modeli lica životinja

21. Skup podataka o MPII ljudskim postovima

22. UCF101

23. Audioset

24. Zaključivanje prirodnog jezika Stanforda

25. Vizualno odgovaranje na pitanja

Zaključak

O nama kreja

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj umjetnoj inteligenciji

10 najboljih AI alata za društvene medije

Colossyan protiv Heygena

10 najboljih AI alata za izradu animiranog videa

Reader Interakcije

Ostavi odgovor Odustani od odgovora

Ovaj bilten o tehnologiji budućnosti nije loš