25 najlepších alternatívnych súborov údajov na školenie AI (2024)

V súčasnosti sa väčšina z nás zameriava na vývoj modelov strojového učenia a AI a riešenie problémov pomocou aktuálnych súborov údajov. Najprv však musíme definovať súbor údajov, jeho význam a úlohu pri vývoji silných riešení AI a ML.

Dnes máme k dispozícii množstvo súborov údajov s otvoreným zdrojom, na ktorých môžeme vykonávať výskum alebo vyvíjať aplikácie na riešenie skutočných problémov v rôznych odvetviach.

Nedostatok kvalitných kvantitatívnych súborov údajov je však zdrojom obáv. Údaje sa nesmierne zvýšili a v budúcnosti sa budú rozširovať rýchlejším tempom.

V tomto príspevku sa budeme zaoberať voľne dostupnými súbormi údajov, ktoré môžete použiť na vývoj svojho ďalšieho projektu AI.

1. Súbor údajov atribútov CelebFaces

CelebFaces Attributes Dataset (CelebA) obsahuje viac ako 200 40 fotografií celebrít a XNUMX anotácií atribútov pre každý obrázok, čo z neho robí vynikajúci východiskový bod pre projekty ako napr. rozpoznávanie tváre, detekcia tváre, lokalizácia orientačného bodu (alebo komponentu tváre) a úprava a syntéza tváre. Okrem toho fotografie v tejto kolekcii obsahujú širokú škálu variantov pozícií a neporiadok pozadia.

2. DOTA

DOTA (súbor údajov Detekcia objektov v leteckých fotografiách) je rozsiahly súbor údajov na detekciu objektov, ktorý zahŕňa 15 bežných kategórií (napr. loď, lietadlo, auto atď.), 1411 obrázkov na školenie a 458 obrázkov na overenie.

3. Súbor údajov na porovnanie výrazov tváre Google

Súbor údajov na porovnanie výrazov tváre Google obsahuje približne 500,000 156,000 trojíc obrázkov vrátane XNUMX XNUMX fotografií tvárí. Stojí za zmienku, že každá trojica v tomto súbore údajov bola anotovaná najmenej šiestimi ľudskými hodnotiteľmi.

Tento súbor údajov je užitočný pre projekty zahŕňajúce analýzu výrazu tváre, ako je vyhľadávanie obrázkov založené na výraze, kategorizácia emócií, syntéza výrazov atď. Na získanie prístupu k súboru údajov je potrebné vyplniť krátky formulár.

4. Vizuálny genóm

Vizuálne dáta odpovedí na otázky v prostredí s viacerými možnosťami sú dostupné vo Visual Genome. Tvorí ho 101,174 1.7 fotografií MSCOCO s 17 miliónmi párov QA, s priemerom XNUMX otázok na obrázok.

V porovnaní so súborom údajov Visual Question Answering má súbor údajov Visual Genome spravodlivejšiu distribúciu v rámci šiestich typov otázok: Čo, Kde, Kedy, Kto, Prečo a Ako.

Dataset Visual Genome navyše obsahuje 108 XNUMX fotografií, ktoré boli výrazne označené objektmi, vlastnosťami a prepojeniami.

5. LibriSpeech

Korpus LibriSpeech je zbierka približne 1,000 XNUMX hodín audiokníh z projektu LibriVox. Väčšina audiokníh pochádza z projektu Gutenberg.

Tréningové dáta sú rozdelené do troch častí po 100h, 360h a 500h, zatiaľ čo dev a testovacie dáta majú dĺžku zvuku približne 5h.

6. Cityspaces

Jedna z najznámejších rozsiahlych databáz stereo videí s mestskými pohľadmi sa volá The Cityscapes.

S anotáciami s presnosťou na pixely, ktoré zahŕňajú polohu GPS, vonkajšiu teplotu, údaje o pohybe ega a správne stereo perspektívy, obsahuje nahrávky z 50 rôznych nemeckých miest.

7. Kinetický súbor údajov

Jedným z najznámejších súborov video údajov na rozpoznanie ľudskej činnosti vo veľkom meradle a v dobrej kvalite je súbor údajov Kinetics. Pre každú zo 600 tried ľudskej činnosti existuje najmenej 600 videoklipov, celkovo viac ako 500,000 XNUMX.

Filmy boli stiahnuté z YouTube; každá trvá približne 10 sekúnd a má uvedenú iba jednu triedu aktivity.

8. CelebAMask-HQ

CelebAMask-HQ je kolekcia 30,000 19 fotografií tváre vo vysokom rozlíšení so starostlivo anotovanými maskami a XNUMX tried, ktoré zahŕňajú zložky tváre, ako je koža, nos, oči, obočie, uši, ústa, pery, vlasy, klobúk, okuliare, náušnice, náhrdelník, krk, materiál.

Súbor údajov možno použiť na testovanie a trénovanie rozpoznávania tváre, analýzy tváre a GAN na generovanie a úpravu algoritmov tváre.

9. Penn Treebank

Jedným z najvýznamnejších a často používaných korpusov na hodnotenie modelov pre sekvenčné značkovanie je anglický korpus Penn Treebank (PTB), najmä časť korpusu zodpovedajúca článkom z Wall Street Journal.

Každé slovo musí mať svoju časť reči označenú ako súčasť úlohy. Na úrovni znakov a na úrovni slov jazykové modelovanie často využíva aj korpus.

10. VoxCeleb

VoxCeleb je rozsiahly súbor dát na identifikáciu reči generovaný automaticky open-source médiá. VoxCeleb má viac ako milión výrokov z viac ako 6 XNUMX reproduktorov.

Keďže súbor údajov obsahuje audio-vizuálne, možno ho použiť pre množstvo ďalších aplikácií vrátane vizuálnej syntézy reči, separácie reči, krížového prenosu z tváre na hlas alebo naopak a trénovania rozpoznávania tváre z videa na doplnenie súčasného rozpoznávania tváre. množiny údajov.

11. SIXray

Súbor údajov SIXray obsahuje 1,059,231 XNUMX XNUMX röntgenových snímok získaných zo staníc metra a anotovaných inšpektormi ľudskej bezpečnosti, aby odhalili šesť hlavných druhov zakázaných predmetov: pištole, nože, kľúče, kliešte, nožnice a kladivá. Okrem toho boli do testovacích sád manuálne pridané ohraničovacie rámčeky pre každú nepovolenú položku, aby sa vyhodnotila výkonnosť lokalizácie objektov.

12. Nehody v USA

Podstatu projektu prezrádza už názov súboru údajov, US Accidents. Tento súbor údajov o celoštátnych automobilových nehodách obsahuje informácie od februára 2016 do decembra 2021 a pokrýva 49 štátov v USA.

V tejto zbierke sa teraz nachádza približne 1.5 milióna záznamov o nehodách. Boli zhromaždené v reálnom čase pomocou niekoľkých dopravných API.

Tieto rozhrania API prenášajú informácie o premávke zhromaždené z rôznych zdrojov vrátane dopravných kamier, organizácií činných v trestnom konaní a ministerstiev dopravy USA a štátov.

13. Rozpoznanie očných chorôb

Organizovaná oftalmologická databáza Ocular Disease Intelligent Recognition (ODIR) obsahuje informácie o 5,000 XNUMX pacientoch vrátane ich veku, farby očného pozadia v ich ľavom a pravom oku a kľúčových slov pre diagnostiku lekárov.

Tento súbor údajov je skutočným súborom údajov o pacientoch z rôznych nemocníc a zdravotníckych zariadení v Číne, ktoré získala spoločnosť Shanggong Medical Technology Co., Ltd. s riadenie kontroly kvality, anotácie označili skúsení ľudskí čitatelia.

14. Choroba srdca

Tento súbor údajov o srdcových ochoreniach pomáha pri identifikácii existencie srdcového ochorenia u pacienta na základe 76 parametrov, ako je vek, pohlavie, druh bolesti na hrudníku, pokojový krvný tlak atď.

S 303 prípadmi sa databáza snaží jednoducho odlíšiť existenciu choroby (hodnota 1,2,3,4) od jej absencie (hodnota 0).

15. CLEVR

Súbor údajov CLEVR (Compositional Language and Elementary Visual Reasoning) napodobňuje vizuálne odpovedanie na otázky. Pozostáva z fotografií 3D renderovaných objektov, pričom každú fotografiu sprevádza séria vysoko kompozičných otázok rozdelených do niekoľkých kategórií.

Pre všetky obrázky a otázky vlaku a overovania obsahuje súbor údajov 70,000 700,000 fotografií a 15,000 150,000 otázok na školenie, 15,000 150,000 obrázkov a XNUMX XNUMX otázok na overenie a XNUMX XNUMX obrázkov a XNUMX XNUMX otázok na testovanie zahŕňajúce objekty, odpovede, grafy scén a funkčné programy.

16. Univerzálne závislosti

Cieľom projektu Universal Dependencies (UD) je vytvoriť medzijazykovo jednotnú anotáciu morfológie a syntaxe stromovej banky pre mnoho jazykov. Verzia 2.7, ktorá bola vydaná v roku 2020, má 183 stromov v 104 jazykoch.

Anotáciu tvoria univerzálne značky POW, hlavičky závislostí a univerzálne značky závislostí.

17. KITTI – 360

Jeden z najčastejšie používaných datasetov pre mobilné roboty a autonómna jazda je KITTI (Karlsruhe Institute of Technology a Toyota Technological Institute).

Pozostáva z hodinových dopravných scenárov, ktoré boli zachytené pomocou rôznych senzorových modalít, ako sú RGB s vysokým rozlíšením, stereofónne kamery a 3D laserové skenery. Súbor údajov bol postupom času vylepšený niekoľkými výskumníkmi, ktorí ručne anotovali rôzne jeho časti, aby vyhovovali ich potrebám.

18. MOT (sledovanie viacerých objektov)

MOT (Multiple Object Tracking) je súbor údajov pre sledovanie viacerých objektov, ktorý zahŕňa vnútorné a vonkajšie scenérie verejných miest, ktoré zahŕňajú chodcov ako objekty záujmu. Video každej scény je rozdelené na dve časti, jednu na tréning a druhú na testovanie.

Súbor údajov obsahuje detekcie objektov vo video snímkach pomocou troch detektorov: SDP, Faster-RCNN a DPM.

19. PASCAL 3D+

Multi-view dataset Pascal3D+ je tvorený fotografiami zozbieranými vo voľnej prírode, tj obrázkami kategórií položiek s vysokou variabilitou, zachytených v nekontrolovaných podmienkach, v preplnenom prostredí a na rôznych pozíciách. Pascal3D+ obsahuje 12 pevných kategórií objektov čerpaných z dátového súboru PASCAL VOC 2012.

Na týchto položkách sú vyznačené informácie o polohe (azimut, nadmorská výška a vzdialenosť od fotoaparátu). Pascal3D+ navyše obsahuje v týchto 12 kategóriách fotografie anotované pózami z kolekcie ImageNet.

20. Deformovateľné modely tváre zvierat

Cieľom projektu Facial Deformable Models of Animals (FDMA) je spochybniť súčasné metodológie v identifikácii a sledovaní orientačných bodov ľudskej tváre a vyvinúť nové algoritmy, ktoré sa dokážu vysporiadať s podstatne väčšou variabilitou, ktorá je charakteristická pre vlastnosti tváre zvierat.

Algoritmy projektu preukázali schopnosť rozpoznať a sledovať orientačné body na ľudských tvárach a zároveň sa vysporiadať s odchýlkami vyvolanými zmenami emócií alebo pozícií tváre, čiastočnými oklúziami a osvetlením.

21. MPII Human Post Dataset

Súbor údajov MPII Human Pose Dataset obsahuje približne 25 15 fotografií, z ktorých 3 7 sú cvičné vzorky, XNUMX XNUMX sú overovacie vzorky a XNUMX XNUMX sú testovacie vzorky.

Pozície sú ručne označené až 16 telesnými kĺbmi a fotografie sú prevzaté z filmov YouTube, ktoré zahŕňajú 410 rôznych ľudských činností.

22. 101 UCF

Súbor údajov UCF101 obsahuje 13,320 101 videoklipov usporiadaných do 101 kategórií. Týchto XNUMX kategórií je rozdelených do piatich kategórií: telesné pohyby, interakcie človek-človek, interakcie človek-objekt, hra na hudobných nástrojoch a šport.

Videá sú z YouTube a trvajú 27 hodín.

23. Audioset

Audioset je súbor údajov o zvukových udalostiach, ktorý pozostáva z viac ako 2 miliónov 10-sekundových segmentov videa anotovaných človekom. Na anotáciu týchto údajov sa používa hierarchická ontológia zahŕňajúca 632 typov udalostí, čo znamená, že rovnaký zvuk môže byť označený odlišne.

24. Stanfordská inferencia prirodzeného jazyka

Súbor údajov SNLI (Stanford Natural Language Inference) obsahuje 570 XNUMX párov viet, ktoré boli manuálne kategorizované ako súvisiace, protirečivé alebo neutrálne.

Premisy sú popisy obrázkov Flickr30k, zatiaľ čo hypotézy boli vyvinuté anotátormi z davových zdrojov, ktorým bol poskytnutý predpoklad a boli inštruovaní, aby generovali obsahové, protichodné a neutrálne vyhlásenia.

25. Vizuálne zodpovedanie otázok

Visual Question Answering (VQA) je súbor údajov, ktorý obsahuje otvorené otázky týkajúce sa obrázkov. Ak chcete odpovedať na tieto otázky, musíte pochopiť víziu, jazyk a zdravý rozum.

záver

Keďže strojové učenie a umelá inteligencia (AI) sú čoraz rozšírenejšie prakticky v každom podnikaní a v našom každodennom živote, zvyšuje sa aj počet dostupných zdrojov a informácií na túto tému.

Hotové verejné množiny údajov poskytujú skvelý východiskový bod pre vývoj modelov AI a zároveň umožňujú skúseným programátorom ML ušetriť čas a zamerať sa na iné prvky svojich projektov.

Najlepšie alternatívne školiace dátové súbory AI

25 najlepších alternatívnych dátových súborov na školenie AI

1. Súbor údajov atribútov CelebFaces

2. DOTA

3. Súbor údajov na porovnanie výrazov tváre Google

4. Vizuálny genóm

5. LibriSpeech

6. Cityspaces

7. Kinetický súbor údajov

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nehody v USA

13. Rozpoznanie očných chorôb

14. Choroba srdca

15. CLEVR

16. Univerzálne závislosti

17. KITTI – 360

18. MOT (sledovanie viacerých objektov)

19. PASCAL 3D+

20. Deformovateľné modely tváre zvierat

21. MPII Human Post Dataset

22. 101 UCF

23. Audioset

24. Stanfordská inferencia prirodzeného jazyka

25. Vizuálne zodpovedanie otázok

záver

O nás Sojka

Ďalšie články o HashDork:

Ako znížiť halucinácie vo vašej AI

Colossyan vs Heygen

Tento bulletin o budúcich technológiách nie je nanič

25 najlepších alternatívnych dátových súborov na školenie AI

1. Súbor údajov atribútov CelebFaces

2. DOTA

3. Súbor údajov na porovnanie výrazov tváre Google

4. Vizuálny genóm

5. LibriSpeech

6. Cityspaces

7. Kinetický súbor údajov

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nehody v USA

13. Rozpoznanie očných chorôb

14. Choroba srdca

15. CLEVR

16. Univerzálne závislosti

17. KITTI – 360

18. MOT (sledovanie viacerých objektov)

19. PASCAL 3D+

20. Deformovateľné modely tváre zvierat

21. MPII Human Post Dataset

22. 101 UCF

23. Audioset

24. Stanfordská inferencia prirodzeného jazyka

25. Vizuálne zodpovedanie otázok

záver

O nás Sojka

Ďalšie články o HashDork:

Ako znížiť halucinácie vo vašej AI

10 najlepších nástrojov AI pre sociálne médiá

Colossyan vs Heygen

10 najlepších nástrojov na tvorbu animovaných videí AI

interakcia Reader

Nechaj odpoveď Zrušiť odpoveď

Tento bulletin o budúcich technológiách nie je nanič