25 nejlepších datových sad pro alternativní školení AI (2024)

V současné době se většina z nás zaměřuje na vývoj modelů strojového učení a umělé inteligence a řešení problémů pomocí aktuálních datových sad. Nejprve však musíme definovat datovou sadu, její význam a roli při vývoji silných řešení AI a ML.

Dnes máme k dispozici nepřeberné množství open source datových sad, na kterých můžeme provádět výzkum nebo vyvíjet aplikace pro řešení skutečných problémů v různých odvětvích.

Avšak nedostatek kvalitních kvantitativních datových souborů je zdrojem obav. Data nesmírně vzrostla a v budoucnu se budou dále rozšiřovat rychlejším tempem.

V tomto příspěvku se budeme zabývat volně dostupnými datovými sadami, které můžete využít k vývoji svého dalšího projektu AI.

1. Datová sada atributů CelebFaces

CelebFaces Attributes Dataset (CelebA) obsahuje více než 200 40 fotografií celebrit a XNUMX anotací atributů pro každý obrázek, což z něj dělá vynikající výchozí bod pro projekty, jako je např. rozpoznávání obličejů, detekce obličeje, lokalizace orientačních bodů (nebo komponent obličeje) a úprava a syntéza obličeje. Dále fotografie v této kolekci obsahují širokou škálu variant poloh a nepořádku kulis.

2. DOTA

DOTA (soubor dat Detekce objektů v Aerial Photos) je rozsáhlý soubor dat pro detekci objektů, který zahrnuje 15 běžných kategorií (např. loď, letadlo, auto atd.), 1411 snímků pro školení a 458 snímků pro ověření.

3. Porovnávací datová sada výrazu obličeje Google

Datový soubor Google pro porovnání výrazů obličeje obsahuje přibližně 500,000 156,000 trojic obrázků, včetně XNUMX XNUMX fotografií obličejů. Stojí za zmínku, že každý triplet v tomto souboru dat byl anotován nejméně šesti lidskými hodnotiteli.

Tato datová sada je užitečná pro projekty zahrnující analýzu výrazu obličeje, jako je vyhledávání obrázků založené na výrazu, kategorizace emocí, syntéza výrazu a tak dále. Pro získání přístupu k datové sadě je nutné vyplnit stručný formulář.

4. Vizuální genom

Data Visual Question Answering v prostředí s více možnostmi jsou dostupná ve Visual Genome. Skládá se ze 101,174 1.7 fotografií MSCOCO s 17 miliony párů QA, s průměrem XNUMX otázek na obrázek.

Ve srovnání s datovou sadou Visual Question Answering má datová sada Visual Genome spravedlivější distribuci v šesti typech otázek: Co, Kde, Kdy, Kdo, Proč a Jak.

Kromě toho datová sada Visual Genome obsahuje 108 tisíc fotografií, které byly silně označeny objekty, vlastnostmi a připojeními.

5. LibriSpeech

Korpus LibriSpeech je sbírka přibližně 1,000 hodin audioknih z projektu LibriVox. Většina audioknih pochází z projektu Gutenberg.

Tréninková data jsou rozdělena do tří oddílů po sadách 100 hodin, 360 hodin a 500 hodin, zatímco vývojová a testovací data mají délku zvuku zhruba 5 hodin.

6. Městské prostory

Jedna z nejznámějších rozsáhlých databází stereo videí s městskými pohledy se jmenuje The Cityscapes.

Díky anotacím přesným na pixely, které zahrnují polohy GPS, venkovní teplotu, údaje o pohybu ega a správné stereo perspektivní záběry, obsahuje nahrávky z 50 různých německých měst.

7. Kinetická datová sada

Jedním z nejznámějších video datových souborů pro rozpoznání lidské činnosti ve velkém měřítku a v dobré kvalitě je datový soubor Kinetics. Pro každou z 600 tříd lidské činnosti existuje nejméně 600 videoklipů, celkem více než 500,000 XNUMX.

Filmy byly staženy z YouTube; každý z nich je přibližně 10 sekund dlouhý a má uvedenou pouze jednu třídu aktivity.

8. CelebAMask-HQ

CelebAMask-HQ je sbírka 30,000 19 fotografií obličeje ve vysokém rozlišení s pečlivě anotovanými maskami a XNUMX třídami, které zahrnují obličejové komponenty, jako je kůže, nos, oči, obočí, uši, ústa, rty, vlasy, klobouk, brýle, náušnice, náhrdelník, krk, materiál.

Datovou sadu lze použít k testování a trénování rozpoznávání obličeje, analýzy obličeje a GAN pro generování a úpravy algoritmů obličeje.

9. Penn Treebank

Jedním z nejpozoruhodnějších a často používaných korpusů pro hodnocení modelů pro sekvenční značkování je anglický korpus Penn Treebank (PTB), konkrétně ta část korpusu, která odpovídá článkům z Wall Street Journal.

Každé slovo musí mít svůj slovní druh označený jako součást úkolu. Úroveň znaků a úroveň slov jazykové modelování také často používá korpus.

10. VoxCeleb

VoxCeleb je rozsáhlá datová sada pro identifikaci řeči generovaná automaticky open-source média. VoxCeleb má více než milion výroků z více než 6 XNUMX reproduktorů.

Protože datová sada obsahuje audio-vizuální, může být použita pro řadu dalších aplikací, včetně vizuální syntézy řeči, separace řeči, crossmodálního přenosu z obličeje na hlas nebo naopak a trénování rozpoznávání obličeje z videa pro doplnění současného rozpoznávání obličeje. datové sady.

11. SIXray

Dataset SIXray obsahuje 1,059,231 XNUMX XNUMX rentgenových snímků shromážděných ze stanic metra a anotovaných inspektory lidské bezpečnosti, aby odhalili šest hlavních druhů zakázaných předmětů: pistole, nože, hasáky, kleště, nůžky a kladiva. Kromě toho byly do testovacích sad ručně přidány ohraničující rámečky pro každou nepovolenou položku, aby bylo možné vyhodnotit výkon lokalizace objektů.

12. Nehody v USA

Podstatu projektu prozrazuje již název datové sady, US Accidents. Tento soubor údajů o celostátních automobilových nehodách zahrnuje informace od února 2016 do prosince 2021 a pokrývá 49 států v USA.

V této sbírce se nyní nachází přibližně 1.5 milionu záznamů o nehodách. Byly shromážděny v reálném čase pomocí několika dopravních API.

Tato rozhraní API přenášejí dopravní informace shromážděné z různých zdrojů, včetně dopravních kamer, organizací činných v trestním řízení a amerických a státních ministerstev dopravy.

13. Rozpoznávání očních nemocí

Organizovaná oftalmologická databáze Ocular Disease Intelligent Recognition (ODIR) obsahuje informace o 5,000 XNUMX pacientech, včetně jejich věku, barvy očního pozadí na levém a pravém oku a klíčových slov pro diagnostiku lékařů.

Tento datový soubor je skutečným souborem údajů o pacientech z různých nemocnic a zdravotnických zařízení v Číně, které společnost Shanggong Medical Technology Co., Ltd. získala. S řízení kontroly kvality, anotace byly označeny zkušenými lidskými čtenáři.

14. Srdeční choroba

Tento soubor údajů o srdečních chorobách pomáhá identifikovat existenci srdečního onemocnění u pacienta na základě 76 parametrů, jako je věk, pohlaví, druh bolesti na hrudi, klidový krevní tlak a tak dále.

S 303 případy se databáze snaží jednoduše odlišit existenci nemoci (hodnota 1,2,3,4) od její nepřítomnosti (hodnota 0).

15. CLEVR

Datový soubor CLEVR (Compositional Language and Elementary Visual Reasoning) napodobuje Visual Question Answering. Skládá se z fotografií 3D renderovaných objektů, přičemž každou fotografii doprovází řada vysoce kompozičních otázek rozdělených do několika kategorií.

U všech cvičných a ověřovacích obrázků a otázek obsahuje datový soubor 70,000 700,000 fotografií a 15,000 150,000 otázek pro školení, 15,000 150,000 obrázků a XNUMX XNUMX otázek pro ověření a XNUMX XNUMX obrázků a XNUMX XNUMX otázek pro testování zahrnující objekty, odpovědi, grafy scén a funkční programy.

16. Univerzální závislosti

Projekt Universal Dependencies (UD) si klade za cíl vytvořit mezijazykově jednotnou morfologii a anotaci stromové banky syntaxe pro mnoho jazyků. Verze 2.7, která byla vydána v roce 2020, má 183 stromových bank ve 104 jazycích.

Anotace se skládá z univerzálních značek POW, hlav závislostí a univerzálních značek závislostí.

17. KITTI – 360

Jeden z nejčastěji používaných datových sad pro mobilní roboty a autonomní řízení je KITTI (Karlsruhe Institute of Technology a Toyota Technological Institute).

Skládá se z několikahodinových dopravních scénářů, které byly pořízeny pomocí řady senzorových modalit, jako je RGB s vysokým rozlišením, stereofonní zvuk ve stupních šedi a 3D laserové skenerové kamery. Soubor dat byl postupem času vylepšován několika výzkumníky, kteří ručně anotovali různé jeho části, aby vyhovovaly jejich potřebám.

18. MOT (sledování více objektů)

MOT (Multiple Object Tracking) je datová sada pro sledování více objektů, která zahrnuje vnitřní a venkovní scenérie veřejných míst, které zahrnují chodce jako objekty zájmu. Video každé scény je rozděleno na dva díly, jeden pro trénink a druhý pro testování.

Datová sada obsahuje detekce objektů ve video snímcích pomocí tří detektorů: SDP, Faster-RCNN a DPM.

19. PASCAL 3D+

Vícepohledový datový soubor Pascal3D+ se skládá z fotografií shromážděných ve volné přírodě, tj. snímků kategorií položek s vysokou variabilitou, zachycených za nekontrolovaných okolností, v přeplněných prostředích a na různých pozicích. Pascal3D+ obsahuje 12 rigidních kategorií objektů čerpaných z datové sady PASCAL VOC 2012.

Na těchto položkách jsou vyznačeny informace o poloze (azimut, elevace a vzdálenost od kamery). Pascal3D+ navíc v těchto 12 kategoriích obsahuje fotografie anotované pózou z kolekce ImageNet.

20. Deformovatelné modely obličeje zvířat

Cílem projektu Facial Deformable Models of Animals (FDMA) je zpochybnit současné metodiky identifikace a sledování lidských obličejových bodů a vyvinout nové algoritmy, které si poradí s podstatně větší variabilitou, která je charakteristická pro zvířecí obličejové charakteristiky.

Algoritmy projektu prokázaly schopnost rozpoznat a sledovat orientační body na lidských tvářích a zároveň se vypořádat s odchylkami vyvolanými změnami emocí nebo pozic obličeje, částečnými okluzemi a osvětlením.

21. Datový soubor MPII Human Post

MPII Human Pose Dataset obsahuje přibližně 25 15 fotografií, z nichž 3 7 jsou trénovací vzorky, XNUMX XNUMX jsou ověřovací vzorky a XNUMX XNUMX jsou testovací vzorky.

Pozice jsou ručně označeny až 16 tělesnými klouby a fotografie jsou převzaty z filmů na YouTube pokrývajících 410 různých lidských činností.

22. 101 UCF

Datový soubor UCF101 obsahuje 13,320 101 videoklipů uspořádaných do 101 kategorií. Těchto XNUMX kategorií je rozděleno do pěti kategorií: tělesné pohyby, interakce člověk-člověk, interakce člověk-objekt, hra na hudební nástroje a sport.

Videa jsou z YouTube a trvají 27 hodin.

23. Audioset

Zvuková sada je datová sada zvukových událostí, která se skládá z více než 2 milionů lidmi anotovaných 10sekundových segmentů videa. K anotaci těchto dat se používá hierarchická ontologie zahrnující 632 typů událostí, což znamená, že stejný zvuk může být označen odlišně.

24. Stanfordská odvozenina přirozeného jazyka

Datový soubor SNLI (Stanford Natural Language Inference) obsahuje 570 XNUMX párů vět, které byly manuálně kategorizovány jako zatěžující, protimluvné nebo neutrální.

Premisy jsou popisy obrázků Flickr30k, zatímco hypotézy byly vyvinuty anotátory z davových zdrojů, kterým byl poskytnut předpoklad a instruováni, aby generovali obsáhlá, protichůdná a neutrální prohlášení.

25. Vizuální zodpovězení otázek

Visual Question Answering (VQA) je datová sada, která obsahuje otevřené otázky týkající se obrázků. Chcete-li odpovědět na tyto otázky, musíte pochopit vizi, jazyk a zdravý rozum.

Proč investovat do čističky vzduchu?

S tím, jak se strojové učení a umělá inteligence (AI) stávají stále rozšířenějšími prakticky v každém podnikání a v našem každodenním životě, roste i počet dostupných zdrojů a informací na toto téma.

Hotové veřejné datové sady poskytují skvělý výchozí bod pro vývoj modelů AI a zároveň umožňují zkušeným programátorům ML ušetřit čas a soustředit se na jiné prvky svých projektů.

Nejlepší alternativní datové sady pro školení AI

25 nejlepších alternativních datových sad pro školení AI

1. Datová sada atributů CelebFaces

2. DOTA

3. Porovnávací datová sada výrazu obličeje Google

4. Vizuální genom

5. LibriSpeech

6. Městské prostory

7. Kinetická datová sada

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nehody v USA

13. Rozpoznávání očních nemocí

14. Srdeční choroba

15. CLEVR

16. Univerzální závislosti

17. KITTI – 360

18. MOT (sledování více objektů)

19. PASCAL 3D+

20. Deformovatelné modely obličeje zvířat

21. Datový soubor MPII Human Post

22. 101 UCF

23. Audioset

24. Stanfordská odvozenina přirozeného jazyka

25. Vizuální zodpovězení otázek

Proč investovat do čističky vzduchu?

O Nás sojka

Další články o HashDork:

Jak snížit halucinace ve vaší AI

Colossyan vs Heygen

Tento Newsletter Future Tech není na hovno

25 nejlepších alternativních datových sad pro školení AI

1. Datová sada atributů CelebFaces

2. DOTA

3. Porovnávací datová sada výrazu obličeje Google

4. Vizuální genom

5. LibriSpeech

6. Městské prostory

7. Kinetická datová sada

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Nehody v USA

13. Rozpoznávání očních nemocí

14. Srdeční choroba

15. CLEVR

16. Univerzální závislosti

17. KITTI – 360

18. MOT (sledování více objektů)

19. PASCAL 3D+

20. Deformovatelné modely obličeje zvířat

21. Datový soubor MPII Human Post

22. 101 UCF

23. Audioset

24. Stanfordská odvozenina přirozeného jazyka

25. Vizuální zodpovězení otázek

Proč investovat do čističky vzduchu?

O Nás sojka

Další články o HashDork:

Jak snížit halucinace ve vaší AI

10 nejlepších nástrojů AI pro sociální média

Colossyan vs Heygen

10 nejlepších nástrojů pro tvorbu animovaných videí AI

Interakce Reader

Napsat komentář Zrušit odpověď

Tento Newsletter Future Tech není na hovno