25 Bescht Alternativ AI Training Datasets (2024)

Hautdesdaags sinn déi meescht vun eis fokusséiert op d'Entwécklung vu Maschinnléieren an AI Modeller an d'Problemer mat aktuellen Datesätz unzegoen. Awer als éischt musse mir en Dataset definéieren, seng Bedeitung, a seng Roll bei der Entwécklung vu staarken AI a ML Léisungen.

Haut hu mir eng Onmass vun Open-Source Datesätz op deenen mir Fuerschung ausféieren oder Uwendungen entwéckelen fir d'real Welt Themen a ville Secteuren unzegoen.

Wéi och ëmmer, d'Knappheet u qualitativ héichwäerteg quantitativen Datesätz ass eng Quell vu Suergen. D'Daten sinn immens eropgaang a wäerte weider an Zukunft méi séier ausbauen.

An dësem Post wäerte mir fräi verfügbar Datesätz ofdecken déi Dir benotze kënnt fir Ären nächsten AI Projet z'entwéckelen.

1. CelebFaces Attributer Dataset

CelebFaces Attributes Dataset (CelebA) enthält iwwer 200K Promi Fotoen a 40 Attributer Annotatiounen fir all Bild, wat et en exzellente Startpunkt mécht fir Projeten wéi z. Gesiicht Unerkennung, Gesiichtserkennung, Landmark (oder Gesiichtskomponent) Lokaliséierung, a Gesiichtseditioun & Synthese. Ausserdeem enthalen d'Fotoen an dëser Sammlung eng breet Palette vu Positiounsvarianten an Kuliss.

2. DOTA

DOTA (Dataset vun Objektdetektioun in Aerial Photos) ass e grousst Datesaz fir Objekterkennung déi 15 allgemeng Kategorien enthält (zB Schëff, Fliger, Auto, asw.), 1411 Biller fir Training a 458 Biller fir Validatioun.

3. Google Gesiichtsausdrock Verglach Dataset

De Google Gesiichtsausdrockvergleichsdates enthält ongeféier 500,000 Bildtriplets, dorënner 156,000 Gesiichtsfotoen. Et ass derwäert ze notéieren datt all Triplett an dësem Dataset vu mindestens sechs mënschlech Bewäerter annotéiert gouf.

Dës Dataset ass nëtzlech fir Projete mat Gesiichtsausdrockanalyse involvéiert, sou wéi Ausdrock-baséiert Bild zréckzéien, Emotiounskategoriséierung, Ausdrocksynthese, a sou weider. Fir Zougang zum Datesaz ze kréien, muss e kuerze Formulaire ausgefëllt ginn.

4. Visuell Genom

Visuell Fro Äntwert Daten an engem Multi-choice Ëmfeld ass am Visual Genome verfügbar. Et besteet aus 101,174 MSCOCO Fotoen mat 1.7 Millioune QA Pairen, mat engem Duerchschnëtt vu 17 Froen pro Bild.

Am Verglach zum Visual Question Answering Dataset huet de Visual Genome Dataset eng méi fair Verdeelung iwwer sechs Froetypen: Wat, Wou, Wéini, Wien, Firwat a Wéi.

Zousätzlech enthält de Visual Genome Dataset 108K Fotoen déi schwéier mat Objekter, Eegeschaften a Verbindungen markéiert goufen.

5. LibriSpeech

De LibriSpeech Corpus ass eng Sammlung vu ronn 1,000 Stonnen Audiobicher aus dem LibriVox Projet. D'Majoritéit vun den Audiobooks staamt vum Project Gutenberg.

D'Trainingsdaten sinn opgedeelt an dräi Partitionen vun 100hr, 360hr, a 500hr Sets, während d'Dev an Testdaten ongeféier 5hr an der Audiolängt sinn.

6. D'Cityspaces

Ee vun de bekanntste grouss-Skala Datenbanken vun Stereo Videoen mat urban Meenung ass genannt The Cityscapes.

Mat pixel-präzise Annotatiounen, déi GPS Locations, Outdoor Temperatur, Ego-Bewegungsdaten a richteg Stereo Perspektiven enthalen, enthält et Opzeechnunge vu 50 verschidde däitsche Stied.

7. Kinetics Dataset

Ee vun de bekanntste Video Datesätz fir mënschlech Aktivitéit op grousser Skala a mat gudder Qualitéit z'erkennen ass de Kinetics Dataset. Et gi mindestens 600 Videoclips fir jiddereng vun de 600 mënschlech Aktivitéitsklassen, am Ganzen iwwer 500,000.

D'Filmer goufen aus YouTube gezunn; all eent ass ronn 10 Sekonnen laang an huet nëmmen eng Aktivitéit Klass opgezielt.

8. CelebAMask-HQ

CelebAMask-HQ ass eng Sammlung vun 30,000 héichopléisende Gesiichtsfotoen mat suergfälteg annotéierter Masken an 19 Klassen, déi Gesiichtskomponenten enthalen wéi Haut, Nues, Aen, Stëbs, Oueren, Mond, Lip, Hoer, Hutt, Brëll, Ouerréng, Halskette, Hals, Material.

Den Dataset kann benotzt ginn fir Gesiichtserkennung, Gesiichtsparsing a GANs ze testen an ze trainéieren fir Algorithmen ze generéieren an z'änneren.

9. Penn Treebank

Ee vun de bemierkenswäertsten an dacks benotzte Korpus fir d'Bewäertung vu Modeller fir Sequenztagging ass den englesche Penn Treebank (PTB) Corpus, besonnesch den Deel vum Korpus entsprécht Wall Street Journal Artikelen.

All Wuert muss säin Deel vun der Ried als Bestanddeel vun der Aufgab markéiert hunn. Charakterniveau a Wuertniveau Sproochmodelléierung benotzt och dacks de Corpus.

10. VoxCeleb

VoxCeleb ass eng grouss-Skala Ried Identifikatioun Dataset automatesch generéiert aus Open-Source Medien. VoxCeleb huet iwwer eng Millioun Aussoe vun iwwer 6k Spriecher.

Well den Dataset audiovisuell enthält, kann et fir eng Vielfalt vun zousätzlech Uwendungen benotzt ginn, dorënner visuell Riedsynthese, Riedentrennung, Cross-modal Transfer vu Gesiicht op Stëmm oder vice versa, an Training Gesiichtserkennung vu Video fir déi aktuell Gesiichtserkennung z'ergänzen. Datesätz.

11. SIXray

D'SIXray Dataset enthält 1,059,231 Röntgenbilder gesammelt vun de Subway Statiounen a vun de mënschleche Sécherheetsinspekteren annotéiert fir sechs Haaptaarte vu verbuedenen Artikelen z'entdecken: Pistoulen, Messer, Schlësselen, Zangen, Scheren an Hammers. Ausserdeem goufen Grenzkëschte fir all net erlaabt Element manuell an d'Testsets bäigefüügt fir d'Leeschtung vun der Objektlokaliséierung ze evaluéieren.

12. US Accidenter

D'Substanz vum Projet gëtt scho mam Numm vum Dataset opgedeckt, US Accidenter. Dësen Dataset iwwer national Autosaccidenter enthält Informatioun vum Februar 2016 bis Dezember 2021 an deckt 49 Staaten an den USA.

Ongeféier 1.5 Milliounen Accident records sinn elo an dëser Sammlung präsent. Et gouf an Echtzäit gesammelt andeems Dir verschidde Traffic APIs benotzt.

Dës APIen iwwerdroen Trafficinformatioun aus verschiddene Quellen gesammelt, dorënner Verkéierskameraen, Affekotenorganisatiounen, an den USA a Staatsdepartementer vum Transport.

13. Okulär Krankheet Unerkennung

Déi organiséiert ophthalmesch Datebank Ocular Disease Intelligent Recognition (ODIR) enthält Informatioun iwwer 5,000 Patienten, dorënner hiren Alter, d'Faarf vum Fundus an de lénksen a rietsen Aen, an d'diagnostesch Schlësselwierder vun de medizinesche Fachleit.

Dës Dataset ass eng aktuell Sammlung vu Patientdaten aus verschiddene Spideeler a medizinesche Ariichtungen a China, déi Shanggong Medical Technology Co., Ltd. Mat Qualitéitskontroll Gestioun, Annotatioune goufe vu kompetente mënschleche Lieser markéiert.

14. Häerzkrankheet

Dësen Häerzkrankheeten-Datebank hëlleft der Existenz vun Häerzkrankheeten an engem Patient z'identifizéieren baséiert op 76 Parameteren wéi Alter, Geschlecht, Brustschmerzenart, Roude Blutdrock, asw.

Mat 303 Fäll probéiert d'Datebank einfach d'Existenz vun enger Krankheet (Wäert 1,2,3,4) vu senger Verontreiung (Wäert 0) ze differenzéieren.

15. CLEVR

De CLEVR Dataset (Compositional Language and Elementary Visual Reasoning) mimics Visual Question Answering. Et besteet aus Fotoe vun 3D-rendered Objeten, mat all Foto begleet vun enger Serie vun héich kompositoresche Froen, déi a verschidde Kategorien opgedeelt sinn.

Fir all Zuch- a Validatiounsbiller a Froen, enthält den Dataset 70,000 Fotoen a 700,000 Froen fir Training, 15,000 Biller an 150,000 Froen fir Validatioun, an 15,000 Biller an 150,000 Froen fir Tester mat Objeten, Äntwerten, funktionell Szeneprogrammer a Grafiken.

16. Universal Ofhängegkeeten

Den Universal Dependencies (UD) Projet zielt fir cross-linguistesch eenheetlech Morphologie a Syntax Bambank Annotatioun fir vill Sproochen ze kreéieren. Versioun 2.7, déi am Joer 2020 verëffentlecht gouf, huet 183 Bambanken an 104 Sproochen.

D'Annotatioun besteet aus universellen POW Tags, Ofhängegkeetskoppen, an universell Ofhängegkeetsetiketten.

17. KITTI - 360

Ee vun de meescht benotzten Datesätz fir mobil Roboteren a autonom Fuere ass KITTI (Karlsruhe Institut fir Technologie an Toyota Technologesch Institut).

Et besteet aus Stonnen am Wäert vu Verkéiersszenarien, déi mat enger Rei vu Sensormodalitéiten ageholl goufen, sou wéi héichopléisende RGB, Grauskala Stereo, an 3D Laser Scanner Kameraen. Den Dataset gouf mat der Zäit vu verschiddene Fuerscher verbessert, déi verschidde Portiounen dovun manuell annotéiert hunn fir hir Bedierfnesser ze passen.

18. MOT (Multiple Object Tracking)

MOT (Multiple Object Tracking) ass en Dataset fir Multiple Object Tracking déi Indoor an Outdoor Kuliss vun ëffentleche Plazen enthält, déi Foussgänger als Objeten vun Interesse enthalen. De Video vun all Szen ass an zwee Stécker opgedeelt, eent fir Training an dat anert fir ze testen.

Den Dataset enthält Objekterkennung a Videoframes mat dräi Detektoren: SDP, Faster-RCNN, an DPM.

19. PASCAL 3D+

De Pascal3D+ Multi-View Dataset besteet aus Fotoen, déi an der Wëld gesammelt sinn, dh Biller vun Artikelkategorien mat héijer Variabilitéit, ageholl an onkontrolléierten Ëmstänn, a voller Ëmfeld, an a verschiddene Positiounen. Pascal3D+ enthält 12 steiwe Objektkategorien aus dem PASCAL VOC 2012 Dataset.

Dës Elementer hunn Haltungsinformatioun op hinnen markéiert (Azimut, Héicht an Distanz zu der Kamera). Pascal3D+ enthält zousätzlech pose-annotéiert Fotoen aus der ImageNet Sammlung an dësen 12 Kategorien.

20. Gesiicht Deformable Modeller vun Déieren

D'Zil vum Facial Deformable Models of Animals (FDMA) Projet ass d'aktuell Methodologien an der mënschlecher Gesiichtslandmark Identifikatioun a Verfollegung erauszefuerderen an nei Algorithmen z'entwéckelen déi mat der wesentlech méi grousser Variabilitéit këmmeren, déi charakteristesch ass fir Déier Gesiichtseigenschaften.

D'Algorithmen vum Projet hunn d'Fäegkeet bewisen, Landmarken op mënschleche Gesiichter z'erkennen an ze verfolgen, während se mat Varianzen ëmgoen, déi duerch Verännerungen an Gesiichts Emotiounen oder Positiounen, deelweis Okklusiounen a Beliichtung induzéiert ginn.

21. MPII Mënsch Post Dateset

Den MPII Human Pose Dataset enthält ongeféier 25K Fotoen, 15K vun deenen Trainingsproben sinn, 3K vun deenen sinn Validatiounsprouwen, a 7K vun deenen Testproben sinn.

D'Positioune ginn manuell mat bis zu 16 kierperleche Gelenker markéiert, an d'Fotoe ginn aus YouTube Filmer geholl, déi 410 verschidde mënschlech Aktivitéiten ofdecken.

22. UCF 101 Präis

D'UCF101 Dataset enthält 13,320 Videoclips organiséiert an 101 Kategorien. Dës 101 Kategorien sinn a fënnef Kategorien opgedeelt: kierperlech Bewegungen, Mënsch-Mënsch Interaktiounen, Mënsch-Objet Interaktiounen, Museksinstrument spillen, a Sport.

D'Videoe sinn vun YouTube a besteet aus 27 Stonnen Dauer.

23. Audioset

Audioset ass en Audio Event Datesaz besteet aus iwwer 2 Millioune mënschlech annotéiert 10 Sekonnen Video Segmenter. Fir dës Donnéeën ze annotéieren, gëtt eng hierarchesch Ontologie mat 632 Eventtypen benotzt, wat implizéiert datt dee selwechte Sound anescht bezeechent ka ginn.

24. Stanford Natural Language Inference

D'SNLI Dataset (Stanford Natural Language Inference) enthält 570k Saz Pairen déi manuell als Entailment, Widdersproch oder Neutral kategoriséiert goufen.

Raimlechkeete si Flickr30k Bildbeschreiwungen, wärend Hypothesen entwéckelt goufen vu crowd-sourced Annotatoren, déi eng Viraussetzung geliwwert goufen an instruéiert goufen matmaachen, widderspréchlech an neutral Aussoen ze generéieren.

25. Visuell Fro Äntwert

Visual Question Answering (VQA) ass en Dataset deen oppe Froen iwwer Biller enthält. Fir dës Froen ze beäntweren, musst Dir Visioun, Sprooch a gesonde Mënscheverstand begräifen.

Konklusioun

Wéi Maschinnléieren a kënschtlech Intelligenz (AI) méi verbreed ginn a praktesch all Geschäft an an eisem Alldag, sou ass d'Zuel vun de Ressourcen an Informatioun iwwer dëst Thema.

Fäerdeg ëffentlech Datesätz bidden e super Startpunkt fir AI Modeller z'entwéckelen, wärend och erfuerene ML Programméierer erlaabt Zäit ze spueren an op aner Elementer vun hire Projeten ze fokusséieren.

25 Bescht Alternativ AI Training Datasets

1. CelebFaces Attributer Dataset

2. DOTA

3. Google Gesiichtsausdrock Verglach Dataset

4. Visuell Genom

5. LibriSpeech

6. D'Cityspaces

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. US Accidenter

13. Okulär Krankheet Unerkennung

14. Häerzkrankheet

15. CLEVR

16. Universal Ofhängegkeeten

17. KITTI - 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Gesiicht Deformable Modeller vun Déieren

21. MPII Mënsch Post Dateset

22. UCF 101 Präis

23. Audioset

24. Stanford Natural Language Inference

25. Visuell Fro Äntwert

Konklusioun

Iwwer Jay

Méi Artikelen iwwer HashDork:

Wéi reduzéieren ech Halluzinatiounen an Ärer AI

Colossyan vs Heygen

Dësen zukünftegen Tech Newsletter suckt net

25 Bescht Alternativ AI Training Datasets

1. CelebFaces Attributer Dataset

2. DOTA

3. Google Gesiichtsausdrock Verglach Dataset

4. Visuell Genom

5. LibriSpeech

6. D'Cityspaces

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. US Accidenter

13. Okulär Krankheet Unerkennung

14. Häerzkrankheet

15. CLEVR

16. Universal Ofhängegkeeten

17. KITTI - 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Gesiicht Deformable Modeller vun Déieren

21. MPII Mënsch Post Dateset

22. UCF 101 Präis

23. Audioset

24. Stanford Natural Language Inference

25. Visuell Fro Äntwert

Konklusioun

Iwwer Jay

Méi Artikelen iwwer HashDork:

Wéi reduzéieren ech Halluzinatiounen an Ärer AI

10 Bescht AI Tools fir Social Media

Colossyan vs Heygen

10 Bescht AI Animéiert Video Maker Tools

Reader Interactions

Hannerlooss eng Äntwert Ofbriechen reply

Dësen zukünftegen Tech Newsletter suckt net