25 Best Alternative AI Training Datasets (2024)

Tsjintwurdich binne de measten fan ús rjochte op it ûntwikkeljen fan masine-learen en AI-modellen en it oanpakken fan problemen mei aktuele datasets. Mar earst moatte wy in dataset definiearje, syn betsjutting, en har rol by it ûntwikkeljen fan sterke AI- en ML-oplossingen.

Tsjintwurdich hawwe wy in oerfloed fan iepen boarne datasets wêrop wy ûndersyk kinne dwaan of applikaasjes ûntwikkelje om echte wrâldproblemen yn in ferskaat oan sektoaren oan te pakken.

De krapte fan kwalitative kwantitative datasets is lykwols in boarne fan soargen. Gegevens binne enoarm opstien en sille yn 'e takomst fierder útwreidzje mei in flugger taryf.

Yn dizze post sille wy frij beskikbere datasets dekke dy't jo kinne brûke om jo folgjende AI-projekt te ûntwikkeljen.

1. CelebFaces Attributen Dataset

CelebFaces Attributes Dataset (CelebA) befettet mear dan 200K foto's fan ferneamden en 40 attribútannotaasjes foar elke ôfbylding, wêrtroch it in poerbêst begjinpunt is foar projekten lykas gesicht erkenning, gesichtsdeteksje, landmark (as gesichtskomponint) lokalisaasje, en gesichtsbewurking en synteze. Fierder befetsje de foto's yn dizze kolleksje in breed oanbod fan posysjefarianten en eftergrûnrommel.

2. GIVEN

DOTA (Dataset fan Objektdeteksje in Aerial Photos) is in grutskalige dataset foar objektdeteksje dy't 15 mienskiplike kategoryen omfettet (bgl. skip, fleantúch, auto, ensfh.), 1411 ôfbyldings foar training, en 458 ôfbyldings foar falidaasje.

3. Google Facial Expression ferliking dataset

De gegevensset foar fergeliking fan gesichtsútdrukkingen fan Google befettet sawat 500,000 foto-trijelingen, ynklusyf 156,000 gesichtsfoto's. It is de muoite wurdich op te merken dat elke triplet yn dizze dataset waard annotearre troch op syn minst seis minsklike beoarders.

Dizze dataset is nuttich foar projekten wêrby't gesichtsekspresje-analyze, lykas ekspresje-basearre ôfbyldingswinning, emoasjekategorisearring, ekspresjesynteze, ensfh. Om tagong te krijen ta de dataset, moat in koart formulier ynfold wurde.

4. Visual Genome

Visual Question Beäntwurdzje fan gegevens yn in multi-choice omjouwing is beskikber yn Visual Genome. It bestiet út 101,174 MSCOCO-foto's mei 1.7 miljoen QA-pearen, mei in gemiddelde fan 17 fragen per ôfbylding.

Yn ferliking mei de Visual Question Answering dataset hat de Visual Genome dataset in mear earlike ferdieling oer seis fraachtypen: Wat, Wêr, Wannear, Wa, Wêrom en Hoe.

Derneist omfettet de Visual Genome-dataset 108K-foto's dy't swier tagged binne mei objekten, eigenskippen en ferbiningen.

5. LibriSpeech

It LibriSpeech-korpus is in samling fan sa'n 1,000 oeren oan harkboeken út it LibriVox-projekt. De mearderheid fan 'e harkboeken komt fan Project Gutenberg.

De trainingsgegevens binne ferdield yn trije partysjes fan 100hr, 360hr, en 500hr-sets, wylst de dev- en testgegevens sawat 5hr yn audiolingte binne.

6. De Cityspaces

Ien fan 'e bekendste grutskalige databases fan stereofideo's mei stedske werjeften hjit The Cityscapes.

Mei pikselkrekte annotaasjes dy't GPS-lokaasjes, de bûtentemperatuer, ego-bewegingsgegevens en juste stereoperspektiven omfetsje, omfettet it opnamen fan 50 ûnderskate Dútske stêden.

7. Kinetics Dataset

Ien fan 'e bekendste fideo-datasets foar it herkennen fan minsklike aktiviteit op grutte skaal en mei goede kwaliteit is de Kinetics-dataset. D'r binne op syn minst 600 fideoklips foar elk fan 'e 600 klassen fan minsklike aktiviteit, yn totaal mear dan 500,000 yn totaal.

De films waarden helle fan YouTube; elk is om 10 sekonden lang en hat mar ien aktiviteit klasse listed.

8. CelebAMask-HQ

CelebAMask-HQ is in kolleksje fan 30,000 gesichtsfoto's mei hege resolúsje mei soarchfâldich annotearre maskers en 19 klassen dy't gesichtskomponinten omfetsje lykas hûd, noas, eagen, wynbrauwen, earen, mûle, lip, hier, hoed, bril, earring, ketting, nekke, materiaal.

De dataset kin brûkt wurde om gesichtsherkenning, gesichtsparsing en GAN's te testen en te trainen foar algoritmen foar gesichtsgeneraasje en bewurkjen.

9. Penn Treebank

Ien fan 'e meast opfallende en faak brûkte korpora foar de beoardieling fan modellen foar sekwinsje tagging is it Ingelske Penn Treebank (PTB) korpus, benammen it diel fan it korpus dat oerienkomt mei artikels fan Wall Street Journal.

Elk wurd moat syn wurdlid hawwe tagged as in komponint fan 'e taak. Karakternivo en wurdnivo taalmodellering brûkt ek faak it korpus.

10. VoxCeleb

VoxCeleb is in grutskalige dataset foar spraakidentifikaasje automatysk generearre fan iepen boarne media. VoxCeleb hat mear as in miljoen útspraken fan mear as 6k sprekkers.

Om't de dataset audiofisueel omfettet, kin it brûkt wurde foar in ferskaat oan ekstra tapassingen, ynklusyf fisuele spraaksynteze, spraakskieding, cross-modale oerdracht fan gesicht nei stim of oarsom, en training fan gesichtsherkenning fan fideo om hjoeddeistige gesichtsherkenning oan te foljen datasets.

11. SIXray

De SIXray-dataset omfettet 1,059,231 röntgenfoto's sammele fan metrostasjons en annotearre troch minsklike feiligensynspekteurs om seis haadsoarten ferbeane items te ûntdekken: pistoalen, messen, moersleutels, tangen, skjirre en hammers. Fierder binne beheinende fakjes foar elk net tastien item manuell tafoege oan de testsets om de prestaasjes fan objektlokalisaasje te evaluearjen.

12. Amerikaanske ûngemakken

De stof fan it projekt is al iepenbiere troch de namme fan 'e dataset, US Accidents. Dizze dataset oer lanlike auto-ûngemakken omfettet ynformaasje fan febrewaris 2016 oant desimber 2021 en beslacht 49 steaten yn 'e FS.

Likernôch 1.5 miljoen ûngelok records binne no oanwêzich yn dizze kolleksje. It waard yn realtime sammele troch ferskate ferkears-API's te brûken.

Dizze API's stjoere ferkearsynformaasje sammele út in ferskaat oan boarnen, ynklusyf ferkearskamera's, organisaasjes foar wet hanthavening, en de Amerikaanske en steatsdepartementen fan ferfier.

13. Ocular Disease Recognition

De organisearre oftalmyske databank Ocular Disease Intelligent Recognition (ODIR) befettet ynformaasje oer 5,000 pasjinten, ynklusyf har leeftyd, de kleur fan 'e fundus yn har lofter en rjochter eagen, en diagnostyske kaaiwurden fan medyske professionals.

Dizze dataset is in feitlike kolleksje fan pasjintgegevens fan ferskate sikehûzen en medyske foarsjenningen yn Sina dy't Shanggong Medical Technology Co., Ltd. Mei kwaliteit kontrôle behear, annotaasjes waarden tagged troch betûfte minsklike lêzers.

14. Heart Disease

Dizze dataset foar hertsykte helpt by it identifisearjen fan it bestean fan hertsykte yn in pasjint basearre op 76 parameters lykas leeftyd, geslacht, soarte boarstpine, rêstende bloeddruk, ensfh.

Mei 303 gefallen besiket de databank gewoan it bestean fan in sykte (wearde 1,2,3,4) te ûnderskieden fan syn ôfwêzigens (wearde 0).

15. CLEVR

De CLEVR dataset (Compositional Language and Elementary Visual Reasoning) mimics Visual Question Answering. It bestiet út foto's fan 3D-werjûn objekten, wêrby't elke foto begelaat wurdt troch in searje fan heul komposysjonele fragen ferdield yn ferskate kategoryen.

Foar alle trein- en falidaasjefoto's en fragen omfettet de dataset 70,000 foto's en 700,000 fragen foar training, 15,000 ôfbyldings en 150,000 fragen foar falidaasje, en 15,000 ôfbyldings en 150,000 fragen foar testen wêrby't objekten, antwurden, grafyske sênesprogramma's en funksjonele sêne-grafiken binne.

16. Universele Ofhinklikens

It projekt Universal Dependencies (UD) hat as doel it meitsjen fan cross-linguistysk unifoarme morfology en syntaksis treebank annotaasje foar in protte talen. Ferzje 2.7, dy't waard útbrocht yn 2020, hat 183 beambanken yn 104 talen.

De annotaasje bestiet út universele POW-tags, ôfhinklikheidskoppen en universele ôfhinklikheidslabels.

17. KITTI - 360

Ien fan de meast brûkte datasets foar mobile robots en autonoom riden is KITTI (Karlsruhe Institute of Technology en Toyota Technological Institute).

It bestiet út oeren wearde oan ferkearsscenario's dy't waarden fêstlein mei in ferskaat oan sensormodaliteiten, lykas hege resolúsje RGB, griisskala stereo, en 3D laser scanner kamera's. De dataset is yn 'e rin fan' e tiid ferbettere troch ferskate ûndersikers dy't ferskate dielen derfan mei de hân annotearren om oan har behoeften te passen.

18. MOT (Multiple Object Tracking)

MOT (Multiple Object Tracking) is in dataset foar tracking fan meardere objekten dy't binnen- en bûtenlânskippen fan iepenbiere lokaasjes omfettet dy't fuotgongers omfetsje as de objekten fan belang. De fideo fan elke sêne is opdield yn twa stikken, ien foar training en de oare foar testen.

De dataset befettet foarwerp detections yn fideoframes mei trije detektors: SDP, Faster-RCNN, en DPM.

19. PASCAL 3D+

De Pascal3D + multi-view dataset is opboud út foto's sammele yn it wyld, dat wol sizze, ôfbyldings fan item kategoryen mei hege fariabiliteit, fêstlein yn ûnkontrolearre omstannichheden, yn oerbefolke omjouwings, en yn in ferskaat oan posysjes. Pascal3D+ omfettet 12 rigide objektkategoryen lutsen út de PASCAL VOC 2012 dataset.

Dizze items hawwe posysjeynformaasje op har markearre (azimut, hichte en ôfstân nei de kamera). Pascal3D+ omfettet ek pose-annotearre foto's út 'e ImageNet-kolleksje yn dizze 12 kategoryen.

20. Facial deformable modellen fan bisten

It doel fan it projekt Facial Deformable Models of Animals (FDMA) is om aktuele metodologyen út te daagjen yn identifikaasje en folgjen fan minsklike gesichtsmarkearring en nije algoritmen te ûntwikkeljen dy't kinne omgean mei de oanmerklik gruttere fariabiliteit dy't karakteristyk is foar dierengesichtskenmerken.

De algoritmen fan it projekt demonstreare de mooglikheid om landmarks op minsklike gesichten te herkennen en te folgjen, wylst se omgeane mei fariaasjes dy't feroarsake binne troch feroaringen yn gesichts emoasjes of posysjes, diele occlusions, en ferljochting.

21. MPII Human Post Dataset

De MPII Human Pose Dataset befettet sawat 25K foto's, wêrfan 15K trainingsmonsters binne, 3K wêrfan validaasjemonsters binne, en 7K wêrfan testsamples binne.

De posysjes wurde mei de hân markearre mei maksimaal 16 lichaamlike gewrichten, en de foto's binne nommen út YouTube-films dy't 410 ferskate minsklike aktiviteiten beslaan.

22. UCF101

De UCF101 dataset befettet 13,320 fideoklips organisearre yn 101 kategoryen. Dizze 101 kategoryen binne ferdield yn fiif kategoryen: lichaamlike bewegingen, minske-minske ynteraksjes, minske-objekt ynteraksjes, muzykynstrumint spieljen, en sport.

De fideo's binne fan YouTube en hawwe 27 oeren duorje.

23. Audioset

Audioset is in dataset foar audio-eveneminten dy't bestiet út mear dan 2 miljoen minsklike annotearre fideosegminten fan 10 sekonden. Om dizze gegevens te annotearjen, wurdt in hiërargyske ontology brûkt dy't 632 barrenstypen omfettet, wat ymplisearret dat itselde lûd oars kin wurde markearre.

24. Stanford Natural Language Inference

De SNLI-dataset (Stanford Natural Language Inference) befettet 570k sinpaaringen dy't mei de hân kategorisearre binne as begelieding, tsjinspraak of neutraal.

Pleatsen binne Flickr30k-ôfbyldingsbeskriuwings, wylst hypotezen waarden ûntwikkele troch crowd-sourced annotators dy't in premiss krigen en opdracht krigen om meibringende, tsjinstridige en neutrale útspraken te generearjen.

25. Visuele fraach beantwurdzjen

Visual Question Answering (VQA) is in dataset dy't iepen fragen oangeande ôfbyldings befettet. Om dizze fragen te beantwurdzjen, moatte jo fisy, taal en sûn ferstân begripe.

Konklúzje

As masine learen en keunstmjittige yntelliginsje (AI) mear foarkommen wurde yn praktysk elk bedriuw en yn ús deistich libben, sa docht it oantal boarnen en ynformaasje beskikber oer it ûnderwerp.

Ready-made publike datasets jouwe in geweldich útgongspunt om AI-modellen te ûntwikkeljen, wylst se erfarne ML-programmeurs ek tastean tiid te besparjen en te fokusjen op oare eleminten fan har projekten.

25 Best Alternative AI Training Datasets

1. CelebFaces Attributen Dataset

2. GIVEN

3. Google Facial Expression ferliking dataset

4. Visual Genome

5. LibriSpeech

6. De Cityspaces

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Amerikaanske ûngemakken

13. Ocular Disease Recognition

14. Heart Disease

15. CLEVR

16. Universele Ofhinklikens

17. KITTI - 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Facial deformable modellen fan bisten

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Visuele fraach beantwurdzjen

Konklúzje

Oer Jay

Mear artikels oer HashDork:

Hoe kinne jo hallusinaasjes yn jo AI ferminderje

Kolossyan vs Heygen

Dizze Future Tech Nijsbrief sûget net

25 Best Alternative AI Training Datasets

1. CelebFaces Attributen Dataset

2. GIVEN

3. Google Facial Expression ferliking dataset

4. Visual Genome

5. LibriSpeech

6. De Cityspaces

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Amerikaanske ûngemakken

13. Ocular Disease Recognition

14. Heart Disease

15. CLEVR

16. Universele Ofhinklikens

17. KITTI - 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Facial deformable modellen fan bisten

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Visuele fraach beantwurdzjen

Konklúzje

Oer Jay

Mear artikels oer HashDork:

Hoe kinne jo hallusinaasjes yn jo AI ferminderje

10 Bêste AI-ark foar sosjale media

Kolossyan vs Heygen

10 Best AI Animated Video Maker Tools

Reader Interactions

Leave a Reply cancel reply

Dizze Future Tech Nijsbrief sûget net