25 beste alternatieve AI-trainingsdatasets (2024)

Tegenwoordig zijn de meesten van ons gericht op het ontwikkelen van machine learning en AI-modellen en het aanpakken van problemen met behulp van huidige datasets. Maar eerst moeten we een dataset definiëren, de betekenis ervan en de rol ervan bij het ontwikkelen van sterke AI- en ML-oplossingen.

Tegenwoordig hebben we een overvloed aan open-source datasets waarop we onderzoek kunnen doen of toepassingen kunnen ontwikkelen om echte problemen in verschillende sectoren aan te pakken.

De schaarste aan kwalitatieve kwantitatieve datasets baart echter zorgen. Data is enorm gestegen en zal in de toekomst in een sneller tempo blijven groeien.

In dit bericht bespreken we vrij beschikbare datasets die u kunt gebruiken om uw volgende AI-project te ontwikkelen.

1. CelebFaces Attributen Dataset

CelebFaces Attributes Dataset (CelebA) bevat meer dan 200 foto's van beroemdheden en 40 attribuutannotaties voor elke afbeelding, waardoor het een uitstekend startpunt is voor projecten zoals gezichtsherkenning, gezichtsdetectie, lokalisatie van oriëntatiepunten (of gezichtscomponenten) en gezichtsbewerking en -synthese. Bovendien bevatten de foto's in deze collectie een breed scala aan positievarianten en achtergrondruis.

2. DOTA

DOTA (Dataset van Objectdetectie in Aerial Photos) is een grootschalige dataset voor objectdetectie die 15 algemene categorieën omvat (bijv. schip, vliegtuig, auto, enz.), 1411 afbeeldingen voor training en 458 afbeeldingen voor validatie.

3. Vergelijkingsdataset voor gezichtsuitdrukkingen van Google

De dataset voor vergelijking van gezichtsuitdrukkingen van Google bevat ongeveer 500,000 drielingfoto's, waaronder 156,000 gezichtsfoto's. Het is vermeldenswaard dat elk triplet in deze dataset is geannoteerd door ten minste zes menselijke beoordelaars.

Deze dataset is handig voor projecten waarbij gezichtsuitdrukkingen worden geanalyseerd, zoals het ophalen van afbeeldingen op basis van uitdrukkingen, categorisering van emoties, synthese van uitdrukkingen, enzovoort. Om toegang te krijgen tot de dataset moet een beknopt formulier worden ingevuld.

4. Visueel genoom

Visuele vraag Het beantwoorden van gegevens in een meerkeuzeomgeving is beschikbaar in Visual Genome. Het bestaat uit 101,174 MSCOCO-foto's met 1.7 miljoen QA-paren, met gemiddeld 17 vragen per afbeelding.

In vergelijking met de Visual Question Answering-dataset, is de Visual Genome-dataset eerlijker verdeeld over zes vraagtypen: wat, waar, wanneer, wie, waarom en hoe.

Bovendien bevat de Visual Genome-dataset 108K-foto's die zwaar zijn getagd met objecten, eigenschappen en verbindingen.

5. LibriSpraak

Het LibriSpeech-corpus is een verzameling van ongeveer 1,000 uur aan audioboeken van het LibriVox-project. Het merendeel van de audioboeken is afkomstig van Project Gutenberg.

De trainingsgegevens zijn verdeeld in drie partities van 100 uur, 360 uur en 500 uur sets, terwijl de dev- en testgegevens ongeveer 5 uur in audioduur zijn.

6. De Stadsruimtes

Een van de bekendste grootschalige databases van stereovideo's met stadsbeelden heet The Cityscapes.

Met pixel-nauwkeurige annotaties met GPS-locaties, de buitentemperatuur, ego-bewegingsgegevens en juiste stereoperspectieven, bevat het opnames van 50 verschillende Duitse steden.

7. Kinetische gegevensset

Een van de bekendste videodatasets voor het op grote schaal en met goede kwaliteit herkennen van menselijke activiteit is de Kinetics-dataset. Er zijn minstens 600 videoclips voor elk van de 600 klassen van menselijke activiteit, in totaal meer dan 500,000.

De filmpjes zijn van YouTube gehaald; elk is ongeveer 10 seconden lang en heeft slechts één activiteitsklasse vermeld.

8. CelebAMask-HQ

CelebAMask-HQ is een verzameling van 30,000 gezichtsfoto's met hoge resolutie met zorgvuldig geannoteerde maskers en 19 klassen die gezichtscomponenten bevatten zoals huid, neus, ogen, wenkbrauwen, oren, mond, lip, haar, hoed, bril, oorbel, ketting, nek, materiaal.

De dataset kan worden gebruikt voor het testen en trainen van gezichtsherkenning, gezichtsparsering en GAN's voor het genereren en bewerken van gezichten.

9. Penn Boombank

Een van de meest opvallende en vaak gebruikte corpora voor de beoordeling van modellen voor het taggen van sequenties is het Engelse Penn Treebank (PTB) corpus, in het bijzonder het deel van het corpus dat overeenkomt met Wall Street Journal-artikelen.

Bij elk woord moet zijn woordsoort zijn getagd als onderdeel van de taak. Tekenniveau en woordniveau taalmodellering maakt ook veelvuldig gebruik van het corpus.

10. VoxCeleb

VoxCeleb is een grootschalige dataset voor spraakidentificatie die automatisch wordt gegenereerd uit open source media. VoxCeleb heeft meer dan een miljoen uitingen van meer dan 6k-luidsprekers.

Omdat de dataset audiovisueel bevat, kan deze worden gebruikt voor een verscheidenheid aan aanvullende toepassingen, waaronder visuele spraaksynthese, spraakscheiding, cross-modale overdracht van gezicht naar stem of vice versa, en gezichtsherkenning van video als aanvulling op de huidige gezichtsherkenning gegevenssets.

11. zesstraal

De SIXray-dataset bevat 1,059,231 röntgenfoto's verzameld uit metrostations en geannoteerd door menselijke veiligheidsinspecteurs om zes hoofdsoorten verboden items te detecteren: pistolen, messen, moersleutels, tangen, scharen en hamers. Bovendien zijn er voor elk niet-toegestaan item handmatig selectiekaders toegevoegd aan de testsets om de prestaties van objectlokalisatie te evalueren.

12. Amerikaanse ongevallen

De inhoud van het project wordt al onthuld door de naam van de dataset, US Accidents. Deze dataset over landelijke auto-ongelukken bevat informatie van februari 2016 tot december 2021 en omvat 49 staten in de VS.

In deze collectie zijn nu ongeveer 1.5 miljoen ongevallenregistraties aanwezig. Het werd in realtime verzameld door gebruik te maken van verschillende verkeers-API's.

Deze API's verzenden verkeersinformatie die is verzameld uit verschillende bronnen, waaronder verkeerscamera's, wetshandhavingsorganisaties en de Amerikaanse en staatsafdelingen van transport.

13. Oogziekte Erkenning

De georganiseerde oftalmische database Ocular Disease Intelligent Recognition (ODIR) bevat informatie over 5,000 patiënten, waaronder hun leeftijd, de kleur van de fundus in hun linker- en rechteroog en diagnostische trefwoorden van medische professionals.

Deze dataset is een feitelijke verzameling patiëntgegevens van verschillende ziekenhuizen en medische instellingen in China die Shanggong Medical Technology Co., Ltd. heeft verkregen. Met kwaliteitscontrole beheer, werden annotaties getagd door ervaren menselijke lezers.

14. Hartziekte

Deze gegevensset voor hartziekten helpt bij het identificeren van het bestaan van hartaandoeningen bij een patiënt op basis van 76 parameters zoals leeftijd, geslacht, soort pijn op de borst, bloeddruk in rust, enzovoort.

Met 303 gevallen probeert de database eenvoudig het bestaan van een ziekte (waarde 1,2,3,4) te onderscheiden van de afwezigheid ervan (waarde 0).

15. SLIM

De CLEVR-dataset (Compositional Language and Elementary Visual Reasoning) bootst het beantwoorden van visuele vragen na. Het bestaat uit foto's van 3D-gerenderde objecten, waarbij elke foto vergezeld gaat van een reeks zeer compositorische vragen, onderverdeeld in verschillende categorieën.

Voor alle trein- en validatiefoto's en vragen omvat de dataset 70,000 foto's en 700,000 vragen voor training, 15,000 afbeeldingen en 150,000 vragen voor validatie, en 15,000 afbeeldingen en 150,000 vragen voor testen met objecten, antwoorden, scènegrafieken en functionele programma's.

16. Universele afhankelijkheden

Het Universal Dependencies (UD)-project heeft tot doel om taaloverschrijdende uniforme morfologie en syntaxis-boomannotaties voor veel talen te creëren. Versie 2.7, die in 2020 werd uitgebracht, heeft 183 boombanken in 104 talen.

De annotatie bestaat uit universele POW-tags, afhankelijkheidskoppen en universele afhankelijkheidslabels.

17. KITTI-360

Een van de meest gebruikte datasets voor mobiele robots en autonoom rijden is KITTI (Karlsruhe Institute of Technology en Toyota Technological Institute).

Het bestaat uit urenlange verkeersscenario's die zijn vastgelegd met behulp van een reeks sensormodaliteiten, zoals RGB met hoge resolutie, grijswaardenstereo en 3D-laserscannercamera's. De dataset is in de loop van de tijd verbeterd door verschillende onderzoekers die verschillende delen ervan handmatig hebben geannoteerd om aan hun behoeften te voldoen.

18. APK (meerdere objecten volgen)

MOT (Multiple Object Tracking) is een dataset voor het volgen van meerdere objecten, inclusief binnen- en buitenlandschappen van openbare locaties met voetgangers als interessante objecten. De video van elke scène is opgedeeld in twee stukken, een voor training en de andere voor testen.

De dataset omvat object detecties in videoframes met behulp van drie detectoren: SDP, Faster-RCNN en DPM.

19. PASCAL 3D+

De Pascal3D+ multi-view dataset bestaat uit foto's die in het wild zijn verzameld, dwz afbeeldingen van itemcategorieën met een hoge variabiliteit, vastgelegd in ongecontroleerde omstandigheden, in drukke omgevingen en op verschillende posities. Pascal3D+ bevat 12 starre objectcategorieën die zijn ontleend aan de PASCAL VOC 2012-dataset.

Op deze items staat informatie over de houding (azimut, hoogte en afstand tot de camera). Pascal3D+ bevat bovendien foto's met pose-annotatie uit de ImageNet-collectie in deze 12 categorieën.

20. Gezichtsvervormbare modellen van dieren

Het doel van het Facial Deformable Models of Animals (FDMA)-project is om de huidige methodologieën voor de identificatie en tracking van menselijke gezichtsherkenningspunten uit te dagen en om nieuwe algoritmen te ontwikkelen die kunnen omgaan met de aanzienlijk grotere variabiliteit die kenmerkend is voor gezichtskenmerken van dieren.

De algoritmen van het project toonden het vermogen aan om oriëntatiepunten op menselijke gezichten te herkennen en te volgen, terwijl ze omgaan met variaties die worden veroorzaakt door veranderingen in gezichtsemoties of -posities, gedeeltelijke occlusies en verlichting.

21. MPII Human Post-gegevensset

De MPII Human Pose-dataset bevat ongeveer 25K foto's, waarvan 15K trainingsvoorbeelden, 3K validatievoorbeelden en 7K testvoorbeelden.

De posities worden handmatig gelabeld met maximaal 16 lichamelijke gewrichten, en de foto's zijn genomen uit YouTube-filmpjes over 410 verschillende menselijke activiteiten.

22. UCF101

De UCF101-dataset bevat 13,320 videoclips die zijn ingedeeld in 101 categorieën. Deze 101 categorieën zijn onderverdeeld in vijf categorieën: lichaamsbewegingen, mens-mens interacties, mens-object interacties, muziekinstrument spelen en sport.

De video's zijn van YouTube en duren 27 uur.

23. Audioset

Audioset is een dataset voor audiogebeurtenissen die bestaat uit meer dan 2 miljoen door mensen geannoteerde videosegmenten van 10 seconden. Om deze gegevens te annoteren, wordt een hiërarchische ontologie gebruikt die 632 gebeurtenistypen omvat, wat impliceert dat hetzelfde geluid anders kan worden gelabeld.

24. Stanford natuurlijke taalinferentie

De SNLI-dataset (Stanford Natural Language Inference) bevat 570k zinparen die handmatig zijn gecategoriseerd als impliciet, tegenstrijdig of neutraal.

De premissen zijn Flickr30k-afbeeldingsbeschrijvingen, terwijl hypothesen werden ontwikkeld door crowd-sourced annotators die een premisse kregen en de opdracht kregen om meeslepende, tegenstrijdige en neutrale verklaringen te genereren.

25. Visuele vraag beantwoorden

Visual Question Answering (VQA) is een dataset met open vragen over afbeeldingen. Om deze vragen te beantwoorden, moet u visie, taal en gezond verstand begrijpen.

Conclusie

Naarmate machine learning en kunstmatige intelligentie (AI) steeds vaker voorkomen in vrijwel elk bedrijf en in ons dagelijks leven, neemt ook het aantal beschikbare bronnen en informatie over het onderwerp toe.

Kant-en-klare openbare datasets bieden een geweldig startpunt om AI-modellen te ontwikkelen, terwijl ervaren ML-programmeurs ook tijd kunnen besparen en zich kunnen concentreren op andere elementen van hun projecten.

25 beste alternatieve AI-trainingsdatasets

1. CelebFaces Attributen Dataset

2. DOTA

3. Vergelijkingsdataset voor gezichtsuitdrukkingen van Google

4. Visueel genoom

5. LibriSpraak

6. De Stadsruimtes

7. Kinetische gegevensset

8. CelebAMask-HQ

9. Penn Boombank

10. VoxCeleb

11. zesstraal

12. Amerikaanse ongevallen

13. Oogziekte Erkenning

14. Hartziekte

15. SLIM

16. Universele afhankelijkheden

17. KITTI-360

18. APK (meerdere objecten volgen)

19. PASCAL 3D+

20. Gezichtsvervormbare modellen van dieren

21. MPII Human Post-gegevensset

22. UCF101

23. Audioset

24. Stanford natuurlijke taalinferentie

25. Visuele vraag beantwoorden

Conclusie

Over Vlaamse gaai

Meer artikelen over HashDork:

Hoe u hallucinaties in uw AI kunt verminderen

Kolossens versus Heygen

Deze Future Tech-nieuwsbrief is niet slecht

25 beste alternatieve AI-trainingsdatasets

1. CelebFaces Attributen Dataset

2. DOTA

3. Vergelijkingsdataset voor gezichtsuitdrukkingen van Google

4. Visueel genoom

5. LibriSpraak

6. De Stadsruimtes

7. Kinetische gegevensset

8. CelebAMask-HQ

9. Penn Boombank

10. VoxCeleb

11. zesstraal

12. Amerikaanse ongevallen

13. Oogziekte Erkenning

14. Hartziekte

15. SLIM

16. Universele afhankelijkheden

17. KITTI-360

18. APK (meerdere objecten volgen)

19. PASCAL 3D+

20. Gezichtsvervormbare modellen van dieren

21. MPII Human Post-gegevensset

22. UCF101

23. Audioset

24. Stanford natuurlijke taalinferentie

25. Visuele vraag beantwoorden

Conclusie

Over Vlaamse gaai

Meer artikelen over HashDork:

Hoe u hallucinaties in uw AI kunt verminderen

10 beste AI-tools voor sociale media

Kolossens versus Heygen

10 beste AI-hulpmiddelen voor het maken van geanimeerde video's

Reader Interacties

Laat een reactie achter Annuleren antwoord

Deze Future Tech-nieuwsbrief is niet slecht