25 bästa alternativa AI Training Dataset (2024)

Nuförtiden är de flesta av oss fokuserade på att utveckla maskininlärning och AI-modeller och ta itu med problem med hjälp av aktuella datamängder. Men först måste vi definiera en datauppsättning, dess betydelse och dess roll i att utveckla starka AI- och ML-lösningar.

Idag har vi en uppsjö av datauppsättningar med öppen källkod för att bedriva forskning eller utveckla applikationer för att hantera verkliga problem inom en mängd olika sektorer.

Men bristen på högkvalitativa kvantitativa datauppsättningar är en källa till oro. Data har ökat enormt och kommer att fortsätta expandera i snabbare takt i framtiden.

I det här inlägget kommer vi att täcka fritt tillgängliga datauppsättningar som du kan använda för att utveckla ditt nästa AI-projekt.

1. CelebFaces Attribut Dataset

CelebFaces Attributes Dataset (CelebA) innehåller över 200 40 kändisfoton och XNUMX attributkommentarer för varje bild, vilket gör den till en utmärkt utgångspunkt för projekt som t.ex. ansiktsigenkänning, ansiktsdetektering, landmärke (eller ansiktskomponent) lokalisering och ansiktsredigering & syntes. Dessutom innehåller bilderna i den här kollektionen ett brett utbud av positionsvarianter och bakgrundsstök.

2. DOTA

DOTA (Datauppsättning av Objektdetektion in Aerial Photos) är en storskalig datauppsättning för objektdetektering som inkluderar 15 vanliga kategorier (t.ex. fartyg, flyg, bil, etc.), 1411 bilder för träning och 458 bilder för validering.

3. Jämförelseuppsättning för Google ansiktsuttryck

Googles datauppsättning för jämförelse av ansiktsuttryck innehåller cirka 500,000 156,000 bildtripletter, inklusive XNUMX XNUMX ansiktsfoton. Det är värt att notera att varje triplett i denna datauppsättning kommenterades av minst sex mänskliga bedömare.

Denna datauppsättning är användbar för projekt som involverar analys av ansiktsuttryck, såsom uttrycksbaserad bildhämtning, känslokategorisering, uttryckssyntes och så vidare. För att få tillgång till datasetet måste ett kortfattat formulär fyllas i.

4. Visuellt genom

Visuell fråga Svarsdata i en flervalsmiljö är tillgänglig i Visual Genome. Den består av 101,174 1.7 MSCOCO-foton med 17 miljoner QA-par, med ett genomsnitt på XNUMX frågor per bild.

Jämfört med datauppsättningen Visual Question Answering har Visual Genome-datauppsättningen en mer rättvis fördelning över sex frågetyper: Vad, Var, När, Vem, Varför och Hur.

Dessutom innehåller datasetet Visual Genome 108K foton som har taggats kraftigt med objekt, egenskaper och anslutningar.

5. LibriSpeech

LibriSpeech-korpusen är en samling på cirka 1,000 XNUMX timmar ljudböcker från LibriVox-projektet. Majoriteten av ljudböckerna kommer från Project Gutenberg.

Träningsdatan är uppdelad i tre partitioner med 100 timmars, 360 timmars och 500 timmars uppsättningar, medan dev- och testdata är ungefär 5 timmars ljudlängd.

6. Stadsrummen

En av de mest välkända storskaliga databaserna med stereovideor med stadsvyer heter The Cityscapes.

Med pixel-exakta kommentarer som inkluderar GPS-platser, utomhustemperaturen, ego-rörelsedata och rätt stereoperspektiv, inkluderar den inspelningar från 50 distinkta tyska städer.

7. Kinetics Dataset

En av de mest välkända videodatauppsättningarna för att känna igen mänsklig aktivitet i stor skala och med god kvalitet är Kinetics dataset. Det finns minst 600 videoklipp för var och en av de 600 mänskliga aktivitetsklasserna, totalt över 500,000 XNUMX.

Filmerna hämtades från YouTube; var och en är cirka 10 sekunder lång och har bara en aktivitetsklass listad.

8. CelebAMask-HQ

CelebAMask-HQ är en samling av 30,000 19 högupplösta ansiktsfoton med noggrant kommenterade masker och XNUMX klasser som inkluderar ansiktskomponenter som hud, näsa, ögon, ögonbryn, öron, mun, läpp, hår, hatt, glasögon, örhängen, halsband, hals, material.

Datauppsättningen kan användas för att testa och träna ansiktsigenkänning, ansiktsanalys och GAN för ansiktsgenererande och redigeringsalgoritmer.

9. Penn Treebank

En av de mest anmärkningsvärda och ofta använda korpusen för bedömning av modeller för sekvenstaggning är den engelska Penn Treebank (PTB)-korpusen, i synnerhet den del av korpusen som motsvarar Wall Street Journal-artiklar.

Varje ord måste ha sin orddel taggad som en del av uppgiften. Karaktärsnivå och ordnivå språkmodellering använder också ofta korpusen.

10. VoxCeleb

VoxCeleb är en storskalig talidentifieringsdatauppsättning som genereras automatiskt från media med öppen källkod. VoxCeleb har över en miljon yttranden från över 6k högtalare.

Eftersom datamängden inkluderar audiovisuella, kan den användas för en mängd ytterligare applikationer, inklusive visuell talsyntes, talseparation, cross-modal överföring från ansikte till röst eller vice versa, och träning av ansiktsigenkänning från video för att komplettera nuvarande ansiktsigenkänning datauppsättningar.

11. SIXray

SIXray-datasetet innehåller 1,059,231 XNUMX XNUMX röntgenbilder som samlats in från tunnelbanestationer och kommenteras av mänskliga säkerhetsinspektörer för att upptäcka sex huvudtyper av förbjudna föremål: pistoler, knivar, skiftnycklar, tång, sax och hammare. Dessutom har begränsningsrutor för varje otillåtet objekt lagts till manuellt i testuppsättningarna för att utvärdera prestandan för objektlokalisering.

12. USA:s olyckor

Projektets innehåll avslöjas redan av datasetets namn, US Accidents. Denna datauppsättning om rikstäckande bilolyckor innehåller information från februari 2016 till december 2021 och täcker 49 delstater i USA.

Cirka 1.5 miljoner olycksregister finns nu i denna samling. Den samlades in i realtid genom att använda flera trafik-API:er.

Dessa API:er överför trafikinformation som samlats in från en mängd olika källor, inklusive trafikkameror, brottsbekämpande organisationer och de amerikanska och statliga transportdepartementen.

13. Erkännande av ögonsjukdomar

Den organiserade oftalmologiska databasen Ocular Disease Intelligent Recognition (ODIR) innehåller information om 5,000 XNUMX patienter, inklusive deras ålder, färgen på ögonbotten i deras vänstra och högra ögon, och läkares diagnostiska nyckelord.

Denna datauppsättning är en faktisk samling av patientdata från olika sjukhus och medicinska anläggningar i Kina som Shanggong Medical Technology Co., Ltd. har förvärvat. Med kvalitetskontroll, anteckningar taggades av skickliga mänskliga läsare.

14. Hjärtsjukdom

Denna hjärtsjukdomsdatauppsättning hjälper till att identifiera förekomsten av hjärtsjukdom hos en patient baserat på 76 parametrar som ålder, kön, bröstsmärtor, vilotryck och så vidare.

Med 303 fall försöker databasen helt enkelt skilja förekomsten av en sjukdom (värde 1,2,3,4) från dess frånvaro (värde 0).

15. CLEVR

CLEVR-datauppsättningen (Compositional Language and Elementary Visual Reasoning) efterliknar Visual Question Answering. Den består av fotografier av 3D-renderade objekt, med varje fotografi åtföljd av en serie mycket kompositionsfrågor indelade i flera kategorier.

För alla tåg- och valideringsbilder och frågor består datasetet av 70,000 700,000 fotografier och 15,000 150,000 frågor för träning, 15,000 150,000 bilder och XNUMX XNUMX frågor för validering, och XNUMX XNUMX bilder och XNUMX XNUMX frågor för testning som involverar objekt, svar, funktionella scenprogram och grafer.

16. Universella beroenden

Projektet Universal Dependencies (UD) syftar till att skapa tvärlingvistiskt enhetlig morfologi och syntaxträdbanksannotering för många språk. Version 2.7, som släpptes 2020, har 183 trädbankar på 104 språk.

Anteckningen består av universella POW-taggar, beroendehuvuden och universella beroendeetiketter.

17. KITTI – 360

En av de mest använda dataseten för mobila robotar och autonom körning är KITTI (Karlsruhe Institute of Technology och Toyota Technological Institute).

Den består av timmars trafikscenarion som fångades med en rad olika sensormodaliteter, som högupplösta RGB-, gråskalestereo- och 3D-laserskannerkameror. Datauppsättningen har förbättrats över tid av flera forskare som manuellt kommenterade olika delar av den för att passa deras behov.

18. MOT (Multiple Object Tracking)

MOT (Multiple Object Tracking) är en datauppsättning för spårning av flera objekt som inkluderar inomhus- och utomhuslandskap på offentliga platser som inkluderar fotgängare som objekt av intresse. Varje scens video är uppdelad i två delar, en för träning och den andra för testning.

Datauppsättningen inkluderar objektdetekteringar i videoramar med tre detektorer: SDP, Faster-RCNN och DPM.

19. PASCAL 3D+

Pascal3D+ multi-view dataset består av fotografier insamlade i naturen, dvs bilder av objektkategorier med stor variation, tagna under okontrollerade omständigheter, i trånga miljöer och i en mängd olika positioner. Pascal3D+ inkluderar 12 stela objektkategorier hämtade från PASCAL VOC 2012 dataset.

Dessa föremål har hållningsinformation markerad (azimut, höjd och avstånd till kameran). Pascal3D+ inkluderar dessutom posekommentarer från ImageNet-samlingen i dessa 12 kategorier.

20. Deformerbara ansiktsmodeller av djur

Målet med projektet Facial Deformable Models of Animals (FDMA) är att utmana nuvarande metoder för identifiering och spårning av mänskliga ansikts landmärken och att utveckla nya algoritmer som kan hantera den betydligt större variationen som är karakteristisk för djurens ansiktsegenskaper.

Projektets algoritmer visade förmågan att känna igen och spåra landmärken på mänskliga ansikten samtidigt som man hanterar variationer som induceras av förändringar i ansiktets känslor eller positioner, partiella ocklusioner och belysning.

21. MPII Human Post Dataset

MPII Human Pose Dataset innehåller cirka 25 15 foton, varav 3 7 är träningsprov, XNUMX XNUMX av vilka är valideringsprov och XNUMX XNUMX är testprover.

Positionerna är manuellt märkta med upp till 16 kroppsleder, och fotografierna är tagna från YouTube-filmer som täcker 410 olika mänskliga aktiviteter.

22. UCF101

UCF101-datauppsättningen innehåller 13,320 101 videoklipp organiserade i 101 kategorier. Dessa XNUMX kategorier är indelade i fem kategorier: kroppsliga rörelser, människa-människa interaktioner, människa-objekt interaktioner, musikinstrumentspel och sport.

Videorna är från YouTube och har en längd på 27 timmar.

23. Audioset

Audioset är en datauppsättning för ljudhändelser som består av över 2 miljoner mänskligt kommenterade 10-sekunders videosegment. För att kommentera dessa data används en hierarkisk ontologi som omfattar 632 händelsetyper, vilket innebär att samma ljud kan märkas annorlunda.

24. Stanford Natural Language Inference

SNLI-datauppsättningen (Stanford Natural Language Inference) innehåller 570 XNUMX meningspar som manuellt har kategoriserats som entailment, motsägelse eller neutral.

Lokaler är Flickr30k-bildbeskrivningar, medan hypoteser har utvecklats av annotatorer från publiken som fick en premiss och instruerades att generera involverande, motsägelsefulla och neutrala uttalanden.

25. Svara på visuella frågor

Visual Question Answering (VQA) är en datauppsättning som innehåller öppna frågor om bilder. För att svara på dessa frågor måste du förstå syn, språk och sunt förnuft.

Slutsats

I takt med att maskininlärning och artificiell intelligens (AI) blir allt vanligare i praktiskt taget alla företag och i våra dagliga liv, ökar också antalet tillgängliga resurser och information om ämnet.

Färdiga offentliga datauppsättningar ger en bra utgångspunkt för att utveckla AI-modeller samtidigt som de tillåter erfarna ML-programmerare att spara tid och fokusera på andra delar av sina projekt.

25 bästa alternativa AI-träningsdatauppsättningar

1. CelebFaces Attribut Dataset

2. DOTA

3. Jämförelseuppsättning för Google ansiktsuttryck

4. Visuellt genom

5. LibriSpeech

6. Stadsrummen

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. USA:s olyckor

13. Erkännande av ögonsjukdomar

14. Hjärtsjukdom

15. CLEVR

16. Universella beroenden

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Deformerbara ansiktsmodeller av djur

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Svara på visuella frågor

Slutsats

Om oss Jay

Fler artiklar om HashDork:

Hur man minskar hallucinationer i din AI

Colossyan vs Heygen

Det här Future Tech-nyhetsbrevet suger inte

25 bästa alternativa AI-träningsdatauppsättningar

1. CelebFaces Attribut Dataset

2. DOTA

3. Jämförelseuppsättning för Google ansiktsuttryck

4. Visuellt genom

5. LibriSpeech

6. Stadsrummen

7. Kinetics Dataset

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. USA:s olyckor

13. Erkännande av ögonsjukdomar

14. Hjärtsjukdom

15. CLEVR

16. Universella beroenden

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Deformerbara ansiktsmodeller av djur

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Svara på visuella frågor

Slutsats

Om oss Jay

Fler artiklar om HashDork:

Hur man minskar hallucinationer i din AI

10 bästa AI-verktyg för sociala medier

Colossyan vs Heygen

De 10 bästa verktygen för AI Animated Video Maker

Läsar Interaktioner

Kommentera uppropet Avbryt svar

Det här Future Tech-nyhetsbrevet suger inte