Innehållsförteckning[Dölj][Visa]
- 1. CelebFaces-attributdatauppsättning
- 2. DOTA
- 3. Googles datauppsättning för jämförelse av ansiktsuttryck
- 4. Visuellt genom
- 5. LibriSpeech
- 6. Stadsrummen
- 7. Kinetics Dataset
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. USA-olyckor
- 13. Okulär sjukdomsigenkänning
- 14. Hjärtsjukdom
- 15. CLEVR
- 16. Universella beroenden
- 17. KITTI – 360
- 18. MOT (Multiple Object Tracking)
- 19. PASCAL 3D+
- 20. Deformerbara ansiktsmodeller av djur
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Audioset
- 24. Stanford Natural Language Inference
- 25. Svara på visuella frågor
- Slutsats
Nuförtiden är de flesta av oss fokuserade på att utveckla maskininlärning och AI-modeller och ta itu med problem med hjälp av aktuella datamängder. Men först måste vi definiera en datauppsättning, dess betydelse och dess roll i att utveckla starka AI- och ML-lösningar.
Idag har vi en uppsjö av datauppsättningar med öppen källkod för att bedriva forskning eller utveckla applikationer för att hantera verkliga problem inom en mängd olika sektorer.
Men bristen på högkvalitativa kvantitativa datauppsättningar är en källa till oro. Data har ökat enormt och kommer att fortsätta expandera i snabbare takt i framtiden.
I det här inlägget kommer vi att täcka fritt tillgängliga datauppsättningar som du kan använda för att utveckla ditt nästa AI-projekt.
1. CelebFaces Attribut Dataset
CelebFaces Attributes Dataset (CelebA) innehåller över 200 40 kändisfoton och XNUMX attributkommentarer för varje bild, vilket gör den till en utmärkt utgångspunkt för projekt som t.ex. ansiktsigenkänning, ansiktsdetektering, landmärke (eller ansiktskomponent) lokalisering och ansiktsredigering & syntes. Dessutom innehåller bilderna i den här kollektionen ett brett utbud av positionsvarianter och bakgrundsstök.
2. DOTA
DOTA (Datauppsättning av Objektdetektion in Aerial Photos) är en storskalig datauppsättning för objektdetektering som inkluderar 15 vanliga kategorier (t.ex. fartyg, flyg, bil, etc.), 1411 bilder för träning och 458 bilder för validering.
3. Jämförelseuppsättning för Google ansiktsuttryck
Googles datauppsättning för jämförelse av ansiktsuttryck innehåller cirka 500,000 156,000 bildtripletter, inklusive XNUMX XNUMX ansiktsfoton. Det är värt att notera att varje triplett i denna datauppsättning kommenterades av minst sex mänskliga bedömare.
Denna datauppsättning är användbar för projekt som involverar analys av ansiktsuttryck, såsom uttrycksbaserad bildhämtning, känslokategorisering, uttryckssyntes och så vidare. För att få tillgång till datasetet måste ett kortfattat formulär fyllas i.
4. Visuellt genom
Visuell fråga Svarsdata i en flervalsmiljö är tillgänglig i Visual Genome. Den består av 101,174 1.7 MSCOCO-foton med 17 miljoner QA-par, med ett genomsnitt på XNUMX frågor per bild.
Jämfört med datauppsättningen Visual Question Answering har Visual Genome-datauppsättningen en mer rättvis fördelning över sex frågetyper: Vad, Var, När, Vem, Varför och Hur.
Dessutom innehåller datasetet Visual Genome 108K foton som har taggats kraftigt med objekt, egenskaper och anslutningar.
5. LibriSpeech
LibriSpeech-korpusen är en samling på cirka 1,000 XNUMX timmar ljudböcker från LibriVox-projektet. Majoriteten av ljudböckerna kommer från Project Gutenberg.
Träningsdatan är uppdelad i tre partitioner med 100 timmars, 360 timmars och 500 timmars uppsättningar, medan dev- och testdata är ungefär 5 timmars ljudlängd.
6. Stadsrummen
En av de mest välkända storskaliga databaserna med stereovideor med stadsvyer heter The Cityscapes.
Med pixel-exakta kommentarer som inkluderar GPS-platser, utomhustemperaturen, ego-rörelsedata och rätt stereoperspektiv, inkluderar den inspelningar från 50 distinkta tyska städer.
7. Kinetics Dataset
En av de mest välkända videodatauppsättningarna för att känna igen mänsklig aktivitet i stor skala och med god kvalitet är Kinetics dataset. Det finns minst 600 videoklipp för var och en av de 600 mänskliga aktivitetsklasserna, totalt över 500,000 XNUMX.
Filmerna hämtades från YouTube; var och en är cirka 10 sekunder lång och har bara en aktivitetsklass listad.
8. CelebAMask-HQ
CelebAMask-HQ är en samling av 30,000 19 högupplösta ansiktsfoton med noggrant kommenterade masker och XNUMX klasser som inkluderar ansiktskomponenter som hud, näsa, ögon, ögonbryn, öron, mun, läpp, hår, hatt, glasögon, örhängen, halsband, hals, material.
Datauppsättningen kan användas för att testa och träna ansiktsigenkänning, ansiktsanalys och GAN för ansiktsgenererande och redigeringsalgoritmer.
9. Penn Treebank
En av de mest anmärkningsvärda och ofta använda korpusen för bedömning av modeller för sekvenstaggning är den engelska Penn Treebank (PTB)-korpusen, i synnerhet den del av korpusen som motsvarar Wall Street Journal-artiklar.
Varje ord måste ha sin orddel taggad som en del av uppgiften. Karaktärsnivå och ordnivå språkmodellering använder också ofta korpusen.
10. VoxCeleb
VoxCeleb är en storskalig talidentifieringsdatauppsättning som genereras automatiskt från media med öppen källkod. VoxCeleb har över en miljon yttranden från över 6k högtalare.
Eftersom datamängden inkluderar audiovisuella, kan den användas för en mängd ytterligare applikationer, inklusive visuell talsyntes, talseparation, cross-modal överföring från ansikte till röst eller vice versa, och träning av ansiktsigenkänning från video för att komplettera nuvarande ansiktsigenkänning datauppsättningar.
11. SIXray
SIXray-datasetet innehåller 1,059,231 XNUMX XNUMX röntgenbilder som samlats in från tunnelbanestationer och kommenteras av mänskliga säkerhetsinspektörer för att upptäcka sex huvudtyper av förbjudna föremål: pistoler, knivar, skiftnycklar, tång, sax och hammare. Dessutom har begränsningsrutor för varje otillåtet objekt lagts till manuellt i testuppsättningarna för att utvärdera prestandan för objektlokalisering.
12. USA:s olyckor
Projektets innehåll avslöjas redan av datasetets namn, US Accidents. Denna datauppsättning om rikstäckande bilolyckor innehåller information från februari 2016 till december 2021 och täcker 49 delstater i USA.
Cirka 1.5 miljoner olycksregister finns nu i denna samling. Den samlades in i realtid genom att använda flera trafik-API:er.
Dessa API:er överför trafikinformation som samlats in från en mängd olika källor, inklusive trafikkameror, brottsbekämpande organisationer och de amerikanska och statliga transportdepartementen.
13. Erkännande av ögonsjukdomar
Den organiserade oftalmologiska databasen Ocular Disease Intelligent Recognition (ODIR) innehåller information om 5,000 XNUMX patienter, inklusive deras ålder, färgen på ögonbotten i deras vänstra och högra ögon, och läkares diagnostiska nyckelord.
Denna datauppsättning är en faktisk samling av patientdata från olika sjukhus och medicinska anläggningar i Kina som Shanggong Medical Technology Co., Ltd. har förvärvat. Med kvalitetskontroll, anteckningar taggades av skickliga mänskliga läsare.
14. Hjärtsjukdom
Denna hjärtsjukdomsdatauppsättning hjälper till att identifiera förekomsten av hjärtsjukdom hos en patient baserat på 76 parametrar som ålder, kön, bröstsmärtor, vilotryck och så vidare.
Med 303 fall försöker databasen helt enkelt skilja förekomsten av en sjukdom (värde 1,2,3,4) från dess frånvaro (värde 0).
15. CLEVR
CLEVR-datauppsättningen (Compositional Language and Elementary Visual Reasoning) efterliknar Visual Question Answering. Den består av fotografier av 3D-renderade objekt, med varje fotografi åtföljd av en serie mycket kompositionsfrågor indelade i flera kategorier.
För alla tåg- och valideringsbilder och frågor består datasetet av 70,000 700,000 fotografier och 15,000 150,000 frågor för träning, 15,000 150,000 bilder och XNUMX XNUMX frågor för validering, och XNUMX XNUMX bilder och XNUMX XNUMX frågor för testning som involverar objekt, svar, funktionella scenprogram och grafer.
16. Universella beroenden
Projektet Universal Dependencies (UD) syftar till att skapa tvärlingvistiskt enhetlig morfologi och syntaxträdbanksannotering för många språk. Version 2.7, som släpptes 2020, har 183 trädbankar på 104 språk.
Anteckningen består av universella POW-taggar, beroendehuvuden och universella beroendeetiketter.
17. KITTI – 360
En av de mest använda dataseten för mobila robotar och autonom körning är KITTI (Karlsruhe Institute of Technology och Toyota Technological Institute).
Den består av timmars trafikscenarion som fångades med en rad olika sensormodaliteter, som högupplösta RGB-, gråskalestereo- och 3D-laserskannerkameror. Datauppsättningen har förbättrats över tid av flera forskare som manuellt kommenterade olika delar av den för att passa deras behov.
18. MOT (Multiple Object Tracking)
MOT (Multiple Object Tracking) är en datauppsättning för spårning av flera objekt som inkluderar inomhus- och utomhuslandskap på offentliga platser som inkluderar fotgängare som objekt av intresse. Varje scens video är uppdelad i två delar, en för träning och den andra för testning.
Datauppsättningen inkluderar objektdetekteringar i videoramar med tre detektorer: SDP, Faster-RCNN och DPM.
19. PASCAL 3D+
Pascal3D+ multi-view dataset består av fotografier insamlade i naturen, dvs bilder av objektkategorier med stor variation, tagna under okontrollerade omständigheter, i trånga miljöer och i en mängd olika positioner. Pascal3D+ inkluderar 12 stela objektkategorier hämtade från PASCAL VOC 2012 dataset.
Dessa föremål har hållningsinformation markerad (azimut, höjd och avstånd till kameran). Pascal3D+ inkluderar dessutom posekommentarer från ImageNet-samlingen i dessa 12 kategorier.
20. Deformerbara ansiktsmodeller av djur
Målet med projektet Facial Deformable Models of Animals (FDMA) är att utmana nuvarande metoder för identifiering och spårning av mänskliga ansikts landmärken och att utveckla nya algoritmer som kan hantera den betydligt större variationen som är karakteristisk för djurens ansiktsegenskaper.
Projektets algoritmer visade förmågan att känna igen och spåra landmärken på mänskliga ansikten samtidigt som man hanterar variationer som induceras av förändringar i ansiktets känslor eller positioner, partiella ocklusioner och belysning.
21. MPII Human Post Dataset
MPII Human Pose Dataset innehåller cirka 25 15 foton, varav 3 7 är träningsprov, XNUMX XNUMX av vilka är valideringsprov och XNUMX XNUMX är testprover.
Positionerna är manuellt märkta med upp till 16 kroppsleder, och fotografierna är tagna från YouTube-filmer som täcker 410 olika mänskliga aktiviteter.
22. UCF101
UCF101-datauppsättningen innehåller 13,320 101 videoklipp organiserade i 101 kategorier. Dessa XNUMX kategorier är indelade i fem kategorier: kroppsliga rörelser, människa-människa interaktioner, människa-objekt interaktioner, musikinstrumentspel och sport.
Videorna är från YouTube och har en längd på 27 timmar.
23. Audioset
Audioset är en datauppsättning för ljudhändelser som består av över 2 miljoner mänskligt kommenterade 10-sekunders videosegment. För att kommentera dessa data används en hierarkisk ontologi som omfattar 632 händelsetyper, vilket innebär att samma ljud kan märkas annorlunda.
24. Stanford Natural Language Inference
SNLI-datauppsättningen (Stanford Natural Language Inference) innehåller 570 XNUMX meningspar som manuellt har kategoriserats som entailment, motsägelse eller neutral.
Lokaler är Flickr30k-bildbeskrivningar, medan hypoteser har utvecklats av annotatorer från publiken som fick en premiss och instruerades att generera involverande, motsägelsefulla och neutrala uttalanden.
25. Svara på visuella frågor
Visual Question Answering (VQA) är en datauppsättning som innehåller öppna frågor om bilder. För att svara på dessa frågor måste du förstå syn, språk och sunt förnuft.
Slutsats
I takt med att maskininlärning och artificiell intelligens (AI) blir allt vanligare i praktiskt taget alla företag och i våra dagliga liv, ökar också antalet tillgängliga resurser och information om ämnet.
Färdiga offentliga datauppsättningar ger en bra utgångspunkt för att utveckla AI-modeller samtidigt som de tillåter erfarna ML-programmerare att spara tid och fokusera på andra delar av sina projekt.
Kommentera uppropet