Innholdsfortegnelse[Gjemme seg][Forestilling]
- 1. CelebFaces-attributtdatasett
- 2. DOTA
- 3. Google Ansiktsuttrykk sammenligning datasett
- 4. Visuelt genom
- 5. LibriSpeech
- 6. Byrommene
- 7. Kinetikkdatasett
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Ulykker i USA
- 13. Gjenkjennelse av øyesykdommer
- 14. Hjertesykdom
- 15. CLEVR
- 16. Universelle avhengigheter
- 17. KITTI – 360
- 18. MOT(Multiple Object Tracking)
- 19. PASCAL 3D+
- 20. Deformerbare ansiktsmodeller av dyr
- 21. MPII Human Post Datasett
- 22. UCF101
- 23. Lydsett
- 24. Stanford Natural Language Inference
- 25. Visuelle spørsmålssvar
- konklusjonen
I dag er de fleste av oss fokusert på å utvikle maskinlæring og AI-modeller og adressere problemer ved å bruke gjeldende datasett. Men først må vi definere et datasett, dets betydning og dets rolle i å utvikle sterke AI- og ML-løsninger.
I dag har vi en mengde åpen kildekode-datasett som vi kan forske på eller utvikle applikasjoner for å takle problemer i den virkelige verden i en rekke sektorer.
Imidlertid er knappheten på kvantitative datasett av høy kvalitet en kilde til bekymring. Data har økt enormt og vil fortsette å ekspandere i en raskere hastighet i fremtiden.
I dette innlegget vil vi dekke fritt tilgjengelige datasett som du kan bruke til å utvikle ditt neste AI-prosjekt.
1. CelebFaces-attributtdatasett
CelebFaces Attributes Dataset (CelebA) inneholder over 200 40 kjendisbilder og XNUMX attributtkommentarer for hvert bilde, noe som gjør det til et utmerket utgangspunkt for prosjekter som f.eks. ansiktsgjenkjenning, ansiktsgjenkjenning, landemerke (eller ansiktskomponent) lokalisering og ansiktsredigering og syntese. Videre inneholder bildene i denne samlingen et bredt spekter av posisjonsvarianter og baktepperot.
2. DOTA
DOTA (Datasett av Objektdeteksjon in Aerial Photos) er et storskala datasett for objektdeteksjon som inkluderer 15 vanlige kategorier (f.eks. skip, fly, bil, etc.), 1411 bilder for trening og 458 bilder for validering.
3. Google Ansiktsuttrykk sammenligning datasett
Googles datasett for sammenligning av ansiktsuttrykk inneholder rundt 500,000 156,000 bildetripletter, inkludert XNUMX XNUMX ansiktsbilder. Det er verdt å merke seg at hver triplett i dette datasettet ble kommentert av minst seks menneskelige vurderere.
Dette datasettet er nyttig for prosjekter som involverer ansiktsuttrykksanalyse, for eksempel uttrykksbasert bildehenting, følelseskategorisering, uttrykkssyntese og så videre. For å få tilgang til datasettet må et kort skjema fylles ut.
4. Visuelt genom
Visuelle spørsmål Svardata i et flervalgsmiljø er tilgjengelig i Visual Genome. Den består av 101,174 1.7 MSCOCO-bilder med 17 millioner QA-par, med et gjennomsnitt på XNUMX spørsmål per bilde.
Sammenlignet med Visual Question Answering-datasettet har Visual Genome-datasettet en mer rettferdig fordeling over seks spørsmålstyper: Hva, Hvor, Når, Hvem, Hvorfor og Hvordan.
I tillegg inkluderer Visual Genome-datasettet 108K bilder som har blitt kraftig tagget med objekter, egenskaper og forbindelser.
5. LibriSpeech
LibriSpeech-korpuset er en samling på rundt 1,000 timer med lydbøker fra LibriVox-prosjektet. Flertallet av lydbøkene stammer fra Project Gutenberg.
Treningsdataene er delt inn i tre partisjoner med 100 timers, 360 timers og 500 timers sett, mens utviklings- og testdataene har en lydlengde på omtrent 5 timer.
6. Byrommene
En av de mest kjente databasene i stor skala med stereovideoer med urban utsikt heter The Cityscapes.
Med pikselnøyaktige merknader som inkluderer GPS-plasseringer, utendørstemperaturen, ego-bevegelsesdata og riktige stereoperspektiver, inkluderer den opptak fra 50 forskjellige tyske byer.
7. Kinetikkdatasett
Et av de mest kjente videodatasettene for å gjenkjenne menneskelig aktivitet i stor skala og med god kvalitet er Kinetics-datasettet. Det er minst 600 videoklipp for hver av de 600 menneskelige aktivitetsklassene, totalt over 500,000 XNUMX.
Filmene ble hentet fra YouTube; hver av dem er rundt 10 sekunder lang og har bare én aktivitetsklasse oppført.
8. CelebAMask-HQ
CelebAMask-HQ er en samling av 30,000 19 høyoppløselige ansiktsbilder med nøye kommenterte masker og XNUMX klasser som inkluderer ansiktskomponenter som hud, nese, øyne, bryn, ører, munn, leppe, hår, hatt, briller, øredobber, halskjede, hals, materiale.
Datasettet kan brukes til å teste og trene ansiktsgjenkjenning, ansiktsparsing og GAN-er for ansiktsgenererende og redigeringsalgoritmer.
9. Penn Treebank
En av de mest bemerkelsesverdige og ofte brukte korpusene for vurdering av modeller for sekvensmerking er det engelske Penn Treebank (PTB)-korpuset, spesielt den delen av korpuset som tilsvarer Wall Street Journal-artikler.
Hvert ord må ha sin orddel merket som en del av oppgaven. Karakternivå og ordnivå språkmodellering bruker også ofte korpuset.
10. VoxCeleb
VoxCeleb er et storskala taleidentifikasjonsdatasett generert automatisk fra åpen kildekode media. VoxCeleb har over en million ytringer fra over 6k høyttalere.
Siden datasettet inkluderer audiovisuelt, kan det brukes til en rekke tilleggsapplikasjoner, inkludert visuell talesyntese, taleseparasjon, tverrmodal overføring fra ansikt til stemme eller omvendt, og trening av ansiktsgjenkjenning fra video for å supplere gjeldende ansiktsgjenkjenning datasett.
11. SIXray
SIXray-datasettet inkluderer 1,059,231 XNUMX XNUMX røntgenbilder samlet fra t-banestasjoner og kommentert av menneskelige sikkerhetsinspektører for å oppdage seks hovedtyper forbudte gjenstander: pistoler, kniver, skiftenøkler, tang, saks og hammer. Videre er grensebokser for hvert ikke-tillatte element lagt til manuelt i testsettene for å evaluere ytelsen til objektlokalisering.
12. Ulykker i USA
Prosjektets substans er allerede avslørt av navnet på datasettet, US Accidents. Dette datasettet om landsdekkende bilulykker inkluderer informasjon fra februar 2016 til desember 2021 og dekker 49 stater i USA.
Omtrent 1.5 millioner ulykkesregistre er nå til stede i denne samlingen. Det ble samlet inn i sanntid ved å bruke flere trafikk-APIer.
Disse API-ene overfører trafikkinformasjon samlet fra en rekke kilder, inkludert trafikkkameraer, rettshåndhevelsesorganisasjoner og amerikanske og statlige transportdepartementer.
13. Gjenkjennelse av øyesykdommer
Den organiserte oftalmiske databasen Ocular Disease Intelligent Recognition (ODIR) inneholder informasjon om 5,000 pasienter, inkludert deres alder, fargen på fundus i venstre og høyre øyne, og medisinske fagpersoners diagnostiske nøkkelord.
Dette datasettet er en faktisk samling av pasientdata fra ulike sykehus og medisinske fasiliteter i Kina som Shanggong Medical Technology Co., Ltd. har anskaffet. Med kvalitetskontroll ledelse, merknader ble merket av dyktige menneskelige lesere.
14. Hjertesykdom
Dette hjertesykdomsdatasettet hjelper til med å identifisere eksistensen av hjertesykdom hos en pasient basert på 76 parametere som alder, kjønn, brystsmerter, hvileblodtrykk og så videre.
Med 303 tilfeller søker databasen å skille eksistensen av en sykdom (verdi 1,2,3,4) fra dens fravær (verdi 0).
15. CLEVR
CLEVR-datasettet (Compositional Language and Elementary Visual Reasoning) etterligner Visual Question Answering. Den består av fotografier av 3D-gjengitte objekter, med hvert fotografi ledsaget av en serie svært komposisjonsspørsmål delt inn i flere kategorier.
For alle tog- og valideringsbilder og spørsmål består datasettet av 70,000 700,000 fotografier og 15,000 150,000 spørsmål for opplæring, 15,000 150,000 bilder og XNUMX XNUMX spørsmål for validering, og XNUMX XNUMX bilder og XNUMX XNUMX spørsmål for testing som involverer objekter, svar, grafer for funksjonelle scener.
16. Universelle avhengigheter
Prosjektet Universal Dependencies (UD) har som mål å skape tverrspråklig ensartet morfologi og syntaks-trebankannotering for mange språk. Versjon 2.7, som ble utgitt i 2020, har 183 trebanker på 104 språk.
Merknaden består av universelle POW-tagger, avhengighetshoder og universelle avhengighetsetiketter.
17. KITTI – 360
Et av de mest brukte datasettene for mobile roboter og autonom kjøring er KITTI (Karlsruhe Institute of Technology og Toyota Technological Institute).
Den består av timer med trafikkscenarier som ble fanget ved hjelp av en rekke sensormodaliteter, for eksempel høyoppløselige RGB-, gråtonestereo- og 3D-laserskannerkameraer. Datasettet har blitt forbedret over tid av flere forskere som manuelt kommenterte ulike deler av det for å passe deres behov.
18. MOT (Multiple Object Tracking)
MOT (Multiple Object Tracking) er et datasett for sporing av flere objekter som inkluderer innendørs og utendørs landskap på offentlige steder som inkluderer fotgjengere som objekter av interesse. Hver scenes video er delt i to deler, en for trening og den andre for testing.
Datasettet inkluderer gjenstandsdeteksjoner i videorammer ved hjelp av tre detektorer: SDP, Faster-RCNN og DPM.
19. PASCAL 3D+
Pascal3D+ multi-view datasettet består av fotografier samlet i naturen, dvs. bilder av varekategorier med høy variabilitet, tatt under ukontrollerte omstendigheter, i overfylte miljøer og i en rekke posisjoner. Pascal3D+ inkluderer 12 stive objektkategorier hentet fra PASCAL VOC 2012-datasettet.
Disse elementene har posisjonsinformasjon merket på seg (asimut, høyde og avstand til kameraet). Pascal3D+ inkluderer i tillegg positurmerkede bilder fra ImageNet-samlingen i disse 12 kategoriene.
20. Deformerbare ansiktsmodeller av dyr
Målet med Facial Deformable Models of Animals (FDMA)-prosjektet er å utfordre gjeldende metodikk innen identifisering og sporing av menneskelige ansikts landemerker og å utvikle nye algoritmer som kan håndtere den betydelig større variasjonen som er karakteristisk for ansiktsegenskaper hos dyr.
Prosjektets algoritmer demonstrerte evnen til å gjenkjenne og spore landemerker på menneskelige ansikter mens de håndterer varianser indusert av endringer i ansiktsfølelser eller posisjoner, delvis okklusjoner og belysning.
21. MPII Human Post Datasett
MPII Human Pose-datasettet inneholder rundt 25 15 bilder, hvorav 3 7 er treningsprøver, XNUMX XNUMX av disse er valideringsprøver, og XNUMX XNUMX av disse er testprøver.
Stillingene er manuelt merket med opptil 16 kroppsledd, og bildene er hentet fra YouTube-filmer som dekker 410 ulike menneskelige aktiviteter.
22. UCF101
UCF101-datasettet inneholder 13,320 101 videoklipp organisert i 101 kategorier. Disse XNUMX kategoriene er delt inn i fem kategorier: kroppslige bevegelser, menneske-menneske-interaksjoner, menneske-objekt-interaksjoner, musikkinstrumentspilling og sport.
Videoene er fra YouTube og har en varighet på 27 timer.
23. Lydsett
Audioset er et lydhendelsesdatasett som består av over 2 millioner menneskekommenterte 10-sekunders videosegmenter. For å kommentere disse dataene brukes en hierarkisk ontologi som omfatter 632 hendelsestyper, noe som innebærer at den samme lyden kan merkes annerledes.
24. Stanford Natural Language Inference
SNLI-datasettet (Stanford Natural Language Inference) inneholder 570 XNUMX setningsparinger som manuelt har blitt kategorisert som involvering, selvmotsigelse eller nøytral.
Premisser er Flickr30k-bildebeskrivelser, mens hypoteser ble utviklet av publikumsbaserte annotatorer som ble gitt et premiss og instruert om å generere involverende, motstridende og nøytrale utsagn.
25. Visuelle spørsmålssvar
Visual Question Answering (VQA) er et datasett som inneholder åpne spørsmål om bilder. For å svare på disse spørsmålene må du forstå syn, språk og sunn fornuft.
konklusjonen
Ettersom maskinlæring og kunstig intelligens (AI) blir mer utbredt i praktisk talt alle virksomheter og i våre daglige liv, blir antallet ressurser og informasjon tilgjengelig om emnet også.
Ferdige offentlige datasett gir et godt utgangspunkt for å utvikle AI-modeller, samtidig som de lar erfarne ML-programmerere spare tid og fokusere på andre elementer i prosjektene sine.
Legg igjen en kommentar