Table di cuntinutu[Piattà][Mostra]
- 1. CelebFaces Attributi Dataset
- 2. DOTA
- 3. Google Facial Expression paragone dataset
- 4. Genoma visuale
- 5. LibriSpeech
- 6. I Cityspaces
- 7. Kinetics Dataset
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. US Accidents
- 13. Ricunniscenza di e malatie oculari
- 14. Malatia cardiaca
- 15. CLEVR
- 16. Dipendenze universali
- 17. KITTI – 360
- 18. MOT (Tracciamentu di ughjettu Multiple)
- 19. PASCAL 3D+
- 20. Modelli Deformable Facial di Animali
- 21. MPII Umanu Post Dataset
- 22. UCF101
- 23. Audioset
- 24. Stanford Natural Language Inference
- 25. Visual Question Answering
- cunchiusioni
Oghje, a maiò parte di noi sò cuncentrati in u sviluppu di mudelli di apprendimentu automaticu è AI è di affruntà i prublemi cù l'attuali datasets. Ma prima, duvemu definisce un inseme di dati, u so significatu è u so rolu in u sviluppu di soluzioni forti AI è ML.
Oghje, avemu una pletora di datasets open-source nantu à quale fà ricerche o sviluppà applicazioni per affruntà i prublemi di u mondu reale in una varietà di settori.
Tuttavia, a scarsità di datasets quantitativi di alta qualità hè una fonte di preoccupazione. I dati sò cresciuti immensamente è continueranu à espansione à un ritmu più veloce in u futuru.
In questu post, copreremu set di dati liberamente dispunibili chì pudete aduprà per sviluppà u vostru prossimu prughjettu AI.
1. CelebFaces Attributi Dataset
CelebFaces Attributes Dataset (CelebA) cuntene più di 200K foto di celebrità è 40 annotazioni di attributi per ogni imagine, facendu un excelente puntu di partenza per prughjetti cum'è ricunniscenza facciale, rilevazione di faccia, localizazione di punti di riferimentu (o cumpunenti faciale), è editazione è sintesi di faccia. Inoltre, e foto in questa cullizzioni cuntenenu una larga gamma di varianti di pusizioni è sfondate di sfondate.
2. DOTA
DOTA (Setu di dati di Rilevamentu d'ughjettu in Aerial Photos) hè un dataset di grande scala per a rilevazione di l'ughjetti chì include 15 categurie cumuni (per esempiu, nave, aereo, vittura, etc.), 1411 imagine per a furmazione è 458 imagine per a validazione.
3. Dataset di paragone di Google Facial Expression
U dataset di paragone di l'espressione facciale di Google cuntene circa 500,000 156,000 triplets di stampa, cumprese XNUMX XNUMX foto di faccia. Vale a pena nutà chì ogni triplet in questu dataset hè statu annotatu da almenu sei valutatori umani.
Stu dataset hè utile per i prughjetti chì implicanu l'analisi di l'espressione facciale, cum'è a ricuperazione di l'espressione basata in l'espressione, a categurizazione di l'emozioni, a sintesi di l'espressione, etc. Per accede à u dataset, un brevi furmulariu deve esse cumpletu.
4. Genoma visuale
I dati di risposta à a quistione visuale in un ambiente multi-scelta sò dispunibili in Visual Genome. Hè custituitu da 101,174 foto MSCOCO cù 1.7 milioni di coppie QA, cù una media di 17 dumande per imagine.
In cunfrontu cù u dataset di Rispondi à a Questione Visuale, u dataset di Visual Genome hà una distribuzione più ghjusta in sei tipi di dumande: Cosa, Induve, Quandu, Quale, Perchè è Cumu.
Inoltre, u dataset di Visual Genome include 108K foto chì sò stati assai marcati cù oggetti, pruprietà è cunnessione.
5. Libri Speech
U corpus LibriSpeech hè una cullizzioni di circa 1,000 XNUMX ore di audiolibri da u prughjettu LibriVox. A maiò parte di l'audiolibri sò urigginati da Project Gutenberg.
I dati di furmazione sò divisi in trè partizioni di setti di 100 ore, 360 ore è 500 ore, mentre chì i dati di sviluppu è di prova sò circa 5 ore di lunghezza audio.
6. I Cityspaces
Una di e più famose basa di dati à grande scala di video stereo cù vedute urbane hè chjamata The Cityscapes.
Cù annotazioni precise in pixel chì includenu lochi GPS, a temperatura esterna, i dati di l'ego-motion, è prospettive stereo ghjustu, include registrazioni da 50 cità tedesche distinte.
7. Dataset cinetica
Unu di i datasets di video più cunnisciuti per ricunnosce l'attività umana à grande scala è di bona qualità hè u dataset Kinetics. Ci hè almenu 600 video clips per ognuna di e 600 classi di attività umana, in totale più di 500,000 XNUMX in totale.
I filmi sò stati tirati da YouTube; ognuna dura circa 10 seconde è hà una sola classa di attività listata.
8. CelebAMask-HQ
CelebAMask-HQ hè una cullizzioni di 30,000 foto di faccia in alta risoluzione cù maschere accuratamente annotate è 19 classi chì includenu cumpunenti faciale cum'è pelle, nasu, ochji, sopracciglia, orecchie, bocca, labbra, capelli, cappelli, occhiali, orecchini, collana, collu, materiale.
U dataset pò esse utilizatu per pruvà è furmà a ricunniscenza facciale, l'analisi di a faccia, è i GAN per l'algoritmi di generazione di faccia è di editazione.
9. Penn Treebank
Unu di i corpora più notevuli è spessu usati per a valutazione di mudelli per l'etichettatura di sequenza hè u corpus inglese Penn Treebank (PTB), in particulare a parte di u corpus chì currisponde à l'articuli di u Wall Street Journal.
Ogni parolla deve avè a so parte di parlà marcata cum'è un cumpunente di u compitu. Livellu di caratteru è livellu di parolla mudellu di lingua usa ancu spessu u corpus.
10. VoxCeleb
VoxCeleb hè un inseme di dati d'identificazione di voce à grande scala generatu automaticamente da media open-source. VoxCeleb hà più di un milione di parole da più di 6k parlanti.
Siccomu u dataset include l'audio-visuale, pò esse usatu per una varietà di applicazioni supplementari, cumprese a sintesi di u discorsu visuale, a separazione di u discorsu, u trasferimentu trans-modale da a faccia à a voce o viceversa, è a furmazione di ricunniscenza facciale da u video per supplementà u ricunniscenza facciale attuale. set di dati.
11. SIXray
U set di dati SIXray include 1,059,231 foto di raghji X raccolte da stazioni di metro è annotate da l'ispettori di sicurezza umana per detectà sei tipi principali di articuli pruibiti: pistole, culteddi, chiavi, pinze, forbici è martelli. Inoltre, i scatuli di delimitazione per ogni articulu interdetta sò stati aghjunti manualmente à i setti di teste per valutà a prestazione di a localizazione di l'ughjettu.
12. Accidenti di i Stati Uniti
A sustanza di u prugettu hè digià revelata da u nome di u dataset, US Accidents. Stu set di dati nantu à l'accidenti automobilistici in tuttu u paese include infurmazioni da ferraghju 2016 à dicembre 2021 è copre 49 stati in i Stati Uniti.
Circa 1.5 milioni di registri di accidenti sò oghji prisenti in questa cullizzioni. Hè stata riunita in tempu reale utilizendu parechje API di trafficu.
Queste API trasmettenu l'infurmazioni di trafficu riuniti da una varietà di fonti, cumprese camere di trafficu, urganisazioni di l'infurzazioni di a lege, è i dipartimenti di trasportu di i Stati Uniti è statali.
13. Ricunniscenza di e malatie oculari
A basa di dati oftalmica urganizata Ocular Disease Intelligent Recognition (ODIR) cuntene infurmazioni nantu à 5,000 XNUMX pazienti, cumprese a so età, u culore di u fundus in i so ochji mancanti è dritti, è e parolle chjave di diagnostica di i prufessiunali medichi.
Stu dataset hè una cullizzioni attuale di dati di pazienti da diversi ospedali è strutture mediche in Cina chì Shanggong Medical Technology Co., Ltd. hà acquistatu. Cù gestione di cuntrollu di qualità, L'annotazioni sò state marcate da lettori umani qualificati.
14. Malatie corse
Stu set di dati di e malatie cardiache aiuta à identificà l'esistenza di a malatia di u cori in un paziente basatu annantu à 76 paràmetri, cum'è età, genere, tipu di dolore di pettu, pressione di sangue in riposu, etc.
Cù 303 casi, a basa di dati cerca solu di diferenzià l'esistenza di una malatia (valore 1,2,3,4) da a so assenza (valore 0).
15. CLEVR
U dataset CLEVR (Lingua Composizionale è Ragiunamentu Visuale Elementale) imita a Risposta Visuale di Questione. Hè custituitu di ritratti di l'uggetti resi in 3D, cù ogni fotografia accumpagnata da una seria di dumande altamente cumpusitive divise in parechje categurie.
Per tutte e dumande è e dumande di treni è di validazione, u set di dati comprende 70,000 700,000 fotografie è 15,000 150,000 dumande per a furmazione, 15,000 150,000 imaghjini è XNUMX XNUMX dumande per a validazione, è XNUMX XNUMX imaghjini è XNUMX XNUMX dumande per teste chì implicanu oggetti, risposte, gràfiche di scena, è gràfiche di scena.
16. Dipendenze universali
U prughjettu Universal Dependencies (UD) hà u scopu di creà una morfologia linguistica uniforme è l'annotazione di sintassi per parechje lingue. A versione 2.7, chì hè stata liberata in 2020, hà 183 treebanks in 104 lingue.
L'annotazione hè custituita da tag POW universali, capi di dipendenza è etichette di dipendenza universale.
17. KITTI – 360
Unu di i datasets più spessu usati per i robots mobili è guida autonoma hè KITTI (Istitutu di Tecnulugia di Karlsruhe è Istitutu Tecnologicu di Toyota).
Hè custituitu di scenarii di trafficu per ore chì sò stati catturati cù una gamma di modalità di sensori, cum'è RGB d'alta risoluzione, stereo in scala di grigi, è camere scanner laser 3D. U dataset hè statu migliuratu cù u tempu da parechji circadori chì anu annotatu manualmente diverse porzioni per adattà à i so bisogni.
18. MOT (Tracciamentu di l'oggetti multipli)
MOT (Multiple Object Tracking) hè un inseme di dati per u seguimentu d'ogetti multipli chì include scenarii interni è esterni di lochi publichi chì includenu i pedoni cum'è l'uggetti d'interessu. U video di ogni scena hè spartutu in dui pezzi, unu per a furmazione è l'altru per a prova.
U dataset include rilevazione di oggetti in frames video cù trè detectori: SDP, Faster-RCNN è DPM.
19. PASCAL 3D+
U Pascal3D + dataset multi-vista hè custituitu da e ritratti cullate in u salvaticu, vale à dì, l'imaghjini di categurie di l'articuli cù alta variabilità, catturati in circustanze incontrollate, in ambienti affollati, è in una varietà di pusizioni. Pascal3D + include 12 categurie d'oggetti rigidi tratte da u set di dati PASCAL VOC 2012.
Questi articuli anu infurmazione di postura marcata nantu à elli (azimut, elevazione è distanza à a camera). Pascal3D + include ancu e foto annotate in pose da a cullezzione ImageNet in queste 12 categurie.
20. Modelli deformabili faciale di l'animali
L'obiettivu di u prughjettu di i Modelli Faciali Deformabili di Animali (FDMA) hè di sfidà e metodulugia attuale in l'identificazione è u seguimentu di i punti di riferimentu faciale umanu è di sviluppà novi algoritmi chì ponu trattà cù a variabilità considerablemente più grande chì hè caratteristica di e caratteristiche faciale di l'animali.
L'algoritmi di u prugettu dimustratu a capacità di ricunnosce è tracciate i punti di riferimentu nantu à e facce umane mentre trattanu di varianze indotte da cambiamenti in emozioni o pusizioni faciale, occlusioni parziali è illuminazione.
21. Set di dati di posta umana MPII
U MPII Human Pose Dataset cuntene circa 25K foto, 15K di quali sò campioni di furmazione, 3K di quali sò campioni di validazione, è 7K di quali sò campioni di prova.
E pusizioni sò etichettate manualmente cù finu à 16 articuli di u corpu, è e fotografie sò pigliate da filmi di YouTube chì copre 410 diverse attività umane.
22. UCF 101
U set di dati UCF101 cuntene 13,320 video clips organizzati in 101 categurie. Queste 101 categurie sò spartuti in cinque categurie: movimenti di u corpu, interazzione umanu-umani, interazzione umanu-ughjettu, ghjocu di strumenti musicali è sport.
I video sò da YouTube è custituiscenu 27 ore di durata.
23. Audioset
Audioset hè un inseme di dati di l'avvenimenti audio custituitu da più di 2 milioni di segmenti di video di 10 secondi annotati da l'omu. Per annotà queste dati, hè aduprata una ontulugia gerarchica chì comprende 632 tipi di eventi, chì implica chì u listessu sonu pò esse etichettatu in modu diversu.
24. Stanford Inferenza di Lingua Naturale
U dataset SNLI (Stanford Natural Language Inference) cuntene 570k accoppiamenti di sentenzi chì sò stati categurizzati manualmente cum'è implicazione, cuntradizioni o neutrali.
I locali sò descrizzioni di stampa Flickr30k, mentre chì l'ipotesi sò state sviluppate da annotatori di folla chì sò stati furniti una premessa è urdinati per generà dichjarazioni implicanti, contraddittorie è neutrali.
25. Rispondi à a quistione visuale
Visual Question Answering (VQA) hè un inseme di dati chì cuntene dumande aperte riguardanti l'imaghjini. Per risponde à queste dumande, avete bisognu di capisce a visione, a lingua è u sensu cumunu.
cunchiusioni
Cume l'apprendimentu automaticu è l'intelligenza artificiale (AI) diventanu più prevalenti in quasi ogni attività è in a nostra vita di ogni ghjornu, cusì u numeru di risorse è infurmazioni dispunibili nantu à u sughjettu.
I datasets publichi pronti furniscenu un grande puntu di partenza per sviluppà mudelli di IA mentre permettenu à i programatori ML di staghjoni di risparmià tempu è fucalizza nantu à altri elementi di i so prughjetti.
Lascia un Audiolibro