Sommario[Nascondere][Spettacolo]
- 1. Set di dati degli attributi di CelebFaces
- 2. DOTA
- 3. Set di dati di confronto delle espressioni facciali di Google
- 4. Genoma visivo
- 5. LibriDiscorso
- 6. Gli spazi urbani
- 7. Set di dati di cinetica
- 8. CelebAmask-HQ
- 9. Penn Treebank
- 10.VoxCeleb
- 11. Sei raggi
- 12. Incidenti negli Stati Uniti
- 13. Riconoscimento delle malattie oculari
- 14. Malattia del cuore
- 15. INTELLIGENTE
- 16. Dipendenze universali
- 17.KITTI – 360
- 18. MOT (Tracciamento di oggetti multipli)
- 19. PASCAL 3D+
- 20. Modelli facciali deformabili di animali
- 21. Set di dati della posta umana MPII
- 22.UCF101
- 23. Set audio
- 24. Inferenza sul linguaggio naturale di Stanford
- 25. Risposta visiva alle domande
- Conclusione
Al giorno d'oggi, la maggior parte di noi si concentra sullo sviluppo di modelli di apprendimento automatico e intelligenza artificiale e sulla risoluzione dei problemi utilizzando i set di dati attuali. Ma prima, dobbiamo definire un set di dati, il suo significato e il suo ruolo nello sviluppo di solide soluzioni di IA e ML.
Oggi abbiamo una pletora di set di dati open source su cui condurre ricerche o sviluppare applicazioni per affrontare problemi del mondo reale in una varietà di settori.
Tuttavia, la scarsità di set di dati quantitativi di alta qualità è fonte di preoccupazione. I dati sono aumentati enormemente e continueranno ad espandersi a un ritmo più veloce in futuro.
In questo post, tratteremo i set di dati disponibili gratuitamente che puoi utilizzare per sviluppare il tuo prossimo progetto di intelligenza artificiale.
1. CelebFaces Attributi Dataset
CelebFaces Attributes Dataset (CelebA) contiene oltre 200 foto di celebrità e 40 annotazioni di attributi per ogni immagine, il che lo rende un ottimo punto di partenza per progetti come riconoscimento facciale, rilevamento del volto, localizzazione del punto di riferimento (o componente facciale) e modifica e sintesi del volto. Inoltre, le foto di questa raccolta contengono un'ampia gamma di varianti di posizione e confusione sullo sfondo.
2. DOTA
DOTA (set di dati di Rilevazione dell'oggetto in Foto aeree) è un set di dati su larga scala per il rilevamento di oggetti che include 15 categorie comuni (ad es. nave, aereo, auto, ecc.), 1411 immagini per l'addestramento e 458 immagini per la convalida.
3. Set di dati di confronto delle espressioni facciali di Google
Il set di dati di confronto delle espressioni facciali di Google contiene circa 500,000 triplette di immagini, comprese 156,000 foto di volti. Vale la pena notare che ogni tripletta in questo set di dati è stata annotata da almeno sei valutatori umani.
Questo set di dati è utile per progetti che coinvolgono l'analisi dell'espressione facciale, come il recupero di immagini basato sull'espressione, la categorizzazione delle emozioni, la sintesi dell'espressione e così via. Per accedere al dataset è necessario compilare un breve modulo.
4. Genoma visivo
I dati di risposta alle domande visive in un ambiente a scelta multipla sono disponibili in Visual Genome. È composto da 101,174 foto MSCOCO con 1.7 milioni di coppie QA, con una media di 17 domande per immagine.
Rispetto al set di dati Visual Question Answering, il set di dati Visual Genome ha una distribuzione più equa tra sei tipi di domande: cosa, dove, quando, chi, perché e come.
Inoltre, il set di dati di Visual Genome include 108 foto che sono state pesantemente contrassegnate con oggetti, proprietà e connessioni.
5. LibriDiscorso
Il corpus LibriSpeech è una raccolta di circa 1,000 ore di audiolibri del progetto LibriVox. La maggior parte degli audiolibri proviene dal Progetto Gutenberg.
I dati di addestramento sono divisi in tre partizioni di set da 100 ore, 360 ore e 500 ore, mentre i dati di sviluppo e test hanno una durata audio di circa 5 ore.
6. Gli spazi urbani
Uno dei più noti database su larga scala di video stereo con viste urbane si chiama The Cityscapes.
Con annotazioni precise al pixel che includono posizioni GPS, temperatura esterna, dati sull'ego-motion e prospettive stereo corrette, include registrazioni da 50 diverse città tedesche.
7. Set di dati di cinetica
Uno dei set di dati video più noti per il riconoscimento dell'attività umana su larga scala e con una buona qualità è il set di dati Kinetics. Ci sono almeno 600 video clip per ciascuna delle 600 classi di attività umane, per un totale di oltre 500,000.
I film sono stati estratti da YouTube; ognuno dura circa 10 secondi e ha una sola classe di attività elencata.
8. CelebAMask-HQ
CelebAMask-HQ è una raccolta di 30,000 foto di volti ad alta risoluzione con maschere accuratamente annotate e 19 classi che includono componenti facciali come pelle, naso, occhi, sopracciglia, orecchie, bocca, labbra, capelli, cappello, occhiali, orecchini, collana, collo, materiale.
Il set di dati può essere utilizzato per testare e addestrare il riconoscimento facciale, l'analisi facciale e i GAN per la generazione e la modifica di algoritmi di volti.
9. Penn Treebank
Uno dei corpora più importanti e spesso utilizzati per la valutazione dei modelli per il sequence tagging è il corpus inglese Penn Treebank (PTB), in particolare la porzione del corpus corrispondente agli articoli del Wall Street Journal.
Ogni parola deve avere la sua parte del discorso contrassegnata come componente dell'attività. Livello di carattere e livello di parola modellazione del linguaggio usa frequentemente anche il corpus.
10 Vox Celeb
VoxCeleb è un set di dati di identificazione vocale su larga scala generato automaticamente da media open source. VoxCeleb ha oltre un milione di espressioni da oltre 6 relatori.
Poiché il set di dati include audiovisivi, può essere utilizzato per una varietà di applicazioni aggiuntive, tra cui sintesi vocale visiva, separazione vocale, trasferimento cross-modale da viso a voce o viceversa e formazione del riconoscimento facciale da video per integrare l'attuale riconoscimento facciale set di dati.
11 Sei raggi
Il set di dati SIXray include 1,059,231 immagini a raggi X raccolte dalle stazioni della metropolitana e annotate dagli ispettori della sicurezza umana per rilevare sei tipi principali di oggetti proibiti: pistole, coltelli, chiavi inglesi, pinze, forbici e martelli. Inoltre, ai set di test sono stati aggiunti manualmente riquadri di delimitazione per ogni elemento non consentito per valutare le prestazioni della localizzazione degli oggetti.
12 Incidenti USA
La sostanza del progetto è già rivelata dal nome del set di dati, US Accidents. Questo set di dati sugli incidenti automobilistici a livello nazionale include informazioni da febbraio 2016 a dicembre 2021 e copre 49 stati degli Stati Uniti.
In questa raccolta sono ora presenti circa 1.5 milioni di record di incidenti. È stato raccolto in tempo reale utilizzando diverse API di traffico.
Queste API trasmettono le informazioni sul traffico raccolte da una varietà di fonti, comprese le telecamere del traffico, le forze dell'ordine e i dipartimenti dei trasporti degli Stati Uniti e dello stato.
13 Riconoscimento delle malattie oculari
Il database oftalmico organizzato Ocular Disease Intelligent Recognition (ODIR) contiene informazioni su 5,000 pazienti, inclusa la loro età, il colore del fondo oculare sinistro e destro e le parole chiave diagnostiche dei professionisti del settore medico.
Questo set di dati è una raccolta effettiva di dati dei pazienti provenienti da vari ospedali e strutture mediche in Cina che Shanggong Medical Technology Co., Ltd. ha acquisito. Insieme a gestione del controllo qualità, le annotazioni sono state contrassegnate da lettori umani esperti.
14 Malattia del cuore
Questo set di dati sulle malattie cardiache aiuta a identificare l'esistenza di malattie cardiache in un paziente in base a 76 parametri come età, sesso, tipo di dolore toracico, pressione sanguigna a riposo e così via.
Con 303 casi, il database cerca di differenziare semplicemente l'esistenza di una malattia (valore 1,2,3,4) dalla sua assenza (valore 0).
15 INTELLIGENTE
Il set di dati CLEVR (Compositional Language and Elementary Visual Reasoning) imita la risposta alle domande visive. Consiste in fotografie di oggetti renderizzati in 3D, con ogni fotografia accompagnata da una serie di domande altamente compositive suddivise in diverse categorie.
Per tutte le immagini e le domande relative al treno e alla convalida, il set di dati comprende 70,000 fotografie e 700,000 domande per la formazione, 15,000 immagini e 150,000 domande per la convalida e 15,000 immagini e 150,000 domande per i test che coinvolgono oggetti, risposte, grafici di scene e programmi funzionali.
16 Dipendenze universali
Il progetto Universal Dependencies (UD) mira a creare una morfologia interlinguisticamente uniforme e annotazioni treebank sintattiche per molte lingue. La versione 2.7, rilasciata nel 2020, ha 183 treebank in 104 lingue.
L'annotazione è composta da tag POW universali, testine di dipendenza ed etichette di dipendenza universali.
17 CETTI – 360
Uno dei set di dati più utilizzati per i robot mobili e guida autonoma è KITTI (Istituto di Tecnologia di Karlsruhe e Istituto Tecnologico Toyota).
È composto da ore di scenari di traffico acquisiti utilizzando una gamma di modalità di sensori, come RGB ad alta risoluzione, stereo in scala di grigi e fotocamere scanner laser 3D. Il set di dati è stato migliorato nel tempo da diversi ricercatori che ne hanno annotato manualmente varie porzioni in base alle proprie esigenze.
18 MOT (Tracciamento di oggetti multipli)
MOT (Multiple Object Tracking) è un set di dati per il tracciamento di più oggetti che include scenari interni ed esterni di luoghi pubblici che includono pedoni come oggetti di interesse. Il video di ogni scena è suddiviso in due parti, una per l'allenamento e l'altra per il test.
Il set di dati include rilevamenti di oggetti nei frame video utilizzando tre rilevatori: SDP, Faster-RCNN e DPM.
19 PASCAL 3D+
Il set di dati multi-view Pascal3D+ è costituito da fotografie raccolte in natura, ovvero immagini di categorie di oggetti con elevata variabilità, catturate in circostanze incontrollate, in ambienti affollati e in una varietà di posizioni. Pascal3D+ include 12 categorie di oggetti rigidi tratti dal set di dati PASCAL VOC 2012.
Questi elementi hanno informazioni sulla postura contrassegnate su di essi (azimut, elevazione e distanza dalla telecamera). Pascal3D+ include inoltre le foto annotate in posa dalla raccolta ImageNet in queste 12 categorie.
20 Modelli facciali deformabili di animali
L'obiettivo del progetto Facial Deformable Models of Animals (FDMA) è sfidare le metodologie attuali nell'identificazione e nel tracciamento dei punti di riferimento facciali umani e sviluppare nuovi algoritmi in grado di affrontare la variabilità considerevolmente maggiore che è caratteristica delle caratteristiche facciali degli animali.
Gli algoritmi del progetto hanno dimostrato la capacità di riconoscere e tracciare punti di riferimento sui volti umani mentre si affrontano le varianze indotte da cambiamenti nelle emozioni o posizioni facciali, occlusioni parziali e illuminazione.
21 Set di dati della posta umana MPII
Il set di dati MPII Human Pose contiene circa 25 foto, 15 delle quali sono campioni di addestramento, 3 dei quali sono campioni di convalida e 7 dei quali sono campioni di prova.
Le posizioni vengono etichettate manualmente con un massimo di 16 articolazioni corporee e le fotografie sono tratte da filmati di YouTube che coprono 410 diverse attività umane.
22 UCF101
Il set di dati UCF101 contiene 13,320 video clip organizzati in 101 categorie. Queste 101 categorie sono suddivise in cinque categorie: movimenti corporei, interazioni uomo-uomo, interazioni uomo-oggetto, suonare strumenti musicali e sport.
I video provengono da YouTube e hanno una durata di 27 ore.
23 Set audio
Audioset è un set di dati di eventi audio composto da oltre 2 milioni di segmenti video di 10 secondi con annotazioni umane. Per annotare questi dati, viene utilizzata un'ontologia gerarchica comprendente 632 tipi di eventi, il che implica che lo stesso suono potrebbe essere etichettato in modo diverso.
24 Inferenza sul linguaggio naturale di Stanford
Il set di dati SNLI (Stanford Natural Language Inference) contiene 570 abbinamenti di frasi che sono stati classificati manualmente come implicazione, contraddizione o neutrale.
Le premesse sono descrizioni di immagini di Flickr30k, mentre le ipotesi sono state sviluppate da annotatori crowd-sourced a cui è stata fornita una premessa e istruiti a generare affermazioni implicanti, contraddittorie e neutre.
25 Risposta visiva alle domande
Visual Question Answering (VQA) è un set di dati che contiene domande aperte sulle immagini. Per rispondere a queste domande, è necessario comprendere visione, linguaggio e buon senso.
Conclusione
Man mano che l'apprendimento automatico e l'intelligenza artificiale (AI) diventano più diffusi praticamente in ogni azienda e nella nostra vita quotidiana, aumenta anche il numero di risorse e informazioni disponibili sull'argomento.
I set di dati pubblici già pronti forniscono un ottimo punto di partenza per sviluppare modelli di intelligenza artificiale, consentendo anche ai programmatori ML esperti di risparmiare tempo e concentrarsi su altri elementi dei loro progetti.
Lascia un Commento