Cele mai bune 25 seturi de date alternative de instruire AI (2024)

În zilele noastre, cei mai mulți dintre noi se concentrează pe dezvoltarea modelelor de învățare automată și AI și pe abordarea problemelor folosind seturile de date actuale. Dar, mai întâi, trebuie să definim un set de date, semnificația acestuia și rolul său în dezvoltarea soluțiilor puternice de AI și ML.

Astăzi, avem o multitudine de seturi de date open-source pe care să efectuăm cercetări sau să dezvoltăm aplicații pentru a aborda problemele din lumea reală într-o varietate de sectoare.

Cu toate acestea, deficitul de seturi de date cantitative de înaltă calitate este o sursă de îngrijorare. Datele au crescut enorm și vor continua să se extindă într-un ritm mai rapid în viitor.

În această postare, vom acoperi seturi de date disponibile gratuit pe care le puteți utiliza pentru a dezvolta următorul dvs. proiect AI.

1. Setul de date cu atribute CelebFaces

CelebFaces Attributes Dataset (CelebA) conține peste 200 de fotografii de celebrități și 40 de adnotări de atribute pentru fiecare imagine, ceea ce o face un excelent punct de plecare pentru proiecte precum recunoașterea feței, detectarea feței, localizarea reperelor (sau a componentei faciale) și editarea și sinteza feței. În plus, fotografiile din această colecție conțin o gamă largă de variante de poziție și aglomerație de fundal.

2. DOTA

DOTA (Setul de date de Detectarea obiectelor în Fotografii aeriene) este un set de date la scară mare pentru detectarea obiectelor care include 15 categorii comune (de exemplu, navă, avion, mașină etc.), 1411 imagini pentru antrenament și 458 imagini pentru validare.

3. Setul de date de comparație Google Facial Expression

Setul de date Google pentru compararea expresiilor faciale conține aproximativ 500,000 de tripleți de imagini, inclusiv 156,000 de fotografii ale feței. Este demn de remarcat faptul că fiecare triplet din acest set de date a fost adnotat de cel puțin șase evaluatori umani.

Acest set de date este util pentru proiecte care implică analiza expresiei feței, cum ar fi recuperarea imaginilor bazate pe expresii, categorizarea emoțiilor, sinteza expresiei și așa mai departe. Pentru a avea acces la setul de date, trebuie completat un scurt formular.

4. Genomul vizual

Datele de răspuns la întrebări vizuale într-un mediu cu opțiuni multiple sunt disponibile în Genomul vizual. Este alcătuit din 101,174 de fotografii MSCOCO cu 1.7 milioane de perechi QA, cu o medie de 17 întrebări pe imagine.

În comparație cu setul de date Visual Question Answering, setul de date Visual Genome are o distribuție mai corectă în șase tipuri de întrebări: Ce, Unde, Când, Cine, De ce și Cum.

În plus, setul de date Visual Genome include 108K fotografii care au fost puternic etichetate cu obiecte, proprietăți și conexiuni.

5. LibriSpeech

Corpusul LibriSpeech este o colecție de aproximativ 1,000 de ore de cărți audio din proiectul LibriVox. Majoritatea cărților audio provin din Proiectul Gutenberg.

Datele de antrenament sunt împărțite în trei partiții de seturi de 100 de ore, 360 de ore și 500 de ore, în timp ce datele de dezvoltare și de testare au o lungime audio de aproximativ 5 ore.

6. The Cityspaces

Una dintre cele mai cunoscute baze de date la scară largă de videoclipuri stereo cu vizualizări urbane se numește The Cityscapes.

Cu adnotări precise la pixeli care includ locații GPS, temperatura exterioară, date despre mișcarea ego-ului și perspective stereo corecte, include înregistrări din 50 de orașe germane distincte.

7. Setul de date Kinetics

Unul dintre cele mai cunoscute seturi de date video pentru recunoașterea activității umane la scară mare și de bună calitate este setul de date Kinetics. Există cel puțin 600 de clipuri video pentru fiecare dintre cele 600 de clase de activitate umană, însumând peste 500,000 în total.

Filmele au fost scoase de pe YouTube; fiecare are o durată de aproximativ 10 secunde și are listată o singură clasă de activitate.

8. CelebAMask-HQ

CelebAMask-HQ este o colecție de 30,000 de fotografii ale feței de înaltă rezoluție, cu măști atent adnotate și 19 clase care includ componente faciale precum piele, nas, ochi, sprâncene, urechi, gură, buze, păr, pălărie, ochelari, cercei, colier, gât, material.

Setul de date poate fi utilizat pentru a testa și antrena recunoașterea feței, analizarea feței și GAN-urile pentru algoritmi de generare și editare a fețelor.

9. Penn Treebank

Unul dintre cele mai notabile și des folosite corpus pentru evaluarea modelelor pentru etichetarea secvenței este corpus englezesc Penn Treebank (PTB), în special porțiunea din corpus corespunzătoare articolelor din Wall Street Journal.

Fiecare cuvânt trebuie să aibă partea sa de vorbire etichetată ca o componentă a sarcinii. La nivel de caracter și la nivel de cuvânt modelarea limbajului folosește frecvent și corpus.

10. VoxCeleb

VoxCeleb este un set de date de identificare a vorbirii la scară largă, generat automat din media open-source. VoxCeleb are peste un milion de enunțuri de la peste 6 de vorbitori.

Deoarece setul de date include materiale audiovizuale, acesta poate fi utilizat pentru o varietate de aplicații suplimentare, inclusiv sinteza vizuală a vorbirii, separarea vorbirii, transferul transmodal de la față la voce sau invers și antrenamentul recunoașterii feței din video pentru a suplimenta recunoașterea facială curentă. seturi de date.

11. SIXray

Setul de date SIXray include 1,059,231 de imagini cu raze X colectate de la stațiile de metrou și adnotate de inspectorii de securitate umană pentru a detecta șase tipuri principale de articole interzise: pistoale, cuțite, chei, clești, foarfece și ciocane. În plus, casetele de delimitare pentru fiecare articol nepermis au fost adăugate manual la seturile de testare pentru a evalua performanța localizării obiectelor.

12. Accidentele din SUA

Substanța proiectului este deja dezvăluită de numele setului de date, US Accidents. Acest set de date privind accidentele auto la nivel național include informații din februarie 2016 până în decembrie 2021 și acoperă 49 de state din SUA.

Aproximativ 1.5 milioane de înregistrări de accidente sunt acum prezente în această colecție. A fost colectat în timp real prin utilizarea mai multor API-uri de trafic.

Aceste API-uri transmit informații despre trafic adunate dintr-o varietate de surse, inclusiv camere de supraveghere a traficului, organizații de aplicare a legii și departamentele de transport din SUA și de stat.

13. Recunoașterea bolilor oculare

Baza de date oftalmică organizată Ocular Disease Intelligent Recognition (ODIR) conține informații despre 5,000 de pacienți, inclusiv vârsta lor, culoarea fundului de ochi la ochiul stâng și drept și cuvintele cheie de diagnostic ale profesioniștilor medicali.

Acest set de date este o colecție reală de date despre pacienți de la diferite spitale și unități medicale din China pe care Shanggong Medical Technology Co., Ltd. le-a achiziționat. Cu managementul controlului calitatii, adnotările au fost etichetate de către cititori umani calificați.

14. Boală de inimă

Acest set de date privind bolile de inimă ajută la identificarea existenței unei boli de inimă la un pacient pe baza a 76 de parametri, cum ar fi vârsta, sexul, tipul de durere în piept, tensiunea arterială în repaus și așa mai departe.

Cu 303 cazuri, baza de date urmărește pur și simplu să diferențieze existența unei boli (valoare 1,2,3,4) de absența acesteia (valoare 0).

15. CLEVR

Setul de date CLEVR (Limbajul compozițional și raționamentul vizual elementar) imită răspunsul la întrebări vizuale. Este alcătuită din fotografii cu obiecte redate în 3D, fiecare fotografie fiind însoțită de o serie de întrebări foarte compoziționale împărțite în mai multe categorii.

Pentru toate imaginile și întrebările de tren și de validare, setul de date cuprinde 70,000 de fotografii și 700,000 de întrebări pentru antrenament, 15,000 de imagini și 150,000 de întrebări pentru validare și 15,000 de imagini și 150,000 de întrebări pentru testare care implică obiecte, răspunsuri, programe funcționale și grafice de scenă.

16. Dependențe universale

Proiectul Dependențe Universale (UD) își propune să creeze o morfologie uniformă translingvistică și adnotări arbore de sintaxă pentru multe limbi. Versiunea 2.7, care a fost lansată în 2020, are 183 de treebanks în 104 limbi.

Adnotarea este alcătuită din etichete POW universale, capete de dependență și etichete de dependență universale.

17. KITTI – 360

Unul dintre cele mai des utilizate seturi de date pentru roboții mobili și conducere autonomă este KITTI (Institutul de Tehnologie Karlsruhe și Institutul Tehnologic Toyota).

Este alcătuit din scenarii de trafic în valoare de ore, care au fost capturate folosind o gamă largă de modalități de senzori, cum ar fi camere RGB de înaltă rezoluție, stereo în tonuri de gri și camere scaner laser 3D. Setul de date a fost îmbunătățit de-a lungul timpului de mai mulți cercetători care au adnotat manual diferite părți ale acestuia pentru a se potrivi nevoilor lor.

18. MOT (Urmărirea mai multor obiecte)

MOT (Multiple Object Tracking) este un set de date pentru urmărirea mai multor obiecte care include peisaje interioare și exterioare ale locațiilor publice care includ pietonii ca obiecte de interes. Clipul fiecărei scene este rupt în două bucăți, una pentru antrenament și cealaltă pentru testare.

Setul de date include detectii de obiecte în cadre video folosind trei detectoare: SDP, Faster-RCNN și DPM.

19. PASCAL 3D+

Setul de date cu vizualizare multiplă Pascal3D+ este alcătuit din fotografii culese în sălbăticie, adică imagini ale categoriilor de articole cu variabilitate mare, surprinse în circumstanțe necontrolate, în medii aglomerate și într-o varietate de poziții. Pascal3D+ include 12 categorii de obiecte rigide extrase din setul de date PASCAL VOC 2012.

Aceste articole au informații despre postură marcate pe ele (azimut, altitudine și distanță până la cameră). Pascal3D+ include, în plus, fotografii adnotate în poziție din colecția ImageNet în aceste 12 categorii.

20. Modele faciale deformabile de animale

Scopul proiectului Facial Deformable Models of Animals (FDMA) este de a contesta metodologiile actuale în identificarea și urmărirea reperelor faciale umane și de a dezvolta noi algoritmi care pot face față variabilității considerabil mai mari care este caracteristică caracteristicilor faciale ale animalelor.

Algoritmii proiectului au demonstrat capacitatea de a recunoaște și urmări repere de pe fețele umane în timp ce se confruntă cu variațiile induse de schimbările emoțiilor sau pozițiilor faciale, ocluziilor parțiale și luminii.

21. Setul de date MPII Human Post

Setul de date MPII Human Pose conține aproximativ 25 de fotografii, dintre care 15 sunt mostre de antrenament, dintre care 3K sunt mostre de validare și 7K probe de testare.

Pozițiile sunt etichetate manual cu până la 16 articulații ale corpului, iar fotografiile sunt luate din filme YouTube care acoperă 410 activități umane diferite.

22. UCF101

Setul de date UCF101 conține 13,320 de clipuri video organizate în 101 categorii. Aceste 101 categorii sunt împărțite în cinci categorii: mișcări corporale, interacțiuni om-om, interacțiuni om-obiect, joc de instrumente muzicale și sport.

Videoclipurile sunt de pe YouTube și au o durată de 27 de ore.

23. Set audio

Audioset este un set de date de evenimente audio format din peste 2 milioane de segmente video de 10 secunde adnotate de om. Pentru adnotarea acestor date, se folosește o ontologie ierarhică care cuprinde 632 de tipuri de evenimente, ceea ce implică faptul că același sunet poate fi etichetat diferit.

24. Inferența în limbajul natural Stanford

Setul de date SNLI (Stanford Natural Language Inference) conține 570k perechi de propoziții care au fost clasificate manual ca implicare, contradicție sau neutre.

Premisele sunt descrieri de imagini Flickr30k, în timp ce ipotezele au fost dezvoltate de adnotatori aglomerați, cărora li s-a oferit o premisă și au fost instruiți să genereze declarații care implică, contradictorii și neutre.

25. Răspunsuri vizuale la întrebări

Răspunsul la întrebări vizuale (VQA) este un set de date care conține întrebări deschise referitoare la imagini. Pentru a răspunde la aceste întrebări, trebuie să înțelegeți viziunea, limbajul și bunul simț.

Concluzie

Pe măsură ce învățarea automată și inteligența artificială (AI) devin mai răspândite în practic fiecare afacere și în viața noastră de zi cu zi, la fel crește și numărul de resurse și informații disponibile pe acest subiect.

Seturile de date publice gata făcute oferă un punct de plecare excelent pentru dezvoltarea modelelor AI, permițând totodată programatorilor experimentați ML să economisească timp și să se concentreze pe alte elemente ale proiectelor lor.

Cele mai bune seturi de date alternative de instruire AI

25 de cele mai bune seturi de date alternative de instruire AI

1. Setul de date cu atribute CelebFaces

2. DOTA

3. Setul de date de comparație Google Facial Expression

4. Genomul vizual

5. LibriSpeech

6. The Cityspaces

7. Setul de date Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Accidentele din SUA

13. Recunoașterea bolilor oculare

14. Boală de inimă

15. CLEVR

16. Dependențe universale

17. KITTI – 360

18. MOT (Urmărirea mai multor obiecte)

19. PASCAL 3D+

20. Modele faciale deformabile de animale

21. Setul de date MPII Human Post

22. UCF101

23. Set audio

24. Inferența în limbajul natural Stanford

25. Răspunsuri vizuale la întrebări

Concluzie

Despre Noi Gaiţă

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

Colosyan vs Heygen

Acest buletin informativ Future Tech nu e de nasol

25 de cele mai bune seturi de date alternative de instruire AI

1. Setul de date cu atribute CelebFaces

2. DOTA

3. Setul de date de comparație Google Facial Expression

4. Genomul vizual

5. LibriSpeech

6. The Cityspaces

7. Setul de date Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Accidentele din SUA

13. Recunoașterea bolilor oculare

14. Boală de inimă

15. CLEVR

16. Dependențe universale

17. KITTI – 360

18. MOT (Urmărirea mai multor obiecte)

19. PASCAL 3D+

20. Modele faciale deformabile de animale

21. Setul de date MPII Human Post

22. UCF101

23. Set audio

24. Inferența în limbajul natural Stanford

25. Răspunsuri vizuale la întrebări

Concluzie

Despre Noi Gaiţă

Mai multe articole despre HashDork:

Cum să reduceți halucinațiile din IA

10 cele mai bune instrumente AI pentru rețelele sociale

Colosyan vs Heygen

Cele mai bune 10 instrumente pentru realizarea de videoclipuri animate AI

Interacțiuni de reader

Lasă un comentariu Anuleaza raspunsul

Acest buletin informativ Future Tech nu e de nasol