25 Set Data Latihan AI Alternatif Paling Apik (2024)

Saiki, umume kita fokus kanggo ngembangake model pembelajaran mesin lan AI lan ngatasi masalah nggunakake set data saiki. Nanging pisanan, kita kudu nemtokake set data, pentinge, lan perane kanggo ngembangake solusi AI lan ML sing kuwat.

Dina iki, kita duwe akeh dataset open-source kanggo nindakake riset utawa ngembangake aplikasi kanggo ngatasi masalah nyata ing macem-macem sektor.

Nanging, kelangkaan set data kuantitatif sing berkualitas minangka sumber kuwatir. Data wis mundhak banget lan bakal terus berkembang kanthi tingkat sing luwih cepet ing mangsa ngarep.

Ing kirim iki, kita bakal nutupi set data sing kasedhiya gratis sing bisa digunakake kanggo ngembangake proyek AI sabanjure.

1. Dataset Atribut CelebFaces

CelebFaces Attributes Dataset (CelebA) ngemot luwih saka 200K foto selebriti lan 40 anotasi atribut kanggo saben gambar, dadi titik wiwitan sing apik kanggo proyek kayata pangenalan rai, deteksi pasuryan, tengara (utawa komponen rai) lokalisasi, lan panyuntingan & sintesis pasuryan. Salajengipun, foto ing koleksi iki ngemot macem-macem variasi posisi lan latar mburi.

2. DOTA

DOTA (Dataset saka Deteksi Obyek ing Foto Aerial) minangka set data skala gedhe kanggo deteksi obyek sing kalebu 15 kategori umum (contone, kapal, pesawat, mobil, lsp.), 1411 gambar kanggo latihan, lan 458 gambar kanggo validasi.

3. Data perbandingan Ekspresi Wajah Google

Dataset perbandingan ekspresi wajah Google ngemot sekitar 500,000 triplet gambar, kalebu 156,000 foto pasuryan. Perlu dicathet yen saben triplet ing set data iki dianotasi paling ora enem penilai manungsa.

Dataset iki migunani kanggo proyek sing nglibatake analisis ekspresi wajah, kayata pengambilan gambar adhedhasar ekspresi, kategorisasi emosi, sintesis ekspresi, lan liya-liyane. Kanggo entuk akses menyang dataset, formulir ringkes kudu dirampungake.

4. Genom Visual

Data Jawaban Pitakonan Visual ing lingkungan multi-pilihan kasedhiya ing Visual Genome. Iki digawe saka 101,174 foto MSCOCO kanthi 1.7 yuta pasangan QA, kanthi rata-rata 17 pitakonan saben gambar.

Dibandhingake karo dataset Visual Question Answering, dataset Visual Genome nduweni distribusi sing luwih adil ing enem jinis pitakonan: Apa, Where, When, Who, Why, and How.

Kajaba iku, dataset Visual Genome kalebu 108K foto sing wis diwenehi tag kanthi obyek, properti, lan sambungan.

5. PustakaSpeech

LibriSpeech corpus minangka koleksi udakara 1,000 jam buku audio saka proyek LibriVox. Mayoritas buku audio asale saka Project Gutenberg.

Data latihan dipérang dadi telung partisi set 100hr, 360hr, lan 500hr, dene data dev lan tes kira-kira 5 jam dawa audio.

6. The Cityspaces

Salah sawijining database video stereo skala gedhe sing paling misuwur kanthi tampilan kutha diarani The Cityscapes.

Kanthi anotasi akurat piksel sing kalebu lokasi GPS, suhu ruangan, data ego-motion, lan perspektif stereo tengen, kalebu rekaman saka 50 kutha Jerman sing béda.

7. Dataset kinetik

Salah sawijining set data video sing paling kondhang kanggo ngenali aktivitas manungsa ing skala gedhe lan kanthi kualitas apik yaiku dataset Kinetics. Paling ora ana 600 klip video kanggo saben 600 kelas aktivitas manungsa, kanthi total luwih saka 500,000.

Film kasebut ditarik saka YouTube; saben siji watara 10 detik dawa lan wis mung siji kelas kegiatan kadhaptar.

8. CelebAMask-HQ

CelebAMask-HQ minangka koleksi 30,000 foto pasuryan kanthi resolusi dhuwur kanthi topeng kanthi anotasi lan 19 kelas sing kalebu komponen rai kaya kulit, irung, mata, alis, kuping, tutuk, lambe, rambut, topi, kaca mata, anting, kalung, gulu, bahan.

Dataset kasebut bisa digunakake kanggo nyoba lan nglatih pangenalan pasuryan, parsing pasuryan, lan GAN kanggo algoritma nggawe lan nyunting pasuryan.

9. Penn Treebank

Salah sawijining korpora sing paling misuwur lan asring digunakake kanggo pambiji model kanggo menehi tag urutan yaiku korpus English Penn Treebank (PTB), utamane bagean korpus sing cocog karo artikel Wall Street Journal.

Saben tembung kudu duwe bagean wicara sing diwenehi tag minangka komponen tugas. Tingkat karakter lan tingkat tembung modeling basa uga kerep nggunakake korpus.

10. VoxCeleb

VoxCeleb minangka dataset identifikasi wicara skala gedhe sing digawe kanthi otomatis media sumber terbuka. VoxCeleb duwe luwih saka yuta ucapan saka luwih saka 6k pamicara.

Minangka dataset kalebu audio-visual, bisa digunakake kanggo macem-macem aplikasi tambahan, kalebu sintesis wicara visual, pamisahan wicara, transfer cross-modal saka pasuryan kanggo swara utawa kosok balene, lan latihan pangenalan pasuryan saka video kanggo nambah pangenalan pasuryan saiki. kumpulan data.

11. SIXray

Dataset SIXray kalebu 1,059,231 gambar sinar-X sing diklumpukake saka stasiun sepur lan dianotasi dening inspektur keamanan manungsa kanggo ndeteksi enem jinis barang sing dilarang: pistol, piso, kunci pas, tang, gunting, lan palu. Salajengipun, kothak wates kanggo saben item sing ora diidini ditambahake kanthi manual menyang set tes kanggo ngevaluasi kinerja lokalisasi obyek.

12. Kacilakan AS

Substansi proyek kasebut wis dicethakaké kanthi jeneng dataset, US Accidents. Dataset babagan kacilakan mobil ing saindenging negara kalebu informasi wiwit Februari 2016 nganti Desember 2021 lan nyakup 49 negara bagian ing AS.

Kira-kira 1.5 yuta cathetan kacilakan saiki ana ing koleksi iki. Iki diklumpukake ing wektu nyata kanthi nggunakake sawetara API lalu lintas.

API iki ngirimake informasi lalu lintas sing diklumpukake saka macem-macem sumber, kalebu kamera lalu lintas, organisasi penegak hukum, lan departemen transportasi AS lan negara bagian.

13. Pangenalan Penyakit Okular

Database ophthalmic sing diatur Ocular Disease Intelligent Recognition (ODIR) ngemot informasi babagan 5,000 pasien, kalebu umur, warna fundus ing mripat kiwa lan tengen, lan tembung kunci diagnostik profesional medis.

Dataset iki minangka koleksi nyata data pasien saka macem-macem rumah sakit lan fasilitas medis ing China sing dipikolehi dening Shanggong Medical Technology Co., Ltd.. karo manajemen kontrol kualitas, anotasi diwenehi tag dening pamaca manungsa sing trampil.

14. Penyakit Jantung

Dataset penyakit Jantung iki mbantu ngenali anané penyakit jantung ing pasien adhedhasar 76 paramèter kayata umur, jenis kelamin, jinis nyeri dada, tekanan darah istirahat, lan liya-liyane.

Kanthi 303 kasus, basis data ngupayakake mung mbedakake anane penyakit (nilai 1,2,3,4) saka ora ana (nilai 0).

15. CLEVR

Dataset CLEVR (Basa Komposisi lan Penalaran Visual Dasar) niru Jawaban Pitakonan Visual. Iku kasusun saka foto obyek 3D-render, karo saben foto diiringi dening seri pitakonan Highly komposisi dipérang dadi sawetara kategori.

Kanggo kabeh gambar lan pitakonan sepur lan validasi, set data kasebut kalebu 70,000 foto lan 700,000 pitakonan kanggo latihan, 15,000 gambar lan 150,000 pitakonan kanggo validasi, lan 15,000 gambar lan 150,000 pitakonan kanggo tes sing nglibatake obyek, balesan, grafik program lan fungsional.

16. Ketergantungan Universal

Proyek Universal Dependencies (UD) nduweni tujuan kanggo nggawe morfologi seragam lintas-linguistik lan anotasi treebank sintaksis kanggo akeh basa. Versi 2.7, sing dirilis ing 2020, duwe 183 bank wit ing 104 basa.

Anotasi kasebut digawe saka tag POW universal, kepala dependensi, lan label dependensi universal.

17. KITTI – 360

Salah sijine dataset sing paling kerep digunakake kanggo robot seluler lan nyopir otonom yaiku KITTI (Institut Teknologi Karlsruhe lan Institut Teknologi Toyota).

Iki digawe saka skenario lalu lintas sajrone pirang-pirang jam sing dijupuk nggunakake macem-macem modalitas sensor, kayata RGB resolusi dhuwur, stereo skala abu-abu, lan kamera scanner laser 3D. Dataset kasebut wis saya tambah suwe dening sawetara peneliti sing menehi anotasi kanthi manual macem-macem bagean supaya cocog karo kabutuhan.

18. MOT (Multiple Object Tracking)

MOT (Multiple Object Tracking) minangka set data kanggo macem-macem pelacakan obyek sing kalebu pemandangan njero ruangan lan ruangan ing lokasi umum sing kalebu pejalan kaki minangka obyek sing menarik. Saben video adegan dipérang dadi rong bagéan, siji kanggo latihan lan liyane kanggo testing.

Dataset kalebu deteksi obyek ing pigura video nggunakake telung detektor: SDP, Faster-RCNN, lan DPM.

19. PASCAL 3D+

Dataset multi-view Pascal3D+ digawe saka foto sing diklumpukake ing alam bébas, yaiku, gambar saka kategori item kanthi variasi dhuwur, dijupuk ing kahanan sing ora bisa dikendhaleni, ing lingkungan sing rame, lan ing macem-macem posisi. Pascal3D+ kalebu 12 kategori obyek kaku sing digambar saka dataset PASCAL VOC 2012.

Item kasebut duwe informasi postur sing ditandhani (azimuth, elevasi, lan jarak menyang kamera). Pascal3D+ uga kalebu foto-foto anotasi pose saka koleksi ImageNet ing 12 kategori kasebut.

20. Model rai sing bisa diowahi bentuk saka kewan

Tujuan saka proyek Model Kewan sing Bisa Dibentuk Wajah (FDMA) yaiku nantang metodologi saiki ing identifikasi lan pelacakan landmark rai manungsa lan ngembangake algoritma anyar sing bisa ngatasi variabilitas sing luwih gedhe sing dadi karakteristik karakteristik rai kewan.

Algoritma proyek kasebut nuduhake kemampuan kanggo ngenali lan nglacak landmark ing pasuryan manungsa nalika nangani variasi sing disebabake dening owah-owahan ing emosi utawa posisi rai, occlusions parsial, lan cahya.

21. MPII Human Post Dataset

Dataset MPII Human Pose ngemot sekitar 25K foto, 15K minangka conto latihan, 3K minangka conto validasi, lan 7K minangka conto uji coba.

Posisi kasebut diwenehi label kanthi manual nganti 16 sendi awak, lan foto kasebut dijupuk saka film YouTube sing nyakup 410 macem-macem kegiatan manungsa.

22. UCF101

Dataset UCF101 ngemot 13,320 klip video sing disusun dadi 101 kategori. 101 kategori iki dipérang dadi limang kategori: obahe awak, interaksi manungsa-manungsa, interaksi manungsa-obyek, dolanan alat musik, lan olahraga.

Video kasebut saka YouTube lan durasine 27 jam.

23. Audioset

Audioset minangka kumpulan data acara audio sing dumadi saka luwih saka 2 yuta segmen video 10 detik sing dianotasi manungsa. Kanggo menehi anotasi data iki, ontologi hirarkis sing ngemot 632 jinis acara digunakake, sing nuduhake manawa swara sing padha bisa diwenehi label kanthi beda.

24. Inferensi Basa Alam Stanford

Dataset SNLI (Stanford Natural Language Inference) ngemot 570k pasangan kalimat sing wis dikategorikake kanthi manual minangka entailment, kontradiksi, utawa netral.

Premis minangka katrangan gambar Flickr30k, dene hipotesis dikembangake dening annotator sumber akeh sing diwenehake premis lan diprentahake kanggo ngasilake pernyataan sing entailing, kontradiksi, lan netral.

25. Wangsulan Pitakonan Visual

Jawaban Pitakonan Visual (VQA) yaiku kumpulan data sing ngemot pitakonan sing mbukak babagan gambar. Kanggo mangsuli pitakon kasebut, sampeyan kudu ngerti sesanti, basa, lan akal sehat.

kesimpulan

Nalika machine learning lan artificial intelligence (AI) dadi luwih umum ing meh kabeh bisnis lan ing urip saben dina, jumlah sumber daya lan informasi sing kasedhiya ing subyek.

Dataset umum sing wis siap nyedhiyakake titik wiwitan sing apik kanggo ngembangake model AI lan uga ngidini programer ML sing berpengalaman ngirit wektu lan fokus ing unsur liyane saka proyek kasebut.

Set Data Latihan AI Alternatif Paling Apik

25 Set Data Latihan AI Alternatif Paling Apik

1. Dataset Atribut CelebFaces

2. DOTA

3. Data perbandingan Ekspresi Wajah Google

4. Genom Visual

5. PustakaSpeech

6. The Cityspaces

7. Dataset kinetik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kacilakan AS

13. Pangenalan Penyakit Okular

14. Penyakit Jantung

15. CLEVR

16. Ketergantungan Universal

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Model rai sing bisa diowahi bentuk saka kewan

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Inferensi Basa Alam Stanford

25. Wangsulan Pitakonan Visual

kesimpulan

About Jay

Artikel liyane babagan HashDork:

Cara Ngurangi Halusinasi ing AI

Colossyan vs Heygen

Newsletter Tech Future Iki Ora Nyedhot

25 Set Data Latihan AI Alternatif Paling Apik

1. Dataset Atribut CelebFaces

2. DOTA

3. Data perbandingan Ekspresi Wajah Google

4. Genom Visual

5. PustakaSpeech

6. The Cityspaces

7. Dataset kinetik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kacilakan AS

13. Pangenalan Penyakit Okular

14. Penyakit Jantung

15. CLEVR

16. Ketergantungan Universal

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Model rai sing bisa diowahi bentuk saka kewan

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Inferensi Basa Alam Stanford

25. Wangsulan Pitakonan Visual

kesimpulan

About Jay

Artikel liyane babagan HashDork:

Cara Ngurangi Halusinasi ing AI

10 Alat AI paling apik kanggo Media Sosial

Colossyan vs Heygen

10 Alat Gawe Video Animasi AI paling apik

interaksi Reader

Ninggalake a Reply Batal reply

Newsletter Tech Future Iki Ora Nyedhot