25 Datasets Pelatihan AI Alternatif Pangalusna (2024)

Kiwari, kalolobaan urang museurkeun kana ngamekarkeun pembelajaran mesin sareng modél AI sareng ngarengsekeun masalah nganggo set data ayeuna. Tapi ke heula, urang kedah netepkeun set data, pentingna, sareng peranna dina ngembangkeun solusi AI sareng ML anu kuat.

Kiwari, urang gaduh seueur set data open-source pikeun ngalaksanakeun panalungtikan atanapi ngembangkeun aplikasi pikeun ngarengsekeun masalah dunya nyata dina sababaraha séktor.

Tapi, kakurangan set data kuantitatif kualitas luhur mangrupikeun sumber hariwang. Data geus risen immensely sarta bakal neruskeun dilegakeun dina laju gancang dina mangsa nu bakal datang.

Dina tulisan ieu, kami bakal nutupan set data anu sayogi gratis anu anjeun tiasa dianggo pikeun ngembangkeun proyék AI anjeun salajengna.

1. Atribut Dataset CelebFaces

CelebFaces Attributes Dataset (CelebA) ngandung langkung ti 200K poto selebritis sareng 40 annotations atribut pikeun tiap gambar, janten titik awal anu saé pikeun proyék sapertos pangakuan raray, deteksi beungeut, tengara (atawa komponén raray) lokalisasi, jeung ngedit raray & sintésis. Saterusna, poto dina kumpulan ieu ngandung rupa-rupa varian posisi jeung backdrop clutter.

2. DOTA

DOTA (Dataset of Pangwanoh Objék in Aerial Photos) nyaéta set data skala badag pikeun deteksi objék nu ngawengku 15 kategori umum (misalna kapal, pesawat, mobil, jsb), 1411 gambar pikeun latihan, jeung 458 gambar pikeun validasi.

3. Dataset perbandingan Google Facial Expression

Dataset perbandingan ekspresi raray Google ngandung sakitar 500,000 triplet gambar, kalebet 156,000 poto raray. Perlu dicatet yén unggal triplet dina set data ieu dijelaskeun ku sahenteuna genep raters manusa.

Dataset ieu kapaké pikeun proyék-proyék anu ngalibetkeun analisa ekspresi wajah, sapertos panéangan gambar dumasar ekspresi, kategorisasi émosi, sintésis ekspresi, sareng sajabana. Pikeun meunangkeun aksés ka dataset, formulir ringkes kudu réngsé.

4. Génom Visual

Visual Patarosan Ngajawab data dina lingkungan multi-pilihan sadia dina Visual Genome. Éta diwangun ku 101,174 poto MSCOCO sareng 1.7 juta pasangan QA, kalayan rata-rata 17 patarosan per gambar.

Dibandingkeun sareng Visual Question Answering dataset, Visual Génom dataset gaduh distribusi anu langkung adil dina genep jinis patarosan: Naon, Dimana, Iraha, Saha, Naha, sareng Kumaha.

Sajaba ti éta, dataset Visual Génom ngawengku 108K poto nu geus beurat tagged kalawan objék, sipat, jeung sambungan.

5. Biantara Biantara

Korpus LibriSpeech mangrupikeun kumpulan sakitar 1,000 jam buku audio tina proyék LibriVox. Mayoritas buku audio asalna tina Project Gutenberg.

Data latihan dibagi kana tilu partisi 100hr, 360hr, sareng 500hr set, sedengkeun dev sareng data uji kirang langkung 5hr panjangna audio.

6. The Cityspaces

Salah sahiji basis data skala ageung anu paling terkenal tina pidéo stereo kalayan pandangan kota disebut The Cityscapes.

Kalawan annotations piksel-akurat nu ngawengku lokasi GPS, hawa outdoor, data ego-gerak, sarta sudut pandang stereo katuhu, éta ngawengku rekaman ti 50 kota Jerman béda.

7. Dataset kinétik

Salah sahiji set data pidéo anu paling kawéntar pikeun mikawanoh kagiatan manusa dina skala anu ageung sareng kalayan kualitas anu saé nyaéta dataset Kinetics. Sahenteuna aya 600 klip pidéo pikeun tiap tina 600 kelas kagiatan manusa, jumlahna langkung ti 500,000.

Pilem éta ditarik tina YouTube; masing-masing panjangna sakitar 10 detik sareng ngan ukur hiji kelas kagiatan didaptarkeun.

8. CelebAMask-HQ

CelebAMask-HQ mangrupikeun kumpulan 30,000 poto pameunteu anu résolusi luhur kalayan masker anu dijelaskeun sacara saksama sareng 19 kelas anu kalebet komponén raray sapertos kulit, irung, panon, halis, ceuli, sungut, biwir, rambut, topi, kacamata, anting, kalung, beuheung, bahan.

Setét data tiasa dianggo pikeun nguji sareng ngalatih pangenal raray, parsing raray, sareng GAN pikeun algoritma ngahasilkeun sareng ngédit raray.

9. Penn Treebank

Salah sahiji korpora anu paling kasohor sareng sering dianggo pikeun meunteun modél pikeun tagging sekuen nyaéta korpus English Penn Treebank (PTB), khususna porsi korpus anu pakait sareng artikel Wall Street Journal.

Unggal kecap kedah gaduh bagian ucapan anu ditandaan salaku komponén tugas. Tingkat karakter sareng tingkat kecap modeling basa ogé remen ngagunakeun korpus.

10. VoxCeleb

VoxCeleb mangrupikeun set data identifikasi ucapan skala ageung anu didamel sacara otomatis tina média open source. VoxCeleb gaduh langkung ti sajuta ucapan ti langkung ti 6k panyatur.

Salaku set data ngawengku audio-visual, éta bisa dipaké pikeun rupa-rupa aplikasi tambahan, kaasup sintésis ucapan visual, separation ucapan, mindahkeun cross-modal ti beungeut ka sora atawa sabalikna, sarta latihan pangakuan beungeut tina video pikeun suplement pangwanoh beungeut ayeuna. susunan data.

11. SIXray

Dataset SIXray kalebet 1,059,231 gambar sinar-X anu dikumpulkeun ti stasion subway sareng dijelaskeun ku inspektur kaamanan manusa pikeun ngadeteksi genep jinis barang anu dilarang: péstol, péso, rengkuh, tang, gunting, sareng palu. Saterusna, kotak wates pikeun tiap item disallowed geus ditambahkeun sacara manual kana set nguji guna evaluate kinerja lokalisasi objék.

12. Kacilakaan AS

Zat proyék parantos diungkabkeun ku nami set data, Kacilakaan AS. Dataset ngeunaan kacilakaan mobil nasional ieu kalebet inpormasi ti Pébruari 2016 dugi ka Désémber 2021 sareng nyertakeun 49 nagara bagian di AS.

Sakitar 1.5 juta rékaman kacilakaan ayeuna aya dina koleksi ieu. Éta dikumpulkeun sacara real-time ku ngagunakeun sababaraha API lalu lintas.

API ieu ngirimkeun informasi patalimarga nu dikumpulkeun ti rupa-rupa sumber, kaasup kaméra lalulintas, organisasi penegak hukum, sarta AS jeung departemén angkutan nagara bagian.

13. Pangakuan Kasakit Ocular

Database ophthalmic anu dikelompokeun Ocular Disease Intelligent Recognition (ODIR) ngandung inpormasi ngeunaan 5,000 pasien, kalebet umurna, warna fundus dina panon kénca sareng katuhu, sareng kecap konci diagnostik para ahli médis.

Dataset ieu mangrupikeun kumpulan data pasien anu saleresna ti sagala rupa rumah sakit sareng fasilitas médis di Cina anu parantos dicandak ku Shanggong Medical Technology Co., Ltd. Jeung manajemén kadali kualitas, annotations anu tagged ku pamiarsa manusa terampil.

14. Panyakit jantung

Dataset panyakit Jantung ieu ngabantosan dina ngaidentipikasi ayana panyakit jantung dina pasien dumasar kana 76 parameter sapertos umur, gender, jinis nyeri dada, tekanan darah istirahat, sareng sajabana.

Kalayan 303 kasus, pangkalan data nyobian ngabédakeun ayana panyakit (nilai 1,2,3,4) sareng henteuna (nilai 0).

15. CLEVR

Dataset CLEVR (Basa Komposisi sareng Penalaran Visual Dasar) meniru Ngajawab Pananya Visual. Ieu diwangun ku poto objék 3D-rendered, kalawan unggal poto dipirig ku runtuyan patarosan kacida komposisi dibagi kana sababaraha kategori.

Kanggo sadaya gambar sareng patarosan kareta sareng validasi, set data ngandung 70,000 foto sareng 700,000 patarosan kanggo palatihan, 15,000 gambar sareng 150,000 patarosan pikeun validasi, sareng 15,000 gambar sareng 150,000 patarosan pikeun nguji ngalibetkeun objék, balesan, grafik program fungsional, sareng grafik program fungsional.

16. Depéndénsi Universal

Proyék Universal Dependencies (UD) boga tujuan pikeun nyieun morfologi seragam cross-linguistik jeung anotasi treebank sintaksis pikeun loba basa. Vérsi 2.7, anu dirilis dina 2020, ngagaduhan 183 tangkal tangkal dina 104 basa.

Anotasi diwangun ku tag POW universal, sirah kagumantungan, sareng labél kagumantungan universal.

17. KITTI – 360

Salah sahiji set data anu paling sering dianggo pikeun robot mobile sareng otonom nyetir nyaeta KITTI (Karlsruhe Institute of Technology jeung Toyota Technological Institute).

Éta diwangun ku skénario lalu lintas sajam-jaman anu dicandak nganggo sajumlah modalitas sénsor, sapertos RGB resolusi luhur, stereo skala abu-abu, sareng kaméra scanner laser 3D. Dataset parantos ningkat kana waktosna ku sababaraha panalungtik anu sacara manual annotated rupa porsi eta pikeun nyocogkeun ka kabutuhan maranéhanana.

18. MOT (Multi-Objék Tracking)

MOT (Multiple Object Tracking) mangrupikeun set data pikeun sababaraha tracking objék anu kalebet pamandangan jero ruangan sareng luar lokasi umum anu kalebet pejalan kaki salaku objék anu dipikaresep. Tiap pidéo pidéo dibagi jadi dua bagian, hiji pikeun latihan sareng hiji deui kanggo tés.

dataset ngawengku deteksi objék dina pigura video ngagunakeun tilu detéktor: SDP, Faster-RCNN, sarta DPM.

19. PASCAL 3D+

Dataset multi-view Pascal3D+ diwangun ku foto-foto anu dikumpulkeun di alam liar, nyaéta, gambar tina kategori barang anu variabilitasna luhur, dicandak dina kaayaan anu teu terkendali, dina lingkungan anu rame, sareng dina rupa-rupa posisi. Pascal3D + ngawengku 12 kategori objék kaku dicokot tina dataset PASCAL VOC 2012.

Barang-barang ieu ngagaduhan inpormasi sikep anu ditandaan (azimuth, élévasi, sareng jarak ka kaméra). Pascal3D+ ogé ngawengku poto-poto pose-annotated ti kumpulan ImageNet dina 12 kategori ieu.

20. Modél raray deformable sato

Tujuan proyék Modél Sato Deformable Raray (FDMA) nyaéta pikeun nangtang metodologi ayeuna dina idéntifikasi sareng pelacakan landmark raray manusa sareng ngembangkeun algoritma énggal anu tiasa ngatasi variabilitas anu langkung ageung anu mangrupikeun ciri ciri raray sato.

Algoritma proyék nunjukkeun kamampuan pikeun mikawanoh sareng ngalacak landmark dina raray manusa nalika nyanghareupan variasi anu disababkeun ku parobihan dina émosi atanapi posisi raray, halangan parsial, sareng cahaya.

21. MPII Asasi Manusa Post Dataset

The MPII Human Pose Dataset ngandung sabudeureun 25K poto, 15K diantarana sampel latihan, 3K diantarana sampel validasi, sarta 7K diantarana sampel nguji.

Posisina sacara manual dilabélan nepi ka 16 sendi awak, sareng poto-poto dicandak tina pilem YouTube anu nyertakeun 410 rupa kagiatan manusa.

22. UCF101

Dataset UCF101 ngandung 13,320 klip pidéo anu disusun kana 101 kategori. Ieu 101 kategori dibagi kana lima kategori: gerakan awak, interaksi manusa-manusa, interaksi manusa-obyek, maén alat musik, jeung olahraga.

Videona tina YouTube sareng durasina 27 jam.

23. Audioset

Audioset mangrupikeun set data acara audio anu diwangun ku langkung ti 2 juta bagéan pidéo 10 detik anu dijelaskeun ku manusa. Pikeun annotate data ieu, ontologi hirarki diwangun ku 632 jenis acara dipaké, nu hartina sora nu sarua bisa dilabélan béda.

24. Inferensi Basa Alam Stanford

The SNLI dataset (Stanford Natural Language Inference) ngandung 570k papasangan kalimah nu geus manual categorized sakumaha entailment, kontradiksi, atawa nétral.

Enggon mangrupikeun déskripsi gambar Flickr30k, sedengkeun hipotésis dikembangkeun ku annotator sumber riungan anu disayogikeun premis sareng maréntahkeun pikeun ngahasilkeun pernyataan anu pikaresepeun, kontradiksi, sareng nétral.

25. Visual Patarosan Ngajawab

Visual Question Answering (VQA) mangrupikeun set data anu ngandung patarosan terbuka ngeunaan gambar. Pikeun ngajawab patarosan ieu, anjeun kedah ngartos visi, basa, sareng akal sehat.

kacindekan

Nalika pembelajaran mesin sareng intelijen buatan (AI) janten langkung umum dina ampir unggal bisnis sareng dina kahirupan sapopoe urang, kitu ogé jumlah sumber sareng inpormasi anu aya dina subjek.

Dataset umum anu siap-siap nyayogikeun titik awal anu saé pikeun ngembangkeun modél AI bari ogé ngamungkinkeun para programer ML anu berpengalaman pikeun ngahémat waktos sareng fokus kana elemen séjén tina proyék-proyékna.

Pangalusna Alternatif AI Pelatihan Datasets

25 Alternatif Pangalusna AI Pelatihan Datasets

1. Atribut Dataset CelebFaces

2. DOTA

3. Dataset perbandingan Google Facial Expression

4. Génom Visual

5. Biantara Biantara

6. The Cityspaces

7. Dataset kinétik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kacilakaan AS

13. Pangakuan Kasakit Ocular

14. Panyakit jantung

15. CLEVR

16. Depéndénsi Universal

17. KITTI – 360

18. MOT (Multi-Objék Tracking)

19. PASCAL 3D+

20. Modél raray deformable sato

21. MPII Asasi Manusa Post Dataset

22. UCF101

23. Audioset

24. Inferensi Basa Alam Stanford

25. Visual Patarosan Ngajawab

kacindekan

kira-kira Jay

Tulisan langkung seueur ngeunaan HashDork:

Kumaha Ngurangan Halusinasi dina AI Anjeun

Colossyan vs Heygen

Newsletter Tech Kahareup Ieu Teu Nyedot

25 Alternatif Pangalusna AI Pelatihan Datasets

1. Atribut Dataset CelebFaces

2. DOTA

3. Dataset perbandingan Google Facial Expression

4. Génom Visual

5. Biantara Biantara

6. The Cityspaces

7. Dataset kinétik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kacilakaan AS

13. Pangakuan Kasakit Ocular

14. Panyakit jantung

15. CLEVR

16. Depéndénsi Universal

17. KITTI – 360

18. MOT (Multi-Objék Tracking)

19. PASCAL 3D+

20. Modél raray deformable sato

21. MPII Asasi Manusa Post Dataset

22. UCF101

23. Audioset

24. Inferensi Basa Alam Stanford

25. Visual Patarosan Ngajawab

kacindekan

kira-kira Jay

Tulisan langkung seueur ngeunaan HashDork:

Kumaha Ngurangan Halusinasi dina AI Anjeun

10 Alat AI pangsaéna pikeun Média Sosial

Colossyan vs Heygen

10 Pangalusna AI Animated Video Maker Pakakas

interaksi maca

Leave a Reply ngabolaykeun reply

Newsletter Tech Kahareup Ieu Teu Nyedot