25 Set Data Latihan AI Alternatif Terbaik (2024)

Pada masa kini, kebanyakan kita menumpukan pada membangunkan pembelajaran mesin dan model AI dan menangani isu menggunakan set data semasa. Tetapi pertama sekali, kita mesti menentukan set data, kepentingannya dan peranannya dalam membangunkan penyelesaian AI dan ML yang kukuh.

Hari ini, kami mempunyai banyak set data sumber terbuka untuk menjalankan penyelidikan atau membangunkan aplikasi untuk menangani isu dunia sebenar dalam pelbagai sektor.

Walau bagaimanapun, kekurangan set data kuantitatif berkualiti tinggi adalah sumber kebimbangan. Data telah meningkat dengan pesat dan akan terus berkembang pada kadar yang lebih pantas pada masa hadapan.

Dalam siaran ini, kami akan merangkumi set data yang tersedia secara percuma yang boleh anda gunakan untuk membangunkan projek AI anda yang seterusnya.

1. Set Data Atribut CelebFaces

Set Data Atribut CelebFaces (CelebA) mengandungi lebih 200K foto selebriti dan 40 anotasi atribut untuk setiap imej, menjadikannya titik permulaan yang sangat baik untuk projek seperti pengecaman wajah, pengesanan muka, penyetempatan mercu tanda (atau komponen muka), dan penyuntingan & sintesis muka. Tambahan pula, foto dalam koleksi ini mengandungi pelbagai variasi kedudukan dan kekacauan latar belakang.

2. DOTA

DOTA (Set data bagi Pengesanan Objek dalam Foto Udara) ialah set data berskala besar untuk pengesanan objek yang merangkumi 15 kategori biasa (cth, kapal, kapal terbang, kereta, dll.), 1411 imej untuk latihan dan 458 imej untuk pengesahan.

3. Dataset perbandingan Ekspresi Wajah Google

Dataset perbandingan ekspresi muka Google mengandungi kira-kira 500,000 kembar tiga gambar, termasuk 156,000 foto muka. Perlu diingat bahawa setiap triplet dalam set data ini telah dijelaskan oleh sekurang-kurangnya enam penilai manusia.

Set data ini berguna untuk projek yang melibatkan analisis ekspresi muka, seperti pengambilan gambar berasaskan ekspresi, pengkategorian emosi, sintesis ekspresi dan sebagainya. Untuk mendapatkan akses kepada set data, borang ringkas mesti dilengkapkan.

4. Genom Visual

Data Menjawab Soalan Visual dalam persekitaran berbilang pilihan tersedia dalam Genom Visual. Ia terdiri daripada 101,174 foto MSCOCO dengan 1.7 juta pasangan QA, dengan purata 17 soalan bagi setiap imej.

Berbanding dengan set data Menjawab Soalan Visual, set data Genom Visual mempunyai pengedaran yang lebih adil merentas enam jenis soalan: Apa, Di Mana, Bila, Siapa, Mengapa dan Bagaimana.

Selain itu, set data Genom Visual termasuk 108K foto yang telah ditandakan dengan banyak objek, sifat dan sambungan.

5. LibriSpeech

Korpus LibriSpeech ialah koleksi sekitar 1,000 jam buku audio daripada projek LibriVox. Majoriti buku audio berasal daripada Project Gutenberg.

Data latihan dibahagikan kepada tiga sekatan set 100 jam, 360 jam dan 500 jam, manakala data pembangun dan ujian adalah kira-kira 5 jam dalam panjang audio.

6. The Cityspaces

Salah satu pangkalan data video stereo berskala besar yang paling terkenal dengan pemandangan bandar dipanggil The Cityscapes.

Dengan anotasi tepat piksel yang merangkumi lokasi GPS, suhu luar, data gerakan ego dan perspektif stereo yang betul, ia termasuk rakaman dari 50 bandar Jerman yang berbeza.

7. Set Data Kinetik

Salah satu set data video yang paling terkenal untuk mengiktiraf aktiviti manusia secara besar-besaran dan dengan kualiti yang baik ialah set data Kinetik. Terdapat sekurang-kurangnya 600 klip video untuk setiap 600 kelas aktiviti manusia, berjumlah lebih 500,000 keseluruhannya.

Filem-filem itu ditarik dari YouTube; setiap satu berdurasi sekitar 10 saat dan hanya mempunyai satu kelas aktiviti yang disenaraikan.

8. CelebAMask-HQ

CelebAMask-HQ ialah koleksi 30,000 foto muka beresolusi tinggi dengan topeng beranotasi dengan teliti dan 19 kelas yang merangkumi komponen muka seperti kulit, hidung, mata, kening, telinga, mulut, bibir, rambut, topi, cermin mata, anting-anting, rantai, leher, bahan.

Set data boleh digunakan untuk menguji dan melatih pengecaman muka, penghuraian muka dan GAN untuk algoritma penjanaan dan penyuntingan muka.

9. Penn Treebank

Salah satu korpora yang paling ketara dan sering digunakan untuk penilaian model bagi penandaan jujukan ialah korpus English Penn Treebank (PTB), khususnya bahagian korpus yang sepadan dengan artikel Wall Street Journal.

Setiap perkataan mesti mempunyai bahagian pertuturan yang ditandakan sebagai komponen tugas. Peringkat watak dan peringkat perkataan pemodelan bahasa juga kerap menggunakan korpus.

10. VoxCeleb

VoxCeleb ialah set data pengenalan pertuturan berskala besar yang dijana secara automatik daripada media sumber terbuka. VoxCeleb mempunyai lebih sejuta ujaran daripada lebih 6k pembesar suara.

Memandangkan set data termasuk audio-visual, ia boleh digunakan untuk pelbagai aplikasi tambahan, termasuk sintesis pertuturan visual, pemisahan pertuturan, pemindahan rentas mod dari muka ke suara atau sebaliknya, dan melatih pengecaman muka daripada video untuk menambah pengecaman muka semasa. set data.

11. SIXray

Dataset SIXray termasuk 1,059,231 gambar X-ray yang dikumpulkan dari stesen kereta api bawah tanah dan diberi penjelasan oleh pemeriksa keselamatan manusia untuk mengesan enam jenis utama barang terlarang: pistol, pisau, sepana, playar, gunting dan tukul. Tambahan pula, kotak sempadan untuk setiap item yang tidak dibenarkan telah ditambahkan secara manual pada set ujian untuk menilai prestasi penyetempatan objek.

12. Kemalangan AS

Bahan projek telah pun didedahkan dengan nama set data, Kemalangan AS. Set data mengenai kemalangan kereta di seluruh negara ini termasuk maklumat dari Februari 2016 hingga Disember 2021 dan meliputi 49 negeri di AS.

Kira-kira 1.5 juta rekod kemalangan kini terdapat dalam koleksi ini. Ia dikumpulkan dalam masa nyata dengan menggunakan beberapa API trafik.

API ini menghantar maklumat trafik yang dikumpul daripada pelbagai sumber, termasuk kamera trafik, organisasi penguatkuasaan undang-undang dan jabatan pengangkutan AS dan negeri.

13. Pengiktirafan Penyakit Okular

Pangkalan data oftalmik terurus Ocular Disease Intelligent Recognition (ODIR) mengandungi maklumat mengenai 5,000 pesakit, termasuk umur mereka, warna fundus di mata kiri dan kanan mereka, dan kata kunci diagnostik profesional perubatan.

Set data ini ialah koleksi sebenar data pesakit daripada pelbagai hospital dan kemudahan perubatan di China yang telah diperoleh oleh Shanggong Medical Technology Co., Ltd.. Dengan pengurusan kawalan kualiti, anotasi telah ditandakan oleh pembaca manusia yang mahir.

14. Penyakit Jantung

Dataset penyakit Jantung ini membantu dalam mengenal pasti kewujudan penyakit jantung pada pesakit berdasarkan 76 parameter seperti umur, jantina, jenis sakit dada, tekanan darah berehat dan sebagainya.

Dengan 303 kes, pangkalan data cuba membezakan kewujudan penyakit (nilai 1,2,3,4) dengan ketiadaannya (nilai 0).

15. CLEVR

Dataset CLEVR (Bahasa Komposisi dan Penaakulan Visual Asas) meniru Menjawab Soalan Visual. Ia terdiri daripada gambar objek yang diberikan 3D, dengan setiap gambar disertakan dengan satu siri soalan yang sangat berkomposisi dibahagikan kepada beberapa kategori.

Untuk semua gambar dan soalan kereta api dan pengesahan, set data terdiri daripada 70,000 gambar dan 700,000 soalan untuk latihan, 15,000 imej dan 150,000 soalan untuk pengesahan, dan 15,000 imej dan 150,000 soalan untuk ujian yang melibatkan objek, balasan, graf program adegan dan berfungsi.

16. Kebergantungan Sejagat

Projek Ketergantungan Sejagat (UD) bertujuan untuk mencipta morfologi seragam silang bahasa dan anotasi tebing pokok sintaks untuk banyak bahasa. Versi 2.7, yang dikeluarkan pada 2020, mempunyai 183 tebing pokok dalam 104 bahasa.

Anotasi terdiri daripada tag POW universal, kepala pergantungan dan label pergantungan universal.

17. KITTI – 360

Salah satu set data yang paling kerap digunakan untuk robot mudah alih dan memandu autonomi ialah KITTI (Institut Teknologi Karlsruhe dan Institut Teknologi Toyota).

Ia terdiri daripada senario trafik berjam-jam yang telah ditangkap menggunakan pelbagai modaliti penderia, seperti RGB resolusi tinggi, stereo skala kelabu dan kamera pengimbas laser 3D. Set data telah dipertingkatkan dari semasa ke semasa oleh beberapa penyelidik yang menganotasi pelbagai bahagian secara manual untuk memenuhi keperluan mereka.

18. MOT(Penjejakan Berbilang Objek)

MOT (Multiple Object Tracking) ialah set data untuk berbilang penjejakan objek yang merangkumi pemandangan dalam dan luar lokasi awam yang menyertakan pejalan kaki sebagai objek yang menarik. Setiap video dipecahkan kepada dua bahagian, satu untuk latihan dan satu lagi untuk ujian.

Set data termasuk pengesanan objek dalam bingkai video menggunakan tiga pengesan: SDP, Faster-RCNN dan DPM.

19. PASCAL 3D+

Set data berbilang paparan Pascal3D+ terdiri daripada gambar yang dikumpul di alam liar, iaitu, imej kategori item dengan kebolehubahan yang tinggi, ditangkap dalam keadaan tidak terkawal, dalam persekitaran yang sesak dan dalam pelbagai kedudukan. Pascal3D+ termasuk 12 kategori objek tegar yang diambil daripada set data PASCAL VOC 2012.

Item ini mempunyai maklumat postur yang ditandakan padanya (azimut, ketinggian dan jarak ke kamera). Pascal3D+ juga menyertakan foto beranotasi pose daripada koleksi ImageNet dalam 12 kategori ini.

20. Model Haiwan Boleh Cacat Muka

Matlamat projek Facial Deformable Models of Animals (FDMA) adalah untuk mencabar metodologi semasa dalam pengecaman dan penjejakan mercu tanda muka manusia dan untuk membangunkan algoritma baharu yang boleh menangani kebolehubahan yang jauh lebih besar yang merupakan ciri ciri muka haiwan.

Algoritma projek menunjukkan keupayaan untuk mengecam dan menjejak tanda tempat pada wajah manusia semasa menangani variasi yang disebabkan oleh perubahan dalam emosi atau kedudukan muka, oklusi separa dan pencahayaan.

21. MPII Human Post Dataset

Set Data Pose Manusia MPII mengandungi sekitar 25K foto, 15K daripadanya adalah sampel latihan, 3K daripadanya adalah sampel pengesahan dan 7K daripadanya adalah sampel ujian.

Kedudukan tersebut dilabel secara manual dengan sehingga 16 sendi badan, dan gambar diambil dari filem YouTube yang meliputi 410 pelbagai aktiviti manusia.

22. UCF101

Set data UCF101 mengandungi 13,320 klip video yang disusun ke dalam 101 kategori. 101 kategori ini dibahagikan kepada lima kategori: pergerakan badan, interaksi manusia-manusia, interaksi manusia-objek, permainan alat muzik dan sukan.

Video tersebut adalah daripada YouTube dan terdiri daripada tempoh 27 jam.

23. Set audio

Audioset ialah set data acara audio yang terdiri daripada lebih 2 juta segmen video 10 saat beranotasi manusia. Untuk menganotasi data ini, ontologi hierarki yang terdiri daripada 632 jenis acara digunakan, yang membayangkan bahawa bunyi yang sama mungkin dilabelkan secara berbeza.

24. Inferens Bahasa Semula Jadi Stanford

Set data SNLI (Stanford Natural Language Inference) mengandungi 570k gandingan ayat yang telah dikategorikan secara manual sebagai entailment, percanggahan atau neutral.

Premis ialah perihalan gambar Flickr30k, manakala hipotesis dibangunkan oleh anotasi bersumberkan orang ramai yang disediakan premis dan diarahkan untuk menghasilkan kenyataan yang melibatkan, bercanggah dan neutral.

25. Menjawab Soalan Visual

Visual Question Answering (VQA) ialah set data yang mengandungi soalan terbuka berkenaan gambar. Untuk menjawab soalan-soalan ini, anda perlu memahami penglihatan, bahasa, dan akal sehat.

Kesimpulan

Apabila pembelajaran mesin dan kecerdasan buatan (AI) menjadi lebih lazim dalam hampir setiap perniagaan dan dalam kehidupan seharian kita, begitu juga dengan bilangan sumber dan maklumat yang tersedia mengenai subjek itu.

Set data awam siap sedia menyediakan titik permulaan yang bagus untuk membangunkan model AI sambil turut membenarkan pengaturcara ML yang berpengalaman menjimatkan masa dan memfokus pada elemen lain projek mereka.

25 Set Data Latihan AI Alternatif Terbaik

1. Set Data Atribut CelebFaces

2. DOTA

3. Dataset perbandingan Ekspresi Wajah Google

4. Genom Visual

5. LibriSpeech

6. The Cityspaces

7. Set Data Kinetik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kemalangan AS

13. Pengiktirafan Penyakit Okular

14. Penyakit Jantung

15. CLEVR

16. Kebergantungan Sejagat

17. KITTI – 360

18. MOT(Penjejakan Berbilang Objek)

19. PASCAL 3D+

20. Model Haiwan Boleh Cacat Muka

21. MPII Human Post Dataset

22. UCF101

23. Set audio

24. Inferens Bahasa Semula Jadi Stanford

25. Menjawab Soalan Visual

Kesimpulan

Info Jay

Lagi Artikel tentang HashDork:

Cara Mengurangkan Halusinasi dalam AI Anda

Colossyan lwn Heygen

Surat Berita Teknologi Masa Depan Ini Tidak Menyusahkan

25 Set Data Latihan AI Alternatif Terbaik

1. Set Data Atribut CelebFaces

2. DOTA

3. Dataset perbandingan Ekspresi Wajah Google

4. Genom Visual

5. LibriSpeech

6. The Cityspaces

7. Set Data Kinetik

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Kemalangan AS

13. Pengiktirafan Penyakit Okular

14. Penyakit Jantung

15. CLEVR

16. Kebergantungan Sejagat

17. KITTI – 360

18. MOT(Penjejakan Berbilang Objek)

19. PASCAL 3D+

20. Model Haiwan Boleh Cacat Muka

21. MPII Human Post Dataset

22. UCF101

23. Set audio

24. Inferens Bahasa Semula Jadi Stanford

25. Menjawab Soalan Visual

Kesimpulan

Info Jay

Lagi Artikel tentang HashDork:

Cara Mengurangkan Halusinasi dalam AI Anda

10 Alat AI Terbaik untuk Media Sosial

Colossyan lwn Heygen

10 Alat Pembuat Video Animasi AI Terbaik

Interaksi Reader

Sila tinggalkan balasan anda Batal reply

Surat Berita Teknologi Masa Depan Ini Tidak Menyusahkan