Mundarija[Yashirish][Show]
- 1. CelebFaces atributlari ma'lumotlar to'plami
- 2. DOTA
- 3. Google Facial Expression taqqoslash maʼlumotlar toʻplami
- 4. Vizual genom
- 5. LibriSpeech
- 6. Shahar makonlari
- 7. Kinetika ma'lumotlar to'plami
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. AQShdagi baxtsiz hodisalar
- 13. Ko‘z kasalliklarini aniqlash
- 14. Yurak kasalligi
- 15. CLEVR
- 16. Universal bog'liqliklar
- 17. KITTI – 360
- 18. MOT (Bir nechta ob'ektni kuzatish)
- 19. PASCAL 3D+
- 20. Hayvonlarning yuzi deformatsiyalanuvchi modellari
- 21. MPII Human Post ma'lumotlar to'plami
- 22. UCF101
- 23. Audioset
- 24. Stenford tabiiy til xulosasi
- 25. Vizual savollarga javob berish
- Xulosa
Hozirgi kunda ko'pchiligimiz mashinani o'rganish va AI modellarini ishlab chiqishga va mavjud ma'lumotlar to'plamidan foydalangan holda muammolarni hal qilishga qaratilgan. Lekin birinchi navbatda, biz ma'lumotlar to'plamini, uning ahamiyatini va kuchli AI va ML echimlarini ishlab chiqishdagi rolini aniqlashimiz kerak.
Bugungi kunda bizda turli sohalardagi haqiqiy muammolarni hal qilish uchun tadqiqot o'tkazish yoki ilovalarni ishlab chiqish uchun ko'plab ochiq manba ma'lumotlar to'plamlari mavjud.
Biroq, yuqori sifatli miqdoriy ma'lumotlar to'plamining etishmasligi tashvish manbai hisoblanadi. Ma'lumotlar juda ko'paydi va kelajakda tez sur'atlar bilan kengayishda davom etadi.
Ushbu postda biz keyingi AI loyihangizni ishlab chiqishda foydalanishingiz mumkin bo'lgan bepul ma'lumotlar to'plamini ko'rib chiqamiz.
1. CelebFaces atributlari ma'lumotlar to'plami
CelebFaces Attributes Dataset (CelebA) 200K dan ortiq mashhur fotosuratlarni va har bir rasm uchun 40 ta atribut izohini o'z ichiga oladi, bu esa uni loyihalar uchun ajoyib boshlanish nuqtasiga aylantiradi. yuzni aniqlash, yuzni aniqlash, belgi (yoki yuz komponenti) lokalizatsiyasi va yuzni tahrirlash va sintezi. Bundan tashqari, ushbu to'plamdagi fotosuratlar joylashuv variantlari va fondagi tartibsizliklarning keng doirasini o'z ichiga oladi.
2. DOTA
DOTA (ma'lumotlar to'plami Ob'ektni aniqlash In Aerial Photos) ob'ektni aniqlash uchun keng ko'lamli ma'lumotlar to'plami bo'lib, u 15 ta umumiy toifani (masalan, kema, samolyot, avtomobil va boshqalar), o'qitish uchun 1411 tasvirni va tekshirish uchun 458 tasvirni o'z ichiga oladi.
3. Google yuz ifodasi taqqoslash maʼlumotlar toʻplami
Google yuz ifodasini taqqoslash maʼlumotlar toʻplamida 500,000 156,000 ga yaqin uchlik suratlar, jumladan XNUMX XNUMX ta yuz suratlari mavjud. Shuni ta'kidlash kerakki, ushbu ma'lumotlar to'plamidagi har bir uchlik kamida oltita inson baholovchisi tomonidan izohlangan.
Ushbu ma'lumotlar to'plami yuz ifodasini tahlil qilish bilan bog'liq loyihalar uchun foydalidir, masalan, ifodaga asoslangan rasmlarni qidirish, his-tuyg'ularni toifalash, ifoda sintezi va hokazo. Ma'lumotlar to'plamiga kirish uchun qisqa shaklni to'ldirish kerak.
4. Vizual genom
Vizual savolga ko'p tanlovli muhitda javob berish ma'lumotlari Visual Genome-da mavjud. U 101,174 million QA juftliklari bo'lgan 1.7 17 ta MSCOCO fotosuratlaridan iborat bo'lib, har bir rasm uchun o'rtacha XNUMX savoldan iborat.
Vizual savolga javob berish ma'lumotlar to'plamiga nisbatan, Visual Genome ma'lumotlar to'plami oltita savol turi bo'yicha yanada adolatli taqsimlangan: nima, qaerda, qachon, kim, nima uchun va qanday.
Bundan tashqari, Visual Genome ma'lumotlar to'plami ob'ektlar, xususiyatlar va ulanishlar bilan qattiq yorliqlangan 108K fotosuratlarni o'z ichiga oladi.
5. LibriSpeech
LibriSpeech korpusi LibriVox loyihasidan 1,000 soatga yaqin audiokitoblardan iborat. Audiokitoblarning aksariyati Gutenberg loyihasidan olingan.
O'quv ma'lumotlari 100 soatlik, 360 soatlik va 500 soatlik to'plamlardan iborat uchta bo'limga bo'lingan, ishlab chiqish va sinov ma'lumotlari esa audio uzunligi bo'yicha taxminan 5 soatni tashkil qiladi.
6. Shahar makonlari
Shahar ko'rinishidagi stereo videolarning eng mashhur keng ko'lamli ma'lumotlar bazalaridan biri The Cityscapes deb ataladi.
GPS joylashuvi, tashqi harorat, ego-harakat ma'lumotlari va to'g'ri stereo istiqbollarni o'z ichiga olgan pikselli aniq izohlar bilan u Germaniyaning 50 ta alohida shaharlaridan olingan yozuvlarni o'z ichiga oladi.
7. Kinetika ma'lumotlar to'plami
Inson faoliyatini keng miqyosda va sifatli tanib olish uchun eng mashhur video ma'lumotlar to'plamidan biri Kinetika ma'lumotlar to'plamidir. Inson faoliyatining 600 ta sinfining har biri uchun kamida 600 ta videoklip mavjud bo'lib, ularning umumiy soni 500,000 XNUMX dan oshadi.
Filmlar YouTube'dan olingan; Ularning har biri taxminan 10 soniya davom etadi va faqat bitta faoliyat sinfiga ega.
8. CelebAMask-HQ
CelebAMask-HQ - diqqat bilan izohlangan niqoblar va teri, burun, ko'zlar, qoshlar, quloqlar, og'iz, lab, soch, shlyapa, ko'zoynak, sirg'a, bo'yinbog' kabi yuz komponentlarini o'z ichiga olgan 30,000 19 ta yuqori aniqlikdagi yuz fotosuratlari to'plami. bo'yin, material.
Ma'lumotlar to'plami yuzni aniqlash, yuzni tahlil qilish va GANlarni yuzni yaratish va tahrirlash algoritmlarini sinab ko'rish va o'rgatish uchun ishlatilishi mumkin.
9. Penn Trebank
Ketma-ket teglash uchun modellarni baholash uchun eng mashhur va tez-tez ishlatiladigan korpuslardan biri ingliz Penn Treebank (PTB) korpusi, xususan, korpusning Wall Street Journal maqolalariga mos keladigan qismidir.
Har bir so'zda nutqning o'z qismi vazifa komponenti sifatida belgilanishi kerak. Belgilar darajasida va so'z darajasida tilni modellashtirish korpusdan ham tez-tez foydalanadi.
10. VoxCeleb
VoxCeleb - bu avtomatik tarzda yaratilgan keng ko'lamli nutq identifikatsiya ma'lumotlar to'plami ochiq manbali ommaviy axborot vositalari. VoxCeleb 6k dan ortiq ma'ruzachilardan milliondan ortiq so'zlarga ega.
Ma'lumotlar to'plami audio-vizualni o'z ichiga olganligi sababli, u turli xil qo'shimcha ilovalar uchun ishlatilishi mumkin, jumladan, vizual nutq sintezi, nutqni ajratish, yuzdan ovozga yoki aksincha, o'zaro modali uzatish va hozirgi yuzni tanishni to'ldirish uchun videodan yuzni aniqlashni o'rgatish ma'lumotlar to'plamlari.
11. SIXray
SIXray ma'lumotlar to'plami oltita asosiy turdagi taqiqlangan narsalarni aniqlash uchun metro stantsiyalaridan to'plangan va inson xavfsizligi inspektorlari tomonidan izohlangan 1,059,231 XNUMX XNUMX rentgen suratlarini o'z ichiga oladi: to'pponcha, pichoq, kalit, pense, qaychi va bolg'a. Bundan tashqari, har bir ruxsat etilmagan element uchun chegara qutilari ob'ektni lokalizatsiya qilish samaradorligini baholash uchun sinov to'plamlariga qo'lda qo'shilgan.
12. AQSh baxtsiz hodisalari
Loyihaning mazmuni allaqachon ma'lumotlar to'plamining nomi, US Accidents tomonidan ochib berilgan. Umummilliy avtohalokatlar bo'yicha ushbu ma'lumotlar to'plami 2016 yil fevralidan 2021 yil dekabrigacha bo'lgan ma'lumotlarni o'z ichiga oladi va AQShning 49 shtatini qamrab oladi.
Ushbu to'plamda hozirda 1.5 millionga yaqin baxtsiz hodisalar qayd etilgan. U bir nechta trafik API-laridan foydalangan holda real vaqt rejimida to'plangan.
Ushbu API'lar turli manbalardan, jumladan, transport kameralari, huquqni muhofaza qilish tashkilotlari, AQSh va davlat transport departamentlaridan to'plangan trafik ma'lumotlarini uzatadi.
13. Ko'z kasalliklarini aniqlash
Tashkil etilgan oftalmologik ma'lumotlar bazasi Ko'z kasalliklarini aqlli aniqlash (ODIR) 5,000 bemor haqida ma'lumotlarni o'z ichiga oladi, jumladan ularning yoshi, chap va o'ng ko'zlari tubining rangi va tibbiyot mutaxassislarining diagnostika kalit so'zlari.
Ushbu ma'lumotlar to'plami Shanggong Medical Technology Co., Ltd tomonidan sotib olingan Xitoyning turli kasalxonalari va tibbiyot muassasalaridagi bemorlar ma'lumotlarining haqiqiy to'plamidir. Bilan sifat nazorati boshqaruvi, izohlar malakali o'quvchilar tomonidan belgilandi.
14. Yurak kasalligi
Ushbu yurak xastaligi ma'lumotlar to'plami bemorda yoshi, jinsi, ko'krak qafasidagi og'riq turi, dam olish holatidagi qon bosimi va boshqalar kabi 76 parametr asosida yurak xastaligi mavjudligini aniqlashga yordam beradi.
303 ta holatda ma'lumotlar bazasi kasallikning mavjudligini (qiymati 1,2,3,4) uning yo'qligidan (0 qiymati) shunchaki farqlashga intiladi.
15. CLEVR
CLEVR ma'lumotlar to'plami (kompozitsion til va elementar vizual mulohaza yuritish) vizual savollarga javob berishga taqlid qiladi. U 3D-renderlangan ob'ektlarning fotosuratlaridan iborat bo'lib, har bir fotosuratga bir nechta toifalarga bo'lingan bir qator yuqori kompozitsiyali savollar hamroh bo'ladi.
Barcha poezd va tasdiqlash rasmlari va savollari uchun ma'lumotlar to'plami 70,000 700,000 ta fotosurat va 15,000 150,000 ta o'qitish uchun savollar, 15,000 150,000 ta rasm va XNUMX XNUMX ta tekshirish uchun savollar va XNUMX XNUMX ta rasm va XNUMX XNUMX ta savollarni o'z ichiga oladi.
16. Universal bog'liqliklar
Umumjahon bog'liqliklari (UD) loyihasi ko'plab tillar uchun tillararo yagona morfologiya va sintaksis daraxt banki annotatsiyasini yaratishga qaratilgan. 2.7-yilda chiqarilgan 2020-versiyasida 183 tilda 104 ta daraxt banki mavjud.
Izoh universal POW teglari, qaramlik boshlari va universal bog'liqlik belgilaridan iborat.
17. KITTI - 360
Mobil robotlar uchun eng ko'p ishlatiladigan ma'lumotlar to'plamlaridan biri va avtonom haydash KITTI (Karlsrue texnologiya instituti va Toyota texnologiya instituti).
U yuqori aniqlikdagi RGB, kulrang stereo va 3D lazerli skaner kameralari kabi bir qator sensorlar yordamida suratga olingan bir necha soatlik trafik stsenariylaridan iborat. Ma'lumotlar to'plami vaqt o'tishi bilan bir nechta tadqiqotchilar tomonidan takomillashtirildi va ularning ehtiyojlariga mos ravishda uning turli qismlarini qo'lda izohlab berdi.
18. MOT (Bir nechta ob'ektni kuzatish)
MOT (Multiple Object Tracking) - bu ko'plab ob'ektlarni kuzatish uchun ma'lumotlar to'plami bo'lib, u jamoat joylarining ichki va tashqi manzaralarini o'z ichiga oladi, ularga qiziqish ob'ekti sifatida piyodalar kiradi. Har bir sahnaning videosi ikkita qismga bo'lingan, biri mashg'ulot uchun, ikkinchisi sinov uchun.
Ma'lumotlar to'plami o'z ichiga oladi ob'ektlarni aniqlash uchta detektor yordamida video kadrlarda: SDP, Faster-RCNN va DPM.
19. PASCAL 3D+
Pascal3D+ koʻp koʻrinishli maʼlumotlar toʻplami yovvoyi tabiatda toʻplangan fotosuratlardan, yaʼni yuqori oʻzgaruvchanlikka ega boʻlgan, nazoratsiz sharoitlarda, gavjum muhitda va turli pozitsiyalarda olingan obyekt toifalari tasvirlaridan iborat. Pascal3D+ PASCAL VOC 12 maʼlumotlar toʻplamidan olingan 2012 ta qattiq obyekt toifalarini oʻz ichiga oladi.
Bu elementlarda holati haqida ma'lumot (azimut, balandlik va kameragacha bo'lgan masofa) belgilangan. Pascal3D+ qo'shimcha ravishda ushbu 12 toifadagi ImageNet to'plamidagi poza izohli fotosuratlarni o'z ichiga oladi.
20. Hayvonlarning yuzi deformatsiyalanuvchi modellari
Hayvonlarning yuzining deformatsiyalanuvchi modellari (FDMA) loyihasining maqsadi insonning yuz belgilarini aniqlash va kuzatishda mavjud metodologiyalarga qarshi chiqish va hayvonlarning yuz xususiyatlariga xos bo'lgan sezilarli darajada kattaroq o'zgaruvchanlikni hal qila oladigan yangi algoritmlarni ishlab chiqishdir.
Loyihaning algoritmlari yuz hissiyotlari yoki pozitsiyalari, qisman tiqilib qolishlar va yorug'lik o'zgarishi natijasida kelib chiqadigan tafovutlar bilan shug'ullanayotganda, inson yuzidagi diqqatga sazovor joylarni tanib olish va kuzatish qobiliyatini namoyish etdi.
21. MPII Human Post ma'lumotlar to'plami
MPII Inson pozasi maʼlumotlar toʻplamida 25K ga yaqin fotosuratlar mavjud boʻlib, ulardan 15K taʼlim namunalari, 3K tasi tekshirish namunalari va 7K si sinov namunalaridir.
Lavozimlar qo'lda 16 tagacha tana bo'g'imlari bilan belgilanadi va fotosuratlar insonning 410 ta turli harakatlarini aks ettiruvchi YouTube filmlaridan olingan.
22. UCF 101
UCF101 ma'lumotlar to'plami 13,320 toifaga ajratilgan 101 101 ta videokliplarni o'z ichiga oladi. Ushbu XNUMX toifa besh toifaga bo'lingan: tana harakatlari, inson va inson o'zaro ta'siri, inson va ob'ekt o'zaro ta'siri, cholg'u asboblarida chalish va sport.
Videolar YouTube'dan olingan va 27 soat davom etadi.
23. Audioset
Audioset - bu 2 milliondan ortiq odam tomonidan izohlangan 10 soniyali video segmentlaridan tashkil topgan audio hodisalar ma'lumotlar to'plami. Ushbu ma'lumotlarga izoh berish uchun 632 ta hodisa turini o'z ichiga olgan ierarxik ontologiya qo'llaniladi, bu bir xil tovushning boshqacha etiketlanishi mumkinligini anglatadi.
24. Stenford tabiiy til xulosasi
SNLI ma'lumotlar to'plami (Stenford Natural Language Inference) 570 ming jumla juftligini o'z ichiga oladi, ular qo'lda sabab, ziddiyat yoki neytral sifatida tasniflangan.
Binolar Flickr30k rasm tavsifidir, farazlar esa olomon manbalaridan olingan izohlovchilar tomonidan ishlab chiqilgan bo'lib, ular bino bilan ta'minlangan va ularga qarama-qarshi va neytral bayonotlarni yaratishga ko'rsatma berilgan.
25. Vizual savollarga javob berish
Vizual savollarga javob berish (VQA) - bu rasmlarga oid ochiq savollarni o'z ichiga olgan ma'lumotlar to'plami. Bu savollarga javob berish uchun siz ko'rish, til va sog'lom fikrni tushunishingiz kerak.
Xulosa
Mashinani o'rganish va sun'iy intellekt (AI) deyarli har bir biznesda va kundalik hayotimizda keng tarqalgan bo'lib, bu mavzu bo'yicha mavjud resurslar va ma'lumotlar soni ham ortib bormoqda.
Tayyor ommaviy ma'lumotlar to'plamlari AI modellarini ishlab chiqish uchun ajoyib boshlanish nuqtasi bo'lib, tajribali ML dasturchilariga vaqtni tejash va o'z loyihalarining boshqa elementlariga e'tibor qaratish imkonini beradi.
Leave a Reply