Гарчиг[Нуух][Үзүүлэх]
- 1. CelebFaces Attributes Dataset
- 2. DOTA
- 3. Google-ийн Нүүрний илэрхийлэлийг харьцуулах мэдээллийн багц
- 4. Харааны геном
- 5. LibriSpeech
- 6. Хотын орон зай
- 7. Кинетик мэдээллийн багц
- 8. CelebAMask-HQ
- 9. Пенн Трибанк
- 10. VoxCeleb
- 11. SIXray
- 12. АНУ-ын осол
- 13. Нүдний өвчнийг таних
- 14. Зүрхний өвчин
- 15. CLEVR
- 16. Бүх нийтийн хамаарал
- 17. KITTI – 360
- 18. MOT(Олон объектыг хянах)
- 19. PASCAL 3D+
- 20. Амьтдын нүүрний гажигтай загварууд
- 21. MPII Хүний шуудангийн мэдээллийн багц
- 22. UCF101
- 23. Аудио багц
- 24. Стэнфордын байгалийн хэлний дүгнэлт
- 25. Харааны асуултын хариулт
- Дүгнэлт
Өнөө үед бидний ихэнх нь машин сургалт, хиймэл оюун ухааны загваруудыг хөгжүүлэх, одоогийн мэдээллийн багцыг ашиглан асуудлыг шийдвэрлэхэд анхаарлаа хандуулж байна. Гэхдээ эхлээд бид өгөгдлийн багц, түүний ач холбогдол, хүчирхэг AI болон ML шийдлийг боловсруулахад гүйцэтгэх үүргийг тодорхойлох ёстой.
Өнөөдөр бидэнд олон салбар дахь бодит асуудлуудыг шийдвэрлэхийн тулд судалгаа хийх эсвэл программ боловсруулах боломжтой олон тооны нээлттэй эх сурвалжийн мэдээллийн багц бий.
Гэсэн хэдий ч өндөр чанарын тоон мэдээллийн багц хомс байгаа нь санаа зовоосон шалтгаан болж байна. Өгөгдөл асар их өссөн бөгөөд ирээдүйд илүү хурдацтай тэлэх болно.
Энэ нийтлэлд бид таны дараагийн AI төслөө боловсруулахад ашиглаж болох үнэгүй өгөгдлийн багцуудыг авч үзэх болно.
1. CelebFaces шинж чанаруудын мэдээллийн багц
CelebFaces Attributes Dataset (CelebA) нь 200 мянга гаруй алдартнуудын зураг, зураг тус бүрийн 40 шинж чанарын тайлбарыг агуулдаг бөгөөд энэ нь төслүүдэд маш сайн эхлэл болдог. царайг таних, царай илрүүлэх, газрын тэмдэглэгээ (эсвэл нүүрний бүрэлдэхүүн хэсэг) нутагшуулах, нүүр засах, нэгтгэх. Цаашилбал, энэхүү цуглуулгад багтсан зургууд нь байрлалын олон янзын хувилбарууд болон арын дэвсгэрийн эмх замбараагүй байдлыг агуулдаг.
2. ДОТА
DOTA (Мэдээллийн багц Объект илрүүлэлт Агаарын гэрэл зураг) нь 15 нийтлэг ангилал (жишээ нь: хөлөг онгоц, онгоц, машин гэх мэт), сургалтын 1411 зураг, баталгаажуулах 458 зургийг багтаасан объект илрүүлэх том хэмжээний мэдээллийн багц юм.
3. Google-ийн нүүрний илэрхийлэлийн харьцуулалтын өгөгдлийн багц
Google-ийн нүүрний илэрхийлэлийг харьцуулах өгөгдлийн багц нь 500,000 гурвалсан зураг, түүний дотор 156,000 нүүрний зургийг агуулдаг. Энэ өгөгдлийн багц дахь гурвалсан бүрийг дор хаяж зургаан хүний үнэлгээчин тэмдэглэсэн гэдгийг тэмдэглэх нь зүйтэй.
Энэ өгөгдлийн багц нь илэрхийлэлд суурилсан зураг хайх, сэтгэл хөдлөлийн ангилал, илэрхийлэл синтез гэх мэт нүүрний илэрхийлэлд дүн шинжилгээ хийх төслүүдэд хэрэгтэй. Өгөгдлийн багцад хандахын тулд товч маягт бөглөх ёстой.
4. Харааны геном
Visual Genome-д олон сонголттой орчинд харааны асуултын хариултыг авах боломжтой. Энэ нь 101,174 сая QA хос бүхий 1.7 MSCOCO зурагнаас бүрддэг бөгөөд нэг зурагт дунджаар 17 асуулт байдаг.
Visual Question Answering өгөгдлийн багцтай харьцуулахад Visual Genome өгөгдлийн багц нь юу, хаана, хэзээ, хэн, яагаад, яаж гэсэн зургаан асуултын төрлөөр илүү шударга хуваарилалттай байдаг.
Нэмж дурдахад Visual Genome өгөгдлийн багц нь объект, шинж чанар, холболтоор маш их хаяглагдсан 108K зургийг агуулдаг.
5. LibriSpeech
LibriSpeech корпус нь LibriVox төслийн 1,000 орчим цагийн аудио номын цуглуулга юм. Аудио номуудын дийлэнх нь Гутенберг төслөөс гаралтай.
Сургалтын өгөгдөл нь 100 цаг, 360 цаг, 500 цагийн багц гэсэн гурван хэсэгт хуваагддаг бол хөгжүүлэлтийн болон туршилтын өгөгдөл нь аудио урттай ойролцоогоор 5 цаг байна.
6. Хотын орон зай
Хотын үзэмж бүхий стерео видеоны хамгийн алдартай том хэмжээний мэдээллийн сангуудын нэг бол The Cityscapes юм.
GPS-ийн байршил, гаднах температур, эго-хөдөлгөөний өгөгдөл, зөв стерео хэтийн төлөв зэргийг багтаасан пикселийн нарийвчлалтай тэмдэглэгээнд Германы 50 өөр хотын бичлэгийг багтаасан болно.
7. Кинетик мэдээллийн багц
Хүний үйл ажиллагааг өргөн цар хүрээтэй, чанартай таних хамгийн алдартай видео мэдээллийн багцуудын нэг бол Кинетикийн мэдээллийн багц юм. Хүний үйл ажиллагааны 600 анги тус бүрд дор хаяж 600 видео клип байдаг бөгөөд нийтдээ 500,000 гаруй байдаг.
Кинонуудыг YouTube-ээс татсан; тус бүр нь ойролцоогоор 10 секундын урттай бөгөөд жагсаасан зөвхөн нэг үйл ажиллагааны ангилалтай.
8. CelebAMsk-HQ
CelebAMask-HQ нь арьс, хамар, нүд, хөмсөг, чих, ам, уруул, үс, малгай, нүдний шил, ээмэг, хүзүүний зүүлт зэрэг нүүрний бүрэлдэхүүн хэсгүүдийг багтаасан 30,000 анги бүхий 19 өндөр нарийвчлалтай нүүрний зургийн цуглуулга бөгөөд анхааралтай тэмдэглэсэн маскууд юм. хүзүү, материал.
Датасетийг царай таних, нүүр задлан шинжлэх, GAN-уудыг нүүр царай үүсгэх, засварлах алгоритмуудыг турших, сургахад ашиглаж болно.
9. Пенн Трибанк
Загварын дарааллыг үнэлэхэд хамгийн алдартай бөгөөд ихэвчлэн ашиглагддаг корпусуудын нэг бол Английн Пенн Трибанк (PTB) корпус, ялангуяа Уолл Стрит сэтгүүлийн нийтлэлд тохирох корпусын хэсэг юм.
Үг бүр нь ярианы хэсгийг даалгаврын бүрэлдэхүүн хэсэг болгон тэмдэглэсэн байх ёстой. Тэмдэгтийн түвшин ба үгийн түвшинд хэлний загварчлал мөн корпусыг байнга ашигладаг.
10. VoxCeleb
VoxCeleb нь автоматаар үүсгэгдсэн яриа таних том хэмжээний мэдээллийн багц юм нээлттэй эх сурвалжийн мэдээллийн хэрэгсэл. VoxCeleb нь 6к гаруй яригчаас сая гаруй үг хэллэгтэй.
Өгөгдлийн багц нь дуу дүрсийг агуулсан тул түүнийг харааны ярианы синтез, яриаг салгах, нүүрнээс дуу хоолой руу эсвэл эсрэгээр хөндлөвч шилжүүлэх, одоогийн царайг таних чадварыг сайжруулахын тулд видеоноос царай таних сургалт зэрэг олон төрлийн нэмэлт хэрэглээнд ашиглаж болно. өгөгдлийн багц.
11. SIXray
SIXray мэдээллийн багц нь гар буу, хутга, эрэг чангалах түлхүүр, бахө, хайч, алх зэрэг үндсэн зургаан төрлийн хориотой зүйлийг илрүүлэх зорилгоор метроны буудлуудаас цуглуулсан, хүний аюулгүй байдлын байцаагч нарын тэмдэглэсэн 1,059,231 рентген зургийг багтаасан болно. Цаашилбал, объектын нутагшуулалтын гүйцэтгэлийг үнэлэхийн тулд зөвшөөрөгдөөгүй зүйл бүрийн хязгаарлах хайрцагуудыг туршилтын багцад гараар нэмсэн.
12. АНУ-ын осол
Төслийн мөн чанар нь АНУ-ын осол аваарын мэдээллийн багцын нэрээр аль хэдийн илэрсэн. Улсын хэмжээнд гарсан автомашины ослын талаарх энэхүү мэдээллийн багцад 2016 оны 2021-р сараас 49 оны XNUMX-р сар хүртэлх мэдээллийг багтаасан бөгөөд АНУ-ын XNUMX мужийг хамарсан байна.
Одоо энэ цуглуулгад ойролцоогоор 1.5 сая ослын бүртгэл байдаг. Үүнийг хэд хэдэн траффик API ашиглан бодит цаг хугацаанд цуглуулсан.
Эдгээр API нь замын хөдөлгөөний камер, хууль сахиулах байгууллага, АНУ болон муж улсын тээврийн яам зэрэг янз бүрийн эх сурвалжаас цуглуулсан замын хөдөлгөөний мэдээллийг дамжуулдаг.
13. Нүдний өвчнийг таних
Нүдний өвчин судлалын зохион байгуулалттай мэдээллийн санд 5,000 өвчтөний нас, баруун, зүүн нүдний гүний өнгө, эмнэлгийн мэргэжилтнүүдийн оношилгооны түлхүүр үгс зэрэг XNUMX өвчтөний мэдээллийг багтаасан болно.
Энэхүү өгөгдлийн багц нь Shanggong Medical Technology Co., Ltd-ийн олж авсан Хятад дахь янз бүрийн эмнэлэг, эмнэлгийн байгууллагуудын өвчтөний мэдээллийн бодит цуглуулга юм. -тай чанарын хяналтын удирдлага, тайлбарыг чадварлаг уншигчид тэмдэглэсэн.
14. Зүрхний өвчин
Зүрхний өвчний энэхүү мэдээллийн багц нь нас, хүйс, цээжний өвдөлт, амрах үеийн цусны даралт гэх мэт 76 үзүүлэлтэд үндэслэн өвчтөнд зүрхний өвчин байгаа эсэхийг тодорхойлоход тусалдаг.
303 тохиолдлоор мэдээллийн сан нь өвчин байгаа эсэхийг (утга 1,2,3,4) байхгүйгээс (0 утга) ялгахыг зорьдог.
15. CLEVR
CLEVR өгөгдлийн багц (Бүртгэлийн хэл ба анхан шатны харааны үндэслэл) нь харааны асуултын хариултыг дуурайдаг. Энэ нь 3D дүрслэлээр хийгдсэн объектуудын гэрэл зургуудаас бүрдэх бөгөөд гэрэл зураг бүрийг хэд хэдэн ангилалд хуваасан өндөр найрлагатай асуултууд дагалддаг.
Бүх сургалтын болон баталгаажуулалтын зураг, асуултын хувьд өгөгдлийн багц нь 70,000 гэрэл зураг, 700,000 сургалтын асуулт, 15,000 зураг, 150,000 асуултыг баталгаажуулах, 15,000 зураг, 150,000 асуулт, объект, хариулт, үйл ажиллагааны график зэргийг багтаасан тестээс бүрдэнэ.
16. Бүх нийтийн хамаарал
Universal Dependencies (UD) төсөл нь олон хэлний хувьд хэл хоорондын нэгдмэл морфологи, синтакс модны банкны тэмдэглэгээг бий болгох зорилготой юм. 2.7 онд гарсан 2020 хувилбар нь 183 хэл дээрх 104 модны эрэгтэй.
Тэмдэглэл нь бүх нийтийн POW шошго, хамаарлын толгой, бүх нийтийн хараат байдлын шошгуудаас бүрдэнэ.
17. KITTI - 360
Хөдөлгөөнт роботуудад хамгийн их ашиглагддаг мэдээллийн багцуудын нэг ба бие даасан жолоодох нь KITTI (Карлсруэгийн Технологийн Институт ба Тоёота Технологийн Институт) юм.
Энэ нь өндөр нягтралтай RGB, саарал өнгийн стерео болон 3D лазер сканнер камер зэрэг мэдрэгчийн горимуудыг ашиглан авсан замын хөдөлгөөний олон цагийн сценариуудаас бүрддэг. Хэд хэдэн судлаачид өгөгдлийн багцыг цаг хугацааны явцад сайжруулж, тэдний хэрэгцээнд нийцүүлэн түүний янз бүрийн хэсгийг гараар тэмдэглэв.
18. MOT(Олон объектыг хянах)
MOT (Multiple Object Tracking) нь явган зорчигчдыг сонирхдог объект болгон багтаасан олон нийтийн газруудын дотор болон гаднах үзэмжийг багтаасан олон объектыг хянах мэдээллийн багц юм. Үзэгдэл бүрийн видеог хоёр хэсэгт хуваасан бөгөөд нэг нь сургалт, нөгөө нь туршилтын зориулалттай.
Өгөгдлийн багцад орно объект илрүүлэх SDP, Faster-RCNN, DPM гэсэн гурван мэдрэгч ашиглан видео хүрээнүүдэд.
19. PASCAL 3D+
Pascal3D+ олон харах өгөгдлийн багц нь зэрлэг байгальд цуглуулсан гэрэл зургуудаас бүрддэг, өөрөөр хэлбэл хяналтгүй нөхцөл байдал, хөл хөдөлгөөн ихтэй орчин, янз бүрийн байрлалд авсан, өндөр хэлбэлзэлтэй зүйл ангиллын зургуудаас бүрдэнэ. Pascal3D+ нь PASCAL VOC 12 мэдээллийн багцаас авсан 2012 хатуу объектын категорийг агуулдаг.
Эдгээр зүйлс дээр байрлалын мэдээлэл (азимут, өндөр, камер хүртэлх зай) тэмдэглэгдсэн байдаг. Pascal3D+ нь ImageNet цуглуулгаас эдгээр 12 ангилалд оруулсан тайлбартай зургуудыг нэмж оруулсан болно.
20. Амьтдын нүүрний хэв гажилттай загварууд
Амьтны нүүрний гажигтай загвар (FDMA) төслийн зорилго нь хүний нүүрний онцлог шинж чанарыг тодорхойлох, хянах орчин үеийн арга зүйг сорьж, амьтдын нүүрний онцлог шинж чанарт хамаарах илүү их өөрчлөлтийг даван туулах шинэ алгоритмуудыг боловсруулах явдал юм.
Төслийн алгоритмууд нь хүний нүүрний сэтгэл хөдлөл, байрлал дахь өөрчлөлт, хэсэгчилсэн бөглөрөл, гэрэлтүүлгээс үүдэлтэй өөрчлөлтүүдийг шийдвэрлэхийн зэрэгцээ хүний нүүрэн дээрх тэмдэглэгээг таних, хянах чадварыг харуулсан.
21. MPII Хүний шуудангийн мэдээллийн багц
MPII Human Pose Dataset нь 25 мянга орчим зураг агуулсан бөгөөд үүний 15 мянга нь сургалтын дээж, 3 мянга нь баталгаажуулалтын дээж, 7 мянга нь туршилтын дээж юм.
Байрлалыг гараар 16 үе мөчөөр тэмдэглэсэн бөгөөд гэрэл зургуудыг хүний 410 төрлийн үйл ажиллагааг харуулсан YouTube киноноос авсан байна.
22. UCF101
UCF101 мэдээллийн багц нь 13,320 ангилалд хуваагдсан 101 видео клип агуулдаг. Эдгээр 101 төрөл нь биеийн хөдөлгөөн, хүн-хүний харилцан үйлчлэл, хүн-биеийн харилцан үйлчлэл, хөгжмийн зэмсэг тоглох, спорт гэсэн таван төрөлд хуваагддаг.
Видеонууд нь YouTube-ээс авсан бөгөөд 27 цагийн үргэлжлэх хугацаатай.
23. Аудио багц
Аудиосет нь 2 сая гаруй хүний тайлбартай 10 секундын видео сегментээс бүрдсэн аудио үйл явдлын мэдээллийн багц юм. Энэ өгөгдлийг тэмдэглэхийн тулд 632 үйл явдлын төрлөөс бүрдсэн шаталсан онтологийг ашигладаг бөгөөд энэ нь ижил дууг өөр өөрөөр тэмдэглэж болно гэсэн үг юм.
24. Стэнфордын байгалийн хэлний дүгнэлт
SNLI өгөгдлийн багц (Стэнфордын байгалийн хэлний дүгнэлт) нь 570 мянган өгүүлбэрийн хослолыг агуулж байгаа бөгөөд тэдгээрийг гар аргаар хамаарал, зөрчилдөөн, төвийг сахисан гэж ангилдаг.
Байшингууд нь Flickr30k зургийн тайлбар бөгөөд таамаглалыг олон нийтийн эх сурвалжаас авсан аннотаторууд боловсруулсан бөгөөд тэдгээрт байр гаргаж, шаардлагатай, зөрчилтэй, төвийг сахисан мэдэгдлүүд гаргахыг зааварласан.
25. Визуал асуултын хариулт
Visual Question Answering (VQA) нь зурагтай холбоотой нээлттэй асуултуудыг агуулсан мэдээллийн багц юм. Эдгээр асуултад хариулахын тулд та алсын хараа, хэл яриа, эрүүл ухааныг ойлгох хэрэгтэй.
Дүгнэлт
Машины сургалт, хиймэл оюун ухаан (AI) нь бараг бүх бизнес болон бидний өдөр тутмын амьдралд илүү өргөн тархах тусам энэ сэдвээр байгаа нөөц, мэдээллийн тоо нэмэгдсээр байна.
Бэлэн нийтийн мэдээллийн багц нь хиймэл оюун ухааны загваруудыг хөгжүүлэх гайхалтай эхлэлийн цэг болж, туршлагатай ML програмистуудад цаг хугацаа хэмнэж, төслийн бусад элементүүдэд анхаарлаа төвлөрүүлэх боломжийг олгодог.
хариу үлдээх