25 мыкты альтернативалуу AI тренингдер топтому (2024)

Мазмуну[Жашыруу][Көрсөтүү]

1. CelebFaces атрибуттарынын маалымат топтому
2. DOTA
3. Google Facial Expression салыштыруу маалымат топтому
4. Визуалдык геном
5. LibriSpeech
6. Шаар мейкиндиктери
7. Kinetic Dataset
8. CelebAMask-HQ
9. Пенн Трибанк
10. VoxCeleb
11. SIXray
12. АКШдагы кырсыктар
13. Көз ооруларын таануу
14. Жүрөк оорулары
15. CLEVR
16. Универсалдуу көз карандылыктар
17. КИТТИ – 360
18. MOT (Бир нече объектти көзөмөлдөө)
19. PASCAL 3D+
20. Жаныбарлардын бетинин деформациялануучу моделдери
21. MPII Human Post маалыматтар топтому
22. UCF101
23. Audioset
24. Stanford Natural Language Inference
25. Визуалдык суроолорго жооп берүү
жыйынтыктоо

Бүгүнкү күндө көпчүлүгүбүз машина үйрөнүү жана AI моделдерин иштеп чыгууга жана учурдагы маалымат топтомдорун колдонуу менен маселелерди чечүүгө багытталган. Бирок, биринчиден, биз маалымат топтомун, анын маанисин жана күчтүү AI жана ML чечимдерин иштеп чыгуудагы ролун аныкташыбыз керек.

Бүгүнкү күндө бизде ар кандай секторлордогу реалдуу көйгөйлөрдү чечүү үчүн изилдөө жүргүзүү же тиркемелерди иштеп чыгуу үчүн көптөгөн ачык булактуу маалымат топтомдору бар.

Бирок, жогорку сапаттагы сандык маалымат топтомдорунун жетишсиздиги тынчсызданууну жаратат. Берилиштер абдан көбөйдү жана келечекте дагы тез ылдамдыкта кеңейе берет.

Бул постто биз кийинки AI долбоорун иштеп чыгуу үчүн колдоно ала турган эркин жеткиликтүү маалымат топтомдорун камтыйт.

1. CelebFaces атрибуттарынын маалымат топтому

CelebFaces Attributes Dataset (CelebA) 200 миңден ашык атактуулардын сүрөттөрүн жана ар бир сүрөт үчүн 40 атрибут аннотациясын камтыйт, бул аны долбоорлор үчүн эң сонун башталгыч чекит кылат. бет таануу, бетти аныктоо, белгини (же бет компонентин) локалдаштыруу жана жүздү түзөтүү жана синтездөө. Мындан тышкары, бул коллекциядагы сүрөттөр позициянын варианттарынын кеңири спектрин жана фондун башаламандыгын камтыйт.

2. БЕРИЛГЕН

DOTA (маалыматтар топтому Object айкындоо in Aerial Photos) 15 жалпы категорияларды (мисалы, кеме, учак, унаа ж.б.), машыгуу үчүн 1411 сүрөттү жана валидация үчүн 458 сүрөттү камтыган объектти аныктоо үчүн масштабдуу маалымат топтому.

3. Google Facial Expression салыштыруу маалымат топтому

Google'дун мимиканы салыштыруу маалымат топтому болжол менен 500,000 156,000 үчилтик сүрөттү камтыйт, анын ичинде XNUMX XNUMX жүз сүрөттөрү. Белгилей кетсек, бул маалымат топтомундагы ар бир үчилтикке кеминде алты адам баалоочу аннотацияланган.

Бул берилиштер топтому беттин экспрессиясын талдоону камтыган долбоорлор үчүн пайдалуу, мисалы, экспрессияга негизделген сүрөттөрдү издөө, эмоцияларды классификациялоо, экспрессия синтези ж.б.у.с. Берилиштер топтомун алуу үчүн кыскача форма толтурулушу керек.

4. Визуалдык геном

Көп тандоо чөйрөсүндө визуалдык суроого жооп берүү маалыматтары Visual Genomeде жеткиликтүү. Ал 101,174 миллион QA жуптары бар 1.7 17 MSCOCO сүрөттөрүнөн турат, ар бир сүрөткө орточо XNUMX суроо.

Визуалдык суроого жооп берүү маалымат топтомуна салыштырмалуу, Visual Genome маалымат топтому алты суроонун түрлөрү боюнча адилеттүү бөлүштүрүүгө ээ: Эмне, кайда, качан, ким, эмне үчүн жана кантип.

Мындан тышкары, Visual Genome маалымат топтому объекттер, касиеттер жана байланыштар менен катуу белгиленүүчү 108K сүрөттөрдү камтыйт.

5. LibriSpeech

LibriSpeech корпусу LibriVox долбоорунан 1,000 саатка жакын аудиокитептердин жыйнагы. Аудио китептердин көбү Гутенберг долбоорунан алынган.

Тренинг маалыматтары 100 саат, 360 саат жана 500 сааттык топтомдордон турган үч бөлүккө бөлүнөт, ал эми иштеп чыгуучу жана тесттик маалыматтар аудио узундугу боюнча болжол менен 5 саатты түзөт.

6. The Cityspaces

Шаар көрүнүштөрү бар стерео видеолордун эң белгилүү масштабдуу маалымат базаларынын бири The Cityscapes деп аталат.

GPS жайгашкан жерлерин, сырткы температураны, эго кыймылынын маалыматтарын жана туура стерео перспективаларды камтыган пикселдик так аннотациялары менен ал Германиянын 50 айырмаланган шаарынан алынган жазууларды камтыйт.

7. Kinetic Dataset

Адамдын иш-аракетин чоң масштабда жана сапаттуу таануу үчүн эң белгилүү видео маалымат топтомдорунун бири Кинетика маалыматтар топтому болуп саналат. Жалпысынан 600 600ден ашуун адамдын иш-аракетинин 500,000 классынын ар бири үчүн кеминде XNUMX видеоклип бар.

Тасмалар YouTube'дан алынган; Ар бири 10 секунддун тегерегинде жана тизмеленген бир гана иш-аракет классы бар.

8. CelebAMask-HQ

CelebAMask-HQ бул кылдаттык менен аннотацияланган маскалар жана тери, мурун, көз, каш, кулак, ооз, эрин, чач, шляпа, көз айнек, сөйкө, мончок сыяктуу бет компоненттерин камтыган 30,000 19 жогорку чечилиштеги бет сүрөттөрүнүн жыйнагы, моюн, материал.

Берилиштер топтомун сынап көрүү жана окутуу үчүн колдонсо болот, жүзүн таануу, бетти талдоо жана GANларды жүздөрдү түзүү жана түзөтүү алгоритмдери үчүн.

9. Пенн Трибанк

Эң көрүнүктүү жана ырааттуу белгилөө үчүн моделдерди баалоо үчүн көп колдонулган корпустардын бири - англисче Penn Treebank (PTB) корпусу, атап айтканда корпустун Wall Street Journal макалаларына туура келген бөлүгү.

Ар бир сөздө сөздүн бир бөлүгү тапшырманын компоненти катары белгилениши керек. Мүнөз деңгээлинде жана сөз деңгээлинде тилди моделдөө ошондой эле корпусту тез-тез колдонот.

10. VoxCeleb

VoxCeleb – бул автоматтык түрдө түзүлүүчү кеңири масштабдуу кепти идентификациялоо маалымат топтому ачык булак медиа. VoxCeleb 6 миңден ашык сүйлөгөндөрдүн миллиондон ашык сөзүн камтыйт.

Берилиштер топтому аудио-визуалды камтыгандыктан, аны визуалдык кеп синтези, кепти бөлүү, жүздөн үнгө же тескерисинче кайчылаш модалдык которуу жана учурдагы жүз таанууну толуктоо үчүн видеодон жүз таанууну үйрөтүү сыяктуу ар кандай кошумча колдонмолор үчүн колдонсо болот. маалымат топтомдору.

11. SIXray

SIXray маалымат топтому метро станцияларынан чогултулган 1,059,231 XNUMX XNUMX рентген сүрөттөрүн камтыйт жана адам коопсуздук инспекторлору тарабынан тыюу салынган нерселердин алты негизги түрүн аныктоо үчүн аннотацияланган: тапанча, бычак, ачкыч, кычкач, кайчы жана балка. Мындан тышкары, объектти локализациялоонун натыйжалуулугун баалоо үчүн ар бир тыюу салынган пункт үчүн чектөөчү кутучалар кол менен тесттик топтомдорго кошулган.

12. АКШ кырсыктары

Долбоордун мазмуну буга чейин маалымат топтомунун аты менен ачылган, US Accidents. Бул жалпы улуттук автомобиль кырсыктары боюнча маалымат топтому 2016-жылдын февралынан 2021-жылдын декабрына чейинки маалыматты камтыйт жана АКШнын 49 штатын камтыйт.

Бул коллекцияда азыр болжол менен 1.5 миллион кырсык жазуулары бар. Ал реалдуу убакыт режиминде бир нече трафик API'лерин колдонуу менен чогултулган.

Бул API'лер ар кандай булактардан, анын ичинде трафик камераларынан, укук коргоо уюмдарынан жана АКШнын жана мамлекеттик транспорт департаменттеринен чогултулган трафик маалыматын өткөрүп берет.

13. Көз ооруларын таануу

Уюшкан офтальмологиялык маалымат базасы Ocular Disease Intelligent Recognition (ODIR) 5,000 бейтап тууралуу маалыматты камтыйт, анын ичинде алардын жашы, сол жана оң көзүндөгү түбүнүн түсү жана медициналык адистердин диагностикалык ачкыч сөздөрү.

Бул маалымат топтому Shanggong Medical Technology Co., Ltd сатып алган Кытайдагы ар кандай ооруканалардан жана медициналык мекемелерден пациенттердин маалыматтарынын чыныгы жыйындысы. менен сапатты башкаруу, аннотациялар дасыккан окурмандар тарабынан белгиленген.

14. Жүрөк оорусу

Жүрөк оорусунун бул маалымат топтому жашы, жынысы, көкүрөк оорусунун түрү, эс алуудагы кан басымы жана башкалар сыяктуу 76 параметрдин негизинде пациентте жүрөк оорусу бар экенин аныктоого жардам берет.

303 учур менен маалымат базасы оорунун бар экендигин (1,2,3,4 мааниси) анын жоктугунан (0 мааниси) айырмалоого аракет кылат.

15. CLEVR

CLEVR берилиштер топтому (композициялык тил жана элементардык визуалдык ой жүгүртүү) визуалдык суроого жооп берүүнү туурайт. Ал 3D-рендердик объекттердин сүрөттөрүнөн турат, ар бир сүрөт бир нече категорияга бөлүнгөн композициялык суроолордун сериясы менен коштолот.

Бардык поезд жана валидация сүрөттөрү жана суроолору үчүн маалымат топтому 70,000 700,000 фотосүрөттөрдү жана 15,000 150,000 окутуу үчүн суроолорду, 15,000 150,000 сүрөттөрдү жана валидация үчүн XNUMX XNUMX суроолорду жана XNUMX XNUMX сүрөттөрдү жана XNUMX XNUMX объекттерди, жоопторду, функционалдык графиктерди жана тестирлөө үчүн суроолорду камтыйт.

16. Универсалдуу көз карандылыктар

Universal Dependencies (UD) долбоору көптөгөн тилдер үчүн тилдер аралык бирдиктүү морфология жана синтаксис дарак банкынын аннотациясын түзүүгө багытталган. 2.7-жылы чыккан 2020 версиясында 183 тилде 104 дарак жээктери бар.

Аннотация универсалдуу POW тэгдеринен, көз карандылык баштарынан жана универсалдуу көз карандылык энбелгилеринен турат.

17. KITTI – 360

Мобилдик роботтор үчүн эң көп колдонулган маалымат топтомдорунун бири жана автономдуу айдоо KITTI (Карлсруэ технологиялык институту жана Тойота технологиялык институту) болуп саналат.

Ал жогорку чечилиштеги RGB, боз түстөгү стерео жана 3D лазердик сканер камералары сыяктуу бир катар сенсордук ыкмалардын жардамы менен тартылган сааттык трафик сценарийлеринен турат. Берилиштер топтому убакыттын өтүшү менен бир нече изилдөөчүлөр тарабынан жакшыртылып, алардын муктаждыктарына ылайык анын ар кандай бөлүктөрүнө кол менен аннотацияланган.

18. MOT(Бир нече объектке көз салуу)

MOT (Multiple Object Tracking) – бул көптөгөн объекттерге көз салуу үчүн берилиштер топтому, ага жөө жүргүнчүлөрдү кызыктырган объект катары камтыган коомдук жайлардын ички жана сырткы пейзаждары камтылган. Ар бир сахнанын видеосу эки бөлүккө бөлүнөт, бири машыгуу үчүн, экинчиси сыноо үчүн.

Берилиштер топтому камтыйт объектти аныктоо үч детектордун жардамы менен видео кадрларда: SDP, Faster-RCNN жана DPM.

19. PASCAL 3D+

Pascal3D+ көп көрүү маалымат топтому жапайы жаратылышта чогултулган фотосүрөттөрдөн, башкача айтканда, көзөмөлсүз шарттарда, эл көп чогулган чөйрөдө жана ар кандай позицияларда тартылган жогорку өзгөрүлмө категориядагы сүрөттөрдөн турат. Pascal3D+ PASCAL VOC 12 маалымат топтомунан алынган 2012 катуу объект категориясын камтыйт.

Бул буюмдарда поза маалыматы (азимут, бийиктик жана камерага чейинки аралык) белгиленген. Pascal3D+ кошумча бул 12 категориядагы ImageNet коллекциясынан поза-аннотацияланган сүрөттөрдү камтыйт.

20. Жаныбарлардын бети деформациялануучу моделдери

Жаныбарлардын бетинин деформациялануучу моделдери (FDMA) долбоорунун максаты адамдын бетинин ориентирлерин идентификациялоо жана көзөмөлдөөдөгү учурдагы методологияларга каршы чыгуу жана жаныбарлардын бетинин өзгөчөлүктөрүнө мүнөздүү болгон кыйла чоң өзгөрмөлүүлүк менен күрөшө ала турган жаңы алгоритмдерди иштеп чыгуу.

Долбоордун алгоритмдери адамдын бетиндеги ориентирлерди таануу жана көзөмөлдөө мүмкүнчүлүгүн көрсөттү, ошол эле учурда беттин эмоцияларынын же позицияларынын өзгөрүшүнөн, жарым-жартылай окклюзиялардан жана жарыктан улам келип чыккан дисперсиялар менен күрөшүү.

21. MPII Human Post маалымат топтому

MPII Адам позасынын маалымат топтому 25 миңге жакын сүрөттөрдү камтыйт, алардын 15 миңи машыгуу үлгүлөрү, 3 миңи валидация үлгүлөрү жана 7 миңи сыноо үлгүлөрү.

Позициялар кол менен 16га чейин дене муундары менен белгиленет жана сүрөттөр адамдын 410 түрдүү иш-аракеттерин чагылдырган YouTube тасмаларынан алынган.

22. UCF101

UCF101 маалымат топтому 13,320 категорияга бөлүнгөн 101 101 видео клипти камтыйт. Бул XNUMX категория беш категорияга бөлүнөт: дене кыймылы, адам менен адамдын өз ара аракети, адам менен объекттин өз ара аракети, музыкалык аспапта ойноо жана спорт.

Видеолор YouTube'дан алынган жана 27 саатка созулат.

23. Аудиосет

Аудиосет - бул 2 миллиондон ашык адам тарабынан аннотацияланган 10 секунддук видео сегменттерден турган аудио окуянын маалымат топтому. Бул маалыматтарды аннотациялоо үчүн 632 окуянын түрлөрүн камтыган иерархиялык онтология колдонулат, бул бир эле үн башкача белгилениши мүмкүн дегенди билдирет.

24. Stanford Natural Language Inference

SNLI берилиштер топтому (Stanford Natural Language Inference) кол менен келтирилген, карама-каршылык же нейтралдуу катары категорияланган 570 миң сүйлөм жуптарын камтыйт.

Бөлмөлөр - Flickr30k сүрөттүн сүрөттөмөлөрү, ал эми гипотезалар жай берилген жана ага карама-каршы келген жана бейтарап билдирүүлөрдү чыгарууну тапшырган көп сандаган аннотаторлор тарабынан иштелип чыккан.

25. Визуалдык суроо-жооп

Визуалдык суроолорго жооп берүү (VQA) сүрөттөргө байланыштуу ачык суроолорду камтыган маалымат топтому. Бул суроолорго жооп берүү үчүн көз карашты, тилди жана акыл-эсти түшүнүү керек.

жыйынтыктоо

Машина үйрөнүү жана жасалма интеллект (AI) дээрлик ар бир бизнесте жана биздин күнүмдүк жашообузда кеңири жайылган сайын, бул тема боюнча ресурстардын жана маалыматтын саны көбөйүүдө.

Даяр коомдук берилиштер топтому AI моделдерин иштеп чыгуу үчүн эң сонун башталгыч чекитти камсыз кылат, ошол эле учурда тажрыйбалуу ML программисттерине убакытты үнөмдөөгө жана долбоорлорунун башка элементтерине көңүл бурууга мүмкүндүк берет.

Мыкты альтернативалуу AI тренингдер топтому

25 мыкты альтернативалуу AI тренингдер топтому

1. CelebFaces атрибуттарынын маалымат топтому

2. БЕРИЛГЕН

3. Google Facial Expression салыштыруу маалымат топтому

4. Визуалдык геном

5. LibriSpeech

6. The Cityspaces

7. Kinetic Dataset

8. CelebAMask-HQ

9. Пенн Трибанк

10. VoxCeleb

11. SIXray

12. АКШ кырсыктары

13. Көз ооруларын таануу

14. Жүрөк оорусу

15. CLEVR

16. Универсалдуу көз карандылыктар

17. KITTI – 360

18. MOT(Бир нече объектке көз салуу)

19. PASCAL 3D+

20. Жаныбарлардын бети деформациялануучу моделдери

21. MPII Human Post маалымат топтому

22. UCF101

23. Аудиосет

24. Stanford Natural Language Inference

25. Визуалдык суроо-жооп

жыйынтыктоо

жөнүндө Jay

HashDork боюнча көбүрөөк макалалар:

AIдагы галлюцинацияларды кантип азайтса болот

Колосян vs Хейген

Бул Future Tech Newsletter соруп эмес

25 мыкты альтернативалуу AI тренингдер топтому

1. CelebFaces атрибуттарынын маалымат топтому

2. БЕРИЛГЕН

3. Google Facial Expression салыштыруу маалымат топтому

4. Визуалдык геном

5. LibriSpeech

6. The Cityspaces

7. Kinetic Dataset

8. CelebAMask-HQ

9. Пенн Трибанк

10. VoxCeleb

11. SIXray

12. АКШ кырсыктары

13. Көз ооруларын таануу

14. Жүрөк оорусу

15. CLEVR

16. Универсалдуу көз карандылыктар

17. KITTI – 360

18. MOT(Бир нече объектке көз салуу)

19. PASCAL 3D+

20. Жаныбарлардын бети деформациялануучу моделдери

21. MPII Human Post маалымат топтому

22. UCF101

23. Аудиосет

24. Stanford Natural Language Inference

25. Визуалдык суроо-жооп

жыйынтыктоо

жөнүндө Jay

HashDork боюнча көбүрөөк макалалар:

AIдагы галлюцинацияларды кантип азайтса болот

Социалдык медиа үчүн 10 мыкты AI куралдары

Колосян vs Хейген

10 мыкты AI Animated Video Maker куралдары

Reader Interactions

Таштап Жооп жокко жооп

Бул Future Tech Newsletter соруп эмес