სარჩევი[დამალვა][ჩვენება]
- 1. CelebFaces ატრიბუტების მონაცემთა ნაკრები
- 2. DOTA
- 3. Google სახის გამოხატვის შედარების მონაცემთა ნაკრები
- 4. ვიზუალური გენომი
- 5. LibriSpeech
- 6. ქალაქური სივრცეები
- 7. კინეტიკური მონაცემთა ნაკრები
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. აშშ ავარიები
- 13. თვალის დაავადების ამოცნობა
- 14. გულის დაავადება
- 15. CLEVR
- 16. უნივერსალური დამოკიდებულებები
- 17. KITTI – 360
- 18. MOT (მრავალჯერადი ობიექტის თვალყურის დევნება)
- 19. PASCAL 3D+
- 20. ცხოველების სახის დეფორმირებადი მოდელები
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. აუდიოსეტი
- 24. სტენფორდის ბუნებრივი ენის დასკვნა
- 25. ვიზუალური კითხვაზე პასუხის გაცემა
- დასკვნა
დღესდღეობით, უმეტესობა ჩვენგანი ორიენტირებულია მანქანური სწავლისა და AI მოდელების შემუშავებაზე და პრობლემების მოგვარებაზე მონაცემთა ამჟამინდელი ნაკრების გამოყენებით. მაგრამ პირველ რიგში, ჩვენ უნდა განვსაზღვროთ მონაცემთა ნაკრები, მისი მნიშვნელობა და მისი როლი ძლიერი AI და ML გადაწყვეტილებების შემუშავებაში.
დღეს ჩვენ გვაქვს ღია კოდის მონაცემთა ნაკრების სიმრავლე, რომლებზედაც ჩავატაროთ კვლევა ან განვავითაროთ აპლიკაციები რეალურ სამყაროში არსებულ პრობლემებზე სხვადასხვა სექტორში.
თუმცა, მაღალი ხარისხის რაოდენობრივი მონაცემთა ნაკრების სიმცირე შეშფოთების წყაროა. მონაცემები ძლიერ გაიზარდა და მომავალში უფრო სწრაფი ტემპით გაფართოვდება.
ამ პოსტში ჩვენ გავაშუქებთ თავისუფლად ხელმისაწვდომ მონაცემთა ნაკრებებს, რომლებიც შეგიძლიათ გამოიყენოთ თქვენი შემდეგი AI პროექტის განსავითარებლად.
1. CelebFaces ატრიბუტების მონაცემთა ნაკრები
CelebFaces ატრიბუტების მონაცემთა ნაკრები (CelebA) შეიცავს 200 ათასზე მეტ სახელგანთქმულ ფოტოს და 40 ატრიბუტის ანოტაციას თითოეული სურათისთვის, რაც მას შესანიშნავ საწყის წერტილად აქცევს ისეთი პროექტებისთვის, როგორიცაა სახის ამოცნობა, სახის ამოცნობა, ორიენტირების (ან სახის კომპონენტის) ლოკალიზაცია და სახის რედაქტირება და სინთეზი. გარდა ამისა, ამ კოლექციის ფოტოები შეიცავს პოზიციის ვარიანტების ფართო სპექტრს და ფონზე არეულობას.
2. DOTA
DOTA (მონაცემთა ნაკრები ობიექტის ამოცნობა აეროფოტოებში) არის ფართომასშტაბიანი მონაცემთა ნაკრები ობიექტების აღმოსაჩენად, რომელიც მოიცავს 15 გავრცელებულ კატეგორიას (მაგ., გემი, თვითმფრინავი, მანქანა და ა.შ.), 1411 გამოსახულება ტრენინგისთვის და 458 სურათი დასადასტურებლად.
3. Google სახის გამოხატვის შედარების მონაცემთა ნაკრები
Google სახის გამონათქვამების შედარების მონაცემთა ნაკრები შეიცავს დაახლოებით 500,000 სურათის სამეულს, მათ შორის 156,000 სახის ფოტოს. აღსანიშნავია, რომ ამ მონაცემთა ნაკრების თითოეული ტრიპლეტი ანოტირებულია მინიმუმ ექვსი ადამიანის მიერ.
ეს მონაცემთა ნაკრები სასარგებლოა ისეთი პროექტებისთვის, რომლებიც მოიცავს სახის გამოხატვის ანალიზს, როგორიცაა გამოსახულების გამოსახულებების მიღება, ემოციების კატეგორიზაცია, გამოხატვის სინთეზი და ა.შ. მონაცემთა ბაზაზე წვდომის მისაღებად, უნდა შეავსოთ მოკლე ფორმა.
4. ვიზუალური გენომი
Visual Question მონაცემებზე პასუხის გაცემა მრავალ არჩევან გარემოში ხელმისაწვდომია Visual Genome-ში. იგი შედგება 101,174 MSCOCO ფოტოსგან 1.7 მილიონი QA წყვილით, საშუალოდ 17 კითხვაზე თითო სურათზე.
ვიზუალური კითხვებზე პასუხების მონაცემთა ნაკრების შედარებით, Visual Genome მონაცემთა ნაკრები უფრო სამართლიანი განაწილებაა ექვსი ტიპის კითხვაზე: რა, სად, როდის, ვინ, რატომ და როგორ.
გარდა ამისა, ვიზუალური გენომის მონაცემთა ნაკრები მოიცავს 108K ფოტოებს, რომლებიც ძლიერ არის მონიშნული ობიექტებით, თვისებებით და კავშირებით.
5. LibriSpeech
LibriSpeech კორპუსი არის დაახლოებით 1,000 საათიანი აუდიოწიგნების კოლექცია LibriVox პროექტისგან. აუდიო წიგნების უმეტესობა მომდინარეობს პროექტ გუტენბერგიდან.
ტრენინგის მონაცემები დაყოფილია სამ ნაწილად 100 სთ, 360 სთ და 500 სთ კომპლექტებად, ხოლო დეველოპმენტისა და ტესტის მონაცემები დაახლოებით 5 სთ არის აუდიო სიგრძით.
6. ქალაქური სივრცეები
ქალაქური ხედების მქონე სტერეო ვიდეოების ერთ-ერთ ყველაზე ცნობილ ფართომასშტაბიან მონაცემთა ბაზას ჰქვია The Cityscapes.
პიქსელებით ზუსტი ანოტაციებით, რომლებიც მოიცავს GPS მდებარეობებს, გარე ტემპერატურას, ეგო მოძრაობის მონაცემებს და სწორი სტერეო პერსპექტივებით, ის მოიცავს ჩანაწერებს 50 განსხვავებული გერმანიის ქალაქიდან.
7. კინეტიკის მონაცემთა ნაკრები
ერთ-ერთი ყველაზე ცნობილი ვიდეო მონაცემთა ნაკრები ადამიანის საქმიანობის ფართომასშტაბიანი და კარგი ხარისხის ამოცნობისთვის არის Kinetics მონაცემთა ნაკრები. სულ მცირე 600 ვიდეო კლიპია ადამიანის აქტივობის 600 კლასიდან თითოეულისთვის, საერთო ჯამში 500,000-ზე მეტი.
ფილმები ამოღებულია YouTube-დან; თითოეული მათგანი დაახლოებით 10 წამია და ჩამოთვლილია მხოლოდ ერთი აქტივობის კლასი.
8. CelebAMask-HQ
CelebAMask-HQ არის 30,000 სახის მაღალი რეზოლუციის ფოტოს კოლექცია, ყურადღებით ანოტირებული ნიღბებით და 19 კლასებით, რომლებიც მოიცავს სახის კომპონენტებს, როგორიცაა კანი, ცხვირი, თვალები, წარბები, ყურები, პირი, ტუჩი, თმა, ქუდი, სათვალე, საყურე, ყელსაბამი, კისერი, მასალა.
მონაცემთა ნაკრები შეიძლება გამოყენებულ იქნას სახის ამოცნობის, სახის გარჩევისა და GAN-ების შესამოწმებლად და ტრენინგისთვის სახის გენერირებისა და რედაქტირების ალგორითმებისთვის.
9. პენი ტრიბანკი
ერთ-ერთი ყველაზე თვალსაჩინო და ხშირად გამოყენებული კორპუსი თანმიმდევრობის მონიშვნის მოდელების შესაფასებლად არის ინგლისური Penn Treebank (PTB) კორპუსი, კერძოდ კორპუსის ის ნაწილი, რომელიც შეესაბამება Wall Street Journal-ის სტატიებს.
თითოეულ სიტყვას უნდა ჰქონდეს მეტყველების მისი ნაწილი ამოცანის კომპონენტად. პერსონაჟის დონის და სიტყვის დონის ენის მოდელირება ასევე ხშირად იყენებს კორპუსს.
10. VoxCeleb
VoxCeleb არის ფართომასშტაბიანი მეტყველების იდენტიფიკაციის მონაცემთა ნაკრები, რომელიც ავტომატურად გენერირებულია ღია წყაროს მედია. VoxCeleb-ს აქვს მილიონზე მეტი გამონათქვამი 6-ზე მეტი დინამიკისგან.
ვინაიდან მონაცემთა ნაკრები მოიცავს აუდიო-ვიზუალურს, ის შეიძლება გამოყენებულ იქნას სხვადასხვა დამატებითი აპლიკაციებისთვის, მათ შორის ვიზუალური მეტყველების სინთეზისთვის, მეტყველების განცალკევება, ჯვარედინი გადაცემა სახიდან ხმაზე ან პირიქით, და სახის ამოცნობის ტრენინგი ვიდეოდან სახის ამოცნობის დასამატებლად. მონაცემთა ნაკრები.
11. SIXray
SIXray მონაცემთა ნაკრები მოიცავს 1,059,231 რენტგენის სურათს, რომელიც შეგროვდა მეტროს სადგურებიდან და ანოტირებულია ადამიანის უსაფრთხოების ინსპექტორების მიერ, რათა აღმოაჩინონ ექვსი ძირითადი სახის აკრძალული ნივთი: პისტოლეტები, დანები, ქანჩები, ქლიბი, მაკრატელი და ჩაქუჩები. გარდა ამისა, თითოეული დაუშვებელი ელემენტის შეზღუდვის ველები ხელით დაემატა ტესტირების კომპლექტებს, რათა შეფასდეს ობიექტის ლოკალიზაციის შესრულება.
12. აშშ უბედური შემთხვევები
პროექტის არსი უკვე ცნობილია მონაცემთა ნაკრების სახელწოდებით, აშშ-ის უბედური შემთხვევები. ქვეყნის მასშტაბით საავტომობილო ავარიების ეს მონაცემთა ნაკრები მოიცავს ინფორმაციას 2016 წლის თებერვლიდან 2021 წლის დეკემბრამდე და მოიცავს აშშ-ს 49 შტატს.
დაახლოებით 1.5 მილიონი უბედური შემთხვევის ჩანაწერი ახლა წარმოდგენილია ამ კოლექციაში. ის შეგროვდა რეალურ დროში რამდენიმე ტრაფიკის API-ის გამოყენებით.
ეს API-ები გადასცემენ სხვადასხვა წყაროდან შეგროვებულ ინფორმაციას საგზაო მოძრაობის შესახებ, მათ შორის საგზაო მოძრაობის კამერებიდან, სამართალდამცავი ორგანიზაციებისა და აშშ-ისა და ტრანსპორტის შტატის დეპარტამენტებიდან.
13. თვალის დაავადების ამოცნობა
ორგანიზებული ოფთალმოლოგიური მონაცემთა ბაზა Ocular Disease Intelligent Recognition (ODIR) შეიცავს ინფორმაციას 5,000 პაციენტის შესახებ, მათ შორის ასაკის, ფუნდუსის ფერს მარცხენა და მარჯვენა თვალებში და სამედიცინო პროფესიონალების დიაგნოსტიკის საკვანძო სიტყვებს.
ეს მონაცემთა ნაკრები არის პაციენტთა მონაცემების რეალური კოლექცია ჩინეთის სხვადასხვა საავადმყოფოებიდან და სამედიცინო დაწესებულებებიდან, რომელიც შეიძინა Shanggong Medical Technology Co., Ltd.-მ. თან ხარისხის კონტროლის მენეჯმენტი, ანოტაციები მონიშნული იყო გამოცდილი ადამიანების მიერ.
14. გულის დაავადება
გულის დაავადებების ეს ნაკრები ეხმარება პაციენტში გულის დაავადების არსებობის იდენტიფიცირებას 76 პარამეტრის საფუძველზე, როგორიცაა ასაკი, სქესი, გულმკერდის ტკივილის ტიპი, არტერიული წნევა დასვენების დროს და ა.შ.
303 შემთხვევით, მონაცემთა ბაზა ცდილობს უბრალოდ განასხვავოს დაავადების არსებობა (მნიშვნელობა 1,2,3,4) მისი არარსებობისგან (მნიშვნელობა 0).
15. CLEVR
CLEVR მონაცემთა ნაკრები (კომპოზიციური ენა და ელემენტარული ვიზუალური მსჯელობა) მიბაძავს ვიზუალურ კითხვაზე პასუხს. იგი შედგება 3D-ში გადაღებული ობიექტების ფოტოებისგან, თითოეულ ფოტოს თან ახლავს უაღრესად კომპოზიციური კითხვების სერია დაყოფილია რამდენიმე კატეგორიად.
ყველა მატარებლისა და ვალიდაციის სურათებისა და კითხვებისთვის მონაცემთა ნაკრები მოიცავს 70,000 ფოტოს და 700,000 კითხვას ტრენინგისთვის, 15,000 სურათს და 150,000 კითხვას ვალიდაციისთვის, და 15,000 სურათს და 150,000 კითხვას ტესტირებისთვის, რომელიც მოიცავს ობიექტებს, პასუხებს და ფუნქციონალურ პროგრამებს.
16. უნივერსალური დამოკიდებულებები
უნივერსალური დამოკიდებულებები (UD) პროექტი მიზნად ისახავს შექმნას ლინგვისტურად ერთიანი მორფოლოგია და სინტაქსური ხის ბანკის ანოტაცია მრავალი ენისთვის. ვერსია 2.7, რომელიც გამოვიდა 2020 წელს, აქვს 183 ხის ნაპირი 104 ენაზე.
ანოტაცია შედგება უნივერსალური POW ტეგებისგან, დამოკიდებულების თავებისგან და უნივერსალური დამოკიდებულების ეტიკეტებისგან.
17. KITTI – 360
ერთ-ერთი ყველაზე ხშირად გამოყენებული მონაცემთა ნაკრები მობილური რობოტებისთვის და ავტონომიური მართვა არის KITTI (კარლსრუეს ტექნოლოგიური ინსტიტუტი და ტოიოტას ტექნოლოგიური ინსტიტუტი).
იგი შედგება საათიანი ტრაფიკის სცენარებისგან, რომლებიც გადაღებულია სენსორების მთელი რიგი მოდალობის გამოყენებით, როგორიცაა მაღალი გარჩევადობის RGB, ნაცრისფერი სტერეო და 3D ლაზერული სკანერის კამერები. მონაცემთა ნაკრები დროთა განმავლობაში გაუმჯობესდა რამდენიმე მკვლევრის მიერ, რომლებიც ხელით აფიქსირებდნენ მის სხვადასხვა ნაწილს მათი საჭიროებების შესაბამისად.
18. MOT (მრავალჯერადი ობიექტის თვალყურის დევნება)
MOT (Multiple Object Tracking) არის მონაცემთა ნაკრები მრავალი ობიექტის თვალყურის დევნებისთვის, რომელიც მოიცავს საჯარო ადგილების შიდა და გარე პეიზაჟებს, რომლებიც მოიცავს ფეხით მოსიარულეებს, როგორც ინტერესის ობიექტს. თითოეული სცენის ვიდეო დაყოფილია ორ ნაწილად, ერთი ვარჯიშისთვის და მეორე ტესტირებისთვის.
მონაცემთა ნაკრები მოიცავს ობიექტების გამოვლენა ვიდეო ჩარჩოებში სამი დეტექტორის გამოყენებით: SDP, Faster-RCNN და DPM.
19. პასკალი 3D+
Pascal3D+ მრავალ ხედვის მონაცემთა ნაკრები შედგება ველურ ბუნებაში შეგროვებული ფოტოებისგან, ე.ი. ნივთების კატეგორიების სურათებისგან მაღალი ცვალებადობით, გადაღებული უკონტროლო გარემოებებში, ხალხმრავალ გარემოში და სხვადასხვა პოზიციებზე. Pascal3D+ მოიცავს 12 ხისტი ობიექტების კატეგორიას, რომლებიც შედგენილია PASCAL VOC 2012 მონაცემთა ნაკრებიდან.
ამ ნივთებს აქვთ მონიშნული ინფორმაცია პოზის შესახებ (აზიმუტი, სიმაღლე და მანძილი კამერამდე). Pascal3D+ დამატებით შეიცავს პოზა-ანოტირებულ ფოტოებს ImageNet კოლექციიდან ამ 12 კატეგორიაში.
20. ცხოველების სახის დეფორმირებადი მოდელები
ცხოველთა სახის დეფორმირებადი მოდელების (FDMA) პროექტის მიზანია გამოწვევას თანამედროვე მეთოდოლოგიები ადამიანის სახის ღირშესანიშნაობების იდენტიფიკაციასა და თვალყურის დევნაში და ახალი ალგორითმების შემუშავება, რომლებიც გაუმკლავდებიან ცხოველის სახის მახასიათებლებისთვის დამახასიათებელ მნიშვნელოვნად დიდ ცვალებადობას.
პროექტის ალგორითმებმა აჩვენა უნარი ამოიცნოს და თვალყური ადევნოს ღირშესანიშნაობებს ადამიანის სახეებზე, როდესაც საქმე ეხება სახის ემოციების ან პოზიციების ცვლილებით გამოწვეული ცვლილებებით, ნაწილობრივი ოკლუზიებითა და განათებით.
21. MPII Human Post Dataset
MPII Human Pose Dataset შეიცავს დაახლოებით 25K ფოტოს, რომელთაგან 15K არის სასწავლო ნიმუშები, 3K არის ვალიდაციის ნიმუშები და 7K სატესტო ნიმუშები.
პოზიციებს ხელით აქვს ეტიკეტირებული 16-მდე სხეულის სახსარი, ხოლო ფოტოები აღებულია YouTube-ის ფილმებიდან, რომლებიც მოიცავს ადამიანის 410 სხვადასხვა აქტივობას.
22. UCF101
UCF101 მონაცემთა ნაკრები შეიცავს 13,320 ვიდეო კლიპს, რომლებიც ორგანიზებულია 101 კატეგორიაში. ეს 101 კატეგორია დაყოფილია ხუთ კატეგორიად: სხეულის მოძრაობები, ადამიანისა და ადამიანის ურთიერთქმედება, ადამიანისა და ობიექტის ურთიერთქმედება, მუსიკალური ინსტრუმენტების დაკვრა და სპორტი.
ვიდეოები არის YouTube-დან და მოიცავს 27 საათს.
23. აუდიოსეტი
Audioset არის აუდიო მოვლენების ნაკრები, რომელიც შედგება 2 მილიონზე მეტი ადამიანის მიერ ანოტირებული 10 წამიანი ვიდეო სეგმენტისგან. ამ მონაცემების ანოტაციისთვის გამოიყენება იერარქიული ონტოლოგია, რომელიც მოიცავს 632 მოვლენის ტიპს, რაც გულისხმობს, რომ ერთი და იგივე ხმა შეიძლება განსხვავებულად იყოს მონიშნული.
24. სტენფორდის ბუნებრივი ენის დასკვნა
SNLI მონაცემთა ნაკრები (Stanford Natural Language Inference) შეიცავს 570 XNUMX წინადადების წყვილს, რომლებიც ხელით იყო კატეგორიზებული, როგორც თანმხლები, წინააღმდეგობები ან ნეიტრალური.
ნაგებობები არის Flickr30k სურათების აღწერილობები, ხოლო ჰიპოთეზები შეიმუშავეს ბრბოდან მოპოვებული ანოტაციების მიერ, რომლებსაც მიეცათ წინაპირობა და დაევალათ გამოემუშავებინათ თანმხლები, წინააღმდეგობრივი და ნეიტრალური განცხადებები.
25. ვიზუალური კითხვაზე პასუხი
Visual Question Answering (VQA) არის მონაცემთა ნაკრები, რომელიც შეიცავს ღია კითხვებს სურათებთან დაკავშირებით. ამ კითხვებზე პასუხის გასაცემად, თქვენ უნდა გაითავისოთ ხედვა, ენა და საღი აზრი.
დასკვნა
რამდენადაც მანქანათმცოდნეობა და ხელოვნური ინტელექტი (AI) უფრო გავრცელებული ხდება პრაქტიკულად ყველა ბიზნესში და ჩვენს ყოველდღიურ ცხოვრებაში, ასევე იზრდება ამ თემაზე არსებული რესურსებისა და ინფორმაციის რაოდენობა.
მზა საჯარო მონაცემთა ნაკრები წარმოადგენს შესანიშნავ საწყის წერტილს ხელოვნური ინტელექტის მოდელების შემუშავებისთვის, ამასთან, საშუალებას აძლევს გამოცდილი ML პროგრამისტებს დაზოგონ დრო და ფოკუსირება მოახდინონ თავიანთი პროექტების სხვა ელემენტებზე.
დატოვე პასუხი