სარჩევი[დამალვა][ჩვენება]
მანქანათმცოდნეობის ყველა პროექტი ეყრდნობა კარგ მონაცემთა ბაზას. ეს არის დიდი მონაცემთა ნაკრები, რომელიც საშუალებას მოგცემთ მოამზადოთ და დაადასტუროთ თქვენი ML მოდელი. ასე რომ, ML პროექტში მუშაობის დიდი ნაწილი არის თქვენი საჭიროებისთვის სრულყოფილი მონაცემთა ნაკრების პოვნა. თუმცა, ყოველთვის არ არის შესაძლებელი ისეთი ვარიანტის პოვნა, რომელიც შეესაბამება თქვენს ამბიციას, რადგან ბევრი ფაილი, რომელიც გამოიყურება საინტერესო, საბოლოოდ, არ არის.
შეიძლება შემაძრწუნებელი იყოს დროის დაკარგვა უთვალავი მონაცემთა ნაკრების ჩამოტვირთვისთვის, სანამ არ მიაღწევთ იდეალურ კომპლექტს. ამის გათვალისწინებით, ჩვენ შევიკრიბეთ რამდენიმე ვარიანტი, რომელიც საინტერესო ჩანს და დაგეხმარებათ თქვენი ML პროექტის განვითარებაში. გაითვალისწინეთ, რომ ზოგიერთი განკუთვნილია პირადი და არა კომერციული გამოყენებისთვის, ამიტომ შეხედეთ ამ ვარიანტებს, როგორც ML სამყაროში გამოცდილების მისაღებად.
მონაცემთა ნაკრების საფუძვლები
სანამ მონაცემთა ნაკრების აღვნიშნავთ, უნდა განვსაზღვროთ რამდენიმე ტერმინი. ხელოვნური ინტელექტის პროექტებში, განსაკუთრებით მანქანა სწავლა, საჭიროა დიდი რაოდენობით მონაცემები, რომლებიც გამოყენებული იქნება ალგორითმის მოსამზადებლად. მონაცემთა ეს რაოდენობა გროვდება მონაცემთა ბაზაში, რაც ძალზე სასარგებლოა ალგორითმის სწავლებისთვის.
ამ მონაცემებით, ალგორითმი ივარჯიშება - ასევე ტესტირება - და ხდება შაბლონების პოვნა, ურთიერთობების დამყარება და, ამრიგად, გადაწყვეტილებების დამოუკიდებლად მიღება. ვარჯიშის გარეშე, მანქანა სწავლა ალგორითმებს არ შეუძლიათ რაიმე მოქმედების შესრულება. ამიტომ, რაც უფრო უკეთესი იქნება ტრენინგის მონაცემები, მით უკეთესი იქნება მოდელი. იმისთვის, რომ მონაცემთა ბაზა სასარგებლო იყოს პროექტისთვის, ეს არ ეხება რაოდენობას: ეს ასევე ეხება კლასიფიკაციას.
იდეალურ შემთხვევაში, მონაცემები კარგად უნდა იყოს მარკირებული. იფიქრეთ ჩეთბოტების შემთხვევაზე: ენის ჩასმა მნიშვნელოვანია, მაგრამ უნდა გაკეთდეს ფრთხილად სინტაქსური ანალიზი, რათა შექმნილმა ალგორითმმა გაიგოს, როდის იყენებს თანამოსაუბრე ჟარგონს. მხოლოდ ამის შემდეგ შეძლებს ვირტუალური ასისტენტი მომხმარებლის მიერ მოთხოვნილი პასუხის გაცემას.
მონაცემთა ნაკრები შეიძლება შეიქმნას გამოკითხვებიდან, მომხმარებლის შესყიდვის მონაცემებიდან, სერვისებზე დატოვებული შეფასებებიდან და მრავალი სხვა გზით, რაც შესაძლებელს გახდის CSV ფაილში სვეტებად და სტრიქონებში ორგანიზებული სასარგებლო ინფორმაციის შეგროვებას.
სანამ სრულყოფილი მონაცემთა ნაკრების ძიებას შეუდგებით, მნიშვნელოვანია იცოდეთ თქვენი პროექტის მიზანი, განსაკუთრებით თუ ის არის კონკრეტული სფეროდან, როგორიცაა ამინდი, ფინანსები, ჯანმრთელობა და ა.შ. მონაცემთა ნაკრები.
მონაცემთა ნაკრები ML-ისთვის
ჩეთბოტის ტრენინგი
ეფექტური ჩატბოტი მოითხოვს უამრავ სასწავლო მონაცემს, რათა სწრაფად გადაჭრას მომხმარებლის შეკითხვები ადამიანის ჩარევის გარეშე. თუმცა, ჩეთბოტის შემუშავების მთავარი პრობლემა არის რეალისტური, დავალებაზე ორიენტირებული დიალოგური მონაცემების მოპოვება მანქანურ სწავლებაზე დაფუძნებული სისტემების მოსამზადებლად.
სასაუბრო მონაცემთა ნაკრები აგროვებს მონაცემებს კითხვა-პასუხის ფორმატში. იდეალურია ჩატბოტების სავარჯიშოდ, რომლებიც აუდიტორიას ავტომატურ პასუხებს მისცემს. ამ მონაცემების გარეშე, ჩატბოტი ვერ შეძლებს სწრაფად გადაჭრას მომხმარებლის შეკითხვები ან უპასუხოს მომხმარებლის კითხვებს ადამიანის ჩარევის საჭიროების გარეშე.
ამ მონაცემთა ნაკრების გამოყენებით, ბიზნესს შეუძლია შექმნას ინსტრუმენტი, რომელიც უზრუნველყოფს სწრაფ პასუხებს მომხმარებლებს 24/7 და მნიშვნელოვნად იაფია, ვიდრე ადამიანების გუნდი, რომელიც ახორციელებს მომხმარებელთა მხარდაჭერას.
1. კითხვა-პასუხის მონაცემთა ნაკრები
ეს მონაცემთა ნაკრები გთავაზობთ ვიკიპედიის სტატიების, კითხვების და მათი ხელით გენერირებული შესაბამისი პასუხების ერთობლიობას. ეს არის მონაცემთა ნაკრები, რომელიც შეგროვდა 2008 და 2010 წლებში გამოსაყენებლად აკადემიური კვლევა.
2. ენის მონაცემები
ენის მონაცემები არის მონაცემთა ბაზა, რომელსაც მართავს Yahoo, კომპანიის ზოგიერთი სერვისიდან, როგორიცაა Yahoo! პასუხი, რომელიც მუშაობს როგორც ღია საზოგადოება მომხმარებლებისთვის კითხვებისა და პასუხების განსათავსებლად.
3. WikiQA
WikiQA კორპუსი ასევე შედგება კითხვებისა და პასუხებისგან. კითხვების წყაროა Bing, ხოლო პასუხები უკავშირდება ვიკიპედიის გვერდს საწყისი კითხვის გადაჭრის პოტენციალით.
მთლიანობაში, მონაცემთა ნაკრებში არის 3,000-ზე მეტი კითხვა და 29,258 წინადადების ნაკრები, რომელთაგან დაახლოებით 1,400 კატეგორიულად იქნა მიჩნეული, როგორც პასუხები შესაბამის კითხვაზე.
მთავრობის მონაცემები
მთავრობების მიერ გენერირებული მონაცემთა ნაკრები მოაქვს დემოგრაფიულ მონაცემებს, რაც არის დიდი ინფორმაცია პროექტებისთვის, რომლებიც დაკავშირებულია სოციალური ტენდენციების გაგებასთან, საჯარო პოლიტიკის შექმნასთან და საზოგადოების გაუმჯობესებასთან. ეს შეიძლება სასარგებლო იყოს პოლიტიკური კამპანიებისთვის, მიზნობრივი რეკლამისთვის ან ბაზრის ანალიზისთვის.
ეს მონაცემთა ნაკრები ჩვეულებრივ შეიცავს ანონიმურ მონაცემებს, ასე რომ, სანამ მოდელებს შეუძლიათ წვდომა ნედლეულ მონაცემებზე, არ არსებობს პირადი კონფიდენციალურობის დარღვევა.
4. Data.gov
Data.gov, რომელიც 2009 წელს დაიწყო, ჩრდილოეთ ამერიკის მონაცემთა წყაროა. მისი კატალოგი შთამბეჭდავია: 218,000-ზე მეტი მონაცემთა ნაკრები, რომელიც საშუალებას აძლევს სეგმენტაციას ფორმატის, ტეგების, ტიპებისა და თემების მიხედვით.
5. ევროკავშირის ღია მონაცემთა პორტალი
ევროკავშირის ღია მონაცემთა პორტალი უზრუნველყოფს წვდომას ევროკავშირის ინსტიტუტების მიერ გაზიარებულ ღია მონაცემებზე. ეს არის მონაცემები, რომლებიც შეიძლება იყოს განკუთვნილი კომერციული და არაკომერციული გამოყენებისთვის. მომხმარებლის განკარგულებაშია 15.5 ათასზე მეტი მონაცემთა ნაკრები, რომელიც მოიცავს ისეთ თემებს, როგორიცაა ჯანმრთელობა, ენერგია, გარემო, კულტურა და განათლება.
ჯანმრთელობის მონაცემები
მსოფლიოში მიმდინარე ჯანმრთელობის კრიზისის ფონზე, ჯანდაცვის ორგანიზაციების მიერ გენერირებული მონაცემთა ნაკრები აუცილებელია სიცოცხლის გადასარჩენად ეფექტური გადაწყვეტილებების შემუშავებისთვის. ეს მონაცემთა ნაკრები დაგეხმარებათ რისკ-ფაქტორების იდენტიფიცირებაში, დაავადების გადაცემის შაბლონების შემუშავებაში და დიაგნოზის დაჩქარებაში.
ეს მონაცემთა ნაკრები მოიცავს ჯანმრთელობის ჩანაწერებს, პაციენტების დემოგრაფიულ მონაცემებს, დაავადების გავრცელებას, მედიკამენტების გამოყენებას, კვების ღირებულებებს და ბევრ სხვას.
6. გლობალური ჯანმრთელობის ობსერვატორია
ეს მონაცემთა ნაკრები ჯანმრთელობის მსოფლიო ორგანიზაციის (WHO) ინიციატივაა. ის უზრუნველყოფს საჯარო მონაცემებს ჯანმრთელობის სხვადასხვა სფეროსთან დაკავშირებულ, ორგანიზებულ თემებზე, როგორიცაა ჯანდაცვის სისტემები, თამბაქოს მოხმარების კონტროლი, მშობიარობა, აივ/შიდსი და ა.შ.
7. CORD-19
CORD-19 არის აკადემიური პუბლიკაციების კორპუსი COVID-19-ზე და სხვა სტატიებზე ახალი კორონავირუსის შესახებ. ეს არის ღია მონაცემთა ნაკრები, რომელიც გამიზნულია COVID-19-ის შესახებ ახალი შეხედულებების შესაქმნელად.
ეკონომიკის მონაცემები
ფინანსურ გარემოსთან დაკავშირებული მონაცემთა ნაკრები, როგორც წესი, აგროვებს უზარმაზარ ინფორმაციას, რადგან ხშირია მათი შეგროვება დიდი ხნის განმავლობაში. ისინი იდეალურია ეკონომიკური პროგნოზების შესაქმნელად ან საინვესტიციო ტენდენციების დასამკვიდრებლად.
სწორი ფინანსური მონაცემთა ნაკრებით, ა მანქანათმცოდნეობის მოდელი შეიძლება შეეძლოს მოცემული აქტივის ქცევის პროგნოზირება. სწორედ ამიტომ, ფინანსური სექტორი ყველაფერს აკეთებს იმისათვის, რომ შექმნას ეფექტური ML მოდელი, რადგან ყველაფერს, რისი პროგნოზირებაც კი გონივრულად კარგად არის შესაძლებელი, აქვს მილიონობით დოლარის გამომუშავების პოტენციალი. მანქანათმცოდნეობა უკვე წინასწარმეტყველებს მოქალაქეების ქცევას, რაც გავლენას ახდენს იმაზე, თუ როგორ ასრულებენ პოლიტიკოსები თავიანთ სამუშაოს.
8. საერთაშორისო სავალუტო ფონდი
საერთაშორისო სავალუტო ფონდის მონაცემთა ბაზა შეიცავს უამრავ ეკონომიკურ და ფინანსურ ინდიკატორებს, წევრი ქვეყნების სტატისტიკას და სხვა სესხებისა და გაცვლითი კურსის მონაცემებს.
9. მსოფლიო ბანკი
მსოფლიო ბანკის საცავი შეიცავს სხვადასხვა მონაცემთა ნაკრების ეკონომიკურ ინფორმაციას სხვადასხვა ქვეყნიდან. 17,000-ზე მეტი მონაცემთა ნაკრებია დაყოფილი კონტინენტების მიხედვით.
პროდუქტებისა და სერვისების მიმოხილვები
განწყობის ანალიზმა აღმოაჩინა თავისი აპლიკაციები სხვადასხვა სფეროში, რაც ახლა ეხმარება საწარმოებს სწორად შეაფასონ და ისწავლონ თავიანთი კლიენტებისგან ან მომხმარებლებისგან. განწყობის ანალიზი სულ უფრო ხშირად გამოიყენება სოციალური მედიის მონიტორინგისთვის, ბრენდის მონიტორინგისთვის, მომხმარებლის ხმის (VoC), მომხმარებელთა მომსახურებისთვის და ბაზრის კვლევისთვის.
განწყობის ანალიზი იყენებს NLP-ს (ნეირო-ლინგვისტური პროგრამირება) მეთოდები და ალგორითმები, რომლებიც ან წესებზეა დაფუძნებული, ჰიბრიდული, ან ეყრდნობა მანქანური სწავლების ტექნიკას მონაცემთა ნაკრებიდან მონაცემების შესასწავლად.
სენტიმენტის ანალიზისთვის საჭირო მონაცემები სპეციალიზირებული უნდა იყოს და საჭიროა დიდი რაოდენობით. სენტიმენტების ანალიზის სასწავლო პროცესის ყველაზე რთული ნაწილი არის დიდი რაოდენობით მონაცემების მოძიება; ამის ნაცვლად, ეს არის შესაბამისი მონაცემთა ნაკრების პოვნა. ეს მონაცემთა ნაკრები უნდა მოიცავდეს განწყობის ანალიზის აპლიკაციებისა და გამოყენების შემთხვევების ფართო არეალს.
10. Amazon მიმოხილვები
ეს მონაცემთა ნაკრები შეიცავს დაახლოებით 35 მილიონ Amazon-ის მიმოხილვას, რომელიც მოიცავს შეგროვებული ინფორმაციის 18-წლიან პერიოდს. ეს არის პროდუქტის, მომხმარებლის და მიმოხილვის შინაარსის მონაცემთა ნაკრები.
11. Yelp მიმოხილვები
Yelp ასევე გთავაზობთ მონაცემთა ბაზას მისი სერვისიდან შეგროვებული ინფორმაციის საფუძველზე. არის 8 მილიონზე მეტი მიმოხილვა, 1 მილიონი რჩევა, პლუს თითქმის 1.5 მილიონი ატრიბუტი, რომლებიც დაკავშირებულია ბიზნესთან, როგორიცაა გახსნის საათები და ხელმისაწვდომობა.
12. IMDB მიმოხილვები
ეს მონაცემთა ბაზა შეიცავს 25 ათასზე მეტი ფილმის მიმოხილვის კომპლექტს ტრენინგისთვის და კიდევ 25 ათასზე არაფორმალურად აღებული ტესტებისთვის, რომლებიც აღებულია არაოფიციალურად ფილმების რეიტინგებში სპეციალიზებული IMDB გვერდიდან. ის ასევე გთავაზობთ არალეიბლირებულ მონაცემებს, როგორც დამატებით.
მონაცემთა ნაკრები ML-ში პირველი ნაბიჯებისთვის
13. ღვინის ხარისხის მონაცემთა ნაკრები
ეს მონაცემთა ნაკრები გვაწვდის ინფორმაციას ჩრდილოეთ პორტუგალიაში წარმოებულ ღვინოსთან, წითელ და მწვანესთან დაკავშირებით. მიზანია ფიზიკოქიმიური ტესტების საფუძველზე ღვინის ხარისხის დადგენა. საინტერესოა მათთვის, ვისაც სურს ივარჯიშოს პროგნოზირების სისტემის შექმნაზე.
14. ტიტანიკის მონაცემთა ნაკრები
ეს მონაცემთა ნაკრები შეიცავს ტიტანიკის 887 რეალური მგზავრის მონაცემებს, სადაც თითოეული სვეტი განსაზღვრავს გადარჩნენ თუ არა, მათ ასაკს, მგზავრთა კლასს, სქესს და ჩასხდომის საფასურს, რომელიც გადაიხადეს. ეს მონაცემთა ნაკრები იყო კაგლის პლატფორმის მიერ წამოწყებული გამოწვევის ნაწილი, რომლის მიზანი იყო მოდელის შექმნა, რომელსაც შეეძლო წინასწარ განსაზღვრა, თუ რომელი მგზავრი გადაურჩა ტიტანიკის ჩაძირვას.
პლატფორმები სხვა მონაცემთა ნაკრების მოსაძებნად
თუ გსურთ უფრო შორს წახვიდეთ და იპოვოთ თქვენი საკუთარი მონაცემთა ბაზა, საუკეთესო გზაა დაათვალიეროთ ყველაზე ცნობილი საცავი. მანქანა სწავლა სამყარო:
კაგლი
Kaggle, Google LLC-ის შვილობილი კომპანია, არის მონაცემთა მეცნიერთა და მანქანათმცოდნეობის პროფესიონალების ონლაინ საზოგადოება. Kaggle მომხმარებლებს აძლევს საშუალებას იპოვონ და გამოაქვეყნონ მონაცემთა ნაკრები, შეისწავლონ და შექმნან მოდელები ინტერნეტზე დაფუძნებულ მონაცემთა მეცნიერების გარემოში; მუშაობა სხვა მონაცემთა მეცნიერებთან და მანქანათმცოდნე ინჟინრებიდა მონაწილეობა მიიღოთ კონკურსებში მონაცემთა მეცნიერების გამოწვევების გადასაჭრელად.
Kaggle-მა 2010 წელს დაიწყო მანქანათმცოდნეობის კონკურსების შეთავაზებით და ახლა ასევე სთავაზობს საზოგადოებას მონაცემთა პლატფორმა, ღრუბელზე დაფუძნებული სამუშაო მაგიდა მონაცემთა მეცნიერებისა და ხელოვნური ინტელექტის განათლებისთვის.
მონაცემთა ნაკრების ძიება
Dataset Search არის Google-ის საძიებო სისტემა, რომელიც ეხმარება მკვლევარებს იპოვონ ონლაინ მონაცემები, რომლებიც თავისუფლად ხელმისაწვდომია გამოსაყენებლად. ინტერნეტში მილიონობით მონაცემთა ნაკრებია თქვენთვის საინტერესო თითქმის ნებისმიერი თემის შესახებ.
თუ თქვენ ეძებთ ლეკვის შეძენას, შეგიძლიათ იპოვოთ მონაცემთა ნაკრები, რომელიც აგროვებს ლეკვების მყიდველების საჩივრებს ან კვლევებს ლეკვის შემეცნებაზე. ან თუ მოგწონთ თხილამურებით სრიალი, შეგიძლიათ იპოვოთ მონაცემები სათხილამურო კურორტების შემოსავლების ან ტრავმების მაჩვენებლებისა და მონაწილეობის ნომრების შესახებ. მონაცემთა ნაკრების ძიებამ მოახდინა ამ მონაცემთა ნაკრების თითქმის 25 მილიონი ინდექსირება, რაც გაძლევთ ერთ ადგილს მონაცემთა ნაკრების მოსაძებნად და ბმულების მოსაძებნად, სადაც არის მონაცემები.
UCI მანქანათმცოდნეობის საცავი
UCI Machine Learning Repository არის მონაცემთა ბაზების, დომენის თეორიებისა და მონაცემთა გენერატორების კრებული, რომელსაც იყენებს Machine Learning საზოგადოება მანქანათმცოდნეობის ალგორითმების ემპირიული ანალიზისთვის. არქივი შეიქმნა როგორც ftp არქივი 1987 წელს დევიდ აჰას და კოლეგების კურსდამთავრებულების მიერ UC Irvine-ში.
მას შემდეგ მას ფართოდ იყენებენ სტუდენტები, პედაგოგები და მკვლევარები მთელ მსოფლიოში, როგორც ML მონაცემთა ნაკრების პირველადი წყარო. როგორც არქივის გავლენის მანიშნებელია, ის 1000-ზე მეტჯერ იქნა ციტირებული, რაც მას ერთ-ერთ ტოპ 100 ყველაზე ციტირებულ „ნაშრომს“ აქცევს მთელ კომპიუტერულ მეცნიერებაში.
კანდლ
Quandl არის პლატფორმა, რომელიც მომხმარებლებს სთავაზობს ეკონომიკურ, ფინანსურ და ალტერნატიულ მონაცემთა ნაკრებებს. მომხმარებლებს შეუძლიათ ჩამოტვირთოთ უფასო მონაცემები, იყიდონ ფასიანი მონაცემები ან გაყიდონ მონაცემები Quandl-ზე. ეს შეიძლება იყოს სასარგებლო ინსტრუმენტი განვითარებისთვის სავაჭრო ალგორითმები, მაგალითად.
დასკვნა
ამ ინსტრუმენტების შესწავლით, თქვენ ნამდვილად იპოვით შესანიშნავ ინფორმაციას თქვენი პროექტებისთვის. დარწმუნდით, რომ აირჩიეთ მონაცემთა ნაკრები, რომელიც ყველაზე მეტად შეეფერება თქვენს სპეციფიკურ საჭიროებებს და ყოველთვის გაითვალისწინეთ: ეს ეხება არა მხოლოდ რაოდენობას, არამედ ხარისხსაც. მონაცემთა ნაკრები არის ნებისმიერის საფუძველი მანქანათმცოდნეობის პროექტი და აუცილებელია ხარისხიან მონაცემებზე დაყრდნობით, რათა თავიდან ავიცილოთ არასწორი დასკვნების გამოტანის რისკი.
დატოვე პასუხი