अनुक्रमणिका[लपवा][दाखवा]
- 1. CelebFaces विशेषता डेटासेट
- 2. DOTA
- 3. Google चेहर्यावरील अभिव्यक्ती तुलना डेटासेट
- 4. व्हिज्युअल जीनोम
- 5. लिब्रीस्पीच
- 6. सिटीस्पेसेस
- 7. गतीशास्त्र डेटासेट
- 8. सेलेबमास्क-मुख्यालय
- 9. पेन ट्रीबँक
- 10. VoxCeleb
- 11. SIXray
- 12. यूएस अपघात
- 13. नेत्र रोग ओळख
- 14. हृदयरोग
- 15. CLEVR
- 16. सार्वत्रिक अवलंबित्व
- 17. KITTI – 360
- 18. MOT (एकाधिक ऑब्जेक्ट ट्रॅकिंग)
- 19. PASCAL 3D+
- 20. प्राण्यांचे चेहर्याचे विकृत मॉडेल
- 21. MPII मानवी पोस्ट डेटासेट
- 22. UCF101
- 23. ऑडिओसेट
- 24. स्टॅनफोर्ड नॅचरल लँग्वेज इन्फरन्स
- 25. व्हिज्युअल प्रश्नाचे उत्तर देणे
- निष्कर्ष
आजकाल, आपल्यापैकी बरेच जण मशीन लर्निंग आणि एआय मॉडेल विकसित करण्यावर आणि वर्तमान डेटासेट वापरून समस्यांचे निराकरण करण्यावर लक्ष केंद्रित करत आहेत. परंतु प्रथम, आपण डेटासेट, त्याचे महत्त्व आणि मजबूत AI आणि ML उपाय विकसित करण्यात त्याची भूमिका परिभाषित केली पाहिजे.
आज, आमच्याकडे ओपन-सोर्स डेटासेट आहेत ज्यावर संशोधन करण्यासाठी किंवा विविध क्षेत्रातील वास्तविक-जगातील समस्या हाताळण्यासाठी अनुप्रयोग विकसित करण्यासाठी.
तथापि, उच्च-गुणवत्तेच्या परिमाणात्मक डेटासेटची कमतरता चिंतेचे कारण आहे. डेटा प्रचंड वाढला आहे आणि भविष्यात अधिक वेगाने विस्तारत राहील.
या पोस्टमध्ये, आम्ही मुक्तपणे उपलब्ध डेटासेट कव्हर करू जे तुम्ही तुमचा पुढील AI प्रकल्प विकसित करण्यासाठी वापरू शकता.
1. CelebFaces विशेषता डेटासेट
CelebFaces Attributes Dataset (CelebA) मध्ये 200K हून अधिक सेलिब्रिटी फोटो आणि प्रत्येक प्रतिमेसाठी 40 विशेषता भाष्ये आहेत, ज्यामुळे ते प्रकल्पांसाठी एक उत्कृष्ट प्रारंभ बिंदू बनते. चेहरा ओळख, फेस डिटेक्शन, लँडमार्क (किंवा चेहर्याचा घटक) लोकॅलायझेशन आणि फेस एडिटिंग आणि सिंथेसिस. शिवाय, या संग्रहातील फोटोंमध्ये पोझिशन वेरिएंट आणि बॅकड्रॉप क्लटरची विस्तृत श्रेणी आहे.
2. डोटा
DOTA (चा डेटासेट ऑब्जेक्ट डिटेक्शन एरिअल फोटोजमध्ये) ऑब्जेक्ट शोधण्यासाठी मोठ्या प्रमाणात डेटासेट आहे ज्यामध्ये 15 सामान्य श्रेणी (उदा. जहाज, विमान, कार इ.), प्रशिक्षणासाठी 1411 प्रतिमा आणि प्रमाणीकरणासाठी 458 प्रतिमा समाविष्ट आहेत.
3. Google चेहर्यावरील अभिव्यक्ती तुलना डेटासेट
Google चेहर्यावरील अभिव्यक्ती तुलना डेटासेटमध्ये 500,000 चेहर्यावरील फोटोंसह सुमारे 156,000 चित्र तिहेरी आहेत. हे लक्षात घेण्यासारखे आहे की या डेटासेटमधील प्रत्येक तिहेरी किमान सहा मानवी रेटर्सद्वारे भाष्य केले गेले.
हा डेटासेट चेहरा अभिव्यक्ती विश्लेषणाचा समावेश असलेल्या प्रकल्पांसाठी उपयुक्त आहे, जसे की अभिव्यक्ती-आधारित चित्र पुनर्प्राप्ती, भावना वर्गीकरण, अभिव्यक्ती संश्लेषण इ. डेटासेटमध्ये प्रवेश मिळविण्यासाठी, एक संक्षिप्त फॉर्म पूर्ण करणे आवश्यक आहे.
4. व्हिज्युअल जीनोम
व्हिज्युअल जीनोममध्ये मल्टी-चॉइस वातावरणात व्हिज्युअल प्रश्न उत्तर देणारा डेटा उपलब्ध आहे. हे 101,174 दशलक्ष QA जोड्यांसह 1.7 MSCOCO फोटोंनी बनलेले आहे, प्रति प्रतिमा सरासरी 17 प्रश्न आहेत.
व्हिज्युअल प्रश्न उत्तर देणाऱ्या डेटासेटच्या तुलनेत, व्हिज्युअल जीनोम डेटासेटमध्ये सहा प्रश्न प्रकारांमध्ये अधिक न्याय्य वितरण आहे: काय, कुठे, कधी, कोण, का आणि कसे.
याव्यतिरिक्त, व्हिज्युअल जीनोम डेटासेटमध्ये 108K फोटो समाविष्ट आहेत जे ऑब्जेक्ट्स, गुणधर्म आणि कनेक्शनसह जोरदारपणे टॅग केले गेले आहेत.
5. लिब्री स्पीच
LibriSpeech कॉर्पस हा LibriVox प्रकल्पातील सुमारे 1,000 तासांच्या ऑडिओबुकचा संग्रह आहे. बहुसंख्य ऑडिओबुक प्रोजेक्ट गुटेनबर्ग पासून उगम पावतात.
प्रशिक्षण डेटा 100hr, 360hr आणि 500hr सेटच्या तीन विभाजनांमध्ये विभागलेला आहे, तर डेव्ह आणि चाचणी डेटा अंदाजे 5 तास ऑडिओ लांबीचा आहे.
6. सिटीस्पेसेस
शहरी दृश्यांसह स्टिरीओ व्हिडिओंच्या सर्वात प्रसिद्ध मोठ्या प्रमाणातील डेटाबेसला सिटीस्केप्स म्हणतात.
GPS स्थाने, बाह्य तापमान, अहंकार-मोशन डेटा आणि योग्य स्टिरिओ दृष्टीकोन समाविष्ट असलेल्या पिक्सेल-अचूक भाष्यांसह, यात 50 वेगळ्या जर्मन शहरांमधील रेकॉर्डिंगचा समावेश आहे.
7. गतीशास्त्र डेटासेट
मानवी क्रियाकलाप मोठ्या प्रमाणावर आणि चांगल्या गुणवत्तेसह ओळखण्यासाठी सर्वात प्रसिद्ध व्हिडिओ डेटासेटपैकी एक म्हणजे कायनेटिक्स डेटासेट. प्रत्येक 600 मानवी क्रियाकलाप वर्गासाठी किमान 600 व्हिडिओ क्लिप आहेत, एकूण 500,000 पेक्षा जास्त.
यूट्यूबवरून चित्रपट काढले; प्रत्येक एक सुमारे 10 सेकंद लांब आहे आणि फक्त एक क्रियाकलाप वर्ग सूचीबद्ध आहे.
8. सेलेबमास्क-मुख्यालय
CelebAMask-HQ हा 30,000 उच्च-रिझोल्यूशन चेहर्यावरील फोटोंचा संग्रह आहे ज्यात काळजीपूर्वक भाष्य केलेले मुखवटे आणि 19 वर्ग आहेत ज्यात त्वचा, नाक, डोळे, भुवया, कान, तोंड, ओठ, केस, टोपी, चष्मा, कानातले, हार, यांसारखे चेहर्याचे घटक समाविष्ट आहेत. मान, साहित्य.
फेस-जनरेटिंग आणि एडिटिंग अल्गोरिदमसाठी फेस रेकग्निशन, फेस पार्सिंग आणि GAN ची चाचणी आणि प्रशिक्षित करण्यासाठी डेटासेटचा वापर केला जाऊ शकतो.
9. पेन ट्रीबँक
अनुक्रम टॅगिंगसाठी मॉडेलच्या मूल्यांकनासाठी सर्वात लक्षणीय आणि वारंवार वापरल्या जाणार्या कॉर्पोरापैकी एक म्हणजे इंग्लिश पेन ट्रीबँक (PTB) कॉर्पस, विशेषतः वॉल स्ट्रीट जर्नलच्या लेखांशी संबंधित कॉर्पसचा भाग.
प्रत्येक शब्दाचा भाषणाचा भाग कार्याचा एक घटक म्हणून टॅग केलेला असणे आवश्यक आहे. वर्ण-स्तर आणि शब्द-स्तर भाषा मॉडेलिंग तसेच वारंवार कॉर्पस वापरते.
10. VoxCeleb
VoxCeleb हा मोठ्या प्रमाणात स्पीच आयडेंटिफिकेशन डेटासेट आहे जो आपोआप तयार होतो मुक्त स्रोत माध्यम. VoxCeleb कडे 6k पेक्षा जास्त स्पीकर्सचे दशलक्षाहून अधिक उच्चार आहेत.
डेटासेटमध्ये ऑडिओ-व्हिज्युअलचा समावेश असल्याने, ते व्हिज्युअल स्पीच सिंथेसिस, स्पीच सेपरेशन, क्रॉस-मॉडल ट्रान्सफर मधून व्हॉइस किंवा उलट, आणि वर्तमान चेहरा ओळख पूरक करण्यासाठी व्हिडिओवरून चेहरा ओळखण्याचे प्रशिक्षण यासह विविध अतिरिक्त अनुप्रयोगांसाठी वापरले जाऊ शकते. डेटासेट
11. सहा रे
SIXray डेटासेटमध्ये 1,059,231 क्ष-किरण चित्रे समाविष्ट आहेत जी भुयारी रेल्वे स्थानकांवरून गोळा केली जातात आणि मानवी सुरक्षा निरीक्षकांनी सहा मुख्य प्रकारच्या निषिद्ध वस्तू शोधण्यासाठी भाष्य केले आहेत: पिस्तूल, चाकू, पाना, पक्कड, कात्री आणि हातोडे. शिवाय, ऑब्जेक्ट लोकॅलायझेशनच्या कार्यक्षमतेचे मूल्यमापन करण्यासाठी प्रत्येक अनुमती नसलेल्या आयटमसाठी बाउंडिंग बॉक्स मॅन्युअली चाचणी सेटमध्ये जोडले गेले आहेत.
12. यूएस अपघात
यूएस अॅक्सिडेंट्स या डेटासेटच्या नावाने प्रकल्पाचा पदार्थ आधीच उघड झाला आहे. देशभरातील ऑटोमोबाईल अपघातांवरील या डेटासेटमध्ये फेब्रुवारी 2016 ते डिसेंबर 2021 पर्यंतची माहिती समाविष्ट आहे आणि यूएसए मधील 49 राज्ये समाविष्ट आहेत.
अंदाजे 1.5 दशलक्ष अपघाताच्या नोंदी आता या संग्रहात आहेत. अनेक ट्रॅफिक API चा वापर करून ते रिअल-टाइममध्ये एकत्र केले गेले.
हे API ट्रॅफिक कॅमेरे, कायद्याची अंमलबजावणी संस्था आणि यूएस आणि राज्य परिवहन विभागांसह विविध स्त्रोतांकडून जमा केलेली रहदारी माहिती प्रसारित करतात.
13. नेत्र रोग ओळख
ऑक्युलर डिसीज इंटेलिजेंट रिकग्निशन (ODIR) ऑप्थॅल्मिक डेटाबेस ऑक्युलर डिसीज इंटेलिजेंट रिकग्निशन (ODIR)मध्ये 5,000 रूग्णांचे वय, त्यांच्या डाव्या आणि उजव्या डोळ्यांमध्ये फंडसचा रंग आणि वैद्यकीय व्यवसायिकांचे डायग्नोस्टिक कीवर्ड यांचा समावेश आहे.
हा डेटासेट चीनमधील शांगगॉन्ग मेडिकल टेक्नॉलॉजी कं, लिमिटेड ने विकत घेतलेल्या चीनमधील विविध रुग्णालये आणि वैद्यकीय सुविधांकडील रुग्ण डेटाचा वास्तविक संग्रह आहे. सह गुणवत्ता नियंत्रण व्यवस्थापन, भाष्ये कुशल मानवी वाचकांद्वारे टॅग केली गेली.
14. हृदयरोग
हा हृदयरोग डेटासेट वय, लिंग, छातीत दुखण्याचे प्रकार, विश्रांतीचा रक्तदाब इत्यादी 76 पॅरामीटर्सच्या आधारे रुग्णामध्ये हृदयविकाराचे अस्तित्व ओळखण्यात मदत करतो.
303 प्रकरणांसह, डेटाबेस आजाराचे अस्तित्व (मूल्य 1,2,3,4) त्याच्या अनुपस्थितीपासून (मूल्य 0) वेगळे करण्याचा प्रयत्न करतो.
15. CLEVR
CLEVR डेटासेट (रचनात्मक भाषा आणि प्राथमिक व्हिज्युअल रिझनिंग) व्हिज्युअल प्रश्न उत्तराची नक्कल करते. यात 3D-रेंडर केलेल्या वस्तूंची छायाचित्रे असतात, ज्यामध्ये प्रत्येक छायाचित्रासह अनेक श्रेणींमध्ये विभागलेल्या अत्यंत रचनात्मक प्रश्नांची मालिका असते.
सर्व ट्रेन आणि प्रमाणीकरण चित्रे आणि प्रश्नांसाठी, डेटासेटमध्ये 70,000 छायाचित्रे आणि प्रशिक्षणासाठी 700,000 प्रश्न, 15,000 प्रतिमा आणि प्रमाणीकरणासाठी 150,000 प्रश्न, आणि 15,000 प्रतिमा आणि 150,000 प्रश्नांचा समावेश आहे.
16. सार्वत्रिक अवलंबित्व
युनिव्हर्सल डिपेंडेन्सीज (UD) प्रकल्पाचा उद्देश अनेक भाषांसाठी क्रॉस-भाषिकदृष्ट्या एकसमान आकारविज्ञान आणि वाक्यरचना ट्रीबँक भाष्य तयार करणे आहे. 2.7 मध्ये रिलीज झालेल्या आवृत्ती 2020 मध्ये 183 भाषांमध्ये 104 ट्रीबँक्स आहेत.
भाष्य युनिव्हर्सल POW टॅग, अवलंबन हेड आणि युनिव्हर्सल डिपेंडेंसी लेबल्सचे बनलेले आहे.
17. KITTI - 360
मोबाईल रोबोट्ससाठी सर्वाधिक वापरल्या जाणार्या डेटासेटपैकी एक आणि स्वायत्त वाहन चालविणे KITTI (Karlsruhe Institute of Technology आणि Toyota Technological Institute) आहे.
हे तासांच्या किमतीच्या ट्रॅफिक परिस्थितींनी बनलेले आहे जे उच्च-रिझोल्यूशन RGB, ग्रेस्केल स्टिरिओ आणि 3D लेसर स्कॅनर कॅमेरे यासारख्या सेन्सर पद्धतींच्या श्रेणीचा वापर करून कॅप्चर केले होते. डेटासेट वेळोवेळी अनेक संशोधकांनी सुधारला आहे ज्यांनी त्यांच्या गरजेनुसार त्यातील विविध भाग व्यक्तिचलितपणे भाष्य केले.
18. MOT (एकाधिक ऑब्जेक्ट ट्रॅकिंग)
एमओटी (मल्टिपल ऑब्जेक्ट ट्रॅकिंग) हा एकाधिक ऑब्जेक्ट ट्रॅकिंगसाठी डेटासेट आहे ज्यामध्ये सार्वजनिक स्थानांच्या इनडोअर आणि आउटडोअर दृश्यांचा समावेश आहे ज्यामध्ये पादचाऱ्यांना स्वारस्य असलेल्या वस्तूंचा समावेश आहे. प्रत्येक दृश्याचा व्हिडिओ दोन तुकड्यांमध्ये मोडला आहे, एक प्रशिक्षणासाठी आणि दुसरा चाचणीसाठी.
डेटासेटमध्ये समाविष्ट आहे ऑब्जेक्ट शोधणे तीन डिटेक्टर वापरून व्हिडिओ फ्रेम्समध्ये: SDP, Faster-RCNN आणि DPM.
19. पास्कल 3D+
Pascal3D+ मल्टि-व्ह्यू डेटासेट हा जंगलात गोळा केलेल्या छायाचित्रांचा बनलेला आहे, म्हणजे, उच्च परिवर्तनशीलता असलेल्या, अनियंत्रित परिस्थितीत, गर्दीच्या वातावरणात आणि विविध पोझिशनमध्ये कॅप्चर केलेल्या आयटम श्रेणींच्या प्रतिमा. Pascal3D+ मध्ये PASCAL VOC 12 डेटासेटमधून काढलेल्या 2012 कठोर ऑब्जेक्ट श्रेणींचा समावेश आहे.
या वस्तूंवर चिन्हांकित मुद्रा माहिती असते (अजीमुथ, उंची आणि कॅमेऱ्याचे अंतर). Pascal3D+ मध्ये या 12 श्रेणींमध्ये ImageNet कलेक्शनमधील पोझ-एनोटेटेड फोटो देखील समाविष्ट आहेत.
20. प्राण्यांचे चेहर्याचे विकृत मॉडेल
फेशियल डिफॉर्मेबल मॉडेल्स ऑफ अॅनिमल्स (FDMA) प्रकल्पाचे उद्दिष्ट मानवी चेहऱ्याच्या लँडमार्क ओळख आणि ट्रॅकिंगमधील सध्याच्या पद्धतींना आव्हान देणे आणि नवीन अल्गोरिदम विकसित करणे आहे जे प्राण्यांच्या चेहऱ्याच्या वैशिष्ट्यांचे वैशिष्ट्य असलेल्या मोठ्या परिवर्तनशीलतेला सामोरे जाऊ शकतात.
प्रोजेक्टच्या अल्गोरिदमने चेहऱ्यावरील भावना किंवा स्थिती, आंशिक अडथळे आणि प्रकाशयोजनेतील बदलांमुळे उद्भवलेल्या फरकांना सामोरे जाताना मानवी चेहऱ्यावरील खुणा ओळखण्याची आणि ट्रॅक करण्याची क्षमता प्रदर्शित केली.
21. MPII मानवी पोस्ट डेटासेट
MPII मानवी पोज डेटासेटमध्ये सुमारे 25K फोटो आहेत, त्यापैकी 15K प्रशिक्षण नमुने आहेत, त्यापैकी 3K प्रमाणीकरण नमुने आहेत आणि 7K चाचणी नमुने आहेत.
पोझिशन्सवर मॅन्युअली 16 शारीरिक जोड्यांसह लेबल केले जाते आणि छायाचित्रे 410 विविध मानवी क्रियाकलापांचा समावेश असलेल्या YouTube चित्रपटांमधून घेतले जातात.
22. यूसीएफ 101
UCF101 डेटासेटमध्ये 13,320 श्रेणींमध्ये आयोजित केलेल्या 101 व्हिडिओ क्लिप आहेत. या 101 श्रेणी पाच श्रेणींमध्ये विभागल्या आहेत: शारीरिक हालचाली, मानवी-मानवी परस्परसंवाद, मानवी-वस्तू परस्परसंवाद, वाद्य वाजवणे आणि खेळ.
व्हिडिओ YouTube वरील आहेत आणि कालावधीत 27 तासांचा समावेश आहे.
23. ऑडिओसेट
ऑडिओसेट हा एक ऑडिओ इव्हेंट डेटासेट आहे जो 2 दशलक्षाहून अधिक मानवी-भाष्य केलेल्या 10-सेकंद व्हिडिओ विभागांनी बनलेला आहे. या डेटावर भाष्य करण्यासाठी, 632 इव्हेंट प्रकारांचा समावेश असलेले एक श्रेणीबद्ध ऑन्टोलॉजी वापरले जाते, जे सूचित करते की समान ध्वनी वेगळ्या प्रकारे लेबल केले जाऊ शकते.
24. स्टॅनफोर्ड नॅचरल लँग्वेज इन्फरन्स
SNLI डेटासेट (Stanford Natural Language Inference) मध्ये 570k वाक्य जोड्यांचा समावेश आहे ज्यांना व्यक्तिचलितपणे entailment, contradiction किंवा neutral म्हणून वर्गीकृत केले आहे.
परिसर हे Flickr30k चित्र वर्णने आहेत, तर गृहितके क्राउड-सोर्स केलेल्या भाष्यकारांद्वारे विकसित केली गेली होती ज्यांना एक आधार प्रदान करण्यात आला होता आणि त्यांना अंतर्भूत, विरोधाभासी आणि तटस्थ विधाने व्युत्पन्न करण्यासाठी निर्देश दिले होते.
25. व्हिज्युअल प्रश्नांची उत्तरे
व्हिज्युअल प्रश्न उत्तरे (VQA) हा एक डेटासेट आहे ज्यामध्ये चित्रांसंबंधी मुक्त प्रश्न असतात. या प्रश्नांची उत्तरे देण्यासाठी, तुम्हाला दृष्टी, भाषा आणि सामान्य ज्ञान समजून घेणे आवश्यक आहे.
निष्कर्ष
मशीन लर्निंग आणि आर्टिफिशियल इंटेलिजन्स (AI) व्यावहारिकदृष्ट्या प्रत्येक व्यवसायात आणि आपल्या दैनंदिन जीवनात अधिक प्रचलित होत असल्याने, या विषयावर उपलब्ध संसाधने आणि माहितीची संख्या वाढते.
रेडीमेड सार्वजनिक डेटासेट एआय मॉडेल्स विकसित करण्यासाठी एक उत्कृष्ट प्रारंभ बिंदू प्रदान करतात आणि अनुभवी ML प्रोग्रामरना वेळ वाचवण्यास आणि त्यांच्या प्रकल्पांच्या इतर घटकांवर लक्ष केंद्रित करण्यास अनुमती देतात.
प्रत्युत्तर द्या