विषय - सूची[छिपाना][प्रदर्शन]
- 1. CelebFaces डेटासेट को विशेषता देता है
- 2. डोटा
- 3. गूगल फेशियल एक्सप्रेशन तुलना डेटासेट
- 4. दृश्य जीनोम
- 5. लिबरीस्पीच
- 6. सिटीस्पेस
- 7. कैनेटीक्स डेटासेट
- 8. सेलेबमास्क-मुख्यालय
- 9. पेन ट्रीबैंक
- 10. वोक्ससेलेब
- 11. सिक्सरे
- 12. अमेरिकी दुर्घटनाएं
- 13. नेत्र रोग पहचान
- 14। दिल की बीमारी
- 15. क्लीवर
- 16. सार्वभौमिक निर्भरता
- 17. किट्टी - 360
- 18. एमओटी (एकाधिक वस्तु ट्रैकिंग)
- 19. पास्कल 3डी+
- 20. जानवरों के चेहरे के विकृत मॉडल
- 21. MPII मानव पोस्ट डेटासेट
- 22. यूसीएफ101
- 23. ऑडियोसेट
- 24. स्टैनफोर्ड प्राकृतिक भाषा निष्कर्ष
- 25. दृश्य प्रश्न उत्तर
- निष्कर्ष
आजकल, हम में से अधिकांश मशीन लर्निंग और एआई मॉडल विकसित करने और वर्तमान डेटासेट का उपयोग करके मुद्दों को संबोधित करने पर ध्यान केंद्रित कर रहे हैं। लेकिन सबसे पहले, हमें मजबूत एआई और एमएल समाधान विकसित करने में एक डेटासेट, उसके महत्व और उसकी भूमिका को परिभाषित करना चाहिए।
आज, हमारे पास ओपन-सोर्स डेटासेट का ढेर है, जिस पर विभिन्न क्षेत्रों में वास्तविक दुनिया के मुद्दों से निपटने के लिए अनुसंधान करने या एप्लिकेशन विकसित करने के लिए।
हालांकि, उच्च गुणवत्ता वाले मात्रात्मक डेटासेट की कमी चिंता का एक स्रोत है। डेटा में अत्यधिक वृद्धि हुई है और भविष्य में इसका विस्तार तेजी से होता रहेगा।
इस पोस्ट में, हम स्वतंत्र रूप से उपलब्ध डेटासेट को कवर करेंगे जिनका उपयोग आप अपने अगले AI प्रोजेक्ट को विकसित करने के लिए कर सकते हैं।
1. सेलेबफेस एट्रीब्यूट्स डेटासेट
CelebFaces एट्रिब्यूट्स डेटासेट (CelebA) में 200K से अधिक सेलिब्रिटी फ़ोटो और प्रत्येक छवि के लिए 40 विशेषता एनोटेशन शामिल हैं, जो इसे प्रोजेक्ट के लिए एक उत्कृष्ट प्रारंभिक बिंदु बनाता है जैसे चेहरा पहचान, फेस डिटेक्शन, लैंडमार्क (या फेशियल कंपोनेंट) लोकलाइजेशन, और फेस एडिटिंग और सिंथेसिस। इसके अलावा, इस संग्रह की तस्वीरों में विभिन्न प्रकार की स्थिति और पृष्ठभूमि अव्यवस्था शामिल है।
2. DOTA
DOTA (का डेटासेट) ऑब्जेक्ट डिटेक्शन एरियल फोटोज में) ऑब्जेक्ट डिटेक्शन के लिए एक बड़े पैमाने पर डेटासेट है जिसमें 15 सामान्य श्रेणियां (जैसे, जहाज, विमान, कार, आदि), प्रशिक्षण के लिए 1411 चित्र और सत्यापन के लिए 458 चित्र शामिल हैं।
3. Google चेहरे की अभिव्यक्ति तुलना डेटासेट
Google चेहरे की अभिव्यक्ति तुलना डेटासेट में लगभग 500,000 चित्र ट्रिपल हैं, जिसमें 156,000, XNUMX चेहरे की तस्वीरें शामिल हैं। यह ध्यान देने योग्य है कि इस डेटासेट में प्रत्येक ट्रिपल को कम से कम छह मानव चूहे द्वारा एनोटेट किया गया था।
यह डेटासेट चेहरे की अभिव्यक्ति विश्लेषण से जुड़ी परियोजनाओं के लिए उपयोगी है, जैसे कि अभिव्यक्ति-आधारित चित्र पुनर्प्राप्ति, भावना वर्गीकरण, अभिव्यक्ति संश्लेषण, और इसी तरह। डेटासेट तक पहुंच प्राप्त करने के लिए, एक संक्षिप्त फ़ॉर्म को पूरा करना होगा।
4. दृश्य जीनोम
विजुअल क्वेश्चन आंसरिंग डेटा एक बहुविकल्पीय वातावरण में विजुअल जीनोम में उपलब्ध है। यह 101,174 मिलियन क्यूए जोड़े के साथ 1.7 एमएससीओसीओ फोटो से बना है, जिसमें प्रति छवि औसतन 17 प्रश्न हैं।
विज़ुअल क्वेश्चन आंसरिंग डेटासेट की तुलना में, विज़ुअल जीनोम डेटासेट का छह प्रकार के प्रश्नों में अधिक निष्पक्ष वितरण होता है: क्या, कहाँ, कब, कौन, क्यों और कैसे।
इसके अलावा, विजुअल जीनोम डेटासेट में 108K तस्वीरें शामिल होती हैं जिन्हें वस्तुओं, गुणों और कनेक्शन के साथ भारी रूप से टैग किया गया है।
5. लिबरीस्पीच
LibriSpeech corpus LibriVox प्रोजेक्ट से लगभग 1,000 घंटे की ऑडियोबुक का संग्रह है। अधिकांश ऑडियोबुक प्रोजेक्ट गुटेनबर्ग से उत्पन्न होते हैं।
प्रशिक्षण डेटा को 100hr, 360hr और 500hr सेट के तीन विभाजनों में विभाजित किया गया है, जबकि देव और परीक्षण डेटा ऑडियो लंबाई में लगभग 5hr हैं।
6. सिटीस्पेस
शहरी दृश्यों के साथ स्टीरियो वीडियो के सबसे प्रसिद्ध बड़े पैमाने के डेटाबेस में से एक को सिटीस्केप कहा जाता है।
पिक्सेल-सटीक एनोटेशन के साथ जिसमें जीपीएस स्थान, बाहरी तापमान, अहंकार-गति डेटा और सही स्टीरियो परिप्रेक्ष्य शामिल हैं, इसमें 50 अलग-अलग जर्मन शहरों की रिकॉर्डिंग शामिल हैं।
7. कैनेटीक्स डेटासेट
मानव गतिविधि को बड़े पैमाने पर और अच्छी गुणवत्ता के साथ पहचानने के लिए सबसे प्रसिद्ध वीडियो डेटासेट में से एक काइनेटिक्स डेटासेट है। 600 मानव गतिविधि वर्गों में से प्रत्येक के लिए कम से कम 600 वीडियो क्लिप हैं, जो कुल मिलाकर 500,000 से अधिक हैं।
फिल्में YouTube से खींची गई थीं; प्रत्येक लगभग 10 सेकंड लंबा है और इसमें केवल एक गतिविधि वर्ग सूचीबद्ध है।
8. सेलेबमास्क-मुख्यालय
CelebAMask-HQ सावधानीपूर्वक एनोटेट किए गए मास्क और 30,000 वर्गों के साथ 19 उच्च-रिज़ॉल्यूशन चेहरे की तस्वीरों का एक संग्रह है जिसमें चेहरे के घटक जैसे त्वचा, नाक, आंखें, भौंह, कान, मुंह, होंठ, बाल, टोपी, चश्मा, कान की बाली, हार, गर्दन, सामग्री।
डेटासेट का उपयोग फेस-जनरेटिंग और एडिटिंग एल्गोरिदम के लिए फेस रिकग्निशन, फेस पार्सिंग और GAN के परीक्षण और प्रशिक्षण के लिए किया जा सकता है।
9. पेन ट्रीबैंक
अनुक्रम टैगिंग के लिए मॉडलों के मूल्यांकन के लिए सबसे उल्लेखनीय और अक्सर उपयोग किए जाने वाले निगमों में से एक अंग्रेजी पेन ट्रीबैंक (पीटीबी) कॉर्पस है, विशेष रूप से वॉल स्ट्रीट जर्नल लेखों से संबंधित कॉर्पस का हिस्सा।
प्रत्येक शब्द में भाषण का अपना हिस्सा कार्य के एक घटक के रूप में टैग होना चाहिए। चरित्र-स्तर और शब्द-स्तर भाषा मॉडलिंग भी अक्सर कोष का उपयोग करता है।
10. वोक्ससेलेब
VoxCeleb एक बड़े पैमाने पर भाषण पहचान डेटासेट है जो स्वचालित रूप से उत्पन्न होता है ओपन सोर्स मीडिया. VoxCeleb के पास 6k से अधिक वक्ताओं के एक मिलियन से अधिक उच्चारण हैं।
चूंकि डेटासेट में ऑडियो-विज़ुअल शामिल होता है, इसलिए इसका उपयोग विभिन्न प्रकार के अतिरिक्त अनुप्रयोगों के लिए किया जा सकता है, जिसमें दृश्य भाषण संश्लेषण, भाषण पृथक्करण, चेहरे से आवाज या इसके विपरीत क्रॉस-मोडल स्थानांतरण, और वर्तमान चेहरे की पहचान के पूरक के लिए वीडियो से प्रशिक्षण चेहरा पहचान शामिल है। डेटासेट
11. सिक्सरे
सिक्सरे डेटासेट में 1,059,231 एक्स-रे चित्र शामिल हैं जो मेट्रो स्टेशनों से एकत्र किए गए हैं और मानव सुरक्षा निरीक्षकों द्वारा छह मुख्य प्रकार की निषिद्ध वस्तुओं का पता लगाने के लिए एनोटेट किए गए हैं: पिस्तौल, चाकू, रिंच, सरौता, कैंची और हथौड़े। इसके अलावा, ऑब्जेक्ट स्थानीयकरण के प्रदर्शन का मूल्यांकन करने के लिए प्रत्येक अस्वीकृत आइटम के लिए बाउंडिंग बॉक्स मैन्युअल रूप से परीक्षण सेट में जोड़े गए हैं।
12. अमेरिकी दुर्घटनाएं
प्रोजेक्ट का सार डेटासेट, यूएस एक्सीडेंट्स के नाम से पहले ही प्रकट हो चुका है। राष्ट्रव्यापी ऑटोमोबाइल दुर्घटनाओं पर इस डेटासेट में फरवरी 2016 से दिसंबर 2021 तक की जानकारी शामिल है और इसमें यूएसए के 49 राज्यों को शामिल किया गया है।
इस संग्रह में अब लगभग 1.5 मिलियन दुर्घटना रिकॉर्ड मौजूद हैं। इसे कई ट्रैफिक एपीआई का उपयोग करके वास्तविक समय में इकट्ठा किया गया था।
ये एपीआई ट्रैफिक कैमरे, कानून प्रवर्तन संगठनों और यूएस और राज्य के परिवहन विभागों सहित विभिन्न स्रोतों से एकत्र की गई ट्रैफ़िक जानकारी को प्रसारित करते हैं।
13. नेत्र रोग पहचान
ऑर्गनाइज्ड ऑप्थेल्मिक डेटाबेस ओकुलर डिजीज इंटेलिजेंट रिकॉग्निशन (ओडीआईआर) में 5,000 रोगियों की जानकारी शामिल है, जिसमें उनकी उम्र, उनकी बाईं और दाईं आंखों में फंडस का रंग और चिकित्सा पेशेवरों के डायग्नोस्टिक कीवर्ड शामिल हैं।
यह डेटासेट चीन में विभिन्न अस्पतालों और चिकित्सा सुविधाओं से रोगी डेटा का एक वास्तविक संग्रह है जिसे शांगगोंग मेडिकल टेक्नोलॉजी कं, लिमिटेड ने हासिल किया है। साथ गुणवत्ता नियंत्रण प्रबंधन, कुशल मानव पाठकों द्वारा एनोटेशन को टैग किया गया था।
14. दिल की बीमारी
यह हृदय रोग डेटासेट 76 मापदंडों जैसे उम्र, लिंग, सीने में दर्द, आराम करने वाले रक्तचाप आदि के आधार पर रोगी में हृदय रोग के अस्तित्व की पहचान करने में सहायता करता है।
303 मामलों के साथ, डेटाबेस केवल एक बीमारी के अस्तित्व (मान 1,2,3,4) को उसकी अनुपस्थिति (मान 0) से अलग करना चाहता है।
15. चतुर
CLEVR डेटासेट (रचनात्मक भाषा और प्राथमिक दृश्य तर्क) दृश्य प्रश्न उत्तर की नकल करता है। इसमें 3डी-रेंडर की गई वस्तुओं की तस्वीरें होती हैं, प्रत्येक तस्वीर के साथ कई श्रेणियों में विभाजित अत्यधिक रचनात्मक प्रश्नों की एक श्रृंखला होती है।
सभी ट्रेन और सत्यापन चित्रों और प्रश्नों के लिए, डेटासेट में 70,000 तस्वीरें और प्रशिक्षण के लिए 700,000 प्रश्न, सत्यापन के लिए 15,000 चित्र और 150,000 प्रश्न, और वस्तुओं, उत्तरों, दृश्य ग्राफ़ और कार्यात्मक कार्यक्रमों से जुड़े परीक्षण के लिए 15,000 चित्र और 150,000 प्रश्न शामिल हैं।
16. सार्वभौमिक निर्भरता
यूनिवर्सल डिपेंडेंसी (यूडी) परियोजना का उद्देश्य कई भाषाओं के लिए क्रॉस-भाषाई रूप से समान आकारिकी और सिंटैक्स ट्रीबैंक एनोटेशन बनाना है। संस्करण 2.7, जिसे 2020 में जारी किया गया था, में 183 भाषाओं में 104 ट्रीबैंक हैं।
एनोटेशन यूनिवर्सल POW टैग्स, डिपेंडेंसी हेड्स और यूनिवर्सल डिपेंडेंसी लेबल्स से बना है।
17. किट्टी - 360
मोबाइल रोबोट के लिए सबसे अधिक उपयोग किए जाने वाले डेटासेट में से एक और स्वायत्त ड्राइविंग KITTI (कार्ल्सृहे इंस्टीट्यूट ऑफ टेक्नोलॉजी और टोयोटा टेक्नोलॉजिकल इंस्टीट्यूट) है।
यह घंटों के मूल्य के यातायात परिदृश्यों से बना है जो उच्च-रिज़ॉल्यूशन आरजीबी, ग्रेस्केल स्टीरियो और 3 डी लेजर स्कैनर कैमरे जैसे सेंसर तौर-तरीकों की एक श्रृंखला का उपयोग करके कैप्चर किए गए थे। कई शोधकर्ताओं द्वारा समय के साथ डेटासेट में सुधार किया गया है जिन्होंने अपनी आवश्यकताओं के अनुरूप इसके विभिन्न भागों को मैन्युअल रूप से एनोटेट किया है।
18. एमओटी (एकाधिक वस्तु ट्रैकिंग)
एमओटी (मल्टीपल ऑब्जेक्ट ट्रैकिंग) कई ऑब्जेक्ट ट्रैकिंग के लिए एक डेटासेट है जिसमें सार्वजनिक स्थानों के इनडोर और आउटडोर दृश्य शामिल हैं जिनमें पैदल चलने वालों को रुचि की वस्तुओं के रूप में शामिल किया गया है। प्रत्येक दृश्य के वीडियो को दो भागों में बांटा गया है, एक प्रशिक्षण के लिए और दूसरा परीक्षण के लिए।
डेटासेट शामिल है वस्तु का पता लगाने तीन डिटेक्टरों का उपयोग करके वीडियो फ्रेम में: एसडीपी, फास्टर-आरसीएनएन और डीपीएम।
19. पास्कल 3डी+
Pascal3D+ मल्टी-व्यू डेटासेट जंगली में एकत्रित तस्वीरों से बना है, यानी, उच्च परिवर्तनशीलता वाली आइटम श्रेणियों की छवियां, अनियंत्रित परिस्थितियों में, भीड़-भाड़ वाले वातावरण में और विभिन्न स्थितियों में कैप्चर की गई हैं। Pascal3D+ में PASCAL VOC 12 डेटासेट से खींची गई 2012 कठोर वस्तु श्रेणियां शामिल हैं।
इन वस्तुओं पर मुद्रा की जानकारी अंकित होती है (अज़ीमुथ, ऊँचाई और कैमरे से दूरी)। Pascal3D+ में इन 12 श्रेणियों में इमेजनेट संग्रह से पोज़-एनोटेट फ़ोटो भी शामिल हैं।
20. जानवरों के चेहरे के विकृत मॉडल
फेशियल डिफॉर्मेबल मॉडल्स ऑफ एनिमल्स (FDMA) प्रोजेक्ट का लक्ष्य मानव चेहरे की ऐतिहासिक पहचान और ट्रैकिंग में वर्तमान पद्धतियों को चुनौती देना और नए एल्गोरिदम विकसित करना है जो जानवरों के चेहरे की विशेषताओं की विशेषता वाली काफी बड़ी परिवर्तनशीलता से निपट सकते हैं।
परियोजना के एल्गोरिदम ने चेहरे की भावनाओं या स्थितियों, आंशिक अवरोधों और प्रकाश व्यवस्था में परिवर्तन से प्रेरित भिन्नताओं से निपटने के दौरान मानव चेहरों पर स्थलों को पहचानने और ट्रैक करने की क्षमता का प्रदर्शन किया।
21. MPII मानव पोस्ट डेटासेट
MPII ह्यूमन पोज़ डेटासेट में लगभग 25K फ़ोटो हैं, जिनमें से 15K प्रशिक्षण नमूने हैं, जिनमें से 3K सत्यापन नमूने हैं, और जिनमें से 7K नमूने का परीक्षण कर रहे हैं।
पदों को मैन्युअल रूप से 16 शारीरिक जोड़ों के साथ लेबल किया जाता है, और 410 विभिन्न मानवीय गतिविधियों को कवर करते हुए YouTube फिल्मों से तस्वीरें ली जाती हैं।
22. यूसीएफ101
UCF101 डेटासेट में 13,320 श्रेणियों में व्यवस्थित 101 वीडियो क्लिप हैं। इन 101 श्रेणियों को पांच श्रेणियों में विभाजित किया गया है: शारीरिक गति, मानव-मानव संपर्क, मानव-वस्तु बातचीत, संगीत वाद्ययंत्र बजाना और खेल।
वीडियो YouTube से हैं और इसमें 27 घंटे की अवधि शामिल है।
23. ऑडियोसेट
ऑडियोसेट एक ऑडियो इवेंट डेटासेट है जो 2 मिलियन से अधिक मानव-एनोटेटेड 10-सेकंड वीडियो सेगमेंट से बना है। इस डेटा को एनोटेट करने के लिए, 632 ईवेंट प्रकारों से युक्त एक पदानुक्रमित ऑन्कोलॉजी का उपयोग किया जाता है, जिसका अर्थ है कि एक ही ध्वनि को अलग तरह से लेबल किया जा सकता है।
24. स्टैनफोर्ड प्राकृतिक भाषा निष्कर्ष
एसएनएलआई डेटासेट (स्टैनफोर्ड नेचुरल लैंग्वेज इनफरेंस) में 570k वाक्य युग्म शामिल हैं जिन्हें मैन्युअल रूप से प्रवेश, विरोधाभास या तटस्थ के रूप में वर्गीकृत किया गया है।
परिसर Flickr30k चित्र विवरण हैं, जबकि परिकल्पनाएं भीड़-भाड़ वाले एनोटेटर्स द्वारा विकसित की गई थीं, जिन्हें एक आधार प्रदान किया गया था और उन्हें आकर्षक, विरोधाभासी और तटस्थ बयान उत्पन्न करने का निर्देश दिया गया था।
25. दृश्य प्रश्न उत्तर
विजुअल क्वेश्चन आंसरिंग (VQA) एक डेटासेट है जिसमें चित्रों के संबंध में ओपन-एंडेड प्रश्न होते हैं। इन सवालों का जवाब देने के लिए, आपको दृष्टि, भाषा और सामान्य ज्ञान को समझना होगा।
निष्कर्ष
जैसे-जैसे मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस (एआई) व्यावहारिक रूप से हर व्यवसाय और हमारे दैनिक जीवन में अधिक प्रचलित हो जाते हैं, वैसे ही इस विषय पर उपलब्ध संसाधनों और सूचनाओं की संख्या भी बढ़ जाती है।
तैयार किए गए सार्वजनिक डेटासेट एआई मॉडल विकसित करने के लिए एक शानदार प्रारंभिक बिंदु प्रदान करते हैं, जबकि अनुभवी एमएल प्रोग्रामर को समय बचाने और अपनी परियोजनाओं के अन्य तत्वों पर ध्यान केंद्रित करने की अनुमति देते हैं।
एक जवाब लिखें