विषयसूची[लुकाउनुहोस्][देखाउनु]
- 1. CelebFaces विशेषताहरू डाटासेट
- 2. DOTA
- 3. Google अनुहार अभिव्यक्ति तुलना डेटासेट
- 4. भिजुअल जीनोम
- 5. LibriSpeech
- 6. द सिटीस्पेस
- 7. काइनेटिक्स डाटासेट
- 8. Celebamask-HQ
- 9. पेन ट्रीबैंक
- 10. VoxCeleb
- 11. SIXray
- 12. अमेरिकी दुर्घटनाहरू
- 13. आँखा रोग पहिचान
- 14. हृदय रोग
- 15. CLEVR
- 16. विश्वव्यापी निर्भरता
- 17. KITTI - 360
- 18. MOT (बहु वस्तु ट्र्याकिङ)
- 19. PASCAL 3D+
- 20. जनावरहरूको अनुहार विकृत मोडेलहरू
- 21. MPII मानव पोस्ट डाटासेट
- 22. UCF101
- 23. अडियोसेट
- 24. स्ट्यानफोर्ड प्राकृतिक भाषा अनुमान
- 25. भिजुअल प्रश्न उत्तर
- निष्कर्ष
आजकल, हामी मध्ये धेरैजसो मेसिन लर्निङ र एआई मोडेलहरू विकास गर्न र हालको डेटासेटहरू प्रयोग गरेर समस्याहरूलाई सम्बोधन गर्नमा केन्द्रित छौं। तर पहिले, हामीले डेटासेट, यसको महत्त्व, र बलियो AI र ML समाधानहरू विकास गर्नमा यसको भूमिका परिभाषित गर्नुपर्छ।
आज, हामीसँग विभिन्न क्षेत्रहरूमा वास्तविक-विश्व मुद्दाहरू समाधान गर्न अनुसन्धान सञ्चालन गर्न वा अनुप्रयोगहरू विकास गर्न खुला-स्रोत डेटासेटहरूको प्रशस्तता छ।
यद्यपि, उच्च गुणस्तरको मात्रात्मक डाटासेटको अभाव चिन्ताको स्रोत हो। डाटा अत्याधिक बढेको छ र भविष्यमा छिटो दरमा विस्तार गर्न जारी रहनेछ।
यस पोष्टमा, हामी स्वतन्त्र रूपमा उपलब्ध डाटासेटहरू कभर गर्नेछौं जुन तपाईंले आफ्नो अर्को AI परियोजना विकास गर्न प्रयोग गर्न सक्नुहुन्छ।
1. CelebFaces विशेषताहरू डाटासेट
CelebFaces Attributes Dataset (CelebA) ले 200K सेलिब्रेटी तस्बिरहरू र प्रत्येक छविको लागि 40 विशेषता एनोटेसनहरू समावेश गर्दछ, यसलाई परियोजनाहरूको लागि उत्कृष्ट सुरूवात बिन्दु बनाउँछ। अनुहार मान्यता, अनुहार पत्ता लगाउने, ल्यान्डमार्क (वा अनुहारको भाग) स्थानीयकरण, र अनुहार सम्पादन र संश्लेषण। यसबाहेक, यस सङ्कलनमा भएका तस्बिरहरूले स्थिति भेरियन्ट र ब्याकड्रप क्लटरको विस्तृत दायरा समावेश गर्दछ।
2. DOTA
DOTA (को डाटासेट वस्तु खोज Aerial Photos मा) वस्तु पत्ता लगाउनको लागि ठूलो मात्राको डेटासेट हो जसमा 15 सामान्य कोटीहरू (जस्तै, जहाज, विमान, कार, आदि), प्रशिक्षणका लागि 1411 छविहरू, र प्रमाणीकरणका लागि 458 छविहरू समावेश छन्।
3. Google अनुहार अभिव्यक्ति तुलना डेटासेट
गुगल फेसियल एक्सप्रेशन तुलना डेटासेटमा 500,000 अनुहार फोटोहरू सहित लगभग 156,000 तस्विर ट्रिपलहरू समावेश छन्। यो ध्यान दिन लायक छ कि यस डेटासेटमा प्रत्येक ट्रिपलेट कम्तिमा छ मानव रेटरहरू द्वारा एनोटेट गरिएको थियो।
यो डेटासेट अनुहारको अभिव्यक्ति विश्लेषण, जस्तै अभिव्यक्ति-आधारित चित्र पुन: प्राप्ति, भावना वर्गीकरण, अभिव्यक्ति संश्लेषण, र यस्तै अन्य परियोजनाहरूको लागि उपयोगी छ। डेटासेटमा पहुँच प्राप्त गर्न, एउटा संक्षिप्त फारम पूरा गर्नुपर्छ।
4. भिजुअल जीनोम
भिजुअल जिनोममा बहु-छनौट वातावरणमा भिजुअल प्रश्नको उत्तर दिने डाटा उपलब्ध छ। यो 101,174 MSCOCO तस्बिरहरू 1.7 मिलियन QA जोडीहरू, प्रति छवि औसत 17 प्रश्नहरूको साथ बनेको छ।
भिजुअल प्रश्नको उत्तर दिने डेटासेटको तुलनामा, भिजुअल जीनोम डेटासेटमा छवटा प्रश्न प्रकारहरूमा बढी निष्पक्ष वितरण हुन्छ: के, कहाँ, कहिले, को, किन, र कसरी।
थप रूपमा, भिजुअल जीनोम डेटासेटले 108K फोटोहरू समावेश गर्दछ जुन वस्तुहरू, गुणहरू, र जडानहरूसँग भारी रूपमा ट्याग गरिएको छ।
5. LibriSpeech
LibriSpeech कोर्पस LibriVox परियोजनाबाट लगभग 1,000 घण्टा अडियोबुकहरूको संग्रह हो। अधिकांश अडियोबुकहरू प्रोजेक्ट गुटेनबर्गबाट उत्पन्न हुन्छन्।
प्रशिक्षण डेटा 100hr, 360hr, र 500hr सेट को तीन विभाजन मा विभाजित छ, जबकि dev र परीक्षण डाटा अडियो लम्बाइ मा लगभग 5 घण्टा छ।
6. सिटीस्पेसहरू
शहरी दृश्यहरू भएका स्टेरियो भिडियोहरूको सबैभन्दा प्रसिद्ध ठूला डाटाबेसहरू मध्ये एकलाई द सिटीस्केप भनिन्छ।
GPS स्थानहरू, बाहिरी तापक्रम, इगो-मोशन डेटा, र सही स्टेरियो परिप्रेक्ष्यहरू समावेश गर्ने पिक्सेल-सटीक एनोटेसनहरूसँग, यसले ५० भिन्न जर्मन शहरहरूका रेकर्डिङहरू समावेश गर्दछ।
7. काइनेटिक्स डाटासेट
ठूलो मात्रामा र राम्रो गुणस्तरमा मानव गतिविधिहरू पहिचान गर्नका लागि सबैभन्दा प्रसिद्ध भिडियो डेटासेटहरू मध्ये एक हो Kinetics डेटासेट। त्यहाँ प्रत्येक 600 मानव गतिविधि वर्गहरूको लागि कम्तिमा 600 भिडियो क्लिपहरू छन्, कुल 500,000 भन्दा बढी।
चलचित्रहरू YouTube बाट खिचिएका थिए; प्रत्येक एक लगभग 10 सेकेन्ड लामो छ र केवल एक गतिविधि वर्ग सूचीबद्ध छ।
8. CelebAMask-मुख्यालय
CelebAMask-HQ 30,000 उच्च-रिजोल्युसन अनुहार फोटोहरूको संग्रह हो ध्यानपूर्वक एनोटेटेड मास्कहरू र 19 वर्गहरू जसमा अनुहारका अवयवहरू जस्तै छाला, नाक, आँखा, कान, कान, मुख, ओठ, कपाल, टोपी, चश्मा, झुम्का, नेकलेस, घाँटी, सामग्री।
डेटासेट अनुहार पहिचान, अनुहार पार्सिङ, र अनुहार-उत्पादन र एल्गोरिदम सम्पादनको लागि GANs परीक्षण गर्न र तालिम दिन प्रयोग गर्न सकिन्छ।
9. पेन ट्रीबैंक
अनुक्रम ट्यागिङका लागि मोडेलहरूको मूल्याङ्कनका लागि सबैभन्दा उल्लेखनीय र प्रायः प्रयोग गरिने कर्पोरा मध्ये एक हो अंग्रेजी पेन ट्रीब्याङ्क (PTB) कोर्पस, विशेष गरी वाल स्ट्रीट जर्नलका लेखहरूसँग सम्बन्धित कोर्पसको अंश।
प्रत्येक शब्दमा कार्यको अंशको रूपमा ट्याग गरिएको भाषणको भाग हुनुपर्छ। वर्ण-स्तर र शब्द-स्तर भाषा मोडलिङ कोर्पस पनि बारम्बार प्रयोग गर्दछ।
10। VoxCeleb
VoxCeleb बाट स्वचालित रूपमा उत्पन्न एक ठूलो-स्तरीय बोली पहिचान डेटासेट हो खुला स्रोत मिडिया। VoxCeleb सँग 6k भन्दा बढी स्पिकरहरूबाट एक मिलियन भन्दा बढी कथनहरू छन्।
डेटासेटले अडियो-भिजुअल समावेश गरेको हुनाले, यसलाई भिजुअल स्पीच संश्लेषण, वाणी विभाजन, अनुहारबाट आवाजमा क्रस-मोडल स्थानान्तरण, र वर्तमान अनुहार पहिचानको पूरक बनाउन भिडियोबाट अनुहार पहिचान गर्ने प्रशिक्षण सहित विभिन्न अतिरिक्त अनुप्रयोगहरूको लागि प्रयोग गर्न सकिन्छ। डाटासेटहरू।
11। SIXray
SIXray डाटासेटमा सबवे स्टेशनहरूबाट जम्मा गरिएका 1,059,231 एक्स-रे तस्विरहरू समावेश छन् र मानव सुरक्षा निरीक्षकहरूले छवटा मुख्य प्रकारका निषेधित वस्तुहरू पत्ता लगाउन एनोटेट गरेका छन्: पिस्तौल, चक्कु, रेन्चहरू, चिमटा, कैंची र हथौडाहरू। यसबाहेक, प्रत्येक अस्वीकृत वस्तुको लागि बाउन्डिङ बक्सहरू वस्तु स्थानीयकरणको कार्यसम्पादन मूल्याङ्कन गर्न परीक्षण सेटहरूमा म्यानुअल रूपमा थपिएको छ।
12। अमेरिका दुर्घटना
परियोजनाको पदार्थ डेटासेटको नामबाट पहिले नै प्रकट गरिएको छ, यूएस दुर्घटनाहरू। राष्ट्रव्यापी अटोमोबाइल दुर्घटनाहरूको यो डाटासेटमा फेब्रुअरी २०१६ देखि डिसेम्बर २०२१ सम्मको जानकारी समावेश छ र यसले संयुक्त राज्य अमेरिकाका ४९ राज्यहरूलाई समेट्छ।
लगभग 1.5 मिलियन दुर्घटना रेकर्डहरू अहिले यस संग्रहमा उपस्थित छन्। यो धेरै ट्राफिक एपीआईहरू प्रयोग गरेर वास्तविक समयमा भेला भएको थियो।
यी एपीआईहरूले ट्राफिक क्यामेराहरू, कानून प्रवर्तन संस्थाहरू, र यातायातका संयुक्त राज्य र राज्य विभागहरू सहित विभिन्न स्रोतहरूबाट सङ्कलन गरिएका ट्राफिक जानकारीहरू प्रसारण गर्छन्।
13। आँखा रोग पहिचान
संगठित नेत्र रोग डाटाबेस ओकुलर डिजिज इन्टेलिजेन्ट रिकग्निसन (ODIR) ले 5,000 बिरामीहरूको बारेमा जानकारी समावेश गर्दछ, जसमा तिनीहरूको उमेर, तिनीहरूको बायाँ र दायाँ आँखामा कोषको रंग, र चिकित्सा पेशेवरहरूको डायग्नोस्टिक कीवर्डहरू समावेश छन्।
यो डाटासेट चीनका विभिन्न अस्पताल र चिकित्सा सुविधाहरूबाट बिरामी डेटाको वास्तविक सङ्कलन हो जुन शाङ्गगोंग मेडिकल टेक्नोलोजी कं, लिमिटेडले अधिग्रहण गरेको छ। संग गुणस्तर नियन्त्रण व्यवस्थापन, एनोटेशनहरू कुशल मानव पाठकहरू द्वारा ट्याग गरिएको थियो।
14। मुटु रोग
यो हृदय रोग डेटासेटले उमेर, लिङ्ग, छाती दुख्ने प्रकार, आराम गर्ने रक्तचाप, र यस्तै 76 मापदण्डहरूमा आधारित बिरामीमा हृदय रोगको अस्तित्व पहिचान गर्न मद्दत गर्दछ।
303 केसहरूसँग, डाटाबेसले बिरामीको अस्तित्व (मान 1,2,3,4) लाई यसको अनुपस्थिति (मान 0) बाट अलग गर्न खोज्छ।
15। CLEVR
CLEVR डेटासेट (रचनात्मक भाषा र प्राथमिक भिजुअल तर्क) भिजुअल प्रश्न उत्तरको नक्कल गर्दछ। यसमा 3D-रेन्डर गरिएका वस्तुहरूको फोटोहरू समावेश हुन्छन्, प्रत्येक तस्विरको साथमा धेरै वर्गहरूमा विभाजित अत्यधिक रचनात्मक प्रश्नहरूको श्रृंखला हुन्छ।
सबै ट्रेन र प्रमाणीकरण चित्र र प्रश्नहरूको लागि, डेटासेटमा 70,000 तस्बिरहरू र प्रशिक्षणको लागि 700,000 प्रश्नहरू, 15,000 छविहरू र 150,000 प्रमाणीकरणका लागि प्रश्नहरू, र 15,000 छविहरू र 150,000 प्रश्नहरू परिक्षणका लागि वस्तुहरू, कार्यहरू, ग्राफहरू, कार्यक्रमहरू समावेश छन्।
16। विश्वव्यापी निर्भरता
सार्वभौमिक निर्भरता (UD) परियोजनाले धेरै भाषाहरूको लागि क्रस-भाषिक रूपमा समान आकारविज्ञान र सिन्ट्याक्स ट्रीब्याङ्क एनोटेशन सिर्जना गर्ने लक्ष्य राख्छ। सन् २०२० मा रिलिज भएको संस्करण २.७ मा १०४ भाषाहरूमा १८३ ट्रीब्याङ्कहरू छन्।
एनोटेसन विश्वव्यापी POW ट्यागहरू, निर्भरता हेडहरू, र विश्वव्यापी निर्भरता लेबलहरू मिलेर बनेको छ।
17। KITTI - 360
मोबाइल रोबोटका लागि प्रायः प्रयोग हुने डेटासेटहरू मध्ये एक र स्वायत्त ड्राइभि .् KITTI (कार्लस्रुहे इन्स्टिच्युट अफ टेक्नोलोजी र टोयोटा टेक्नोलोजिकल इन्स्टिच्युट) हो।
यो घण्टाको मूल्यको ट्राफिक परिदृश्यहरू मिलेर बनेको छ जुन उच्च-रिजोल्युसन RGB, ग्रेस्केल स्टेरियो, र 3D लेजर स्क्यानर क्यामेराहरू जस्ता सेन्सर मोडालिटीहरूको दायरा प्रयोग गरेर खिचिएको थियो। धेरै शोधकर्ताहरू द्वारा डेटासेटलाई समयसँगै सुधार गरिएको छ जसले म्यानुअल रूपमा यसको विभिन्न भागहरूलाई उनीहरूको आवश्यकता अनुरूप एनोटेट गरे।
18। MOT (बहु वस्तु ट्र्याकिङ)
MOT (Multiple Object Tracking) एक बहु वस्तु ट्र्याकिङको लागि डेटासेट हो जसमा सार्वजनिक स्थानहरूको भित्री र बाहिरी दृश्यहरू समावेश हुन्छन् जसमा पैदल यात्रुहरूलाई चासोको वस्तुको रूपमा समावेश गरिन्छ। प्रत्येक दृश्यको भिडियोलाई दुई टुक्रामा विभाजन गरिएको छ, एउटा प्रशिक्षणको लागि र अर्को परीक्षणको लागि।
डाटासेट समावेश छ वस्तु पत्ता लगाउने तीनवटा डिटेक्टरहरू प्रयोग गरेर भिडियो फ्रेमहरूमा: SDP, Faster-RCNN, र DPM।
19। PASCAL 3D+
Pascal3D+ बहु-दृश्य डाटासेट जंगलीमा सङ्कलन गरिएका तस्विरहरू मिलेर बनेको छ, अर्थात्, उच्च परिवर्तनशीलता भएका वस्तुहरूका तस्बिरहरू, अनियन्त्रित परिस्थितिहरूमा, भीडभाडको वातावरणमा र विभिन्न स्थानहरूमा खिचिएका। Pascal3D+ मा PASCAL VOC 12 डेटासेटबाट कोरिएका १२ कठोर वस्तु कोटीहरू समावेश छन्।
यी वस्तुहरूमा चिन्ह लगाइएको मुद्रा जानकारी हुन्छ (अजीमुथ, उचाइ, र क्यामेराको दूरी)। Pascal3D+ ले यी १२ कोटिहरूमा ImageNet संग्रहबाट पोज-एनोटेटेड फोटोहरू पनि समावेश गर्दछ।
20। जनावरहरूको अनुहार विकृत मोडेलहरू
फेसियल डिफर्मेबल मोडल अफ एनिमल्स (FDMA) परियोजनाको लक्ष्य मानव अनुहारको ल्यान्डमार्क पहिचान र ट्र्याकिङमा हालका विधिहरूलाई चुनौती दिनु र नयाँ एल्गोरिदमहरू विकास गर्नु हो जसले धेरै ठूलो परिवर्तनशीलतासँग व्यवहार गर्न सक्छ जुन जनावरको अनुहारको विशेषता हो।
परियोजनाको एल्गोरिदमहरूले अनुहारका भावनाहरू वा स्थितिहरू, आंशिक अवरोधहरू, र प्रकाशमा परिवर्तनहरूद्वारा प्रेरित भिन्नताहरूसँग व्यवहार गर्दा मानव अनुहारमा ल्यान्डमार्कहरू पहिचान गर्ने र ट्र्याक गर्ने क्षमता प्रदर्शन गर्यो।
21। MPII मानव पोस्ट डाटासेट
MPII मानव पोज डाटासेटले लगभग 25K तस्बिरहरू समावेश गर्दछ, जसमध्ये 15K प्रशिक्षण नमूनाहरू हुन्, जसमध्ये 3K प्रमाणीकरण नमूनाहरू हुन्, र जसमध्ये 7K नमूनाहरू परीक्षण गर्दै छन्।
स्थितिहरू मैन्युअल रूपमा 16 शारीरिक जोडहरूसँग लेबल गरिएका छन्, र फोटोहरू YouTube चलचित्रहरूबाट 410 विभिन्न मानव गतिविधिहरू कभर गरिएका छन्।
22। UCF101
UCF101 डेटासेटमा 13,320 कोटीहरूमा व्यवस्थित 101 भिडियो क्लिपहरू छन्। यी 101 कोटिहरूलाई पाँच श्रेणीमा विभाजन गरिएको छ: शारीरिक चाल, मानव-मानव अन्तरक्रिया, मानव-वस्तु अन्तरक्रिया, संगीत वाद्य बजाउने, र खेलकुद।
भिडियोहरू YouTube बाट हो र अवधिमा 27 घण्टा समावेश गर्दछ।
23। अडियोसेट
Audioset 2 मिलियन भन्दा बढी मानव-एनोटेट 10-सेकेन्ड भिडियो खण्डहरू मिलेर बनेको अडियो घटना डेटासेट हो। यस डेटालाई एनोटेट गर्नको लागि, 632 घटना प्रकारहरू समावेश भएको एक पदानुक्रमिक ओन्टोलजी प्रयोग गरिन्छ, जसले एउटै आवाजलाई फरक रूपमा लेबल गर्न सकिन्छ भन्ने संकेत गर्छ।
24। स्ट्यानफोर्ड प्राकृतिक भाषा निष्कर्ष
SNLI डेटासेट (Stanford Natural Language Inference) ले 570k वाक्य जोडीहरू समावेश गर्दछ जुन म्यानुअल रूपमा entailment, contradiction, वा neutral को रूपमा वर्गीकृत गरिएको छ।
परिसरहरू Flickr30k तस्विर विवरणहरू हुन्, जबकि परिकल्पनाहरू भीड-स्रोत एनोटेटरहरू द्वारा विकसित गरिएको थियो जसलाई एक आधार प्रदान गरिएको थियो र entailing, विरोधाभासी, र तटस्थ बयानहरू उत्पन्न गर्न निर्देशन दिइएको थियो।
25। भिजुअल प्रश्नको उत्तर
भिजुअल प्रश्न उत्तर (VQA) एउटा डेटासेट हो जसमा तस्विरहरू सम्बन्धी खुला प्रश्नहरू समावेश हुन्छन्। यी प्रश्नहरूको जवाफ दिन, तपाईंले दृष्टि, भाषा, र सामान्य ज्ञान बुझ्न आवश्यक छ।
निष्कर्ष
जसरी मेसिन लर्निङ र आर्टिफिसियल इन्टेलिजेन्स (एआई) व्यावहारिक रूपमा हरेक व्यवसाय र हाम्रो दैनिक जीवनमा बढी प्रचलित हुन्छ, त्यसैगरी यस विषयमा उपलब्ध स्रोत र जानकारीको संख्या पनि बढ्छ।
रेडिमेड सार्वजनिक डेटासेटहरूले AI मोडेलहरू विकास गर्न उत्कृष्ट सुरुवात बिन्दु प्रदान गर्दछ जबकि अनुभवी ML प्रोग्रामरहरूलाई समय बचत गर्न र तिनीहरूका परियोजनाहरूको अन्य तत्वहरूमा ध्यान केन्द्रित गर्न अनुमति दिन्छ।
जवाफ छाड्नुस्