प्रत्येक मेसिन लर्निङ परियोजना राम्रो डेटासेटमा निर्भर हुन्छ। यो यो ठूलो डेटासेट हो जसले तपाइँलाई तपाइँको ML मोडेललाई तालिम दिन र प्रमाणित गर्न अनुमति दिन्छ। त्यसोभए, ML परियोजनामा कामको ठूलो भाग तपाईंको आवश्यकताहरूको लागि उत्तम डेटासेट फेला पार्नु हो। जे होस्, तपाईको महत्वाकांक्षासँग मिल्ने विकल्प फेला पार्न सधैं सम्भव छैन, किनकि धेरै फाईलहरू जुन चाखलाग्दो देखिन्छ, अन्तमा, होइनन्।
तपाईं एक आदर्श सेटमा नआउञ्जेल अनगिन्ती डेटासेटहरू डाउनलोड गर्न समय बर्बाद गर्न यो चुनौतीपूर्ण हुन सक्छ। त्यसलाई ध्यानमा राखेर, हामीले केही विकल्पहरू भेला गरेका छौं जुन रोचक देखिन्छ र तपाईंलाई आफ्नो ML परियोजना विकास गर्न मद्दत गर्न सक्छ। ध्यान दिनुहोस् कि केहि व्यावसायिक प्रयोगको सट्टा व्यक्तिगत को लागी अभिप्रेत छ, त्यसैले ML ब्रह्माण्ड मा अनुभव प्राप्त गर्ने तरिका को रूप मा यी विकल्पहरु लाई हेर्नुहोस्।
डाटासेट को आधारभूत
हामीले डेटासेटहरू उल्लेख गर्नु अघि, हामीले केही सर्तहरू परिभाषित गर्नुपर्छ। आर्टिफिसियल इन्टेलिजेन्स परियोजनाहरूमा, विशेष गरी मिसिन प्रशिक्षण, डेटा को एक ठूलो मात्रा आवश्यक छ, जो एल्गोरिथ्म प्रशिक्षित गर्न प्रयोग गरिनेछ। डाटाको यो मात्रा डाटाबेसमा जम्मा गरिएको छ, जुन एल्गोरिदम सिकाउन अत्यन्त उपयोगी छ।
यस डेटाको साथ, एल्गोरिथ्मलाई प्रशिक्षित गरिन्छ - परीक्षण पनि गरिन्छ - र ढाँचाहरू फेला पार्न, सम्बन्ध स्थापित गर्न र यसरी स्वायत्त रूपमा निर्णयहरू गर्न सक्षम हुन्छ। तालिम बिना, मिसिन प्रशिक्षण एल्गोरिदमहरू कुनै पनि कार्य गर्न असमर्थ छन्। तसर्थ, राम्रो प्रशिक्षण डेटा, राम्रो मोडेल प्रदर्शन गर्नेछ। डाटाबेस परियोजनाको लागि उपयोगी हुनको लागि, यो मात्राको बारेमा होइन: यो वर्गीकरणको बारेमा पनि हो।
आदर्श रूपमा, डाटा राम्रो लेबल हुनुपर्छ। च्याटबटको मामला बारे सोच्नुहोस्: भाषा सम्मिलित गर्नु महत्त्वपूर्ण छ, तर सावधानीपूर्वक सिन्ट्याक्टिक विश्लेषण गरिनु पर्छ ताकि अन्तर्वार्ताकर्ताले अपशब्द प्रयोग गर्दा सिर्जना गरिएको एल्गोरिदमले बुझ्न सक्छ। त्यसपछि मात्र भर्चुअल सहायकले प्रयोगकर्ताले अनुरोध गरेको अनुसार जवाफ सुरु गर्न सक्षम हुनेछ।
डेटासेटहरू सर्वेक्षणहरू, प्रयोगकर्ता खरिद डेटा, सेवाहरूमा छोडिएका मूल्याङ्कनहरू, र CSV फाइलमा स्तम्भहरू र पङ्क्तिहरूमा व्यवस्थित उपयोगी जानकारी सङ्कलन गर्न अनुमति दिने अन्य धेरै तरिकाहरूबाट उत्पन्न गर्न सकिन्छ।
तपाईंले उत्तम डेटासेटको खोजीमा निस्कनु अघि, तपाईंले आफ्नो परियोजनाको उद्देश्य थाहा पाउनु महत्त्वपूर्ण छ, विशेष गरी यदि यो मौसम, वित्त, स्वास्थ्य, आदि जस्ता विशिष्ट क्षेत्रहरूबाट हो भने। यसले तपाईंले आफ्नो स्रोतको स्रोतलाई निर्धारण गर्नेछ। डाटासेट।
ML को लागि डाटासेट
च्याटबोट प्रशिक्षण
एक प्रभावकारी च्याटबोटलाई मानव हस्तक्षेप बिना प्रयोगकर्ताको सोधपुछ द्रुत रूपमा समाधान गर्नको लागि ठूलो मात्रामा प्रशिक्षण डेटा चाहिन्छ। यद्यपि, च्याटबोटको विकासमा प्राथमिक बाधा भनेको यी मेसिन लर्निङ-आधारित प्रणालीहरूलाई तालिम दिन यथार्थपरक, कार्य-उन्मुख संवाद डेटा प्राप्त गर्नु हो।
एक संवादात्मक डेटासेटले प्रश्न र उत्तर ढाँचामा डेटा सङ्कलन गर्दछ। यो प्रशिक्षण च्याटबटहरूको लागि आदर्श हो जसले दर्शकहरूलाई स्वचालित जवाफ दिनेछ। यो डाटा बिना, च्याटबोटले प्रयोगकर्ताको जिज्ञासाहरू छिटो समाधान गर्न वा मानव हस्तक्षेपको आवश्यकता बिना प्रयोगकर्ताका प्रश्नहरूको जवाफ दिन असफल हुनेछ।
यी डेटासेटहरू प्रयोग गरेर, व्यवसायहरूले एउटा उपकरण सिर्जना गर्न सक्छन् जसले ग्राहकहरूलाई 24/7 द्रुत जवाफहरू प्रदान गर्दछ र ग्राहक समर्थन गर्ने व्यक्तिहरूको टोली हुनुभन्दा धेरै सस्तो छ।
1. प्रश्न-उत्तर डाटासेट
यो डेटासेटले विकिपिडिया लेख, प्रश्नहरू र तिनीहरूको सम्बन्धित म्यानुअल रूपमा उत्पन्न उत्तरहरूको सेट प्रदान गर्दछ। यो 2008 र 2010 को बीचमा प्रयोगको लागि एकत्रित डाटासेट हो शैक्षिक अनुसन्धान.
2. भाषा डाटा
भाषा डाटा याहू द्वारा व्यवस्थापन गरिएको डाटाबेस हो जुन कम्पनीका केही सेवाहरू, जस्तै Yahoo! जवाफ, जसले प्रयोगकर्ताहरूलाई प्रश्न र उत्तरहरू पोस्ट गर्न खुला समुदायको रूपमा काम गर्दछ।
3. WikiQA
WikiQA कोर्पसले प्रश्न र उत्तरहरूको सेट पनि समावेश गर्दछ। प्रश्नहरूको स्रोत बिंग हो, जबकि उत्तरहरू प्रारम्भिक प्रश्न समाधान गर्न सक्ने सम्भावित विकिपिडिया पृष्ठमा लिङ्क हुन्छन्।
कुल मिलाएर, डेटासेटमा 3,000 भन्दा बढी प्रश्नहरू र 29,258 वाक्यहरूको सेट छन्, जसमध्ये लगभग 1,400 लाई सम्बन्धित प्रश्नको उत्तरको रूपमा वर्गीकृत गरिएको छ।
सरकारी तथ्याङ्क
सरकारहरू द्वारा उत्पन्न डाटासेटहरू जनसांख्यिकीय डेटा ल्याउँछन्, जुन सामाजिक प्रवृत्तिहरू बुझ्न, सार्वजनिक नीतिहरू सिर्जना गर्न, र समाज सुधार गर्न सम्बन्धित परियोजनाहरूको लागि उत्कृष्ट इनपुटहरू हुन्। यो राजनीतिक अभियान, लक्षित विज्ञापन, वा बजार विश्लेषणको लागि उपयोगी हुन सक्छ।
यी डेटासेटहरूमा सामान्यतया अज्ञात डेटा हुन्छ, त्यसैले मोडेलहरूले कच्चा डेटा पहुँच गर्न सक्ने हुँदा, त्यहाँ व्यक्तिगत गोपनीयताको कुनै उल्लङ्घन हुँदैन।
4. डाटा.gov
2009 मा सुरु भएको, Data.gov डाटाको लागि उत्तर अमेरिकी स्रोत हो। यसको क्याटलग प्रभावशाली छ: 218,000 भन्दा बढी डेटासेटहरू जसले ढाँचा, ट्यागहरू, प्रकारहरू र विषयहरूद्वारा विभाजन गर्न अनुमति दिन्छ।
5. EU खुला डाटा पोर्टल
EU Open Data Portal ले युरोपेली संघका संस्थाहरूद्वारा साझा गरिएको खुला डाटामा पहुँच प्रदान गर्दछ। यी डेटा हुन् जुन व्यावसायिक र गैर-व्यावसायिक प्रयोगको लागि अभिप्रेरित हुन सक्छ। स्वास्थ्य, ऊर्जा, वातावरण, संस्कृति र शिक्षा जस्ता विषयहरू समेट्ने 15.5 हजारभन्दा बढी डेटासेटहरू प्रयोगकर्ताको पहुँचमा छन्।
स्वास्थ्य डाटा
विश्वव्यापी रूपमा चलिरहेको स्वास्थ्य संकटको परिप्रेक्ष्यमा, जीवन बचाउनको लागि प्रभावकारी समाधानहरू विकास गर्न स्वास्थ्य संगठनहरूद्वारा उत्पन्न डाटासेटहरू आवश्यक छन्। यी डेटासेटहरूले जोखिम कारकहरू पहिचान गर्न, रोग प्रसारण ढाँचाहरू काम गर्न, र निदानको गति बढाउन मद्दत गर्न सक्छ।
यी डेटासेटहरूमा स्वास्थ्य रेकर्डहरू, बिरामीहरूको जनसांख्यिकी, रोगको व्यापकता, औषधिको प्रयोग, पोषण मूल्यहरू, र थप धेरै समावेश हुन्छन्।
6. ग्लोबल हेल्थ अब्जर्भेटरी
यो डाटा सेट विश्व स्वास्थ्य संगठन (WHO) को पहल हो। यसले स्वास्थ्य प्रणाली, सुर्तीजन्य पदार्थको प्रयोग नियन्त्रण, प्रसूति, एचआईभी/एड्स, आदि जस्ता विषयवस्तुहरूद्वारा संगठित स्वास्थ्यका विभिन्न क्षेत्रहरूसँग सम्बन्धित सार्वजनिक डाटा उपलब्ध गराउँछ। कोभिड-१९ मा डाटा परामर्श गर्ने विकल्प पनि छ।
7. CORD-19
CORD-19 COVID-19 र नयाँ कोरोनाभाइरसको बारेमा अन्य लेखहरूमा शैक्षिक प्रकाशनहरूको एक समूह हो। यो COVID-19 मा नयाँ अन्तर्दृष्टि उत्पन्न गर्ने उद्देश्यले खुला डाटासेट हो।
अर्थशास्त्र डाटा
वित्तीय वातावरणसँग सम्बन्धित डाटासेटहरूले सामान्यतया धेरै जानकारी सङ्कलन गर्दछ, किनकि यो सामान्य छ कि तिनीहरू लामो समयदेखि जम्मा भएका छन्। तिनीहरू आर्थिक भविष्यवाणीहरू सिर्जना गर्न वा लगानी प्रवृत्तिहरू स्थापना गर्नका लागि आदर्श हुन्।
सही वित्तीय डेटासेटहरूको साथ, ए मेसिन लर्निङ मोडेल दिइएको सम्पत्ति को व्यवहार भविष्यवाणी गर्न सक्षम हुन सक्छ। यसैले वित्तीय क्षेत्रले प्रभावकारी एमएल मोडेल सिर्जना गर्न आफ्नो शक्तिमा सबै कुरा गरिरहेको छ, किनकि कुनै पनि कुराले उचित रूपमा अनुमान गर्न सक्ने लाखौं डलर उत्पन्न गर्ने क्षमता छ। मेसिन लर्निङले पहिले नै नागरिकहरूको व्यवहारको भविष्यवाणी गरिरहेको छ, जसले नीति निर्माताहरूले आफ्नो काम गर्ने तरिकालाई असर गरिरहेको छ।
8. अन्तर्राष्ट्रिय मुद्रा कोष
IMF डेटासेटले आर्थिक र वित्तीय सूचकहरू, सदस्य राष्ट्रहरूको तथ्याङ्क, र अन्य ऋण र विनिमय दर डेटाको दायरा राख्छ।
9. विश्व बैंक
विश्व बैंकको भण्डारमा विभिन्न देशहरूको आर्थिक जानकारीसहितको विभिन्न डाटासेटहरू छन्। त्यहाँ महाद्वीपहरू द्वारा विभाजित 17,000 भन्दा बढी डेटासेटहरू छन्।
उत्पादन र सेवा समीक्षा
भावना विश्लेषणले विभिन्न क्षेत्रहरूमा यसको अनुप्रयोगहरू फेला पारेको छ जसले अब उद्यमहरूलाई उनीहरूको ग्राहक वा ग्राहकहरूबाट सही रूपमा अनुमान गर्न र सिक्न मद्दत गरिरहेको छ। सामाजिक सञ्जाल निगरानी, ब्रान्ड अनुगमन, ग्राहकको आवाज (VoC), ग्राहक सेवा, र बजार अनुसन्धानको लागि भावना विश्लेषण बढ्दो रूपमा प्रयोग भइरहेको छ।
भावना विश्लेषण NLP प्रयोग गर्दछ (न्यूरो-भाषिक प्रोग्रामिङ) विधिहरू र एल्गोरिदमहरू जुन या त नियम-आधारित, हाइब्रिड हुन्, वा डेटासेटहरूबाट डाटा सिक्न मेसिन लर्निङ प्रविधिहरूमा भर पर्छन्।
भावना विश्लेषणमा आवश्यक डेटा विशेष हुनुपर्छ र ठूलो मात्रामा आवश्यक छ। भावना विश्लेषण प्रशिक्षण प्रक्रिया को बारे मा सबै भन्दा चुनौतीपूर्ण भाग ठूलो मात्रा मा डाटा फेला पार्न छैन; यसको सट्टा, यो सान्दर्भिक डेटासेटहरू फेला पार्न हो। यी डेटा सेटहरूले भावना विश्लेषण अनुप्रयोगहरू र प्रयोग केसहरूको विस्तृत क्षेत्रलाई कभर गर्नुपर्छ।
10। अमेजन समीक्षा
यस डेटासेटले लगभग 35 मिलियन Amazon समीक्षाहरू समावेश गर्दछ, संकलित जानकारीको 18-वर्षको अवधिमा फैलिएको छ। यो उत्पादन, प्रयोगकर्ता, र समीक्षा सामग्रीको डेटासेट हो।
11। Yelp समीक्षाहरू
Yelp ले आफ्नो सेवाबाट सङ्कलन गरिएको जानकारीमा आधारित डेटासेट पनि प्रदान गर्दछ। त्यहाँ 8 मिलियन भन्दा बढी समीक्षाहरू, 1 मिलियन सुझावहरू, साथै लगभग 1.5 मिलियन विशेषताहरू व्यवसायहरूसँग सम्बन्धित छन्, जस्तै खुल्ने समय र उपलब्धता।
12। IMDB समीक्षाहरू
यो डाटाबेसले प्रशिक्षणको लागि 25 हजार भन्दा बढी चलचित्र समीक्षाहरूको सेट समावेश गर्दछ र अन्य 25 हजार IMDB पृष्ठबाट अनौपचारिक रूपमा लिइएको परीक्षणहरूको लागि, चलचित्र मूल्याङ्कनहरूमा विशेष। यसले अतिरिक्त रूपमा लेबल नगरिएको डाटा पनि प्रदान गर्दछ।
ML मा पहिलो चरणहरूको लागि डाटासेटहरू
13। वाइन गुणस्तर डाटासेट
यो डेटासेटले उत्तरी पोर्चुगलमा उत्पादित रातो र हरियो दुवै वाइनसँग सम्बन्धित जानकारी प्रदान गर्दछ। लक्ष्य भौतिक रसायनिक परीक्षणहरूमा आधारित रक्सीको गुणस्तर परिभाषित गर्नु हो। भविष्यवाणी प्रणाली बनाउन अभ्यास गर्न चाहनेहरूका लागि रोचक।
14। टाइटैनिक डाटासेट
यस डेटासेटले टाइटानिकबाट 887 वास्तविक यात्रुहरूबाट डेटा ल्याउँछ, प्रत्येक स्तम्भमा तिनीहरू बाँचे भने, तिनीहरूको उमेर, यात्री वर्ग, लिङ्ग, र तिनीहरूले तिरेको बोर्डिङ शुल्क परिभाषित गर्दछ। यो डेटासेट Kaggle प्लेटफर्म द्वारा सुरु गरिएको एक चुनौती को एक हिस्सा थियो, जसको उद्देश्य टाइटानिक को डुब्दा को यात्रुहरु बचाउन को लागी एक मोडेल बनाउन को लागी थियो।
अन्य डाटासेटहरू फेला पार्नका लागि प्लेटफर्महरू
यदि तपाईं अगाडी जान चाहनुहुन्छ र आफ्नो आफ्नै डेटासेट फेला पार्न चाहनुहुन्छ भने, सबैभन्दा राम्रो तरिका भनेको सबैभन्दा प्रसिद्ध रिपोजिटरीहरू मार्फत ब्राउज गर्नु हो। मिसिन प्रशिक्षण ब्रह्माण्ड:
Kaggle
Kaggle, Google LLC को सहायक कम्पनी, डेटा वैज्ञानिक र मेसिन लर्निङ पेशेवरहरूको अनलाइन समुदाय हो। Kaggle ले प्रयोगकर्ताहरूलाई डेटासेटहरू फेला पार्न र प्रकाशित गर्न, अन्वेषण गर्न र वेब-आधारित डेटा विज्ञान वातावरणमा मोडेलहरू सिर्जना गर्न अनुमति दिन्छ; अन्य डाटा वैज्ञानिकहरूसँग काम गर्नुहोस् र मेसिन लर्निङ इन्जिनियरहरू, र डेटा विज्ञान चुनौतीहरू समाधान गर्न प्रतियोगिताहरूमा भाग लिनुहोस्।
Kaggle 2010 मा मेसिन लर्निङ प्रतियोगिताहरू प्रस्ताव गरेर सुरु भयो र अब सार्वजनिक पनि प्रदान गर्दछ डाटा प्लेटफर्म, डेटा विज्ञान र कृत्रिम बुद्धिमत्ता शिक्षाको लागि क्लाउड-आधारित कार्यक्षेत्र।
डाटासेट खोज
डाटासेट खोज Google को खोज इन्जिन हो जसले अनुसन्धानकर्ताहरूलाई अनलाइन डाटा पत्ता लगाउन मद्दत गर्दछ जुन प्रयोगको लागि स्वतन्त्र रूपमा उपलब्ध छ। वेबभरि, तपाईलाई रुचि हुने लगभग कुनै पनि विषयको बारेमा लाखौं डेटासेटहरू छन्।
यदि तपाइँ कुकुर किन्न खोज्दै हुनुहुन्छ भने, तपाइँले कुकुर खरीददारहरूको गुनासो संकलन गर्ने डेटासेटहरू वा कुकुरको संज्ञानात्मक अध्ययनहरू फेला पार्न सक्नुहुन्छ। वा यदि तपाइँ स्कीइङ मनपर्छ भने, तपाइँ स्की रिसोर्टको राजस्व वा चोट दर र सहभागिता संख्यामा डेटा फेला पार्न सक्नुहुन्छ। डाटासेट खोजले यी डाटासेटहरू मध्ये लगभग 25 मिलियनलाई अनुक्रमणिका गरेको छ, तपाईंलाई डाटासेटहरू खोज्न र डाटा कहाँ छ भन्ने लिङ्कहरू फेला पार्न एकल ठाउँ दिँदै।
UCI मेसिन लर्निङ रिपोजिटरी
UCI मेसिन लर्निङ रिपोजिटरी डाटाबेसहरू, डोमेन सिद्धान्तहरू, र डेटा जनरेटरहरूको संग्रह हो जुन मेसिन लर्निङ समुदायले मेसिन लर्निङ एल्गोरिदमहरूको अनुभवजन्य विश्लेषणको लागि प्रयोग गर्छ। अभिलेखलाई 1987 मा डेभिड आहा र UC इरविनका साथी स्नातक विद्यार्थीहरूद्वारा ftp अभिलेखको रूपमा सिर्जना गरिएको थियो।
त्यस समयदेखि, यो विश्वव्यापी रूपमा विद्यार्थीहरू, शिक्षकहरू, र अनुसन्धानकर्ताहरूले ML डेटासेटहरूको प्राथमिक स्रोतको रूपमा प्रयोग गर्दै आएका छन्। अभिलेखको प्रभावको सङ्केतको रूपमा, यसलाई 1000 पटक उद्धृत गरिएको छ, जसले यसलाई सबै कम्प्युटर विज्ञानमा शीर्ष 100 सबैभन्दा उद्धृत "कागजहरू" मध्ये एक बनाएको छ।
क्वान्डल
Quandl एक प्लेटफर्म हो जसले आफ्ना प्रयोगकर्ताहरूलाई आर्थिक, वित्तीय, र वैकल्पिक डेटासेटहरू प्रदान गर्दछ। प्रयोगकर्ताहरूले निःशुल्क डाटा डाउनलोड गर्न सक्छन्, सशुल्क डाटा किन्न वा क्वान्डललाई डाटा बेच्न सक्छन्। को विकास को लागी एक उपयोगी उपकरण हुन सक्छ ट्रेडिंग एल्गोरिदम, उदाहरण को रुपमा।
निष्कर्ष
यी उपकरणहरू अन्वेषण गरेर, तपाईं आफ्नो परियोजनाहरूको लागि उत्कृष्ट इनपुटहरू फेला पार्न निश्चित हुनुहुन्छ। तपाइँको विशेष आवश्यकताहरु को लागी सबै भन्दा उपयुक्त डेटासेट छनोट गर्न निश्चित हुनुहोस् र सधैं दिमागमा राख्नुहोस्: यो मात्रा को बारे मा मात्र होइन, तर गुणस्तर को पनि हो। डाटासेट कुनै पनि आधार हो मेसिन लर्निङ परियोजना र त्रुटिपूर्ण निष्कर्षमा पुग्ने जोखिमबाट बच्नको लागि गुणस्तरीय डाटा निर्माण गर्न आवश्यक छ।
जवाफ छाड्नुस्