प्रत्येक मशीन लर्निंग प्रोजेक्ट एक अच्छे डेटासेट पर निर्भर करता है। यह बड़ा डेटासेट है जो आपको अपने एमएल मॉडल को प्रशिक्षित और मान्य करने की अनुमति देगा। तो, एमएल प्रोजेक्ट में काम का एक बड़ा हिस्सा आपकी आवश्यकताओं के लिए सही डेटासेट ढूंढ रहा है। हालांकि, ऐसा विकल्प ढूंढना हमेशा संभव नहीं होता है जो आपकी महत्वाकांक्षा के अनुकूल हो, क्योंकि अंत में दिलचस्प दिखने वाली कई फाइलें नहीं होती हैं।
जब तक आप एक आदर्श सेट पर नहीं पहुंच जाते, तब तक अनगिनत डेटासेट डाउनलोड करने में समय बर्बाद करना कठिन हो सकता है। इसे ध्यान में रखते हुए, हमने कुछ ऐसे विकल्प एकत्र किए हैं जो दिलचस्प लगते हैं और आपके एमएल प्रोजेक्ट को विकसित करने में आपकी मदद कर सकते हैं। ध्यान दें कि कुछ व्यावसायिक उपयोग के बजाय व्यक्तिगत के लिए अभिप्रेत हैं, इसलिए इन विकल्पों को एमएल ब्रह्मांड में अनुभव प्राप्त करने के तरीके के रूप में देखें।
डेटासेट की मूल बातें
डेटासेट का उल्लेख करने से पहले, हमें कुछ शर्तों को परिभाषित करना चाहिए। आर्टिफिशियल इंटेलिजेंस परियोजनाओं में, विशेष रूप से मशीन लर्निंग, बड़ी मात्रा में डेटा की आवश्यकता होती है, जिसका उपयोग एल्गोरिथम को प्रशिक्षित करने के लिए किया जाएगा। डेटा की यह मात्रा एक डेटाबेस में एकत्र की जाती है, जो एक एल्गोरिथम सिखाने के लिए अत्यंत उपयोगी है।
इस डेटा के साथ, एल्गोरिथ्म को प्रशिक्षित किया जाता है - परीक्षण भी किया जाता है - और पैटर्न खोजने, संबंध स्थापित करने और इस प्रकार स्वायत्त रूप से निर्णय लेने में सक्षम हो जाता है। प्रशिक्षण के बिना, मशीन लर्निंग एल्गोरिदम कोई कार्रवाई करने में असमर्थ हैं। इसलिए, प्रशिक्षण डेटा जितना बेहतर होगा, मॉडल उतना ही बेहतर प्रदर्शन करेगा। डेटाबेस के लिए परियोजना के लिए उपयोगी होने के लिए, यह मात्रा के बारे में नहीं है: यह वर्गीकरण के बारे में भी है।
आदर्श रूप से, डेटा को अच्छी तरह से लेबल किया जाना चाहिए। चैटबॉट्स के मामले के बारे में सोचें: भाषा प्रविष्टि महत्वपूर्ण है, लेकिन सावधानीपूर्वक वाक्यात्मक विश्लेषण किया जाना चाहिए ताकि बनाया गया एल्गोरिथम समझ सके कि वार्ताकार कब स्लैंग का उपयोग कर रहा है। इसके बाद ही वर्चुअल असिस्टेंट यूजर के अनुरोध के अनुसार जवाब लॉन्च कर पाएगा।
डेटासेट को सर्वेक्षणों, उपयोगकर्ता खरीद डेटा, सेवाओं पर छोड़े गए मूल्यांकन, और कई अन्य तरीकों से उत्पन्न किया जा सकता है जो CSV फ़ाइल में कॉलम और पंक्तियों में व्यवस्थित उपयोगी जानकारी एकत्र करने की अनुमति देते हैं।
इससे पहले कि आप सही डेटासेट की तलाश में निकल जाएं, यह महत्वपूर्ण है कि आप अपनी परियोजना के उद्देश्य को जानें, खासकर यदि यह किसी विशिष्ट क्षेत्र से है, जैसे कि मौसम, वित्त, स्वास्थ्य, आदि। यह उस स्रोत को निर्देशित करेगा जिससे आप अपना स्रोत प्राप्त करेंगे। डाटासेट।
एमएल के लिए डेटासेट
चैटबॉट प्रशिक्षण
मानव हस्तक्षेप के बिना उपयोगकर्ता पूछताछ को जल्दी से हल करने के लिए एक प्रभावी चैटबॉट को भारी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है। हालांकि, चैटबॉट विकास में प्राथमिक बाधा इन मशीन लर्निंग-आधारित प्रणालियों को प्रशिक्षित करने के लिए यथार्थवादी, कार्य-उन्मुख संवाद डेटा प्राप्त करना है।
एक संवादी डेटासेट एक प्रश्न और उत्तर प्रारूप में डेटा एकत्र करता है। यह चैटबॉट को प्रशिक्षित करने के लिए आदर्श है जो दर्शकों को स्वचालित उत्तर देगा। इस डेटा के बिना, चैटबॉट मानव हस्तक्षेप की आवश्यकता के बिना उपयोगकर्ता की पूछताछ को जल्दी से हल करने या उपयोगकर्ता के सवालों के जवाब देने में विफल हो जाएगा।
इन डेटासेट का उपयोग करके, व्यवसाय एक ऐसा टूल बना सकते हैं जो ग्राहकों को 24/7 त्वरित उत्तर प्रदान करता है और ग्राहक सहायता करने वाले लोगों की एक टीम की तुलना में काफी सस्ता है।
1. प्रश्न-उत्तर डेटासेट
यह डेटासेट विकिपीडिया लेखों, प्रश्नों और उनके संबंधित मैन्युअल रूप से उत्पन्न उत्तरों का एक सेट प्रदान करता है। यह उपयोग के लिए 2008 और 2010 के बीच एकत्र किया गया डेटासेट है शैक्षिक अनुसंधान.
2. भाषा डेटा
भाषा डेटा याहू द्वारा प्रबंधित एक डेटाबेस है जिसमें कंपनी की कुछ सेवाओं, जैसे याहू! उत्तर, जो उपयोगकर्ताओं के लिए प्रश्न और उत्तर पोस्ट करने के लिए एक खुले समुदाय के रूप में कार्य करता है।
3. विकीक्यूए
विकीक्यूए कॉर्पस में प्रश्नों और उत्तरों का एक सेट भी होता है। प्रश्नों का स्रोत बिंग है, जबकि उत्तर प्रारंभिक प्रश्न को हल करने की क्षमता वाले विकिपीडिया पृष्ठ से लिंक होते हैं।
कुल मिलाकर, डेटासेट में 3,000 से अधिक प्रश्न और 29,258 वाक्यों का एक सेट है, जिनमें से लगभग 1,400 को संबंधित प्रश्न के उत्तर के रूप में वर्गीकृत किया गया है।
सरकारी डेटा
सरकारों द्वारा उत्पन्न डेटासेट जनसांख्यिकीय डेटा लाते हैं, जो सामाजिक प्रवृत्तियों को समझने, सार्वजनिक नीतियों को बनाने और समाज में सुधार से संबंधित परियोजनाओं के लिए महान इनपुट हैं। यह राजनीतिक अभियानों, लक्षित विज्ञापन या बाजार विश्लेषण के लिए उपयोगी हो सकता है।
इन डेटासेट में आम तौर पर अनाम डेटा होता है, इसलिए जब मॉडल कच्चे डेटा तक पहुंच सकते हैं, तो व्यक्तिगत गोपनीयता का कोई उल्लंघन नहीं होता है।
4. Data.gov
2009 में लॉन्च किया गया, Data.gov डेटा के लिए उत्तरी अमेरिकी स्रोत है। इसकी सूची प्रभावशाली है: 218,000 से अधिक डेटासेट जो प्रारूप, टैग, प्रकार और विषयों के आधार पर विभाजन की अनुमति देते हैं।
5. ईयू ओपन डेटा पोर्टल
ईयू ओपन डेटा पोर्टल यूरोपीय संघ के संस्थानों द्वारा साझा किए गए खुले डेटा तक पहुंच प्रदान करता है। ये ऐसे डेटा हैं जिन्हें वाणिज्यिक और गैर-व्यावसायिक उपयोग के लिए अभिप्रेत किया जा सकता है। स्वास्थ्य, ऊर्जा, पर्यावरण, संस्कृति और शिक्षा जैसे विषयों को कवर करने वाले 15.5 हजार से अधिक डेटासेट उपयोगकर्ता के निपटान में हैं।
स्वास्थ्य डेटा
दुनिया भर में चल रहे स्वास्थ्य संकट के मद्देनजर, स्वास्थ्य संगठनों द्वारा तैयार किए गए डेटासेट जीवन बचाने के लिए प्रभावी समाधान विकसित करने के लिए आवश्यक हैं। ये डेटासेट जोखिम कारकों की पहचान करने, रोग संचरण पैटर्न का पता लगाने और निदान में तेजी लाने में मदद कर सकते हैं।
इन डेटासेट में स्वास्थ्य रिकॉर्ड, रोगियों की जनसांख्यिकी, बीमारी की व्यापकता, औषधीय उपयोग, पोषण संबंधी मूल्य और बहुत कुछ शामिल हैं।
6. वैश्विक स्वास्थ्य वेधशाला
यह डेटा सेट विश्व स्वास्थ्य संगठन (WHO) की एक पहल है। यह स्वास्थ्य के विभिन्न क्षेत्रों से संबंधित सार्वजनिक डेटा प्रदान करता है, जो स्वास्थ्य प्रणाली, तंबाकू उपयोग नियंत्रण, मातृत्व, एचआईवी / एड्स, आदि जैसे विषयों द्वारा आयोजित किया जाता है। COVID-19 पर डेटा से परामर्श करने का विकल्प भी है।
7. कॉर्ड-19
CORD-19 COVID-19 पर अकादमिक प्रकाशनों और नए कोरोनावायरस के बारे में अन्य लेखों का एक संग्रह है। यह एक खुला डेटासेट है जिसका उद्देश्य COVID-19 पर नई अंतर्दृष्टि उत्पन्न करना है।
अर्थशास्त्र डेटा
वित्तीय वातावरण से संबंधित डेटासेट आमतौर पर बड़ी मात्रा में जानकारी एकत्र करते हैं, क्योंकि यह सामान्य है कि वे लंबे समय से एकत्र किए गए हैं। वे आर्थिक भविष्यवाणियां बनाने या निवेश के रुझान स्थापित करने के लिए आदर्श हैं।
सही वित्तीय डेटासेट के साथ, a मशीन लर्निंग मॉडल किसी दी गई संपत्ति के व्यवहार की भविष्यवाणी करने में सक्षम हो सकता है। यही कारण है कि वित्तीय क्षेत्र एक प्रभावी एमएल मॉडल बनाने के लिए अपनी शक्ति में सब कुछ कर रहा है, क्योंकि जो कुछ भी उचित रूप से भविष्यवाणी कर सकता है उसमें लाखों डॉलर उत्पन्न करने की क्षमता है। मशीन लर्निंग पहले से ही नागरिकों के व्यवहार की भविष्यवाणी कर रहा है, जो नीति निर्माताओं द्वारा अपना काम करने के तरीके को प्रभावित कर रहा है।
8. अंतरराष्ट्रीय मुद्रा कोष
IMF डेटासेट में आर्थिक और वित्तीय संकेतक, सदस्य देश के आँकड़े और अन्य ऋण और विनिमय दर डेटा की एक श्रृंखला होती है।
9. विश्व बैंक
विश्व बैंक के भंडार में विभिन्न देशों की आर्थिक जानकारी वाले विभिन्न डेटासेट होते हैं। महाद्वीपों द्वारा विभाजित 17,000 से अधिक डेटासेट हैं।
उत्पाद और सेवाओं की समीक्षा
भावना विश्लेषण ने विभिन्न क्षेत्रों में इसके अनुप्रयोगों को पाया है जो अब उद्यमों को अपने ग्राहकों या ग्राहकों से सही ढंग से अनुमान लगाने और सीखने में मदद कर रहे हैं। सोशल मीडिया मॉनिटरिंग, ब्रांड मॉनिटरिंग, ग्राहक की आवाज (वीओसी), ग्राहक सेवा और बाजार अनुसंधान के लिए भावना विश्लेषण का तेजी से उपयोग किया जा रहा है।
भावना विश्लेषण एनएलपी का उपयोग करता है (न्यूरो-भाषाई प्रोग्रामिंग) विधियां और एल्गोरिदम जो या तो नियम-आधारित, हाइब्रिड हैं, या डेटासेट से डेटा सीखने के लिए मशीन लर्निंग तकनीकों पर निर्भर हैं।
भावना विश्लेषण में आवश्यक डेटा विशिष्ट होना चाहिए और बड़ी मात्रा में आवश्यक होना चाहिए। भावना विश्लेषण प्रशिक्षण प्रक्रिया के बारे में सबसे चुनौतीपूर्ण हिस्सा बड़ी मात्रा में डेटा नहीं ढूंढ रहा है; इसके बजाय, यह प्रासंगिक डेटासेट ढूंढना है। इन डेटा सेटों को भावना विश्लेषण अनुप्रयोगों और उपयोग के मामलों के एक विस्तृत क्षेत्र को कवर करना चाहिए।
10. अमेज़न समीक्षा
इस डेटासेट में लगभग 35 मिलियन अमेज़ॅन समीक्षाएं हैं, जो एकत्रित जानकारी की 18 साल की अवधि में फैली हुई हैं। यह उत्पाद, उपयोगकर्ता और समीक्षा सामग्री का डेटासेट है।
11.
Yelp समीक्षाएं
येल्प अपनी सेवा से एकत्रित जानकारी के आधार पर एक डेटासेट भी प्रदान करता है। 8 मिलियन से अधिक समीक्षाएं, 1 मिलियन युक्तियां, साथ ही व्यवसायों से संबंधित लगभग 1.5 मिलियन विशेषताएं हैं, जैसे कि खुलने का समय और उपलब्धता।
12.
IMDB समीक्षा
इस डेटाबेस में प्रशिक्षण के लिए 25 हजार से अधिक मूवी समीक्षाओं का एक सेट है और मूवी रेटिंग में विशेष रूप से IMDB पृष्ठ से अनौपचारिक रूप से लिए गए परीक्षणों के लिए 25 हजार अन्य हैं। यह अतिरिक्त के रूप में बिना लेबल वाला डेटा भी प्रदान करता है।
ML . में पहले चरण के लिए डेटासेट
13. शराब गुणवत्ता डेटासेट
यह डेटासेट उत्तरी पुर्तगाल में उत्पादित, लाल और हरे दोनों प्रकार की वाइन से संबंधित जानकारी प्रदान करता है। लक्ष्य भौतिक रासायनिक परीक्षणों के आधार पर शराब की गुणवत्ता को परिभाषित करना है। उन लोगों के लिए दिलचस्प है जो भविष्यवाणी प्रणाली बनाने का अभ्यास करना चाहते हैं।
14. टाइटैनिक डेटासेट
यह डेटासेट टाइटैनिक के 887 वास्तविक यात्रियों से डेटा लाता है, प्रत्येक कॉलम परिभाषित करता है कि क्या वे जीवित हैं, उनकी उम्र, यात्री वर्ग, लिंग और उनके द्वारा भुगतान किए गए बोर्डिंग शुल्क। यह डेटासेट कागल प्लेटफॉर्म द्वारा शुरू की गई एक चुनौती का हिस्सा था, जिसका उद्देश्य एक ऐसा मॉडल बनाना था जो भविष्यवाणी कर सके कि कौन से यात्री टाइटैनिक के डूबने से बच गए।
अन्य डेटासेट खोजने के लिए प्लेटफार्म
यदि आप आगे जाना चाहते हैं और अपना खुद का डेटासेट ढूंढना चाहते हैं, तो सबसे अच्छा तरीका है कि आप सबसे प्रसिद्ध रिपॉजिटरी के माध्यम से ब्राउज़ करें मशीन लर्निंग ब्रम्हांड:
Kaggle
Google LLC की सहायक कंपनी Kaggle, डेटा वैज्ञानिकों और मशीन लर्निंग पेशेवरों का एक ऑनलाइन समुदाय है। कागल उपयोगकर्ताओं को वेब-आधारित डेटा विज्ञान वातावरण में डेटासेट खोजने और प्रकाशित करने, मॉडल तलाशने और बनाने की अनुमति देता है; अन्य डेटा वैज्ञानिकों के साथ काम करें और मशीन लर्निंग इंजीनियर्स, और डेटा विज्ञान चुनौतियों को हल करने के लिए प्रतियोगिताओं में भाग लें।
कागल ने 2010 में मशीन लर्निंग प्रतियोगिता की पेशकश करके शुरुआत की थी और अब यह एक सार्वजनिक पेशकश भी करता है डेटा प्लेटफ़ॉर्म, डेटा विज्ञान और आर्टिफिशियल इंटेलिजेंस शिक्षा के लिए क्लाउड-आधारित कार्यक्षेत्र।
डेटासेट खोज
डेटासेट सर्च Google का एक सर्च इंजन है जो शोधकर्ताओं को ऑनलाइन डेटा का पता लगाने में मदद करता है जो उपयोग के लिए स्वतंत्र रूप से उपलब्ध है। पूरे वेब पर, आपकी रुचि के लगभग किसी भी विषय के बारे में लाखों डेटासेट हैं।
यदि आप एक पिल्ला खरीदना चाहते हैं, तो आप पिल्ला खरीदारों की शिकायतों को संकलित करने वाले डेटासेट या पिल्ला संज्ञान पर अध्ययन पा सकते हैं। या यदि आप स्कीइंग पसंद करते हैं, तो आप स्की रिसॉर्ट के राजस्व या चोट दर और भागीदारी संख्या पर डेटा पा सकते हैं। डेटासेट सर्च ने इनमें से लगभग 25 मिलियन डेटासेट को अनुक्रमित किया है, जिससे आपको डेटासेट खोजने और डेटा कहां है, के लिंक खोजने के लिए एक ही स्थान मिलता है।
यूसीआई मशीन लर्निंग रिपॉजिटरी
यूसीआई मशीन लर्निंग रिपोजिटरी डेटाबेस, डोमेन थ्योरी और डेटा जेनरेटर का एक संग्रह है जो मशीन लर्निंग समुदाय द्वारा मशीन लर्निंग एल्गोरिदम के अनुभवजन्य विश्लेषण के लिए उपयोग किया जाता है। संग्रह को 1987 में डेविड अहा और यूसी इरविन के साथी स्नातक छात्रों द्वारा एक एफ़टीपी संग्रह के रूप में बनाया गया था।
उस समय से, यह दुनिया भर के छात्रों, शिक्षकों और शोधकर्ताओं द्वारा एमएल डेटासेट के प्राथमिक स्रोत के रूप में व्यापक रूप से उपयोग किया गया है। संग्रह के प्रभाव के संकेत के रूप में, इसे 1000 से अधिक बार उद्धृत किया गया है, जिससे यह सभी कंप्यूटर विज्ञान में शीर्ष 100 सबसे अधिक उद्धृत "कागजात" में से एक बन गया है।
कंदल
क्वांडल एक ऐसा मंच है जो अपने उपयोगकर्ताओं को आर्थिक, वित्तीय और वैकल्पिक डेटासेट प्रदान करता है। उपयोगकर्ता मुफ्त डेटा डाउनलोड कर सकते हैं, भुगतान किए गए डेटा खरीद सकते हैं या क्वांडल को डेटा बेच सकते हैं। यह के विकास के लिए एक उपयोगी उपकरण हो सकता है ट्रेडिंग एल्गोरिदम, उदाहरण के लिए।
निष्कर्ष
इन उपकरणों की खोज करके, आप निश्चित रूप से अपनी परियोजनाओं के लिए बेहतरीन इनपुट प्राप्त कर सकते हैं। अपनी विशिष्ट आवश्यकताओं के लिए सबसे उपयुक्त डेटासेट चुनना सुनिश्चित करें और हमेशा ध्यान रखें: यह केवल मात्रा के बारे में नहीं है, बल्कि गुणवत्ता के बारे में भी है। डेटासेट किसी का आधार है मशीन लर्निंग प्रोजेक्ट और दोषपूर्ण निष्कर्ष तक पहुंचने के जोखिम से बचने के लिए गुणवत्ता डेटा पर निर्माण करना आवश्यक है।
एक जवाब लिखें