मशीन लर्निंग के लिए 14 सर्वश्रेष्ठ डेटासेट

विषय - सूची[छिपाना][प्रदर्शन]

डेटासेट की मूल बातें
एमएल के लिए डेटासेट+-
अन्य डेटासेट खोजने के लिए प्लेटफार्म+-
निष्कर्ष

प्रत्येक मशीन लर्निंग प्रोजेक्ट एक अच्छे डेटासेट पर निर्भर करता है। यह बड़ा डेटासेट है जो आपको अपने एमएल मॉडल को प्रशिक्षित और मान्य करने की अनुमति देगा। तो, एमएल प्रोजेक्ट में काम का एक बड़ा हिस्सा आपकी आवश्यकताओं के लिए सही डेटासेट ढूंढ रहा है। हालांकि, ऐसा विकल्प ढूंढना हमेशा संभव नहीं होता है जो आपकी महत्वाकांक्षा के अनुकूल हो, क्योंकि अंत में दिलचस्प दिखने वाली कई फाइलें नहीं होती हैं।

जब तक आप एक आदर्श सेट पर नहीं पहुंच जाते, तब तक अनगिनत डेटासेट डाउनलोड करने में समय बर्बाद करना कठिन हो सकता है। इसे ध्यान में रखते हुए, हमने कुछ ऐसे विकल्प एकत्र किए हैं जो दिलचस्प लगते हैं और आपके एमएल प्रोजेक्ट को विकसित करने में आपकी मदद कर सकते हैं। ध्यान दें कि कुछ व्यावसायिक उपयोग के बजाय व्यक्तिगत के लिए अभिप्रेत हैं, इसलिए इन विकल्पों को एमएल ब्रह्मांड में अनुभव प्राप्त करने के तरीके के रूप में देखें।

डेटासेट की मूल बातें

डेटासेट का उल्लेख करने से पहले, हमें कुछ शर्तों को परिभाषित करना चाहिए। आर्टिफिशियल इंटेलिजेंस परियोजनाओं में, विशेष रूप से मशीन लर्निंग, बड़ी मात्रा में डेटा की आवश्यकता होती है, जिसका उपयोग एल्गोरिथम को प्रशिक्षित करने के लिए किया जाएगा। डेटा की यह मात्रा एक डेटाबेस में एकत्र की जाती है, जो एक एल्गोरिथम सिखाने के लिए अत्यंत उपयोगी है।

इस डेटा के साथ, एल्गोरिथ्म को प्रशिक्षित किया जाता है - परीक्षण भी किया जाता है - और पैटर्न खोजने, संबंध स्थापित करने और इस प्रकार स्वायत्त रूप से निर्णय लेने में सक्षम हो जाता है। प्रशिक्षण के बिना, मशीन लर्निंग एल्गोरिदम कोई कार्रवाई करने में असमर्थ हैं। इसलिए, प्रशिक्षण डेटा जितना बेहतर होगा, मॉडल उतना ही बेहतर प्रदर्शन करेगा। डेटाबेस के लिए परियोजना के लिए उपयोगी होने के लिए, यह मात्रा के बारे में नहीं है: यह वर्गीकरण के बारे में भी है।

आदर्श रूप से, डेटा को अच्छी तरह से लेबल किया जाना चाहिए। चैटबॉट्स के मामले के बारे में सोचें: भाषा प्रविष्टि महत्वपूर्ण है, लेकिन सावधानीपूर्वक वाक्यात्मक विश्लेषण किया जाना चाहिए ताकि बनाया गया एल्गोरिथम समझ सके कि वार्ताकार कब स्लैंग का उपयोग कर रहा है। इसके बाद ही वर्चुअल असिस्टेंट यूजर के अनुरोध के अनुसार जवाब लॉन्च कर पाएगा।

डेटासेट को सर्वेक्षणों, उपयोगकर्ता खरीद डेटा, सेवाओं पर छोड़े गए मूल्यांकन, और कई अन्य तरीकों से उत्पन्न किया जा सकता है जो CSV फ़ाइल में कॉलम और पंक्तियों में व्यवस्थित उपयोगी जानकारी एकत्र करने की अनुमति देते हैं।

इससे पहले कि आप सही डेटासेट की तलाश में निकल जाएं, यह महत्वपूर्ण है कि आप अपनी परियोजना के उद्देश्य को जानें, खासकर यदि यह किसी विशिष्ट क्षेत्र से है, जैसे कि मौसम, वित्त, स्वास्थ्य, आदि। यह उस स्रोत को निर्देशित करेगा जिससे आप अपना स्रोत प्राप्त करेंगे। डाटासेट।

एमएल के लिए डेटासेट

चैटबॉट प्रशिक्षण

मानव हस्तक्षेप के बिना उपयोगकर्ता पूछताछ को जल्दी से हल करने के लिए एक प्रभावी चैटबॉट को भारी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है। हालांकि, चैटबॉट विकास में प्राथमिक बाधा इन मशीन लर्निंग-आधारित प्रणालियों को प्रशिक्षित करने के लिए यथार्थवादी, कार्य-उन्मुख संवाद डेटा प्राप्त करना है।

एक संवादी डेटासेट एक प्रश्न और उत्तर प्रारूप में डेटा एकत्र करता है। यह चैटबॉट को प्रशिक्षित करने के लिए आदर्श है जो दर्शकों को स्वचालित उत्तर देगा। इस डेटा के बिना, चैटबॉट मानव हस्तक्षेप की आवश्यकता के बिना उपयोगकर्ता की पूछताछ को जल्दी से हल करने या उपयोगकर्ता के सवालों के जवाब देने में विफल हो जाएगा।

इन डेटासेट का उपयोग करके, व्यवसाय एक ऐसा टूल बना सकते हैं जो ग्राहकों को 24/7 त्वरित उत्तर प्रदान करता है और ग्राहक सहायता करने वाले लोगों की एक टीम की तुलना में काफी सस्ता है।

1. प्रश्न-उत्तर डेटासेट

यह डेटासेट विकिपीडिया लेखों, प्रश्नों और उनके संबंधित मैन्युअल रूप से उत्पन्न उत्तरों का एक सेट प्रदान करता है। यह उपयोग के लिए 2008 और 2010 के बीच एकत्र किया गया डेटासेट है शैक्षिक अनुसंधान.

2. भाषा डेटा

भाषा डेटा याहू द्वारा प्रबंधित एक डेटाबेस है जिसमें कंपनी की कुछ सेवाओं, जैसे याहू! उत्तर, जो उपयोगकर्ताओं के लिए प्रश्न और उत्तर पोस्ट करने के लिए एक खुले समुदाय के रूप में कार्य करता है।

डेटासेट 1

3. विकीक्यूए

विकीक्यूए कॉर्पस में प्रश्नों और उत्तरों का एक सेट भी होता है। प्रश्नों का स्रोत बिंग है, जबकि उत्तर प्रारंभिक प्रश्न को हल करने की क्षमता वाले विकिपीडिया पृष्ठ से लिंक होते हैं।

डेटासेट 2 कुल मिलाकर, डेटासेट में 3,000 से अधिक प्रश्न और 29,258 वाक्यों का एक सेट है, जिनमें से लगभग 1,400 को संबंधित प्रश्न के उत्तर के रूप में वर्गीकृत किया गया है।

सरकारी डेटा

सरकारों द्वारा उत्पन्न डेटासेट जनसांख्यिकीय डेटा लाते हैं, जो सामाजिक प्रवृत्तियों को समझने, सार्वजनिक नीतियों को बनाने और समाज में सुधार से संबंधित परियोजनाओं के लिए महान इनपुट हैं। यह राजनीतिक अभियानों, लक्षित विज्ञापन या बाजार विश्लेषण के लिए उपयोगी हो सकता है।

इन डेटासेट में आम तौर पर अनाम डेटा होता है, इसलिए जब मॉडल कच्चे डेटा तक पहुंच सकते हैं, तो व्यक्तिगत गोपनीयता का कोई उल्लंघन नहीं होता है।

4. Data.gov

2009 में लॉन्च किया गया, Data.gov डेटा के लिए उत्तरी अमेरिकी स्रोत है। इसकी सूची प्रभावशाली है: 218,000 से अधिक डेटासेट जो प्रारूप, टैग, प्रकार और विषयों के आधार पर विभाजन की अनुमति देते हैं।

5. ईयू ओपन डेटा पोर्टल

ईयू ओपन डेटा पोर्टल यूरोपीय संघ के संस्थानों द्वारा साझा किए गए खुले डेटा तक पहुंच प्रदान करता है। ये ऐसे डेटा हैं जिन्हें वाणिज्यिक और गैर-व्यावसायिक उपयोग के लिए अभिप्रेत किया जा सकता है। स्वास्थ्य, ऊर्जा, पर्यावरण, संस्कृति और शिक्षा जैसे विषयों को कवर करने वाले 15.5 हजार से अधिक डेटासेट उपयोगकर्ता के निपटान में हैं।

स्वास्थ्य डेटा

दुनिया भर में चल रहे स्वास्थ्य संकट के मद्देनजर, स्वास्थ्य संगठनों द्वारा तैयार किए गए डेटासेट जीवन बचाने के लिए प्रभावी समाधान विकसित करने के लिए आवश्यक हैं। ये डेटासेट जोखिम कारकों की पहचान करने, रोग संचरण पैटर्न का पता लगाने और निदान में तेजी लाने में मदद कर सकते हैं।

इन डेटासेट में स्वास्थ्य रिकॉर्ड, रोगियों की जनसांख्यिकी, बीमारी की व्यापकता, औषधीय उपयोग, पोषण संबंधी मूल्य और बहुत कुछ शामिल हैं।

6. वैश्विक स्वास्थ्य वेधशाला

यह डेटा सेट विश्व स्वास्थ्य संगठन (WHO) की एक पहल है। यह स्वास्थ्य के विभिन्न क्षेत्रों से संबंधित सार्वजनिक डेटा प्रदान करता है, जो स्वास्थ्य प्रणाली, तंबाकू उपयोग नियंत्रण, मातृत्व, एचआईवी / एड्स, आदि जैसे विषयों द्वारा आयोजित किया जाता है। COVID-19 पर डेटा से परामर्श करने का विकल्प भी है।

7. कॉर्ड-19

CORD-19 COVID-19 पर अकादमिक प्रकाशनों और नए कोरोनावायरस के बारे में अन्य लेखों का एक संग्रह है। यह एक खुला डेटासेट है जिसका उद्देश्य COVID-19 पर नई अंतर्दृष्टि उत्पन्न करना है।

डेटासेट7

अर्थशास्त्र डेटा

वित्तीय वातावरण से संबंधित डेटासेट आमतौर पर बड़ी मात्रा में जानकारी एकत्र करते हैं, क्योंकि यह सामान्य है कि वे लंबे समय से एकत्र किए गए हैं। वे आर्थिक भविष्यवाणियां बनाने या निवेश के रुझान स्थापित करने के लिए आदर्श हैं।

सही वित्तीय डेटासेट के साथ, a मशीन लर्निंग मॉडल किसी दी गई संपत्ति के व्यवहार की भविष्यवाणी करने में सक्षम हो सकता है। यही कारण है कि वित्तीय क्षेत्र एक प्रभावी एमएल मॉडल बनाने के लिए अपनी शक्ति में सब कुछ कर रहा है, क्योंकि जो कुछ भी उचित रूप से भविष्यवाणी कर सकता है उसमें लाखों डॉलर उत्पन्न करने की क्षमता है। मशीन लर्निंग पहले से ही नागरिकों के व्यवहार की भविष्यवाणी कर रहा है, जो नीति निर्माताओं द्वारा अपना काम करने के तरीके को प्रभावित कर रहा है।

8. अंतरराष्ट्रीय मुद्रा कोष

IMF डेटासेट में आर्थिक और वित्तीय संकेतक, सदस्य देश के आँकड़े और अन्य ऋण और विनिमय दर डेटा की एक श्रृंखला होती है।

9. विश्व बैंक

विश्व बैंक के भंडार में विभिन्न देशों की आर्थिक जानकारी वाले विभिन्न डेटासेट होते हैं। महाद्वीपों द्वारा विभाजित 17,000 से अधिक डेटासेट हैं।

88डेटासेट7

उत्पाद और सेवाओं की समीक्षा

भावना विश्लेषण ने विभिन्न क्षेत्रों में इसके अनुप्रयोगों को पाया है जो अब उद्यमों को अपने ग्राहकों या ग्राहकों से सही ढंग से अनुमान लगाने और सीखने में मदद कर रहे हैं। सोशल मीडिया मॉनिटरिंग, ब्रांड मॉनिटरिंग, ग्राहक की आवाज (वीओसी), ग्राहक सेवा और बाजार अनुसंधान के लिए भावना विश्लेषण का तेजी से उपयोग किया जा रहा है।

भावना विश्लेषण एनएलपी का उपयोग करता है (न्यूरो-भाषाई प्रोग्रामिंग) विधियां और एल्गोरिदम जो या तो नियम-आधारित, हाइब्रिड हैं, या डेटासेट से डेटा सीखने के लिए मशीन लर्निंग तकनीकों पर निर्भर हैं।

भावना विश्लेषण में आवश्यक डेटा विशिष्ट होना चाहिए और बड़ी मात्रा में आवश्यक होना चाहिए। भावना विश्लेषण प्रशिक्षण प्रक्रिया के बारे में सबसे चुनौतीपूर्ण हिस्सा बड़ी मात्रा में डेटा नहीं ढूंढ रहा है; इसके बजाय, यह प्रासंगिक डेटासेट ढूंढना है। इन डेटा सेटों को भावना विश्लेषण अनुप्रयोगों और उपयोग के मामलों के एक विस्तृत क्षेत्र को कवर करना चाहिए।

10. अमेज़न समीक्षा

इस डेटासेट में लगभग 35 मिलियन अमेज़ॅन समीक्षाएं हैं, जो एकत्रित जानकारी की 18 साल की अवधि में फैली हुई हैं। यह उत्पाद, उपयोगकर्ता और समीक्षा सामग्री का डेटासेट है।

11. Yelp समीक्षाएं

येल्प अपनी सेवा से एकत्रित जानकारी के आधार पर एक डेटासेट भी प्रदान करता है। 8 मिलियन से अधिक समीक्षाएं, 1 मिलियन युक्तियां, साथ ही व्यवसायों से संबंधित लगभग 1.5 मिलियन विशेषताएं हैं, जैसे कि खुलने का समय और उपलब्धता।

12. IMDB समीक्षा

इस डेटाबेस में प्रशिक्षण के लिए 25 हजार से अधिक मूवी समीक्षाओं का एक सेट है और मूवी रेटिंग में विशेष रूप से IMDB पृष्ठ से अनौपचारिक रूप से लिए गए परीक्षणों के लिए 25 हजार अन्य हैं। यह अतिरिक्त के रूप में बिना लेबल वाला डेटा भी प्रदान करता है।

ML . में पहले चरण के लिए डेटासेट

13. शराब गुणवत्ता डेटासेट

यह डेटासेट उत्तरी पुर्तगाल में उत्पादित, लाल और हरे दोनों प्रकार की वाइन से संबंधित जानकारी प्रदान करता है। लक्ष्य भौतिक रासायनिक परीक्षणों के आधार पर शराब की गुणवत्ता को परिभाषित करना है। उन लोगों के लिए दिलचस्प है जो भविष्यवाणी प्रणाली बनाने का अभ्यास करना चाहते हैं।

14. टाइटैनिक डेटासेट

यह डेटासेट टाइटैनिक के 887 वास्तविक यात्रियों से डेटा लाता है, प्रत्येक कॉलम परिभाषित करता है कि क्या वे जीवित हैं, उनकी उम्र, यात्री वर्ग, लिंग और उनके द्वारा भुगतान किए गए बोर्डिंग शुल्क। यह डेटासेट कागल प्लेटफॉर्म द्वारा शुरू की गई एक चुनौती का हिस्सा था, जिसका उद्देश्य एक ऐसा मॉडल बनाना था जो भविष्यवाणी कर सके कि कौन से यात्री टाइटैनिक के डूबने से बच गए।

अन्य डेटासेट खोजने के लिए प्लेटफार्म

यदि आप आगे जाना चाहते हैं और अपना खुद का डेटासेट ढूंढना चाहते हैं, तो सबसे अच्छा तरीका है कि आप सबसे प्रसिद्ध रिपॉजिटरी के माध्यम से ब्राउज़ करें मशीन लर्निंग ब्रम्हांड:

Kaggle

Google LLC की सहायक कंपनी Kaggle, डेटा वैज्ञानिकों और मशीन लर्निंग पेशेवरों का एक ऑनलाइन समुदाय है। कागल उपयोगकर्ताओं को वेब-आधारित डेटा विज्ञान वातावरण में डेटासेट खोजने और प्रकाशित करने, मॉडल तलाशने और बनाने की अनुमति देता है; अन्य डेटा वैज्ञानिकों के साथ काम करें और मशीन लर्निंग इंजीनियर्स, और डेटा विज्ञान चुनौतियों को हल करने के लिए प्रतियोगिताओं में भाग लें।

कागल ने 2010 में मशीन लर्निंग प्रतियोगिता की पेशकश करके शुरुआत की थी और अब यह एक सार्वजनिक पेशकश भी करता है डेटा प्लेटफ़ॉर्म, डेटा विज्ञान और आर्टिफिशियल इंटेलिजेंस शिक्षा के लिए क्लाउड-आधारित कार्यक्षेत्र।

डेटासेट खोज

डेटासेट सर्च Google का एक सर्च इंजन है जो शोधकर्ताओं को ऑनलाइन डेटा का पता लगाने में मदद करता है जो उपयोग के लिए स्वतंत्र रूप से उपलब्ध है। पूरे वेब पर, आपकी रुचि के लगभग किसी भी विषय के बारे में लाखों डेटासेट हैं।

यदि आप एक पिल्ला खरीदना चाहते हैं, तो आप पिल्ला खरीदारों की शिकायतों को संकलित करने वाले डेटासेट या पिल्ला संज्ञान पर अध्ययन पा सकते हैं। या यदि आप स्कीइंग पसंद करते हैं, तो आप स्की रिसॉर्ट के राजस्व या चोट दर और भागीदारी संख्या पर डेटा पा सकते हैं। डेटासेट सर्च ने इनमें से लगभग 25 मिलियन डेटासेट को अनुक्रमित किया है, जिससे आपको डेटासेट खोजने और डेटा कहां है, के लिंक खोजने के लिए एक ही स्थान मिलता है।

यूसीआई मशीन लर्निंग रिपॉजिटरी

यूसीआई मशीन लर्निंग रिपोजिटरी डेटाबेस, डोमेन थ्योरी और डेटा जेनरेटर का एक संग्रह है जो मशीन लर्निंग समुदाय द्वारा मशीन लर्निंग एल्गोरिदम के अनुभवजन्य विश्लेषण के लिए उपयोग किया जाता है। संग्रह को 1987 में डेविड अहा और यूसी इरविन के साथी स्नातक छात्रों द्वारा एक एफ़टीपी संग्रह के रूप में बनाया गया था।

उस समय से, यह दुनिया भर के छात्रों, शिक्षकों और शोधकर्ताओं द्वारा एमएल डेटासेट के प्राथमिक स्रोत के रूप में व्यापक रूप से उपयोग किया गया है। संग्रह के प्रभाव के संकेत के रूप में, इसे 1000 से अधिक बार उद्धृत किया गया है, जिससे यह सभी कंप्यूटर विज्ञान में शीर्ष 100 सबसे अधिक उद्धृत "कागजात" में से एक बन गया है।

कंदल

क्वांडल एक ऐसा मंच है जो अपने उपयोगकर्ताओं को आर्थिक, वित्तीय और वैकल्पिक डेटासेट प्रदान करता है। उपयोगकर्ता मुफ्त डेटा डाउनलोड कर सकते हैं, भुगतान किए गए डेटा खरीद सकते हैं या क्वांडल को डेटा बेच सकते हैं। यह के विकास के लिए एक उपयोगी उपकरण हो सकता है ट्रेडिंग एल्गोरिदम, उदाहरण के लिए।

निष्कर्ष

इन उपकरणों की खोज करके, आप निश्चित रूप से अपनी परियोजनाओं के लिए बेहतरीन इनपुट प्राप्त कर सकते हैं। अपनी विशिष्ट आवश्यकताओं के लिए सबसे उपयुक्त डेटासेट चुनना सुनिश्चित करें और हमेशा ध्यान रखें: यह केवल मात्रा के बारे में नहीं है, बल्कि गुणवत्ता के बारे में भी है। डेटासेट किसी का आधार है मशीन लर्निंग प्रोजेक्ट और दोषपूर्ण निष्कर्ष तक पहुंचने के जोखिम से बचने के लिए गुणवत्ता डेटा पर निर्माण करना आवश्यक है।

मशीन लर्निंग के लिए 14 सर्वश्रेष्ठ डेटासेट

डेटासेट की मूल बातें