प्रत्येक मशीन लर्निंग प्रकल्प चांगल्या डेटासेटवर अवलंबून असतो. हा मोठा डेटासेट आहे जो तुम्हाला तुमच्या एमएल मॉडेलचे प्रशिक्षण आणि प्रमाणीकरण करण्यास अनुमती देईल. तर, ML प्रोजेक्टमधील कामाचा एक मोठा भाग आपल्या गरजांसाठी योग्य डेटासेट शोधणे आहे. तथापि, आपल्या महत्त्वाकांक्षेला बसणारा पर्याय शोधणे नेहमीच शक्य नसते, कारण शेवटी मनोरंजक दिसणार्या अनेक फाईल्स नसतात.
तुम्ही आदर्श सेटवर पोहोचेपर्यंत असंख्य डेटासेट डाउनलोड करण्यात वेळ वाया घालवणे कठीण असू शकते. हे लक्षात घेऊन, आम्ही मनोरंजक वाटणारे काही पर्याय एकत्र केले आहेत आणि तुमचा ML प्रकल्प विकसित करण्यात मदत करू शकतात. लक्षात घ्या की काही व्यावसायिक वापराऐवजी वैयक्तिक वापरासाठी आहेत, म्हणून ML विश्वाचा अनुभव मिळविण्याचा एक मार्ग म्हणून या पर्यायांकडे पहा.
डेटासेटची मूलभूत माहिती
आम्ही डेटासेटचा उल्लेख करण्यापूर्वी, आम्ही काही संज्ञा परिभाषित केल्या पाहिजेत. कृत्रिम बुद्धिमत्ता प्रकल्पांमध्ये, विशेषतः मशीन लर्निंग, मोठ्या प्रमाणात डेटा आवश्यक आहे, जो अल्गोरिदम प्रशिक्षित करण्यासाठी वापरला जाईल. एवढा डेटा डेटाबेसमध्ये गोळा केला जातो, जो अल्गोरिदम शिकवण्यासाठी अत्यंत उपयुक्त आहे.
या डेटासह, अल्गोरिदम प्रशिक्षित केले जाते - चाचणी देखील केली जाते - आणि नमुने शोधण्यात, संबंध प्रस्थापित करण्यास आणि अशा प्रकारे स्वायत्तपणे निर्णय घेण्यास सक्षम होते. प्रशिक्षणाशिवाय, मशीन लर्निंग अल्गोरिदम कोणतीही क्रिया करण्यास अक्षम आहेत. म्हणून, प्रशिक्षण डेटा जितका चांगला असेल तितके मॉडेल चांगले प्रदर्शन करेल. प्रकल्पासाठी डेटाबेस उपयुक्त होण्यासाठी, ते प्रमाणाबद्दल नाही: ते वर्गीकरणाबद्दल देखील आहे.
तद्वतच, डेटा चांगले लेबल केलेले असावे. चॅटबॉट्सच्या बाबतीत विचार करा: भाषा समाविष्ट करणे महत्वाचे आहे, परंतु काळजीपूर्वक वाक्यरचना विश्लेषण करणे आवश्यक आहे जेणेकरून इंटरलोक्यूटर अपशब्द वापरत असताना तयार केलेला अल्गोरिदम समजू शकेल. त्यानंतरच व्हर्च्युअल असिस्टंट वापरकर्त्याने विनंती केल्यानुसार उत्तर सुरू करण्यास सक्षम असेल.
डेटासेट सर्वेक्षणे, वापरकर्ता खरेदी डेटा, सेवांवर सोडलेले मूल्यमापन आणि इतर अनेक मार्गांनी व्युत्पन्न केले जाऊ शकतात जे CSV फाइलमधील स्तंभ आणि पंक्तींमध्ये व्यवस्थित उपयुक्त माहिती गोळा करण्यास अनुमती देतात.
तुम्ही परिपूर्ण डेटासेटच्या शोधात निघण्यापूर्वी, तुमच्या प्रकल्पाचा उद्देश जाणून घेणे महत्त्वाचे आहे, विशेषत: जर तो हवामान, वित्त, आरोग्य इ. यासारख्या विशिष्ट क्षेत्रातील असेल. हे तुम्ही कोणत्या स्रोतातून तुमचा स्रोत घ्याल ते ठरवेल. डेटासेट
ML साठी डेटासेट
चॅटबॉट प्रशिक्षण
मानवी हस्तक्षेपाशिवाय वापरकर्त्याच्या चौकशीचे त्वरित निराकरण करण्यासाठी प्रभावी चॅटबॉटला मोठ्या प्रमाणावर प्रशिक्षण डेटाची आवश्यकता असते. तथापि, या मशीन लर्निंग-आधारित प्रणालींना प्रशिक्षित करण्यासाठी चॅटबॉट विकासातील प्राथमिक अडथळे म्हणजे वास्तववादी, कार्य-देणारं संवाद डेटा मिळवणे.
संवादात्मक डेटासेट प्रश्न आणि उत्तर स्वरूपात डेटा गोळा करतो. हे चॅटबॉट्सच्या प्रशिक्षणासाठी आदर्श आहे जे प्रेक्षकांना स्वयंचलित उत्तरे देतील. या डेटाशिवाय, चॅटबॉट वापरकर्त्याच्या चौकशीचे त्वरित निराकरण करण्यात किंवा मानवी हस्तक्षेपाशिवाय वापरकर्त्याच्या प्रश्नांची उत्तरे देण्यात अयशस्वी होईल.
या डेटासेटचा वापर करून, व्यवसाय एक साधन तयार करू शकतात जे ग्राहकांना 24/7 द्रुत उत्तरे देतात आणि ग्राहक समर्थन करणाऱ्या लोकांच्या टीमपेक्षा लक्षणीय स्वस्त आहे.
1. प्रश्न-उत्तर डेटासेट
हा डेटासेट विकिपीडिया लेख, प्रश्न आणि त्यांच्या संबंधित मॅन्युअली व्युत्पन्न केलेल्या उत्तरांचा संच प्रदान करतो. मध्ये वापरण्यासाठी 2008 आणि 2010 दरम्यान गोळा केलेला डेटासेट आहे शैक्षणिक संशोधन.
2. भाषा डेटा
भाषा डेटा हा Yahoo द्वारे व्यवस्थापित केलेला डेटाबेस आहे ज्यामध्ये Yahoo! सारख्या कंपनीच्या काही सेवांमधून व्युत्पन्न केलेली माहिती आहे. उत्तर, जे वापरकर्त्यांसाठी प्रश्न आणि उत्तरे पोस्ट करण्यासाठी एक मुक्त समुदाय म्हणून कार्य करते.
3. WikiQA
WikiQA कॉर्पसमध्ये प्रश्न आणि उत्तरांचा संच देखील असतो. प्रश्नांचा स्त्रोत Bing आहे, तर उत्तरे प्रारंभिक प्रश्न सोडवण्याची क्षमता असलेल्या विकिपीडिया पृष्ठाशी लिंक करतात.
एकूण, डेटासेटमध्ये 3,000 हून अधिक प्रश्न आणि 29,258 वाक्यांचा संच आहे, त्यापैकी सुमारे 1,400 संबंधित प्रश्नांची उत्तरे म्हणून वर्गीकृत केली गेली आहेत.
सरकारी डेटा
सरकारद्वारे व्युत्पन्न केलेले डेटासेट लोकसंख्याशास्त्रीय डेटा आणतात, जे सामाजिक ट्रेंड समजून घेणे, सार्वजनिक धोरणे तयार करणे आणि समाज सुधारणेशी संबंधित प्रकल्पांसाठी उत्तम इनपुट आहेत. हे राजकीय मोहिमा, लक्ष्यित जाहिराती किंवा बाजार विश्लेषणासाठी उपयुक्त ठरू शकते.
या डेटासेटमध्ये सामान्यत: अनामित डेटा असतो, त्यामुळे मॉडेल कच्च्या डेटामध्ये प्रवेश करू शकतात, वैयक्तिक गोपनीयतेचे कोणतेही उल्लंघन होत नाही.
4. डेटा.gov
2009 मध्ये लाँच केलेले, Data.gov डेटासाठी उत्तर अमेरिकन स्त्रोत आहे. त्याची कॅटलॉग प्रभावी आहे: 218,000 पेक्षा जास्त डेटासेट जे फॉरमॅट, टॅग, प्रकार आणि विषयांनुसार विभाजन करण्यास अनुमती देतात.
5. EU ओपन डेटा पोर्टल
EU ओपन डेटा पोर्टल युरोपियन युनियनच्या संस्थांद्वारे सामायिक केलेल्या खुल्या डेटामध्ये प्रवेश प्रदान करते. हा डेटा आहे जो व्यावसायिक आणि गैर-व्यावसायिक वापरासाठी असू शकतो. आरोग्य, ऊर्जा, पर्यावरण, संस्कृती आणि शिक्षण यांसारख्या विषयांचा समावेश करणारे 15.5 हजाराहून अधिक डेटासेट वापरकर्त्याच्या ताब्यात आहेत.
आरोग्य डेटा
जगभरात चालू असलेल्या आरोग्य संकटाच्या पार्श्वभूमीवर, आरोग्य संस्थांद्वारे व्युत्पन्न केलेले डेटासेट जीव वाचवण्यासाठी प्रभावी उपाय विकसित करण्यासाठी आवश्यक आहेत. हे डेटासेट जोखीम घटक ओळखण्यात, रोग प्रसारित करण्याच्या पद्धतींवर कार्य करण्यास आणि निदानाची गती वाढविण्यात मदत करू शकतात.
या डेटासेटमध्ये आरोग्य नोंदी, रुग्णांची लोकसंख्या, रोगाचा प्रसार, औषधी वापर, पौष्टिक मूल्ये आणि बरेच काही समाविष्ट आहे.
6. जागतिक आरोग्य वेधशाळा
हा डेटा संच जागतिक आरोग्य संघटनेचा (WHO) उपक्रम आहे. हे आरोग्य प्रणाली, तंबाखू सेवन नियंत्रण, मातृत्व, एचआयव्ही/एड्स इत्यादी थीमद्वारे आयोजित आरोग्याच्या विविध क्षेत्रांशी संबंधित सार्वजनिक डेटा प्रदान करते. कोविड-19 वरील डेटाचा सल्ला घेण्याचा पर्याय देखील आहे.
7. कॉर्ड-19
CORD-19 हा COVID-19 वरील शैक्षणिक प्रकाशनांचा आणि नवीन कोरोनाव्हायरसबद्दलच्या इतर लेखांचा संग्रह आहे. हा एक खुला डेटासेट आहे ज्याचा उद्देश COVID-19 वर नवीन अंतर्दृष्टी निर्माण करणे आहे.
अर्थशास्त्र डेटा
आर्थिक वातावरणाशी संबंधित डेटासेट सहसा मोठ्या प्रमाणात माहिती गोळा करतात, कारण हे सामान्य आहे की ते बर्याच काळापासून एकत्रित केले गेले आहेत. ते आर्थिक अंदाज तयार करण्यासाठी किंवा गुंतवणूक ट्रेंड स्थापित करण्यासाठी आदर्श आहेत.
योग्य आर्थिक डेटासेटसह, अ मशीन लर्निंग मॉडेल दिलेल्या मालमत्तेच्या वर्तनाचा अंदाज लावू शकतो. म्हणूनच आर्थिक क्षेत्र प्रभावी ML मॉडेल तयार करण्यासाठी सर्व काही करत आहे, कारण वाजवीपणे अंदाज लावू शकणार्या कोणत्याही गोष्टीमध्ये लाखो डॉलर्स उत्पन्न करण्याची क्षमता आहे. मशीन लर्निंग आधीच नागरिकांच्या वर्तनाचा अंदाज घेत आहे, ज्याचा परिणाम धोरणकर्ते त्यांच्या कार्य करण्याच्या पद्धतीवर होत आहे.
8. आंतरराष्ट्रीय मुद्रानिधी
IMF डेटासेटमध्ये आर्थिक आणि आर्थिक निर्देशक, सदस्य देशांची आकडेवारी आणि इतर कर्ज आणि विनिमय दर डेटाची श्रेणी असते.
9. जागतिक बँक
जागतिक बँकेच्या भांडारात विविध देशांच्या आर्थिक माहितीसह भिन्न डेटासेट आहेत. महाद्वीपांनी विभागलेले 17,000 पेक्षा जास्त डेटासेट आहेत.
उत्पादन आणि सेवा पुनरावलोकने
भावना विश्लेषणास विविध क्षेत्रांमध्ये त्याचे अनुप्रयोग सापडले आहेत जे आता एंटरप्राइझना त्यांच्या ग्राहक किंवा ग्राहकांकडून योग्यरित्या अंदाज लावण्यास आणि शिकण्यास मदत करत आहेत. सोशल मीडिया मॉनिटरिंग, ब्रँड मॉनिटरिंग, ग्राहकाचा आवाज (VoC), ग्राहक सेवा आणि बाजार संशोधन यासाठी भावना विश्लेषणाचा वापर वाढत्या प्रमाणात होत आहे.
भावना विश्लेषण NLP वापरते (न्यूरो-भाषिक प्रोग्रामिंग) पद्धती आणि अल्गोरिदम जे एकतर नियम-आधारित, संकरित किंवा डेटासेटमधून डेटा शिकण्यासाठी मशीन लर्निंग तंत्रांवर अवलंबून असतात.
भावना विश्लेषणासाठी आवश्यक असलेला डेटा विशेषीकृत असावा आणि मोठ्या प्रमाणात आवश्यक आहे. भावना विश्लेषण प्रशिक्षण प्रक्रियेचा सर्वात आव्हानात्मक भाग म्हणजे मोठ्या प्रमाणात डेटा शोधणे; त्याऐवजी, ते संबंधित डेटासेट शोधण्यासाठी आहे. या डेटा सेटमध्ये भावना विश्लेषण अनुप्रयोग आणि वापर प्रकरणांचे विस्तृत क्षेत्र समाविष्ट करणे आवश्यक आहे.
10. Amazonमेझॉन पुनरावलोकने
या डेटासेटमध्ये सुमारे 35 दशलक्ष Amazon पुनरावलोकने आहेत, 18 वर्षांच्या कालावधीत एकत्रित माहिती. हा उत्पादन, वापरकर्ता आणि पुनरावलोकन सामग्रीचा डेटासेट आहे.
11. येल्प पुनरावलोकने
Yelp त्याच्या सेवेतून गोळा केलेल्या माहितीवर आधारित डेटासेट देखील देते. येथे 8 दशलक्ष पुनरावलोकने, 1 दशलक्ष टिपा, तसेच व्यवसायांशी संबंधित जवळजवळ 1.5 दशलक्ष गुणधर्म आहेत, जसे की उघडण्याचे तास आणि उपलब्धता.
12. IMDB पुनरावलोकने
या डेटाबेसमध्ये प्रशिक्षणासाठी 25 हजारांहून अधिक चित्रपट परीक्षणांचा संच आहे आणि चित्रपट रेटिंगमध्ये विशेष IMDB पृष्ठावरून अनौपचारिकपणे घेतलेल्या चाचण्यांसाठी आणखी 25 हजारांचा समावेश आहे. हे अतिरिक्त म्हणून लेबल न केलेला डेटा देखील ऑफर करते.
ML मधील पहिल्या चरणांसाठी डेटासेट
13. वाइन गुणवत्ता डेटासेट
हा डेटासेट उत्तर पोर्तुगालमध्ये उत्पादित लाल आणि हिरवा अशा दोन्ही वाइनशी संबंधित माहिती प्रदान करतो. फिजिओकेमिकल चाचण्यांवर आधारित वाइनची गुणवत्ता परिभाषित करणे हे उद्दिष्ट आहे. ज्यांना एक अंदाज प्रणाली तयार करण्याचा सराव करायचा आहे त्यांच्यासाठी मनोरंजक.
14. टायटॅनिक डेटासेट
हा डेटासेट टायटॅनिकमधील 887 वास्तविक प्रवाशांचा डेटा आणतो, प्रत्येक स्तंभात ते जिवंत आहेत की नाही, त्यांचे वय, प्रवासी वर्ग, लिंग आणि त्यांनी भरलेले बोर्डिंग शुल्क हे स्पष्ट केले आहे. हा डेटासेट कागल प्लॅटफॉर्मने सुरू केलेल्या आव्हानाचा एक भाग होता, ज्याचा उद्देश टायटॅनिक बुडताना कोणते प्रवासी वाचले याचा अंदाज लावू शकणारे मॉडेल तयार करणे हे होते.
इतर डेटासेट शोधण्यासाठी प्लॅटफॉर्म
जर तुम्हाला आणखी पुढे जायचे असेल आणि तुमचा स्वतःचा डेटासेट शोधायचा असेल, तर सर्वात प्रसिद्ध रिपॉझिटरीज ब्राउझ करणे हा सर्वोत्तम मार्ग आहे. मशीन लर्निंग विश्व:
कागले
Kaggle, Google LLC ची उपकंपनी, डेटा शास्त्रज्ञ आणि मशीन लर्निंग व्यावसायिकांचा एक ऑनलाइन समुदाय आहे. Kaggle वापरकर्त्यांना वेब-आधारित डेटा विज्ञान वातावरणात डेटासेट शोधण्याची आणि प्रकाशित करण्याची, एक्सप्लोर करण्याची आणि मॉडेल तयार करण्याची परवानगी देते; इतर डेटा वैज्ञानिकांसह कार्य करा आणि मशीन लर्निंग इंजिनियर्स, आणि डेटा विज्ञान आव्हाने सोडवण्यासाठी स्पर्धांमध्ये भाग घ्या.
Kaggle 2010 मध्ये मशीन लर्निंग स्पर्धा ऑफर करून सुरुवात केली आणि आता सार्वजनिक देखील ऑफर करते डेटा प्लॅटफॉर्म, डेटा विज्ञान आणि कृत्रिम बुद्धिमत्ता शिक्षणासाठी क्लाउड-आधारित वर्कबेंच.
डेटासेट शोध
डेटासेट शोध हे Google चे एक शोध इंजिन आहे जे संशोधकांना वापरासाठी मुक्तपणे उपलब्ध असलेला ऑनलाइन डेटा शोधण्यात मदत करते. संपूर्ण वेबवर, तुम्हाला स्वारस्य असलेल्या जवळपास कोणत्याही विषयाबद्दल लाखो डेटासेट आहेत.
जर तुम्ही पिल्लू विकत घेण्याचा विचार करत असाल, तर तुम्हाला पिल्लू खरेदीदारांच्या तक्रारी संकलित करणारे डेटासेट सापडतील किंवा पिल्लाच्या आकलनावर अभ्यास करता येईल. किंवा तुम्हाला स्कीइंग आवडत असल्यास, तुम्ही स्की रिसॉर्ट्सच्या कमाईवरील डेटा किंवा दुखापतीचे दर आणि सहभाग क्रमांक शोधू शकता. डेटासेट शोधने यापैकी जवळपास 25 दशलक्ष डेटासेट अनुक्रमित केले आहेत, ज्यामुळे तुम्हाला डेटासेट शोधण्यासाठी आणि डेटा कोठे आहे याचे दुवे शोधण्यासाठी एकच जागा मिळते.
UCI मशीन लर्निंग रिपॉजिटरी
UCI मशीन लर्निंग रेपॉजिटरी हा डेटाबेस, डोमेन सिद्धांत आणि डेटा जनरेटरचा संग्रह आहे जो मशीन लर्निंग समुदायाद्वारे मशीन लर्निंग अल्गोरिदमच्या अनुभवजन्य विश्लेषणासाठी वापरला जातो. 1987 मध्ये डेव्हिड आहा आणि UC इर्विन येथील सहकारी पदवीधर विद्यार्थ्यांनी ftp संग्रहण म्हणून संग्रहण तयार केले होते.
तेव्हापासून, जगभरातील विद्यार्थी, शिक्षक आणि संशोधकांनी ML डेटासेटचा प्राथमिक स्रोत म्हणून त्याचा मोठ्या प्रमाणावर वापर केला आहे. संग्रहणाच्या प्रभावाचे संकेत म्हणून, ते 1000 पेक्षा जास्त वेळा उद्धृत केले गेले आहे, ज्यामुळे ते सर्व संगणक विज्ञानातील शीर्ष 100 सर्वात उद्धृत "पेपर" पैकी एक बनले आहे.
क्वांडल
Quandl हे एक व्यासपीठ आहे जे त्याच्या वापरकर्त्यांना आर्थिक, आर्थिक आणि वैकल्पिक डेटासेट प्रदान करते. वापरकर्ते विनामूल्य डेटा डाउनलोड करू शकतात, सशुल्क डेटा खरेदी करू शकतात किंवा क्वांडलला डेटा विकू शकतात. च्या विकासासाठी हे एक उपयुक्त साधन असू शकते ट्रेडिंग अल्गोरिदमउदाहरणार्थ,
निष्कर्ष
ही साधने एक्सप्लोर करून, तुम्हाला तुमच्या प्रकल्पांसाठी उत्तम इनपुट्स मिळतील याची खात्री आहे. तुमच्या विशिष्ट गरजांसाठी सर्वात योग्य असा डेटासेट निवडण्याची खात्री करा आणि नेहमी लक्षात ठेवा: ते केवळ प्रमाणाविषयी नाही तर गुणवत्तेवरही आहे. डेटासेट कोणत्याहीचा आधार आहे मशीन लर्निंग प्रकल्प आणि दोषपूर्ण निष्कर्षापर्यंत पोहोचण्याचा धोका टाळण्यासाठी दर्जेदार डेटा तयार करणे आवश्यक आहे.
प्रत्युत्तर द्या