பொருளடக்கம்[மறை][காட்டு]
ஒவ்வொரு இயந்திர கற்றல் திட்டமும் ஒரு நல்ல தரவுத்தொகுப்பில் தங்கியுள்ளது. இந்தப் பெரிய தரவுத்தொகுப்புதான் உங்கள் ML மாதிரியைப் பயிற்றுவிக்கவும் சரிபார்க்கவும் உங்களை அனுமதிக்கும். எனவே, ML திட்டப்பணியின் பெரும்பகுதி உங்கள் தேவைகளுக்கான சரியான தரவுத்தொகுப்பைக் கண்டறிவதாகும். இருப்பினும், உங்கள் லட்சியத்திற்குப் பொருந்தக்கூடிய ஒரு விருப்பத்தைக் கண்டறிவது எப்போதும் சாத்தியமில்லை, ஏனெனில் சுவாரசியமாகத் தோன்றும் பல கோப்புகள் இறுதியில் இல்லை.
நீங்கள் ஒரு சிறந்த தொகுப்பை அடையும் வரை எண்ணற்ற தரவுத்தொகுப்புகளைப் பதிவிறக்கும் நேரத்தை வீணாக்குவது அச்சுறுத்தலாக இருக்கும். இதைக் கருத்தில் கொண்டு, சுவாரஸ்யமானதாகத் தோன்றும் சில விருப்பங்களை நாங்கள் சேகரித்துள்ளோம், மேலும் உங்கள் ML திட்டத்தை உருவாக்க உதவலாம். சில வணிகப் பயன்பாட்டிற்குப் பதிலாக தனிப்பட்டவை என்பதை நினைவில் கொள்ளவும், எனவே ML பிரபஞ்சத்தில் அனுபவத்தைப் பெறுவதற்கான ஒரு வழியாக இந்த விருப்பங்களைப் பாருங்கள்.
தரவுத்தொகுப்புகளின் அடிப்படைகள்
தரவுத்தொகுப்புகளைக் குறிப்பிடுவதற்கு முன், நாம் சில விதிமுறைகளை வரையறுக்க வேண்டும். செயற்கை நுண்ணறிவு திட்டங்களில், குறிப்பாக எந்திர கற்றல், ஒரு பெரிய அளவிலான தரவு தேவைப்படுகிறது, இது அல்காரிதத்தைப் பயிற்றுவிக்கப் பயன்படும். இந்த அளவு தரவு தரவுத்தளத்தில் சேகரிக்கப்படுகிறது, இது ஒரு அல்காரிதம் கற்பிக்க மிகவும் பயனுள்ளதாக இருக்கும்.
இந்தத் தரவைக் கொண்டு, அல்காரிதம் பயிற்சியளிக்கப்படுகிறது - மேலும் சோதிக்கப்படுகிறது - மேலும் வடிவங்களைக் கண்டறியவும், உறவுகளை நிறுவவும், இதனால் சுயமாக முடிவுகளை எடுக்கவும் முடியும். பயிற்சி இல்லாமல், எந்திர கற்றல் அல்காரிதம்களால் எந்த செயலையும் செய்ய முடியவில்லை. எனவே, சிறந்த பயிற்சி தரவு, சிறந்த மாதிரி செயல்படும். ஒரு தரவுத்தளமானது திட்டத்திற்கு பயனுள்ளதாக இருக்க, அது அளவைப் பற்றியது அல்ல: இது வகைப்பாடு பற்றியது.
வெறுமனே, தரவு நன்கு பெயரிடப்பட்டிருக்க வேண்டும். சாட்போட்களின் விஷயத்தைப் பற்றி சிந்தியுங்கள்: மொழி செருகுவது முக்கியம், ஆனால் கவனமாக தொடரியல் பகுப்பாய்வு செய்யப்பட வேண்டும், இதனால் உருவாக்கப்பட்ட அல்காரிதம் உரையாசிரியர் ஸ்லாங்கைப் பயன்படுத்தும் போது புரிந்து கொள்ள முடியும். அப்போதுதான் மெய்நிகர் உதவியாளரால் பயனரின் கோரிக்கைக்கு ஏற்ப பதிலைத் தொடங்க முடியும்.
கணக்கெடுப்புகள், பயனர் கொள்முதல் தரவு, சேவைகளில் விடப்பட்ட மதிப்பீடுகள் மற்றும் CSV கோப்பில் உள்ள நெடுவரிசைகள் மற்றும் வரிசைகளில் ஒழுங்கமைக்கப்பட்ட பயனுள்ள தகவல்களைச் சேகரிக்க அனுமதிக்கும் பல வழிகளில் தரவுத்தொகுப்புகளை உருவாக்கலாம்.
சரியான தரவுத்தொகுப்பைத் தேடுவதற்கு முன், உங்கள் திட்டத்தின் நோக்கத்தை நீங்கள் அறிவது முக்கியம், குறிப்பாக அது வானிலை, நிதி, உடல்நலம் போன்ற ஒரு குறிப்பிட்ட பகுதியைச் சேர்ந்ததாக இருந்தால், நீங்கள் எந்த மூலத்திலிருந்து பெறுவீர்கள் என்பதை இது தீர்மானிக்கும். தரவுத்தொகுப்பு.
ML க்கான தரவுத்தொகுப்புகள்
சாட்போட் பயிற்சி
மனித தலையீடு இல்லாமல் பயனர் விசாரணைகளை விரைவாகத் தீர்க்க, ஒரு பயனுள்ள சாட்போட்டுக்கு மிகப்பெரிய அளவிலான பயிற்சித் தரவு தேவைப்படுகிறது. எவ்வாறாயினும், இந்த இயந்திர கற்றல் அடிப்படையிலான அமைப்புகளைப் பயிற்றுவிப்பதற்காக யதார்த்தமான, பணி சார்ந்த உரையாடல் தரவைப் பெறுவதே சாட்போட் மேம்பாட்டில் முதன்மையான இடையூறு.
ஒரு உரையாடல் தரவுத்தொகுப்பு ஒரு கேள்வி மற்றும் பதில் வடிவத்தில் தரவை சேகரிக்கிறது. பார்வையாளர்களுக்கு தானியங்கு பதில்களைக் கொடுக்கும் சாட்போட்களைப் பயிற்றுவிப்பதற்கு இது சிறந்தது. இந்தத் தரவு இல்லாமல், மனிதர்களின் தலையீடு இல்லாமல் பயனர் விசாரணைகளை விரைவாகத் தீர்க்கவோ அல்லது பயனர் கேள்விகளுக்குப் பதிலளிக்கவோ சாட்போட் தோல்வியடையும்.
இந்தத் தரவுத்தொகுப்புகளைப் பயன்படுத்தி, வணிகங்கள் வாடிக்கையாளர்களுக்கு 24/7 விரைவான பதில்களை வழங்கும் ஒரு கருவியை உருவாக்க முடியும் மற்றும் வாடிக்கையாளர் ஆதரவைச் செய்யும் நபர்களைக் காட்டிலும் கணிசமாக மலிவானது.
1. கேள்வி-பதில் தரவுத்தொகுப்பு
இந்தத் தரவுத்தொகுப்பு விக்கிபீடியா கட்டுரைகள், கேள்விகள் மற்றும் அவற்றுக்கான கைமுறையாக உருவாக்கப்பட்ட பதில்களின் தொகுப்பை வழங்குகிறது. இது பயன்படுத்துவதற்காக 2008 மற்றும் 2010 க்கு இடையில் சேகரிக்கப்பட்ட தரவுத்தொகுப்பாகும் கல்வி ஆராய்ச்சி.
2. மொழி தரவு
மொழித் தரவு என்பது Yahoo! போன்ற சில நிறுவனத்தின் சேவைகளில் இருந்து உருவாக்கப்பட்ட தகவல்களைக் கொண்டு Yahoo ஆல் நிர்வகிக்கப்படும் தரவுத்தளமாகும். பதில், இது பயனர்கள் கேள்விகள் மற்றும் பதில்களை இடுகையிட ஒரு திறந்த சமூகமாக செயல்படுகிறது.
3. விக்கிக்வா
WikiQA கார்பஸ் கேள்விகள் மற்றும் பதில்களின் தொகுப்பையும் கொண்டுள்ளது. கேள்விகளின் ஆதாரம் பிங் ஆகும், அதே சமயம் பதில்கள் விக்கிபீடியா பக்கத்துடன் இணைக்கப்பட்டு ஆரம்பக் கேள்வியைத் தீர்க்கும் திறன் கொண்டது.
மொத்தத்தில், தரவுத்தொகுப்பில் 3,000 க்கும் மேற்பட்ட கேள்விகள் மற்றும் 29,258 வாக்கியங்கள் உள்ளன, அவற்றில் 1,400 தொடர்புடைய கேள்விக்கான பதில்களாக வகைப்படுத்தப்பட்டுள்ளன.
அரசாங்க தரவு
அரசாங்கங்களால் உருவாக்கப்பட்ட தரவுத்தொகுப்புகள் மக்கள்தொகைத் தரவைக் கொண்டு வருகின்றன, அவை சமூகப் போக்குகளைப் புரிந்துகொள்வது, பொதுக் கொள்கைகளை உருவாக்குதல் மற்றும் சமூகத்தை மேம்படுத்துதல் தொடர்பான திட்டங்களுக்கு சிறந்த உள்ளீடுகளாகும். அரசியல் பிரச்சாரங்கள், இலக்கு விளம்பரம் அல்லது சந்தை பகுப்பாய்வு ஆகியவற்றிற்கு இது பயனுள்ளதாக இருக்கும்.
இந்த தரவுத்தொகுப்புகள் பொதுவாக அநாமதேயத் தரவைக் கொண்டிருக்கும், எனவே மாதிரிகள் மூலத் தரவை அணுக முடியும், தனிப்பட்ட தனியுரிமை மீறல்கள் எதுவும் இல்லை.
4. Data.gov
2009 இல் தொடங்கப்பட்டது, Data.gov என்பது தரவுகளுக்கான வட அமெரிக்க ஆதாரமாகும். அதன் பட்டியல் சுவாரஸ்யமாக உள்ளது: வடிவம், குறிச்சொற்கள், வகைகள் மற்றும் தலைப்புகள் மூலம் பிரிக்க அனுமதிக்கும் 218,000 க்கும் மேற்பட்ட தரவுத்தொகுப்புகள்.
5. EU திறந்த தரவு போர்டல்
EU ஓபன் டேட்டா போர்டல் ஐரோப்பிய ஒன்றியத்தின் நிறுவனங்களால் பகிரப்பட்ட திறந்த தரவுகளுக்கான அணுகலை வழங்குகிறது. இவை வணிக மற்றும் வணிக ரீதியான பயன்பாட்டிற்காக வடிவமைக்கப்பட்ட தரவு. ஆரோக்கியம், ஆற்றல், சுற்றுச்சூழல், கலாச்சாரம் மற்றும் கல்வி போன்ற தலைப்புகளை உள்ளடக்கிய 15.5 ஆயிரத்துக்கும் மேற்பட்ட தரவுத்தொகுப்புகள் பயனரின் வசம் உள்ளன.
சுகாதார தரவு
உலகளவில் நிலவும் சுகாதார நெருக்கடியை அடுத்து, உயிர்களைக் காப்பாற்ற பயனுள்ள தீர்வுகளை உருவாக்க சுகாதார நிறுவனங்களால் உருவாக்கப்பட்ட தரவுத்தொகுப்புகள் அவசியம். இந்த தரவுத்தொகுப்புகள் ஆபத்து காரணிகளை அடையாளம் காணவும், நோய் பரவும் முறைகளை உருவாக்கவும் மற்றும் நோயறிதலை விரைவுபடுத்தவும் உதவும்.
இந்தத் தரவுத்தொகுப்புகள் சுகாதாரப் பதிவுகள், நோயாளிகளின் புள்ளிவிவரங்கள், நோய் பரவல், மருத்துவப் பயன்பாடு, ஊட்டச்சத்து மதிப்புகள் மற்றும் பலவற்றைக் கொண்டிருக்கும்.
6. குளோபல் ஹெல்த் அப்சர்வேட்டரி
இந்தத் தரவுத் தொகுப்பு உலக சுகாதார அமைப்பின் (WHO) முன்முயற்சியாகும். சுகாதார அமைப்புகள், புகையிலை பயன்பாட்டுக் கட்டுப்பாடு, மகப்பேறு, எச்ஐவி/எய்ட்ஸ் போன்ற கருப்பொருள்களால் ஒழுங்கமைக்கப்பட்ட பல்வேறு சுகாதாரப் பகுதிகள் தொடர்பான பொதுத் தரவை இது வழங்குகிறது. கோவிட்-19 பற்றிய தரவைக் கலந்தாலோசிப்பதற்கான விருப்பமும் உள்ளது.
7. CORD-19
CORD-19 என்பது கோவிட்-19 பற்றிய கல்வி வெளியீடுகள் மற்றும் புதிய கொரோனா வைரஸ் பற்றிய பிற கட்டுரைகளின் தொகுப்பாகும். இது கோவிட்-19 பற்றிய புதிய நுண்ணறிவுகளை உருவாக்குவதற்கான திறந்த தரவுத்தொகுப்பாகும்.
பொருளாதார தரவு
நிதிச் சூழலுடன் தொடர்புடைய தரவுத்தொகுப்புகள் பொதுவாக ஒரு பெரிய அளவிலான தகவல்களைச் சேகரிக்கின்றன, ஏனெனில் அவை நீண்ட காலமாக சேகரிக்கப்பட்டு வருகின்றன. பொருளாதார கணிப்புகளை உருவாக்க அல்லது முதலீட்டு போக்குகளை நிறுவுவதற்கு அவை சிறந்தவை.
சரியான நிதி தரவுத்தொகுப்புகளுடன், ஏ இயந்திர கற்றல் மாதிரி கொடுக்கப்பட்ட சொத்தின் நடத்தையை கணிக்க முடியும். அதனால்தான் நிதித் துறையானது ஒரு பயனுள்ள ML மாதிரியை உருவாக்க அதன் சக்தியில் அனைத்தையும் செய்கிறது, ஏனெனில் நியாயமான முறையில் கூட கணிக்கக்கூடிய எதுவும் மில்லியன் கணக்கான டாலர்களை உருவாக்கும் திறனைக் கொண்டுள்ளது. இயந்திர கற்றல் ஏற்கனவே குடிமக்களின் நடத்தையை முன்னறிவிக்கிறது, இது கொள்கை வகுப்பாளர்கள் தங்கள் வேலையைச் செய்யும் விதத்தை பாதிக்கிறது.
8. சர்வதேச நாணய நிதியம்
IMF தரவுத்தொகுப்பு பொருளாதார மற்றும் நிதி குறிகாட்டிகள், உறுப்பினர் நாட்டின் புள்ளிவிவரங்கள் மற்றும் பிற கடன் மற்றும் மாற்று விகித தரவுகளின் வரம்பைக் கொண்டுள்ளது.
9. உலக வங்கி
உலக வங்கியின் களஞ்சியத்தில் பல்வேறு நாடுகளின் பொருளாதாரத் தகவல்களுடன் வெவ்வேறு தரவுத்தொகுப்புகள் உள்ளன. 17,000 க்கும் மேற்பட்ட தரவுத்தொகுப்புகள் கண்டங்களால் பிரிக்கப்பட்டுள்ளன.
தயாரிப்பு மற்றும் சேவை மதிப்புரைகள்
சென்டிமென்ட் பகுப்பாய்வு பல்வேறு துறைகளில் அதன் பயன்பாடுகளைக் கண்டறிந்துள்ளது, அவை இப்போது நிறுவனங்கள் தங்கள் வாடிக்கையாளர்கள் அல்லது வாடிக்கையாளர்களிடமிருந்து சரியாக மதிப்பிடவும் கற்றுக்கொள்ளவும் உதவுகின்றன. சமூக ஊடக கண்காணிப்பு, பிராண்ட் கண்காணிப்பு, வாடிக்கையாளரின் குரல் (VoC), வாடிக்கையாளர் சேவை மற்றும் சந்தை ஆராய்ச்சி ஆகியவற்றிற்கு உணர்வு பகுப்பாய்வு அதிகளவில் பயன்படுத்தப்படுகிறது.
உணர்வு பகுப்பாய்வு NLP ஐப் பயன்படுத்துகிறது (நரம்பியல்-மொழியியல் நிரலாக்கம்) முறைகள் மற்றும் வழிமுறைகள் விதி அடிப்படையிலானவை, கலப்பு அல்லது தரவுத்தொகுப்புகளிலிருந்து தரவைக் கற்க இயந்திர கற்றல் நுட்பங்களை நம்பியிருக்கும்.
உணர்வுப் பகுப்பாய்வில் தேவைப்படும் தரவு சிறப்பு வாய்ந்ததாக இருக்க வேண்டும் மற்றும் பெரிய அளவில் தேவைப்படும். உணர்வுப் பகுப்பாய்வு பயிற்சி செயல்முறையின் மிகவும் சவாலான பகுதியானது பெரிய அளவில் தரவைக் கண்டறிவதில்லை; மாறாக, தொடர்புடைய தரவுத்தொகுப்புகளைக் கண்டறிவதாகும். இந்தத் தரவுத் தொகுப்புகள் உணர்வுப் பகுப்பாய்வு பயன்பாடுகள் மற்றும் பயன்பாட்டு வழக்குகளின் பரந்த பகுதியை உள்ளடக்கியிருக்க வேண்டும்.
10. அமேசான் விமர்சனங்கள்
இந்தத் தரவுத்தொகுப்பில் சுமார் 35 மில்லியன் அமேசான் மதிப்புரைகள் உள்ளன, இது 18 வருட கால அளவில் சேகரிக்கப்பட்ட தகவல்களைக் கொண்டுள்ளது. இது தயாரிப்பு, பயனர் மற்றும் மதிப்பாய்வு உள்ளடக்கத்தின் தரவுத்தொகுப்பு.
11. Yelp விமர்சனங்கள்
Yelp அதன் சேவையிலிருந்து சேகரிக்கப்பட்ட தகவல்களின் அடிப்படையில் தரவுத்தொகுப்பையும் வழங்குகிறது. 8 மில்லியனுக்கும் அதிகமான மதிப்புரைகள், 1 மில்லியன் உதவிக்குறிப்புகள் மற்றும் வணிகங்கள் தொடர்பான கிட்டத்தட்ட 1.5 மில்லியன் பண்புக்கூறுகள், அதாவது திறக்கும் நேரம் மற்றும் கிடைக்கும் தன்மை போன்றவை உள்ளன.
12. IMDB விமர்சனங்கள்
இந்தத் தரவுத்தளத்தில் பயிற்சிக்கான 25 ஆயிரத்துக்கும் மேற்பட்ட திரைப்பட மதிப்புரைகள் மற்றும் திரைப்பட மதிப்பீடுகளில் நிபுணத்துவம் பெற்ற IMDB பக்கத்திலிருந்து முறைசாரா முறையில் எடுக்கப்பட்ட சோதனைகளுக்காக 25 ஆயிரத்திற்கும் அதிகமான மதிப்புரைகள் உள்ளன. இது லேபிளிடப்படாத தரவையும் கூடுதலாக வழங்குகிறது.
ML இல் முதல் படிகளுக்கான தரவுத்தொகுப்புகள்
13. ஒயின் தர தரவுத்தொகுப்பு
இந்த தரவுத்தொகுப்பு வடக்கு போர்ச்சுகலில் தயாரிக்கப்படும் சிவப்பு மற்றும் பச்சை ஆகிய இரண்டும் ஒயின் தொடர்பான தகவல்களை வழங்குகிறது. இயற்பியல் வேதியியல் சோதனைகளின் அடிப்படையில் ஒயின் தரத்தை வரையறுப்பதே குறிக்கோள். ஒரு முன்கணிப்பு முறையை உருவாக்க பயிற்சி செய்ய விரும்புவோருக்கு சுவாரஸ்யமானது.
14. டைட்டானிக் தரவுத்தொகுப்பு
இந்த தரவுத்தொகுப்பு டைட்டானிக்கிலிருந்து 887 உண்மையான பயணிகளிடமிருந்து தரவைக் கொண்டுவருகிறது, ஒவ்வொரு நெடுவரிசையும் அவர்கள் உயிர் பிழைத்திருந்தால், அவர்களின் வயது, பயணிகள் வகுப்பு, பாலினம் மற்றும் அவர்கள் செலுத்திய போர்டிங் கட்டணம் ஆகியவற்றை வரையறுக்கிறது. இந்த தரவுத்தொகுப்பு Kaggle இயங்குதளத்தால் தொடங்கப்பட்ட சவாலின் ஒரு பகுதியாகும், இதன் நோக்கம் டைட்டானிக் மூழ்கியதில் இருந்து எந்தப் பயணிகள் உயிர் பிழைத்தார்கள் என்பதைக் கணிக்கக்கூடிய மாதிரியை உருவாக்குவது.
பிற தரவுத்தொகுப்புகளைக் கண்டறிவதற்கான தளங்கள்
நீங்கள் மேலும் சென்று உங்கள் சொந்த தரவுத்தொகுப்பைக் கண்டுபிடிக்க விரும்பினால், சிறந்த வழி, மிகவும் பிரபலமான களஞ்சியங்கள் மூலம் உலாவ வேண்டும் எந்திர கற்றல் பிரபஞ்சம்:
Kaggle
Google LLC இன் துணை நிறுவனமான Kaggle, தரவு விஞ்ஞானிகள் மற்றும் இயந்திர கற்றல் நிபுணர்களின் ஆன்லைன் சமூகமாகும். Kaggle பயனர்கள் தரவுத்தொகுப்புகளைக் கண்டறிந்து வெளியிட அனுமதிக்கிறது, இணைய அடிப்படையிலான தரவு அறிவியல் சூழலில் மாதிரிகளை ஆராய்ந்து உருவாக்குகிறது; மற்ற தரவு விஞ்ஞானிகளுடன் இணைந்து பணியாற்றுங்கள் இயந்திர கற்றல் பொறியாளர்கள், மற்றும் தரவு அறிவியல் சவால்களைத் தீர்ப்பதற்கான போட்டிகளில் பங்கேற்கவும்.
Kaggle 2010 இல் இயந்திர கற்றல் போட்டிகளை வழங்குவதன் மூலம் தொடங்கப்பட்டது, இப்போது பொதுவில் வழங்குகிறது தரவு தளம், டேட்டா சயின்ஸ் மற்றும் ஆர்டிபிஷியல் இன்டெலிஜென்ஸ் கல்விக்கான கிளவுட் அடிப்படையிலான பணிநிலையம்.
தரவுத்தொகுப்பு தேடல்
டேட்டாசெட் தேடல் என்பது Google வழங்கும் தேடுபொறியாகும், இது பயன்பாட்டிற்கு இலவசமாகக் கிடைக்கும் ஆன்லைன் தரவைக் கண்டறிய ஆராய்ச்சியாளர்களுக்கு உதவுகிறது. இணையம் முழுவதும், உங்களுக்கு விருப்பமான எந்தவொரு விஷயத்தைப் பற்றியும் மில்லியன் கணக்கான தரவுத்தொகுப்புகள் உள்ளன.
நீங்கள் ஒரு நாய்க்குட்டியை வாங்க விரும்பினால், நாய்க்குட்டி வாங்குபவர்களின் புகார்கள் அல்லது நாய்க்குட்டி அறிவாற்றல் பற்றிய ஆய்வுகளை தொகுக்கும் தரவுத்தொகுப்பை நீங்கள் காணலாம். அல்லது நீங்கள் பனிச்சறுக்கு விளையாட்டை விரும்பினால், ஸ்கை ரிசார்ட்டுகளின் வருவாய் அல்லது காயம் விகிதங்கள் மற்றும் பங்கேற்பு எண்கள் பற்றிய தரவை நீங்கள் காணலாம். தரவுத்தொகுப்பு தேடல் இந்த தரவுத்தொகுப்புகளில் ஏறக்குறைய 25 மில்லியனை அட்டவணைப்படுத்தியுள்ளது, தரவுத்தொகுப்புகளைத் தேடுவதற்கும் தரவு இருக்கும் இடத்திற்கான இணைப்புகளைக் கண்டறிவதற்கும் ஒரே இடத்தை உங்களுக்கு வழங்குகிறது.
UCI இயந்திர கற்றல் களஞ்சியம்
UCI இயந்திர கற்றல் களஞ்சியம் என்பது தரவுத்தளங்கள், டொமைன் கோட்பாடுகள் மற்றும் தரவு ஜெனரேட்டர்களின் தொகுப்பாகும், இது இயந்திர கற்றல் வழிமுறைகளின் அனுபவ பகுப்பாய்வுக்காக இயந்திர கற்றல் சமூகத்தால் பயன்படுத்தப்படுகிறது. இந்த காப்பகம் 1987 ஆம் ஆண்டு டேவிட் ஆஹா மற்றும் UC இர்வினில் உள்ள சக பட்டதாரி மாணவர்களால் ftp காப்பகமாக உருவாக்கப்பட்டது.
அப்போதிருந்து, இது ML தரவுத்தொகுப்புகளின் முதன்மை ஆதாரமாக உலகம் முழுவதும் உள்ள மாணவர்கள், கல்வியாளர்கள் மற்றும் ஆராய்ச்சியாளர்களால் பரவலாகப் பயன்படுத்தப்படுகிறது. காப்பகத்தின் தாக்கத்தின் அறிகுறியாக, இது 1000 முறை மேற்கோள் காட்டப்பட்டுள்ளது, இது கணினி அறிவியல் அனைத்திலும் மிகவும் மேற்கோள் காட்டப்பட்ட முதல் 100 "தாள்களில்" ஒன்றாகும்.
குவாண்டல்
Quandl என்பது அதன் பயனர்களுக்கு பொருளாதார, நிதி மற்றும் மாற்று தரவுத்தொகுப்புகளை வழங்கும் ஒரு தளமாகும். பயனர்கள் இலவச தரவைப் பதிவிறக்கலாம், கட்டணத் தரவை வாங்கலாம் அல்லது Quandlக்கு தரவை விற்கலாம். வளர்ச்சிக்கு இது ஒரு பயனுள்ள கருவியாக இருக்கலாம் வர்த்தக வழிமுறைகள்உதாரணமாக.
தீர்மானம்
இந்தக் கருவிகளை ஆராய்வதன் மூலம், உங்கள் திட்டங்களுக்கான சிறந்த உள்ளீடுகளைக் கண்டறிவது உறுதி. உங்கள் குறிப்பிட்ட தேவைகளுக்கு மிகவும் பொருத்தமான தரவுத்தொகுப்பைத் தேர்வுசெய்து, எப்போதும் மனதில் இருங்கள்: இது அளவு மட்டுமல்ல, தரமும் கூட. தரவுத்தொகுப்பு எதற்கும் அடிப்படையாகும் இயந்திர கற்றல் திட்டம் மற்றும் தவறான முடிவுகளை அடையும் அபாயத்தைத் தவிர்ப்பதற்காக தரமான தரவை உருவாக்குவது அவசியம்.
ஒரு பதில் விடவும்