മെഷീൻ ലേണിംഗിനുള്ള 14 മികച്ച ഡാറ്റാസെറ്റുകൾ

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

ഡാറ്റാസെറ്റുകളുടെ അടിസ്ഥാനങ്ങൾ
ML-നുള്ള ഡാറ്റാസെറ്റുകൾ+-
മറ്റ് ഡാറ്റാസെറ്റുകൾ കണ്ടെത്തുന്നതിനുള്ള പ്ലാറ്റ്ഫോമുകൾ+-
തീരുമാനം

എല്ലാ മെഷീൻ ലേണിംഗ് പ്രോജക്റ്റും ഒരു നല്ല ഡാറ്റാസെറ്റിനെ ആശ്രയിച്ചിരിക്കുന്നു. നിങ്ങളുടെ ML മോഡലിനെ പരിശീലിപ്പിക്കാനും സാധൂകരിക്കാനും നിങ്ങളെ അനുവദിക്കുന്നത് ഈ വലിയ ഡാറ്റാസെറ്റാണ്. അതിനാൽ, ഒരു ML പ്രോജക്റ്റിലെ ജോലിയുടെ വലിയൊരു ഭാഗം നിങ്ങളുടെ ആവശ്യങ്ങൾക്ക് അനുയോജ്യമായ ഡാറ്റാസെറ്റ് കണ്ടെത്തുകയാണ്. എന്നിരുന്നാലും, നിങ്ങളുടെ അഭിലാഷത്തിന് അനുയോജ്യമായ ഒരു ഓപ്ഷൻ കണ്ടെത്തുന്നത് എല്ലായ്പ്പോഴും സാധ്യമല്ല, കാരണം രസകരമായി തോന്നുന്ന പല ഫയലുകളും അവസാനം, അങ്ങനെയല്ല.

നിങ്ങൾ അനുയോജ്യമായ ഒരു സെറ്റിൽ എത്തുന്നതുവരെ എണ്ണമറ്റ ഡാറ്റാസെറ്റുകൾ ഡൗൺലോഡ് ചെയ്ത് സമയം പാഴാക്കുന്നത് ഭയപ്പെടുത്തുന്നതാണ്. അത് മനസ്സിൽ വെച്ചുകൊണ്ട്, താൽപ്പര്യമുണർത്തുന്ന ചില ഓപ്ഷനുകൾ ഞങ്ങൾ ശേഖരിച്ചു, നിങ്ങളുടെ ML പ്രോജക്റ്റ് വികസിപ്പിക്കാൻ നിങ്ങളെ സഹായിക്കാനാകും. ചിലത് വാണിജ്യപരമായ ഉപയോഗത്തിന് പകരം വ്യക്തിഗതമായി ഉദ്ദേശിച്ചുള്ളതാണെന്ന് ശ്രദ്ധിക്കുക, അതിനാൽ ML പ്രപഞ്ചത്തിൽ അനുഭവം നേടുന്നതിനുള്ള ഒരു മാർഗമായി ഈ ഓപ്ഷനുകൾ നോക്കുക.

ഡാറ്റാസെറ്റുകളുടെ അടിസ്ഥാനങ്ങൾ

ഡാറ്റാസെറ്റുകൾ പരാമർശിക്കുന്നതിനുമുമ്പ്, ഞങ്ങൾ ചില നിബന്ധനകൾ നിർവചിക്കേണ്ടതുണ്ട്. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് പദ്ധതികളിൽ, പ്രത്യേകിച്ച് യന്ത്ര പഠനം, ഒരു വലിയ അളവിലുള്ള ഡാറ്റ ആവശ്യമാണ്, അത് അൽഗോരിതം പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കും. ഈ അളവിലുള്ള ഡാറ്റ ഒരു ഡാറ്റാബേസിൽ ശേഖരിക്കുന്നു, ഇത് ഒരു അൽഗോരിതം പഠിപ്പിക്കാൻ വളരെ ഉപയോഗപ്രദമാണ്.

ഈ ഡാറ്റ ഉപയോഗിച്ച്, അൽഗോരിതം പരിശീലിപ്പിക്കുകയും പരീക്ഷിക്കുകയും ചെയ്യുന്നു - കൂടാതെ പാറ്റേണുകൾ കണ്ടെത്താനും ബന്ധങ്ങൾ സ്ഥാപിക്കാനും അതുവഴി സ്വയം തീരുമാനങ്ങൾ എടുക്കാനും കഴിയും. പരിശീലനം കൂടാതെ, യന്ത്ര പഠനം അൽഗോരിതങ്ങൾക്ക് ഒരു പ്രവർത്തനവും നടത്താൻ കഴിയില്ല. അതിനാൽ, മികച്ച പരിശീലന ഡാറ്റ, മികച്ച മോഡൽ പ്രവർത്തിക്കും. പ്രോജക്റ്റിന് ഒരു ഡാറ്റാബേസ് ഉപയോഗപ്രദമാകണമെങ്കിൽ, അത് അളവിനെക്കുറിച്ചല്ല: ഇത് വർഗ്ഗീകരണത്തെക്കുറിച്ചാണ്.

എബൌട്ട്, ഡാറ്റ നന്നായി ലേബൽ ചെയ്യണം. ചാറ്റ്ബോട്ടുകളുടെ കാര്യത്തെക്കുറിച്ച് ചിന്തിക്കുക: ഭാഷ ഉൾപ്പെടുത്തൽ പ്രധാനമാണ്, എന്നാൽ ശ്രദ്ധാപൂർവമായ വാക്യഘടന വിശകലനം നടത്തണം, അതുവഴി ഇന്റർലോക്കുട്ടർ സ്ലാംഗ് ഉപയോഗിക്കുമ്പോൾ സൃഷ്ടിച്ച അൽഗോരിതം മനസ്സിലാക്കാൻ കഴിയും. അപ്പോൾ മാത്രമേ ഉപയോക്താവ് ആവശ്യപ്പെട്ടതനുസരിച്ച് ഉത്തരം സമാരംഭിക്കാൻ വെർച്വൽ അസിസ്റ്റന്റിന് കഴിയൂ.

സർവേകൾ, ഉപയോക്തൃ പർച്ചേസ് ഡാറ്റ, സേവനങ്ങളിൽ അവശേഷിക്കുന്ന മൂല്യനിർണ്ണയങ്ങൾ, കൂടാതെ ഒരു CSV ഫയലിലെ കോളങ്ങളിലും വരികളിലും ക്രമീകരിച്ചിരിക്കുന്ന ഉപയോഗപ്രദമായ വിവരങ്ങൾ ശേഖരിക്കാൻ അനുവദിക്കുന്ന മറ്റ് പല വഴികളിൽ നിന്നും ഡാറ്റാസെറ്റുകൾ സൃഷ്ടിക്കാൻ കഴിയും.

നിങ്ങൾ മികച്ച ഡാറ്റാസെറ്റ് തിരയുന്നതിന് മുമ്പ്, നിങ്ങളുടെ പ്രോജക്റ്റിന്റെ ഉദ്ദേശ്യം നിങ്ങൾ അറിഞ്ഞിരിക്കേണ്ടത് പ്രധാനമാണ്, പ്രത്യേകിച്ചും അത് കാലാവസ്ഥ, സാമ്പത്തികം, ആരോഗ്യം മുതലായവ പോലുള്ള ഒരു പ്രത്യേക മേഖലയിൽ നിന്നുള്ളതാണെങ്കിൽ. ഇത് ഏത് ഉറവിടത്തിൽ നിന്നാണ് നിങ്ങളുടെ ഉറവിടം നിർണ്ണയിക്കുന്നത്. ഡാറ്റാഗണം.

ML-നുള്ള ഡാറ്റാസെറ്റുകൾ

ചാറ്റ്ബോട്ട് പരിശീലനം

മനുഷ്യന്റെ ഇടപെടലില്ലാതെ ഉപയോക്തൃ അന്വേഷണങ്ങൾ വേഗത്തിൽ പരിഹരിക്കുന്നതിന് ഫലപ്രദമായ ഒരു ചാറ്റ്ബോട്ടിന് ഒരു വലിയ പരിശീലന ഡാറ്റ ആവശ്യമാണ്. എന്നിരുന്നാലും, ഈ മെഷീൻ ലേണിംഗ് അധിഷ്‌ഠിത സംവിധാനങ്ങളെ പരിശീലിപ്പിക്കുന്നതിന് റിയലിസ്റ്റിക്, ടാസ്‌ക്-ഓറിയന്റഡ് ഡയലോഗ് ഡാറ്റ നേടുന്നതാണ് ചാറ്റ്ബോട്ട് വികസനത്തിലെ പ്രധാന തടസ്സം.

ഒരു സംഭാഷണ ഡാറ്റാസെറ്റ് ഒരു ചോദ്യോത്തര ഫോർമാറ്റിൽ ഡാറ്റ ശേഖരിക്കുന്നു. പ്രേക്ഷകർക്ക് ഓട്ടോമേറ്റഡ് ഉത്തരങ്ങൾ നൽകുന്ന ചാറ്റ്ബോട്ടുകളെ പരിശീലിപ്പിക്കുന്നതിന് ഇത് അനുയോജ്യമാണ്. ഈ ഡാറ്റ ഇല്ലെങ്കിൽ, മനുഷ്യ ഇടപെടലിന്റെ ആവശ്യമില്ലാതെ ഉപയോക്തൃ അന്വേഷണങ്ങൾ വേഗത്തിൽ പരിഹരിക്കുന്നതിനോ ഉപയോക്തൃ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നതിനോ ചാറ്റ്ബോട്ട് പരാജയപ്പെടും.

ഈ ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ച്, ബിസിനസുകൾക്ക് ഉപഭോക്താക്കൾക്ക് 24/7 ദ്രുത ഉത്തരങ്ങൾ നൽകുന്ന ഒരു ടൂൾ സൃഷ്‌ടിക്കാൻ കഴിയും, കൂടാതെ ഒരു കൂട്ടം ആളുകൾ ഉപഭോക്തൃ പിന്തുണ നൽകുന്നതിനേക്കാൾ വളരെ വിലകുറഞ്ഞതുമാണ്.

1. ചോദ്യം-ഉത്തരം ഡാറ്റാസെറ്റ്

ഈ ഡാറ്റാസെറ്റ് വിക്കിപീഡിയയിലെ ഒരു കൂട്ടം ലേഖനങ്ങളും ചോദ്യങ്ങളും അവയുടെ സ്വമേധയാ സൃഷ്ടിച്ച ഉത്തരങ്ങളും നൽകുന്നു. ഉപയോഗത്തിനായി 2008-നും 2010-നും ഇടയിൽ ശേഖരിച്ച ഒരു ഡാറ്റാസെറ്റാണിത് അക്കാദമിക് ഗവേഷണം.

2. ഭാഷാ ഡാറ്റ

Yahoo! ഉത്തരം, ഇത് ഉപയോക്താക്കൾക്ക് ചോദ്യങ്ങളും ഉത്തരങ്ങളും പോസ്റ്റുചെയ്യുന്നതിനുള്ള ഒരു തുറന്ന കമ്മ്യൂണിറ്റിയായി പ്രവർത്തിക്കുന്നു.

ഡാറ്റാസെറ്റുകൾ 1

3. വിക്കിക്യുഎ

WikiQA കോർപ്പസിൽ ഒരു കൂട്ടം ചോദ്യങ്ങളും ഉത്തരങ്ങളും അടങ്ങിയിരിക്കുന്നു. ചോദ്യങ്ങളുടെ ഉറവിടം Bing ആണ്, അതേസമയം ഉത്തരങ്ങൾ പ്രാരംഭ ചോദ്യം പരിഹരിക്കാനുള്ള സാധ്യതയുള്ള ഒരു വിക്കിപീഡിയ പേജിലേക്ക് ലിങ്ക് ചെയ്യുന്നു.

ഡാറ്റാസെറ്റുകൾ 2 മൊത്തത്തിൽ, ഡാറ്റാസെറ്റിൽ 3,000-ത്തിലധികം ചോദ്യങ്ങളും 29,258 വാക്യങ്ങളുമുണ്ട്, അതിൽ ഏകദേശം 1,400 എണ്ണം അനുബന്ധ ചോദ്യത്തിനുള്ള ഉത്തരങ്ങളായി തരംതിരിച്ചിട്ടുണ്ട്.

സർക്കാർ ഡാറ്റ

ഗവൺമെന്റുകൾ സൃഷ്ടിക്കുന്ന ഡാറ്റാസെറ്റുകൾ ജനസംഖ്യാപരമായ ഡാറ്റ കൊണ്ടുവരുന്നു, അവ സാമൂഹിക പ്രവണതകൾ മനസ്സിലാക്കുന്നതിനും പൊതു നയങ്ങൾ സൃഷ്ടിക്കുന്നതിനും സമൂഹത്തെ മെച്ചപ്പെടുത്തുന്നതിനുമുള്ള പ്രോജക്റ്റുകൾക്കുള്ള മികച്ച ഇൻപുട്ടുകളാണ്. രാഷ്ട്രീയ പ്രചാരണങ്ങൾക്കോ ടാർഗെറ്റുചെയ്‌ത പരസ്യങ്ങൾക്കോ മാർക്കറ്റ് വിശകലനത്തിനോ ഇത് ഉപയോഗപ്രദമാകും.

ഈ ഡാറ്റാസെറ്റുകളിൽ സാധാരണയായി അജ്ഞാത ഡാറ്റ അടങ്ങിയിരിക്കുന്നു, അതിനാൽ മോഡലുകൾക്ക് റോ ഡാറ്റ ആക്‌സസ് ചെയ്യാൻ കഴിയുമെങ്കിലും, വ്യക്തിഗത സ്വകാര്യതയുടെ ലംഘനങ്ങളൊന്നുമില്ല.

4. Data.gov

2009-ൽ ആരംഭിച്ച Data.gov ഡാറ്റയുടെ വടക്കേ അമേരിക്കൻ ഉറവിടമാണ്. ഇതിന്റെ കാറ്റലോഗ് ശ്രദ്ധേയമാണ്: ഫോർമാറ്റ്, ടാഗുകൾ, തരങ്ങൾ, വിഷയങ്ങൾ എന്നിവ പ്രകാരം സെഗ്മെന്റേഷൻ അനുവദിക്കുന്ന 218,000-ലധികം ഡാറ്റാസെറ്റുകൾ.

5. EU ഓപ്പൺ ഡാറ്റ പോർട്ടൽ

യൂറോപ്യൻ യൂണിയന്റെ സ്ഥാപനങ്ങൾ പങ്കിടുന്ന ഓപ്പൺ ഡാറ്റയിലേക്ക് EU ഓപ്പൺ ഡാറ്റ പോർട്ടൽ ആക്സസ് നൽകുന്നു. വാണിജ്യപരവും വാണിജ്യേതരവുമായ ഉപയോഗത്തിന് ഉദ്ദേശിച്ചുള്ള ഡാറ്റയാണ് ഇവ. ആരോഗ്യം, ഊർജം, പരിസ്ഥിതി, സംസ്കാരം, വിദ്യാഭ്യാസം തുടങ്ങിയ വിഷയങ്ങൾ ഉൾക്കൊള്ളുന്ന 15.5 ആയിരത്തിലധികം ഡാറ്റാസെറ്റുകൾ ഉപയോക്താവിന്റെ പക്കലുണ്ട്.

ആരോഗ്യ ഡാറ്റ

ലോകമെമ്പാടുമുള്ള ആരോഗ്യ പ്രതിസന്ധിയുടെ പശ്ചാത്തലത്തിൽ, ജീവൻ രക്ഷിക്കാൻ ഫലപ്രദമായ പരിഹാരങ്ങൾ വികസിപ്പിക്കുന്നതിന് ആരോഗ്യ സ്ഥാപനങ്ങൾ സൃഷ്ടിക്കുന്ന ഡാറ്റാസെറ്റുകൾ അത്യന്താപേക്ഷിതമാണ്. ഈ ഡാറ്റാസെറ്റുകൾക്ക് അപകടസാധ്യത ഘടകങ്ങൾ തിരിച്ചറിയാനും രോഗം പകരുന്ന പാറ്റേണുകൾ പ്രവർത്തിപ്പിക്കാനും രോഗനിർണയം വേഗത്തിലാക്കാനും സഹായിക്കും.

ഈ ഡാറ്റാസെറ്റുകളിൽ ആരോഗ്യ രേഖകൾ, രോഗികളുടെ ജനസംഖ്യാശാസ്‌ത്രം, രോഗ വ്യാപനം, ഔഷധ ഉപയോഗം, പോഷക മൂല്യങ്ങൾ എന്നിവയും അതിലേറെയും അടങ്ങിയിരിക്കുന്നു.

6. ഗ്ലോബൽ ഹെൽത്ത് ഒബ്സർവേറ്ററി

ഈ ഡാറ്റാ സെറ്റ് ലോകാരോഗ്യ സംഘടനയുടെ (WHO) ഒരു സംരംഭമാണ്. ആരോഗ്യ സംവിധാനങ്ങൾ, പുകയില ഉപയോഗ നിയന്ത്രണം, പ്രസവം, എച്ച്ഐവി/എയ്ഡ്സ് തുടങ്ങിയ തീമുകളാൽ സംഘടിപ്പിക്കപ്പെട്ട ആരോഗ്യത്തിന്റെ വ്യത്യസ്‌ത മേഖലകളുമായി ബന്ധപ്പെട്ട പൊതു ഡാറ്റ ഇത് നൽകുന്നു. COVID-19-നെക്കുറിച്ചുള്ള ഡാറ്റ പരിശോധിക്കാനുള്ള ഓപ്ഷനുമുണ്ട്.

7. CORD-19

CORD-19 എന്നത് COVID-19-നെ കുറിച്ചുള്ള അക്കാദമിക് പ്രസിദ്ധീകരണങ്ങളുടെയും പുതിയ കൊറോണ വൈറസിനെക്കുറിച്ചുള്ള മറ്റ് ലേഖനങ്ങളുടെയും ഒരു കോർപ്പസ് ആണ്. COVID-19-നെ കുറിച്ച് പുതിയ സ്ഥിതിവിവരക്കണക്കുകൾ സൃഷ്ടിക്കാൻ ഉദ്ദേശിച്ചുള്ള ഒരു ഓപ്പൺ ഡാറ്റാസെറ്റാണിത്.

ഡാറ്റാസെറ്റുകൾ7

സാമ്പത്തിക ഡാറ്റ

സാമ്പത്തിക അന്തരീക്ഷവുമായി ബന്ധപ്പെട്ട ഡാറ്റാസെറ്റുകൾ സാധാരണയായി ഒരു വലിയ അളവിലുള്ള വിവരങ്ങൾ ശേഖരിക്കുന്നു, കാരണം അവ വളരെക്കാലമായി ശേഖരിക്കപ്പെടുന്നത് സാധാരണമാണ്. സാമ്പത്തിക പ്രവചനങ്ങൾ സൃഷ്ടിക്കുന്നതിനോ നിക്ഷേപ പ്രവണതകൾ സ്ഥാപിക്കുന്നതിനോ അവ അനുയോജ്യമാണ്.

ശരിയായ സാമ്പത്തിക ഡാറ്റാസെറ്റുകൾക്കൊപ്പം, എ മെഷീൻ ലേണിംഗ് മോഡൽ തന്നിരിക്കുന്ന അസറ്റിന്റെ സ്വഭാവം പ്രവചിക്കാൻ കഴിഞ്ഞേക്കാം. അതുകൊണ്ടാണ് ഫലപ്രദമായ ഒരു ML മോഡൽ സൃഷ്ടിക്കാൻ സാമ്പത്തിക മേഖല അതിന്റെ കഴിവിന്റെ പരമാവധി ചെയ്യുന്നത്, കാരണം ന്യായമായും നന്നായി പ്രവചിക്കാൻ കഴിയുന്ന എന്തിനും ദശലക്ഷക്കണക്കിന് ഡോളർ സൃഷ്ടിക്കാൻ കഴിയും. മെഷീൻ ലേണിംഗ് ഇതിനകം തന്നെ പൗരന്മാരുടെ പെരുമാറ്റം പ്രവചിക്കുന്നു, ഇത് നയരൂപകർത്താക്കൾ അവരുടെ ജോലി ചെയ്യുന്ന രീതിയെ ബാധിക്കുന്നു.

8. അന്താരാഷ്ട്ര നാണയനിധി

IMF ഡാറ്റാസെറ്റിൽ സാമ്പത്തിക, സാമ്പത്തിക സൂചകങ്ങൾ, അംഗരാജ്യ സ്ഥിതിവിവരക്കണക്കുകൾ, മറ്റ് ലോൺ, എക്സ്ചേഞ്ച് റേറ്റ് ഡാറ്റ എന്നിവയുണ്ട്.

9. ലോക ബാങ്ക്

ലോകബാങ്കിന്റെ ശേഖരത്തിൽ വിവിധ രാജ്യങ്ങളിൽ നിന്നുള്ള സാമ്പത്തിക വിവരങ്ങളുള്ള വ്യത്യസ്ത ഡാറ്റാസെറ്റുകൾ അടങ്ങിയിരിക്കുന്നു. ഭൂഖണ്ഡങ്ങൾ തിരിച്ച് 17,000-ത്തിലധികം ഡാറ്റാസെറ്റുകൾ ഉണ്ട്.

88 ഡാറ്റാസെറ്റുകൾ7

ഉൽപ്പന്ന, സേവന അവലോകനങ്ങൾ

തങ്ങളുടെ ക്ലയന്റുകളിൽ നിന്നോ ഉപഭോക്താക്കളിൽ നിന്നോ കൃത്യമായി കണക്കാക്കാനും പഠിക്കാനും സംരംഭങ്ങളെ ഇപ്പോൾ സഹായിക്കുന്ന വിവിധ മേഖലകളിൽ സെന്റിമെന്റ് വിശകലനം അതിന്റെ ആപ്ലിക്കേഷനുകൾ കണ്ടെത്തി. സോഷ്യൽ മീഡിയ നിരീക്ഷണം, ബ്രാൻഡ് നിരീക്ഷണം, ഉപഭോക്താവിന്റെ ശബ്ദം (VoC), ഉപഭോക്തൃ സേവനം, വിപണി ഗവേഷണം എന്നിവയ്‌ക്കായി വികാര വിശകലനം കൂടുതലായി ഉപയോഗിക്കുന്നു.

വികാര വിശകലനം NLP ഉപയോഗിക്കുന്നു (ന്യൂറോ-ലിംഗ്വിസ്റ്റിക് പ്രോഗ്രാമിംഗ്) രീതികളും അൽഗോരിതങ്ങളും ഒന്നുകിൽ റൂൾ അധിഷ്ഠിതമോ ഹൈബ്രിഡ് അല്ലെങ്കിൽ ഡാറ്റാസെറ്റുകളിൽ നിന്ന് ഡാറ്റ പഠിക്കാൻ മെഷീൻ ലേണിംഗ് ടെക്നിക്കുകളെ ആശ്രയിക്കുന്നു.

വികാര വിശകലനത്തിൽ ആവശ്യമായ ഡാറ്റ സ്പെഷ്യലൈസ്ഡ് ആയിരിക്കണം കൂടാതെ വലിയ അളവിൽ ആവശ്യമാണ്. വികാര വിശകലന പരിശീലന പ്രക്രിയയിലെ ഏറ്റവും വെല്ലുവിളി നിറഞ്ഞ ഭാഗം വലിയ അളവിൽ ഡാറ്റ കണ്ടെത്തുന്നില്ല; പകരം, പ്രസക്തമായ ഡാറ്റാസെറ്റുകൾ കണ്ടെത്തുക എന്നതാണ്. ഈ ഡാറ്റാ സെറ്റുകൾ വികാര വിശകലന ആപ്ലിക്കേഷനുകളുടെയും ഉപയോഗ കേസുകളുടെയും വിശാലമായ മേഖല ഉൾക്കൊള്ളണം.

10. ആമസോൺ അവലോകനങ്ങൾ

ഈ ഡാറ്റാസെറ്റിൽ ഏകദേശം 35 ദശലക്ഷം ആമസോൺ അവലോകനങ്ങൾ അടങ്ങിയിരിക്കുന്നു, ഇത് 18 വർഷത്തെ ശേഖരിച്ച വിവരങ്ങൾ ഉൾക്കൊള്ളുന്നു. ഇത് ഉൽപ്പന്നത്തിന്റെയും ഉപയോക്താവിന്റെയും അവലോകന ഉള്ളടക്കത്തിന്റെയും ഒരു ഡാറ്റാസെറ്റാണ്.

11. Yelp അവലോകനങ്ങൾ

Yelp അതിന്റെ സേവനത്തിൽ നിന്ന് ശേഖരിച്ച വിവരങ്ങളെ അടിസ്ഥാനമാക്കി ഒരു ഡാറ്റാസെറ്റും വാഗ്ദാനം ചെയ്യുന്നു. 8 ദശലക്ഷത്തിലധികം അവലോകനങ്ങളും 1 ദശലക്ഷം നുറുങ്ങുകളും കൂടാതെ പ്രവർത്തനസമയവും ലഭ്യതയും പോലുള്ള ബിസിനസുകളുമായി ബന്ധപ്പെട്ട ഏകദേശം 1.5 ദശലക്ഷത്തിലധികം ആട്രിബ്യൂട്ടുകളും ഉണ്ട്.

12. IMDB അവലോകനങ്ങൾ

ഈ ഡാറ്റാബേസിൽ പരിശീലനത്തിനായി 25-ലധികം മൂവി അവലോകനങ്ങളും കൂടാതെ IMDB പേജിൽ നിന്ന് അനൗപചാരികമായി എടുത്ത ടെസ്റ്റുകൾക്കായി മറ്റൊരു 25 മൂവി റേറ്റിംഗുകളും അടങ്ങിയിരിക്കുന്നു. ഇത് അധികമായി ലേബൽ ചെയ്യാത്ത ഡാറ്റയും വാഗ്ദാനം ചെയ്യുന്നു.

ML-ലെ ആദ്യ ഘട്ടങ്ങൾക്കുള്ള ഡാറ്റാസെറ്റുകൾ

13. വൈൻ ഗുണനിലവാര ഡാറ്റാസെറ്റ്

ഈ ഡാറ്റാസെറ്റ് വടക്കൻ പോർച്ചുഗലിൽ നിർമ്മിക്കുന്ന ചുവപ്പും പച്ചയും വീഞ്ഞുമായി ബന്ധപ്പെട്ട വിവരങ്ങൾ നൽകുന്നു. ഫിസിക്കോകെമിക്കൽ ടെസ്റ്റുകളുടെ അടിസ്ഥാനത്തിൽ വൈൻ ഗുണനിലവാരം നിർവചിക്കുക എന്നതാണ് ലക്ഷ്യം. ഒരു പ്രവചന സംവിധാനം ഉണ്ടാക്കാൻ പരിശീലിക്കാൻ ആഗ്രഹിക്കുന്നവർക്ക് താൽപ്പര്യമുണ്ട്.

14. ടൈറ്റാനിക് ഡാറ്റാസെറ്റ്

ഈ ഡാറ്റാസെറ്റ് ടൈറ്റാനിക്കിൽ നിന്നുള്ള 887 യഥാർത്ഥ യാത്രക്കാരിൽ നിന്നുള്ള ഡാറ്റ നൽകുന്നു, ഓരോ കോളവും അവർ അതിജീവിച്ചിട്ടുണ്ടോ, അവരുടെ പ്രായം, യാത്രക്കാരുടെ ക്ലാസ്, ലിംഗഭേദം, അവർ അടച്ച ബോർഡിംഗ് ഫീസ് എന്നിവ നിർവചിക്കുന്നു. ടൈറ്റാനിക് മുങ്ങിയപ്പോൾ ഏതൊക്കെ യാത്രക്കാർ രക്ഷപ്പെട്ടുവെന്ന് പ്രവചിക്കാൻ കഴിയുന്ന ഒരു മാതൃക സൃഷ്ടിക്കുക എന്നതായിരുന്നു കഗ്ഗിൽ പ്ലാറ്റ്‌ഫോം ആരംഭിച്ച ഒരു ചലഞ്ചിന്റെ ഭാഗമായിരുന്നു ഈ ഡാറ്റാസെറ്റ്.

മറ്റ് ഡാറ്റാസെറ്റുകൾ കണ്ടെത്തുന്നതിനുള്ള പ്ലാറ്റ്ഫോമുകൾ

നിങ്ങൾക്ക് കൂടുതൽ മുന്നോട്ട് പോയി നിങ്ങളുടെ സ്വന്തം ഡാറ്റാസെറ്റ് കണ്ടെത്തണമെങ്കിൽ, ഏറ്റവും പ്രശസ്തമായ റിപ്പോസിറ്ററികളിലൂടെ ബ്രൗസ് ചെയ്യുക എന്നതാണ് ഏറ്റവും നല്ല മാർഗം യന്ത്ര പഠനം പ്രപഞ്ചം:

കഗ്ലെ

Google LLC-യുടെ ഉപസ്ഥാപനമായ Kaggle, ഡാറ്റാ സയന്റിസ്റ്റുകളുടെയും മെഷീൻ ലേണിംഗ് പ്രൊഫഷണലുകളുടെയും ഒരു ഓൺലൈൻ കമ്മ്യൂണിറ്റിയാണ്. ഒരു വെബ് അധിഷ്ഠിത ഡാറ്റാ സയൻസ് പരിതസ്ഥിതിയിൽ ഡാറ്റാസെറ്റുകൾ കണ്ടെത്താനും പ്രസിദ്ധീകരിക്കാനും പര്യവേക്ഷണം ചെയ്യാനും മോഡലുകൾ സൃഷ്ടിക്കാനും Kaggle ഉപയോക്താക്കളെ അനുവദിക്കുന്നു; മറ്റ് ഡാറ്റാ സയന്റിസ്റ്റുകൾക്കൊപ്പം പ്രവർത്തിക്കുക മെഷീൻ ലേണിംഗ് എഞ്ചിനീയർമാർ, കൂടാതെ ഡാറ്റാ സയൻസ് വെല്ലുവിളികൾ പരിഹരിക്കുന്നതിനുള്ള മത്സരങ്ങളിൽ പങ്കെടുക്കുക.

മെഷീൻ ലേണിംഗ് മത്സരങ്ങൾ വാഗ്ദാനം ചെയ്തുകൊണ്ട് 2010-ൽ Kaggle ആരംഭിച്ചു, ഇപ്പോൾ പൊതുവായതും വാഗ്ദാനം ചെയ്യുന്നു ഡാറ്റ പ്ലാറ്റ്ഫോം, ഡാറ്റാ സയൻസിനും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വിദ്യാഭ്യാസത്തിനുമുള്ള ക്ലൗഡ് അധിഷ്‌ഠിത വർക്ക്‌ബെഞ്ച്.

ഡാറ്റാസെറ്റ് തിരയൽ

Google-ൽ നിന്നുള്ള ഒരു തിരയൽ എഞ്ചിനാണ് ഡാറ്റാസെറ്റ് തിരയൽ, അത് ഉപയോഗത്തിന് സൗജന്യമായി ലഭ്യമായ ഓൺലൈൻ ഡാറ്റ കണ്ടെത്താൻ ഗവേഷകരെ സഹായിക്കുന്നു. വെബിൽ ഉടനീളം, നിങ്ങൾക്ക് താൽപ്പര്യമുള്ള ഏത് വിഷയത്തെക്കുറിച്ചും ദശലക്ഷക്കണക്കിന് ഡാറ്റാസെറ്റുകൾ ഉണ്ട്.

നിങ്ങൾ ഒരു നായ്ക്കുട്ടിയെ വാങ്ങാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, നായ്ക്കുട്ടികളെ വാങ്ങുന്നവരുടെ പരാതികൾ അല്ലെങ്കിൽ നായ്ക്കുട്ടികളുടെ അറിവിനെക്കുറിച്ചുള്ള പഠനങ്ങൾ സമാഹരിക്കുന്ന ഡാറ്റാസെറ്റുകൾ നിങ്ങൾക്ക് കണ്ടെത്താനാകും. അല്ലെങ്കിൽ നിങ്ങൾക്ക് സ്കീയിംഗ് ഇഷ്ടമാണെങ്കിൽ, സ്‌കീ റിസോർട്ടുകളുടെ വരുമാനം അല്ലെങ്കിൽ പരിക്കിന്റെ നിരക്കുകൾ, പങ്കാളിത്ത നമ്പറുകൾ എന്നിവയെക്കുറിച്ചുള്ള ഡാറ്റ നിങ്ങൾക്ക് കണ്ടെത്താനാകും. ഡാറ്റാസെറ്റ് തിരയൽ ഈ ഡാറ്റാസെറ്റുകളിൽ ഏകദേശം 25 ദശലക്ഷത്തെ സൂചികയിലാക്കിയിട്ടുണ്ട്, ഡാറ്റാസെറ്റുകൾക്കായി തിരയാനും ഡാറ്റ എവിടെയാണെന്ന് ലിങ്കുകൾ കണ്ടെത്താനും നിങ്ങൾക്ക് ഒരൊറ്റ സ്ഥലം നൽകുന്നു.

യുസി‌ഐ മെഷീൻ ലേണിംഗ് റിപോസിറ്ററി

മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങളുടെ അനുഭവപരമായ വിശകലനത്തിനായി മെഷീൻ ലേണിംഗ് കമ്മ്യൂണിറ്റി ഉപയോഗിക്കുന്ന ഡാറ്റാബേസുകൾ, ഡൊമെയ്ൻ സിദ്ധാന്തങ്ങൾ, ഡാറ്റ ജനറേറ്ററുകൾ എന്നിവയുടെ ഒരു ശേഖരമാണ് യുസിഐ മെഷീൻ ലേണിംഗ് റിപ്പോസിറ്ററി. 1987-ൽ ഡേവിഡ് ആഹയും യുസി ഇർവിനിലെ സഹ ബിരുദ വിദ്യാർത്ഥികളും ചേർന്ന് ഒരു ftp ആർക്കൈവായി ആർക്കൈവ് സൃഷ്ടിച്ചു.

അന്നുമുതൽ, ML ഡാറ്റാസെറ്റുകളുടെ പ്രാഥമിക ഉറവിടമായി ഇത് ലോകമെമ്പാടുമുള്ള വിദ്യാർത്ഥികളും അധ്യാപകരും ഗവേഷകരും വ്യാപകമായി ഉപയോഗിക്കുന്നു. ആർക്കൈവിന്റെ സ്വാധീനത്തിന്റെ സൂചനയായി, ഇത് 1000-ലധികം തവണ ഉദ്ധരിക്കപ്പെട്ടു, ഇത് കമ്പ്യൂട്ടർ സയൻസിലെ ഏറ്റവും മികച്ച 100 "പേപ്പറുകളിൽ" ഒന്നായി മാറി.

ക്വാണ്ടൽ

Quandl അതിന്റെ ഉപയോക്താക്കൾക്ക് സാമ്പത്തിക, സാമ്പത്തിക, ഇതര ഡാറ്റാസെറ്റുകൾ നൽകുന്ന ഒരു പ്ലാറ്റ്ഫോമാണ്. ഉപയോക്താക്കൾക്ക് സൗജന്യ ഡാറ്റ ഡൗൺലോഡ് ചെയ്യാനോ പണമടച്ചുള്ള ഡാറ്റ വാങ്ങാനോ Quandl-ന് ഡാറ്റ വിൽക്കാനോ കഴിയും. വികസനത്തിന് ഇത് ഒരു ഉപയോഗപ്രദമായ ഉപകരണമാകാം ട്രേഡിംഗ് അൽഗോരിതങ്ങൾ, ഉദാഹരണത്തിന്.

തീരുമാനം

ഈ ടൂളുകൾ പര്യവേക്ഷണം ചെയ്യുന്നതിലൂടെ, നിങ്ങളുടെ പ്രോജക്റ്റുകൾക്കായി മികച്ച ഇൻപുട്ടുകൾ കണ്ടെത്തുമെന്ന് ഉറപ്പാണ്. നിങ്ങളുടെ നിർദ്ദിഷ്ട ആവശ്യങ്ങൾക്ക് ഏറ്റവും അനുയോജ്യമായ ഡാറ്റാസെറ്റ് തിരഞ്ഞെടുക്കുന്നത് ഉറപ്പാക്കുക, എപ്പോഴും മനസ്സിൽ സൂക്ഷിക്കുക: ഇത് അളവ് മാത്രമല്ല, ഗുണനിലവാരവും കൂടിയാണ്. ഡാറ്റാസെറ്റ് ആണ് ഏതിന്റെയും അടിസ്ഥാനം മെഷീൻ ലേണിംഗ് പ്രോജക്റ്റ് തെറ്റായ നിഗമനങ്ങളിൽ എത്തിച്ചേരാനുള്ള സാധ്യത ഒഴിവാക്കുന്നതിന് ഗുണനിലവാരമുള്ള ഡാറ്റ നിർമ്മിക്കേണ്ടത് അത്യാവശ്യമാണ്.

മെഷീൻ ലേണിംഗിനുള്ള മികച്ച ഡാറ്റാസെറ്റുകൾ

മെഷീൻ ലേണിംഗിനുള്ള 14 മികച്ച ഡാറ്റാസെറ്റുകൾ

ഡാറ്റാസെറ്റുകളുടെ അടിസ്ഥാനങ്ങൾ