යන්ත්‍ර ඉගෙනීම සඳහා හොඳම දත්ත කට්ටල 14

පටුන[සඟවන්න][පෙන්වන්න]

දත්ත කට්ටලවල මූලික කරුණු
ML සඳහා දත්ත කට්ටල+-
වෙනත් දත්ත කට්ටල සෙවීම සඳහා වේදිකා+-
නිගමනය

සෑම Machine Learning ව්‍යාපෘතියක්ම හොඳ දත්ත කට්ටලයක් මත රඳා පවතී. ඔබේ ML ආකෘතිය පුහුණු කිරීමට සහ වලංගු කිරීමට ඔබට ඉඩ සලසන මෙම විශාල දත්ත කට්ටලය වේ. එබැවින්, ML ව්‍යාපෘතියක කාර්යයේ විශාල කොටසක් ඔබේ අවශ්‍යතා සඳහා පරිපූර්ණ දත්ත කට්ටලයක් සොයා ගැනීමයි. කෙසේ වෙතත්, ඔබේ අභිලාෂයට ගැලපෙන විකල්පයක් සොයා ගැනීම සැමවිටම කළ නොහැක, මන්ද සිත්ගන්නාසුළු ලෙස පෙනෙන බොහෝ ලිපිගොනු අවසානයේ එසේ නොවේ.

ඔබ පරමාදර්ශී කට්ටලයකට පැමිණෙන තෙක් ගණන් කළ නොහැකි දත්ත කට්ටල බාගැනීමට කාලය නාස්ති කිරීම භයානක විය හැක. එය මනසේ තබාගෙන, අපි රසවත් ලෙස පෙනෙන විකල්ප කිහිපයක් එකතු කර ඇති අතර ඔබේ ML ව්‍යාපෘතිය දියුණු කිරීමට ඔබට උදවු කළ හැකිය. සමහර ඒවා වාණිජමය භාවිතය වෙනුවට පුද්ගලික සඳහා අදහස් කරන බව සලකන්න, එබැවින් ML විශ්වයේ අත්දැකීම් ලබා ගැනීමේ මාර්ගයක් ලෙස මෙම විකල්පයන් දෙස බලන්න.

දත්ත කට්ටලවල මූලික කරුණු

අපි දත්ත කට්ටල ගැන සඳහන් කිරීමට පෙර, අපි සමහර නියමයන් නිර්වචනය කළ යුතුය. කෘතිම බුද්ධි ව්‍යාපෘතිවල, විශේෂයෙන්ම යන්ත්ර ඉගෙනීම, දත්ත විශාල ප්‍රමාණයක් අවශ්‍ය වේ, එය ඇල්ගොරිතම පුහුණු කිරීමට භාවිතා කරනු ඇත. මෙම දත්ත ප්‍රමාණය දත්ත සමුදායක් තුළ රැස් කර ඇති අතර එය ඇල්ගොරිතමයක් ඉගැන්වීමට අතිශයින් ප්‍රයෝජනවත් වේ.

මෙම දත්ත සමඟ, ඇල්ගොරිතම පුහුණු කර ඇත - ද පරීක්ෂා කර ඇත - සහ රටා සොයා ගැනීමට, සබඳතා ඇති කර ගැනීමට සහ ස්වයංක්‍රීයව තීරණ ගැනීමට හැකි වේ. පුහුණුවකින් තොරව, යන්ත්ර ඉගෙනීම ඇල්ගොරිතම වලට කිසිදු ක්‍රියාවක් කිරීමට නොහැක. එබැවින්, වඩා හොඳ පුහුණු දත්ත, වඩා හොඳ ආකෘතියක් ඉටු කරනු ඇත. දත්ත සමුදායක් ව්‍යාපෘතියට ප්‍රයෝජනවත් වීමට නම්, එය ප්‍රමාණය ගැන නොවේ: එය වර්ගීකරණය ගැන ද වේ.

ඉතා මැනවින්, දත්ත හොඳින් ලේබල් කළ යුතුය. චැට්බොට් වල තත්වය ගැන සිතන්න: භාෂා ඇතුළත් කිරීම වැදගත් වේ, නමුත් පරිස්සමින් වාක්‍ය විශ්ලේෂණ කළ යුතු අතර එමඟින් නිර්මාණය කරන ලද ඇල්ගොරිතමයට මැදිහත්කරු ස්ලැන්ග් භාවිතා කරන විට තේරුම් ගත හැකිය. පරිශීලකයා ඉල්ලා සිටි දෙයට අනුව පිළිතුර දියත් කිරීමට අතථ්‍ය සහායකයාට හැකි වන්නේ එවිට පමණි.

සමීක්ෂණ, පරිශීලක මිලදී ගැනීමේ දත්ත, සේවා මත ඉතිරි කර ඇති ඇගයීම් සහ CSV ගොනුවක තීරු සහ පේළිවල සංවිධානය කර ඇති ප්‍රයෝජනවත් තොරතුරු රැස් කිරීමට ඉඩ සලසන වෙනත් බොහෝ ආකාරවලින් දත්ත කට්ටල ජනනය කළ හැක.

ඔබ පරිපූර්ණ දත්ත කට්ටලයක් සෙවීමට පෙර, ඔබ ඔබේ ව්‍යාපෘතියේ අරමුණ දැන සිටීම වැදගත් වේ, විශේෂයෙන් එය කාලගුණය, මූල්‍ය, සෞඛ්‍යය, යනාදී නිශ්චිත ප්‍රදේශයකින් නම්. මෙය ඔබ මූලාශ්‍ර කරන මූලාශ්‍රය නියම කරනු ඇත. දත්ත කට්ටලය.

ML සඳහා දත්ත කට්ටල

චැට්බෝට් පුහුණුව

ඵලදායී චැට්බොට් එකකට මිනිස් මැදිහත්වීමකින් තොරව පරිශීලක විමසීම් ඉක්මනින් විසඳීම සඳහා පුහුණු දත්ත විශාල ප්‍රමාණයක් අවශ්‍ය වේ. කෙසේ වෙතත්, චැට්බෝට් සංවර්ධනයේ මූලික බාධාව වන්නේ මෙම යන්ත්‍ර ඉගෙනුම් පාදක පද්ධති පුහුණු කිරීම සඳහා යථාර්ථවාදී, කාර්යය-නැඹුරු සංවාද දත්ත ලබා ගැනීමයි.

සංවාද දත්ත කට්ටලයක් ප්‍රශ්න සහ පිළිතුරු ආකෘතියකින් දත්ත රැස් කරයි. එය ප්‍රේක්ෂකයින්ට ස්වයංක්‍රීය පිළිතුරු ලබා දෙන චැට්බෝට් පුහුණු කිරීම සඳහා වඩාත් සුදුසුය. මෙම දත්ත නොමැතිව, මිනිස් මැදිහත්වීමකින් තොරව පරිශීලක විමසීම් ඉක්මනින් විසඳීමට හෝ පරිශීලක ප්‍රශ්නවලට පිළිතුරු දීමට චැට්බෝට් අසමත් වනු ඇත.

මෙම දත්ත කට්ටල භාවිතා කරමින්, ව්‍යාපාරවලට පාරිභෝගිකයින්ට 24/7 කඩිනම් පිළිතුරු සපයන මෙවලමක් නිර්මාණය කළ හැකි අතර පාරිභෝගික සහාය දක්වන පුද්ගලයින් කණ්ඩායමක් සිටීම වඩා සැලකිය යුතු තරම් ලාභදායී වේ.

1. ප්‍රශ්න-පිළිතුරු දත්ත කට්ටලය

මෙම දත්ත කට්ටලය විකිපීඩියා ලිපි මාලාවක්, ප්‍රශ්න සහ ඒවාට අදාළ අතින් ජනනය කරන ලද පිළිතුරු සපයයි. එය 2008 සහ 2010 අතර භාවිතා කිරීම සඳහා එකතු කරන ලද දත්ත කට්ටලයකි ශාස්ත්රීය පර්යේෂණ.

2. භාෂා දත්ත

භාෂා දත්ත යනු Yahoo! වැනි සමාගමේ සමහර සේවාවන් වෙතින් ජනනය කරන ලද තොරතුරු සමඟින් යාහූ විසින් කළමනාකරණය කරනු ලබන දත්ත ගබඩාවකි. පිළිතුර, පරිශීලකයින්ට ප්‍රශ්න සහ පිළිතුරු පළ කිරීමට විවෘත ප්‍රජාවක් ලෙස ක්‍රියා කරයි.

දත්ත කට්ටල 1

3. WikiQA

WikiQA corpus ද ප්‍රශ්න සහ පිළිතුරු සමූහයකින් සමන්විත වේ. ප්‍රශ්නවල මූලාශ්‍රය Bing වන අතර පිළිතුරු මුල් ප්‍රශ්නය විසඳීමට හැකියාව ඇති විකිපීඩියා පිටුවකට සම්බන්ධ වේ.

දත්ත කට්ටල 2 සමස්තයක් වශයෙන්, දත්ත කට්ටලයේ ප්‍රශ්න 3,000කට වඩා වැඩි ප්‍රමාණයක් සහ වාක්‍ය 29,258ක් ඇති අතර, ඉන් 1,400ක් පමණ අදාළ ප්‍රශ්නයකට පිළිතුරු ලෙස වර්ග කර ඇත.

රජයේ දත්ත

රජයන් විසින් ජනනය කරන ලද දත්ත කට්ටල ජනවිකාස දත්ත ගෙන එයි, ඒවා සමාජ ප්‍රවණතා අවබෝධ කර ගැනීම, පොදු ප්‍රතිපත්ති නිර්මාණය කිරීම සහ සමාජය වැඩිදියුණු කිරීම සම්බන්ධ ව්‍යාපෘති සඳහා විශිෂ්ට යෙදවුම් වේ. මෙය දේශපාලන ව්‍යාපාර, ඉලක්කගත ප්‍රචාරණය හෝ වෙළඳපල විශ්ලේෂණය සඳහා ප්‍රයෝජනවත් විය හැක.

මෙම දත්ත කට්ටලවල සාමාන්‍යයෙන් නිර්නාමික දත්ත අඩංගු වේ, එබැවින් ආකෘතිවලට අමු දත්ත වෙත ප්‍රවේශ විය හැකි අතර, පුද්ගලික පෞද්ගලිකත්වයේ උල්ලංඝනයන් නොමැත.

4. Data.gov

2009 දී දියත් කරන ලද, Data.gov යනු දත්ත සඳහා උතුරු ඇමරිකානු මූලාශ්‍රය වේ. එහි නාමාවලිය සිත් ඇදගන්නා සුළුය: ආකෘතිය, ටැග්, වර්ග සහ මාතෘකා අනුව ඛණ්ඩනය කිරීමට ඉඩ දෙන දත්ත කට්ටල 218,000කට වඩා.

5. EU විවෘත දත්ත ද්වාරය

EU විවෘත දත්ත ද්වාරය යුරෝපීය සංගමයේ ආයතන විසින් බෙදා ගන්නා විවෘත දත්ත වෙත ප්‍රවේශය සපයයි. මේවා වාණිජ සහ වාණිජ නොවන භාවිතය සඳහා අදහස් කළ හැකි දත්ත වේ. සෞඛ්‍යය, බලශක්තිය, පරිසරය, සංස්කෘතිය සහ අධ්‍යාපනය වැනි මාතෘකා ආවරණය වන පරිදි දත්ත කට්ටල 15.5 දහසකට වඩා පරිශීලකයා සතුව ඇත.

සෞඛ්‍ය දත්ත

ලොව පුරා පවතින සෞඛ්‍ය අර්බුදයෙන් පසුව, ජීවිත බේරා ගැනීම සඳහා ඵලදායී විසඳුම් සංවර්ධනය කිරීම සඳහා සෞඛ්‍ය සංවිධාන විසින් ජනනය කරන ලද දත්ත කට්ටල අත්‍යවශ්‍ය වේ. මෙම දත්ත කට්ටල මගින් අවදානම් සාධක හඳුනා ගැනීමට, රෝග සම්ප්‍රේෂණ රටා සකස් කිරීමට සහ රෝග විනිශ්චය වේගවත් කිරීමට උපකාරී වේ.

මෙම දත්ත කට්ටල සෞඛ්‍ය වාර්තා, රෝගීන්ගේ ජනවිකාස, රෝග ව්‍යාප්තිය, ඖෂධ භාවිතය, පෝෂණ අගයන් සහ තවත් බොහෝ දේ වලින් සමන්විත වේ.

6. ගෝලීය සෞඛ්‍ය නිරීක්ෂණාගාරය

මෙම දත්ත කට්ටලය ලෝක සෞඛ්‍ය සංවිධානයේ (WHO) මුලපිරීමකි. එය සෞඛ්‍ය පද්ධති, දුම්කොළ භාවිතය පාලනය, මාතෘත්වය, HIV/AIDS වැනි තේමා මගින් සංවිධානය කරන ලද විවිධ සෞඛ්‍ය ක්ෂේත්‍රවලට අදාළ පොදු දත්ත සපයයි. COVID-19 පිළිබඳ දත්ත විමසීමේ විකල්පය ද ඇත.

7. CORD-19

CORD-19 යනු COVID-19 පිළිබඳ ශාස්ත්‍රීය ප්‍රකාශන සහ නව කොරෝනා වයිරසය පිළිබඳ වෙනත් ලිපිවල එකතුවකි. එය COVID-19 පිළිබඳ නව අවබෝධයක් ජනනය කිරීමට අදහස් කරන විවෘත දත්ත කට්ටලයකි.

දත්ත කට්ටල7

ආර්ථික දත්ත

මූල්‍ය පරිසරය හා සම්බන්ධ දත්ත කට්ටල සාමාන්‍යයෙන් විශාල තොරතුරු ප්‍රමාණයක් රැස් කරයි, මන්ද ඒවා දිගු කලක් තිස්සේ රැස් කර ඇති බැවිනි. ඔවුන් ආර්ථික අනාවැකි නිර්මාණය කිරීම හෝ ආයෝජන ප්රවණතා ස්ථාපිත කිරීම සඳහා සුදුසු වේ.

නිවැරදි මූල්‍ය දත්ත කට්ටල සමඟ, a යන්ත්‍ර ඉගෙනීමේ ආකෘතිය දී ඇති වත්කමක හැසිරීම පුරෝකථනය කිරීමට හැකි විය හැක. සාධාරණ ලෙස පවා පුරෝකථනය කළ හැකි ඕනෑම දෙයකට ඩොලර් මිලියන ගණනක් උපයා ගැනීමේ හැකියාව ඇති බැවින්, මූල්‍ය අංශය ඵලදායී ML ආකෘතියක් නිර්මාණය කිරීමට හැකි සෑම දෙයක්ම කරන්නේ එබැවිනි. Machine Learning දැනටමත් පුරවැසියන්ගේ හැසිරීම පුරෝකථනය කරයි, එය ප්‍රතිපත්ති සම්පාදකයින් ඔවුන්ගේ රැකියා කරන ආකාරය කෙරෙහි බලපායි.

8. ජාත්යන්තර මූල්ය අරමුදල

IMF දත්ත කට්ටලය ආර්ථික සහ මූල්‍ය දර්ශක, සාමාජික රටවල සංඛ්‍යාලේඛන සහ අනෙකුත් ණය සහ විනිමය අනුපාත දත්ත පරාසයක් දරයි.

9. ලෝක බැංකුව

ලෝක බැංකුවේ ගබඩාවේ විවිධ රටවල ආර්ථික තොරතුරු සහිත විවිධ දත්ත කට්ටල අඩංගු වේ. දත්ත කට්ටල 17,000කට වඩා වැඩි ප්‍රමාණයක් මහාද්වීප අනුව බෙදා ඇත.

88 දත්ත කට්ටල7

නිෂ්පාදන සහ සේවා සමාලෝචන

චිත්තවේගීය විශ්ලේෂණය මගින් විවිධ ක්ෂේත්‍රවල එහි යෙදුම් සොයාගෙන ඇති අතර ඒවා දැන් ව්‍යවසායයන්ට තම සේවාදායකයින්ගෙන් හෝ ගනුදෙනුකරුවන්ගෙන් නිවැරදිව තක්සේරු කිරීමට සහ ඉගෙන ගැනීමට උපකාරී වේ. සමාජ මාධ්‍ය අධීක්‍ෂණය, සන්නාම අධීක්‍ෂණය, පාරිභෝගිකයාගේ හඬ (VoC), පාරිභෝගික සේවය සහ වෙළඳපල පර්යේෂණ සඳහා හැඟීම් විශ්ලේෂණය වැඩි වැඩියෙන් භාවිතා වේ.

හැඟීම් විශ්ලේෂණය NLP භාවිතා කරයි (ස්නායු-භාෂාමය ක්‍රමලේඛන) ක්‍රම සහ ඇල්ගොරිතම රීති මත පදනම් වූ, දෙමුහුන්, හෝ දත්ත කට්ටල වලින් දත්ත ඉගෙන ගැනීමට යන්ත්‍ර ඉගෙනුම් ක්‍රම මත රඳා පවතී.

හැඟීම් විශ්ලේෂණයේදී අවශ්‍ය දත්ත විශේෂිත විය යුතු අතර විශාල ප්‍රමාණවලින් අවශ්‍ය වේ. හැඟීම් විශ්ලේෂණ පුහුණු ක්‍රියාවලියේ වඩාත්ම අභියෝගාත්මක කොටස වන්නේ විශාල ප්‍රමාණවලින් දත්ත සොයා ගැනීම නොවේ; ඒ වෙනුවට අදාල දත්ත කට්ටල සොයා ගැනීමයි. මෙම දත්ත කට්ටල හැඟීම් විශ්ලේෂණ යෙදුම් සහ අවස්ථා භාවිතා කිරීමේ පුළුල් ක්ෂේත්‍රයක් ආවරණය කළ යුතුය.

10. ඇමසන් සමාලෝචන

මෙම දත්ත කට්ටලයේ ඇමේසන් සමාලෝචන මිලියන 35ක් පමණ අඩංගු වන අතර, වසර 18ක එකතු කරන ලද තොරතුරු කාලසීමාවක් පුරා විහිදේ. එය නිෂ්පාදන, පරිශීලක සහ සමාලෝචන අන්තර්ගතයේ දත්ත කට්ටලයකි.

11. Yelp සමාලෝචන

Yelp සිය සේවාවෙන් රැස් කරගත් තොරතුරු මත පදනම්ව දත්ත කට්ටලයක් ද පිරිනමයි. සමාලෝචන මිලියන 8කට අධික ප්‍රමාණයක්, ඉඟි මිලියන 1ක් සහ විවෘත වේලාවන් සහ ලබා ගත හැකි බව වැනි ව්‍යාපාරවලට අදාළ මිලියන 1.5කට ආසන්න උපලක්ෂණ ඇත.

12. IMDB සමාලෝචන

මෙම දත්ත සමුදායේ පුහුණුව සඳහා චිත්‍රපට සමාලෝචන 25කට වැඩි ප්‍රමාණයක් සහ චිත්‍රපට ශ්‍රේණිගත කිරීම් සඳහා විශේෂිත වූ IMDB පිටුවෙන් අවිධිමත් ලෙස ලබාගත් පරීක්ෂණ සඳහා තවත් 25 ක් අඩංගු වේ. එය අතිරේකයක් ලෙස ලේබල් නොකළ දත්ත ද පිරිනමයි.

ML හි පළමු පියවර සඳහා දත්ත කට්ටල

13. වයින් තත්ත්ව දත්ත කට්ටලය

මෙම දත්ත කට්ටලය උතුරු පෘතුගාලයේ නිෂ්පාදනය කරන රතු සහ කොළ යන දෙකම වයින් සම්බන්ධ තොරතුරු සපයයි. ඉලක්කය වන්නේ භෞතික රසායනික පරීක්ෂණ මත පදනම්ව වයින්වල ගුණාත්මකභාවය නිර්ණය කිරීමයි. අනාවැකි පද්ධතියක් නිර්මාණය කිරීමට පුරුදු වීමට කැමති අය සඳහා සිත්ගන්නා සුළුය.

14. ටයිටැනික් දත්ත කට්ටලය

මෙම දත්ත කට්ටලය ටයිටැනික් නෞකාවේ සැබෑ මගීන් 887 දෙනෙකුගෙන් දත්ත ගෙන එයි, සෑම තීරුවක්ම ඔවුන් දිවි ගලවා ගත්තේද යන්න, ඔවුන්ගේ වයස, මගී පන්තිය, ස්ත්‍රී පුරුෂ භාවය සහ ඔවුන් ගෙවූ ගොඩවීමේ ගාස්තුව නිර්වචනය කරයි. මෙම දත්ත කට්ටලය Kaggle වේදිකාව විසින් දියත් කරන ලද අභියෝගයක කොටසක් වූ අතර, එහි අරමුණ වූයේ ටයිටැනික් නෞකාව ගිලීමෙන් දිවි ගලවා ගත්තේ කුමන මගීන්දැයි අනාවැකි කිව හැකි ආකෘතියක් නිර්මාණය කිරීමයි.

වෙනත් දත්ත කට්ටල සෙවීම සඳහා වේදිකා

ඔබට තවත් ඉදිරියට ගොස් ඔබේම දත්ත කට්ටලයක් සොයා ගැනීමට අවශ්‍ය නම්, හොඳම ක්‍රමය නම් වඩාත් ප්‍රසිද්ධ ගබඩාවන් හරහා බ්‍රවුස් කිරීමයි. යන්ත්ර ඉගෙනීම විශ්වය:

කග්ගල්

Google LLC හි අනුබද්ධිත ආයතනයක් වන Kaggle යනු දත්ත විද්‍යාඥයින් සහ යන්ත්‍ර ඉගෙනීමේ වෘත්තිකයන්ගෙන් සමන්විත සබැඳි ප්‍රජාවකි. Kaggle පරිශීලකයින්ට දත්ත කට්ටල සොයා ගැනීමට සහ ප්‍රකාශ කිරීමට, වෙබ් පාදක දත්ත විද්‍යා පරිසරයක් තුළ ගවේෂණය කිරීමට සහ ආකෘති නිර්මාණය කිරීමට ඉඩ දෙයි; වෙනත් දත්ත විද්‍යාඥයන් සමඟ වැඩ කරන්න සහ යන්ත්‍ර ඉගෙනීමේ ඉංජිනේරුවන්, සහ දත්ත විද්‍යා අභියෝග විසඳීම සඳහා තරඟ වලට සහභාගී වන්න.

Kaggle යන්ත්‍ර ඉගෙනීමේ තරඟ ඉදිරිපත් කරමින් 2010 දී ආරම්භ කරන ලද අතර දැන් එය ප්‍රසිද්ධියට පත් කරයි. දත්ත වේදිකාව, දත්ත විද්‍යාව සහ කෘතිම බුද්ධි අධ්‍යාපනය සඳහා වලාකුළු මත පදනම් වූ වැඩ බංකුවක්.

දත්ත කට්ටල සෙවීම

Dataset Search යනු Google වෙතින් වන සෙවුම් යන්ත්‍රයකි, එය පර්යේෂකයන්ට භාවිතය සඳහා නොමිලේ ලබා ගත හැකි සබැඳි දත්ත සොයා ගැනීමට උදවු කරයි. වෙබය පුරා, ඔබ කැමති ඕනෑම විෂයයක් ගැන දත්ත කට්ටල මිලියන ගණනක් ඇත.

ඔබ බලු පැටියෙකු මිලදී ගැනීමට බලාපොරොත්තු වන්නේ නම්, බලු පැටවුන් ගැනුම්කරුවන්ගේ පැමිණිලි සම්පාදනය කරන දත්ත කට්ටල හෝ බලු පැටියාගේ සංජානනය පිළිබඳ අධ්‍යයනයන් ඔබට සොයාගත හැකිය. එසේත් නැතිනම් ඔබ හිම මත ලිස්සා යාමට කැමති නම්, ඔබට ස්කී රිසෝට් වල ආදායම හෝ තුවාල අනුපාත සහ සහභාගීත්ව අංක පිළිබඳ දත්ත සොයාගත හැකිය. දත්ත කට්ටල සෙවුම මෙම දත්ත කට්ටල මිලියන 25කට ආසන්න ප්‍රමාණයක් සුචිගත කර ඇති අතර, ඔබට දත්ත කට්ටල සෙවීමට සහ දත්ත තිබෙන තැනට සබැඳි සොයා ගැනීමට තනි ස්ථානයක් ලබා දේ.

UCI යන්ත්‍ර ඉගෙනුම් ගබඩාව

UCI යන්ත්‍ර ඉගෙනුම් ගබඩාව යනු යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතම පිළිබඳ ආනුභවික විශ්ලේෂණය සඳහා යන්ත්‍ර ඉගෙනුම් ප්‍රජාව විසින් භාවිතා කරන දත්ත සමුදායන්, වසම් න්‍යායන් සහ දත්ත උත්පාදක එකතුවකි. ලේඛනාගාරය 1987 දී ඩේවිඩ් ආහා සහ යූසී ඉර්වින් හි සෙසු උපාධිධාරී සිසුන් විසින් ftp ලේඛනාගාරයක් ලෙස නිර්මාණය කරන ලදී.

එතැන් සිට, එය ML දත්ත කට්ටලවල මූලික මූලාශ්‍රයක් ලෙස ලොව පුරා සිටින සිසුන්, අධ්‍යාපනඥයින් සහ පර්යේෂකයන් විසින් බහුලව භාවිතා කර ඇත. ලේඛනාගාරයේ බලපෑම පිළිබඳ ඇඟවීමක් ලෙස, එය 1000 වාරයකට වඩා උපුටා දක්වා ඇත, එය පරිගණක විද්‍යාවේ වඩාත්ම උපුටා දක්වන ලද "පත්‍ර" 100 න් එකක් බවට පත් කරයි.

Quandl

Quandl යනු එහි පරිශීලකයින්ට ආර්ථික, මූල්‍ය සහ විකල්ප දත්ත කට්ටල සපයන වේදිකාවකි. පරිශීලකයින්ට නොමිලේ දත්ත බාගත කිරීමට, ගෙවූ දත්ත මිලදී ගැනීමට හෝ Quandl වෙත දත්ත විකිණීමට හැකිය. එය සංවර්ධනය සඳහා ප්රයෝජනවත් මෙවලමක් විය හැකිය වෙළඳ ඇල්ගොරිතම, උදාහරණයක් වශයෙන්.

නිගමනය

මෙම මෙවලම් ගවේෂණය කිරීමෙන්, ඔබේ ව්‍යාපෘති සඳහා විශිෂ්ට යෙදවුම් සොයා ගැනීමට ඔබට නිසැක ය. ඔබේ නිශ්චිත අවශ්‍යතා සඳහා වඩාත් සුදුසු දත්ත කට්ටලය තෝරා ගැනීමට වග බලා ගන්න සහ සැමවිටම මතක තබා ගන්න: එය ප්‍රමාණය පමණක් නොව ගුණාත්මකභාවය ද වේ. දත්ත කට්ටලය ඕනෑම දෙයක පදනම වේ යන්ත්‍ර ඉගෙනීමේ ව්‍යාපෘතිය සහ වැරදි නිගමනවලට එළැඹීමේ අවදානම වළක්වා ගැනීම සඳහා ගුණාත්මක දත්ත ගොඩ නැගීම අත්‍යවශ්‍ය වේ.

යන්ත්‍ර ඉගෙනීම සඳහා හොඳම දත්ත කට්ටල 14

දත්ත කට්ටලවල මූලික කරුණු