មាតិកា[លាក់][បង្ហាញ]
រាល់គម្រោង Machine Learning ពឹងផ្អែកលើសំណុំទិន្នន័យដ៏ល្អ។ វាជាសំណុំទិន្នន័យដ៏ធំនេះដែលនឹងអនុញ្ញាតឱ្យអ្នកបណ្តុះបណ្តាល និងធ្វើឱ្យគំរូ ML របស់អ្នកមានសុពលភាព។ ដូច្នេះ ផ្នែកដ៏ធំមួយនៃការងារនៅក្នុងគម្រោង ML គឺការស្វែងរកសំណុំទិន្នន័យដ៏ល្អឥតខ្ចោះសម្រាប់តម្រូវការរបស់អ្នក។ ទោះយ៉ាងណាក៏ដោយ វាមិនតែងតែអាចស្វែងរកជម្រើសដែលសាកសមនឹងមហិច្ឆតារបស់អ្នកនោះទេ ព្រោះថាឯកសារជាច្រើនដែលមើលទៅគួរអោយចាប់អារម្មណ៍ នៅទីបញ្ចប់គឺមិនមែនទេ។
វាអាចគួរឱ្យខ្លាចក្នុងការខ្ជះខ្ជាយពេលវេលាក្នុងការទាញយកសំណុំទិន្នន័យរាប់មិនអស់ រហូតដល់អ្នកមកដល់សំណុំដ៏ល្អមួយ។ ជាមួយនឹងគំនិតនោះ យើងបានប្រមូលផ្តុំនូវជម្រើសមួយចំនួនដែលមើលទៅគួរអោយចាប់អារម្មណ៍ និងអាចជួយអ្នកក្នុងការអភិវឌ្ឍន៍គម្រោង ML របស់អ្នក។ សូមចំណាំថាកម្មវិធីមួយចំនួនត្រូវបានបម្រុងទុកសម្រាប់ផ្ទាល់ខ្លួនជំនួសឱ្យការប្រើប្រាស់ពាណិជ្ជកម្ម ដូច្នេះសូមក្រឡេកមើលជម្រើសទាំងនេះជាមធ្យោបាយដើម្បីទទួលបានបទពិសោធន៍នៅក្នុងសកលលោក ML ។
មូលដ្ឋានគ្រឹះនៃសំណុំទិន្នន័យ
មុននឹងយើងនិយាយអំពីសំណុំទិន្នន័យ យើងគួរកំណត់ពាក្យមួយចំនួន។ នៅក្នុងគម្រោង Artificial Intelligence ជាពិសេស រៀនម៉ាស៊ីនទិន្នន័យមួយចំនួនធំត្រូវបានទាមទារ ដែលនឹងត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលក្បួនដោះស្រាយ។ ចំនួនទិន្នន័យនេះត្រូវបានប្រមូលផ្តុំនៅក្នុងមូលដ្ឋានទិន្នន័យ ដែលមានប្រយោជន៍ខ្លាំងណាស់ក្នុងការបង្រៀនក្បួនដោះស្រាយមួយ។
ជាមួយនឹងទិន្នន័យនេះ ក្បួនដោះស្រាយត្រូវបានបណ្តុះបណ្តាល – សាកល្បងផងដែរ ហើយអាចស្វែងរកគំរូ បង្កើតទំនាក់ទំនង ហើយធ្វើការសម្រេចចិត្តដោយស្វ័យភាព។ ដោយគ្មានការបណ្តុះបណ្តាល, រៀនម៉ាស៊ីន ក្បួនដោះស្រាយមិនអាចអនុវត្តសកម្មភាពណាមួយបានទេ។ ដូច្នេះ ទិន្នន័យបណ្តុះបណ្តាលកាន់តែល្អ គំរូនឹងដំណើរការកាន់តែប្រសើរ។ ដើម្បីឱ្យមូលដ្ឋានទិន្នន័យមានប្រយោជន៍ចំពោះគម្រោង វាមិនមែនអំពីបរិមាណទេ៖ វាក៏និយាយអំពីការចាត់ថ្នាក់ផងដែរ។
តាមឧត្ដមគតិ ទិន្នន័យគួរត្រូវបានដាក់ស្លាកយ៉ាងល្អ។ គិតអំពីករណីរបស់ chatbots៖ ការបញ្ចូលភាសាមានសារៈសំខាន់ ប៉ុន្តែការវិភាគវាក្យសម្ព័ន្ធយ៉ាងប្រុងប្រយ័ត្នត្រូវតែធ្វើឡើងដើម្បីឱ្យ algorithm ដែលត្រូវបានបង្កើតឡើងអាចយល់បាន នៅពេលដែល interlocutor កំពុងប្រើពាក្យស្លោក។ មានតែពេលនោះទេដែលជំនួយការនិម្មិតនឹងអាចចាប់ផ្តើមចម្លើយស្របតាមអ្វីដែលបានស្នើសុំដោយអ្នកប្រើប្រាស់។
សំណុំទិន្នន័យអាចត្រូវបានបង្កើតពីការស្ទង់មតិ ទិន្នន័យការទិញរបស់អ្នកប្រើប្រាស់ ការវាយតម្លៃដែលនៅសល់លើសេវាកម្ម និងតាមវិធីជាច្រើនទៀតដែលអនុញ្ញាតឱ្យប្រមូលព័ត៌មានមានប្រយោជន៍ដែលរៀបចំជាជួរ និងជួរក្នុងឯកសារ CSV ។
មុនពេលអ្នកកំណត់ក្នុងការស្វែងរកសំណុំទិន្នន័យដ៏ល្អឥតខ្ចោះ វាជារឿងសំខាន់ដែលអ្នកត្រូវដឹងពីគោលបំណងនៃគម្រោងរបស់អ្នក ជាពិសេសប្រសិនបើវាមកពីតំបន់ជាក់លាក់មួយ ដូចជាអាកាសធាតុ ហិរញ្ញវត្ថុ សុខភាពជាដើម។ វានឹងកំណត់ប្រភពដែលអ្នកនឹងទទួលបានប្រភពរបស់អ្នក។ សំណុំទិន្នន័យ
សំណុំទិន្នន័យ MLM
ការបណ្តុះបណ្តាល Chatbot
chatbot ដ៏មានប្រសិទ្ធភាពទាមទារទិន្នន័យបណ្តុះបណ្តាលយ៉ាងច្រើន ដើម្បីដោះស្រាយការសាកសួររបស់អ្នកប្រើប្រាស់បានយ៉ាងឆាប់រហ័សដោយមិនចាំបាច់មានអន្តរាគមន៍ពីមនុស្ស។ ទោះជាយ៉ាងណាក៏ដោយ ឧបសគ្គចម្បងក្នុងការអភិវឌ្ឍន៍ chatbot គឺការទទួលបានទិន្នន័យប្រអប់ដែលផ្តោតលើកិច្ចការជាក់ស្តែង ដើម្បីបណ្តុះបណ្តាលប្រព័ន្ធផ្អែកលើ Machine Learning ទាំងនេះ។
សំណុំទិន្នន័យសន្ទនាប្រមូលទិន្នន័យក្នុងទម្រង់សំណួរ និងចម្លើយ។ វាល្អសម្រាប់ការបណ្តុះបណ្តាល chatbots ដែលនឹងផ្តល់ចម្លើយដោយស្វ័យប្រវត្តិដល់ទស្សនិកជន។ ប្រសិនបើគ្មានទិន្នន័យនេះទេ chatbot នឹងបរាជ័យក្នុងការដោះស្រាយការសាកសួររបស់អ្នកប្រើប្រាស់យ៉ាងឆាប់រហ័ស ឬឆ្លើយសំណួររបស់អ្នកប្រើប្រាស់ដោយមិនចាំបាច់ត្រូវការអន្តរាគមន៍ពីមនុស្សឡើយ។
ដោយប្រើសំណុំទិន្នន័យទាំងនេះ អាជីវកម្មអាចបង្កើតឧបករណ៍ដែលផ្តល់ចម្លើយរហ័សដល់អតិថិជន 24/7 ហើយមានតម្លៃថោកជាងការមានក្រុមមនុស្សជួយអតិថិជន។
1. សំណុំទិន្នន័យសំណួរ-ចម្លើយ
សំណុំទិន្នន័យនេះផ្តល់នូវសំណុំនៃអត្ថបទ Wikipedia សំណួរ និងចម្លើយដែលបង្កើតដោយដៃរៀងៗខ្លួន។ វាគឺជាសំណុំទិន្នន័យដែលប្រមូលបានរវាងឆ្នាំ 2008 និង 2010 សម្រាប់ប្រើក្នុង ការសិក្សាស្រាវជ្រាវ.
2. ទិន្នន័យភាសា
ទិន្នន័យភាសាគឺជាមូលដ្ឋានទិន្នន័យដែលគ្រប់គ្រងដោយ Yahoo ជាមួយនឹងព័ត៌មានដែលបង្កើតចេញពីសេវាកម្មមួយចំនួនរបស់ក្រុមហ៊ុនដូចជា Yahoo! ចម្លើយ ដែលធ្វើការជាសហគមន៍បើកចំហសម្រាប់អ្នកប្រើប្រាស់ក្នុងការបង្ហោះសំណួរ និងចម្លើយ។
3. វិគីកា
ស្ថាប័ន WikiQA ក៏មានសំណុំសំណួរ និងចម្លើយផងដែរ។ ប្រភពនៃសំណួរគឺ Bing ខណៈពេលដែលចម្លើយភ្ជាប់ទៅទំព័រ Wikipedia ដែលមានសក្តានុពលក្នុងការដោះស្រាយសំណួរដំបូង។
សរុបមក មានសំណួរច្រើនជាង 3,000 និងសំណុំនៃប្រយោគចំនួន 29,258 នៅក្នុងសំណុំទិន្នន័យ ដែលក្នុងនោះប្រហែល 1,400 ត្រូវបានចាត់ថ្នាក់ជាចម្លើយទៅនឹងសំណួរដែលត្រូវគ្នា។
ទិន្នន័យរដ្ឋាភិបាល
សំណុំទិន្នន័យដែលបង្កើតដោយរដ្ឋាភិបាលនាំមកនូវទិន្នន័យប្រជាសាស្រ្ត ដែលជាធាតុចូលដ៏អស្ចារ្យសម្រាប់គម្រោងទាក់ទងនឹងការយល់ដឹងអំពីនិន្នាការសង្គម ការបង្កើតគោលនយោបាយសាធារណៈ និងការកែលម្អសង្គម។ នេះអាចមានប្រយោជន៍សម្រាប់យុទ្ធនាការនយោបាយ ការផ្សាយពាណិជ្ជកម្មដែលមានគោលដៅ ឬការវិភាគទីផ្សារ។
ជាធម្មតាសំណុំទិន្នន័យទាំងនេះមានទិន្នន័យអនាមិក ដូច្នេះខណៈពេលដែលម៉ូដែលអាចចូលប្រើទិន្នន័យដើម វាមិនមានការរំលោភលើឯកជនភាពផ្ទាល់ខ្លួនទេ។
4. Data.gov
បើកដំណើរការក្នុងឆ្នាំ 2009 Data.gov គឺជាប្រភពទិន្នន័យនៅអាមេរិកខាងជើង។ កាតាឡុករបស់វាគួរឱ្យចាប់អារម្មណ៍៖ សំណុំទិន្នន័យច្រើនជាង 218,000 ដែលអនុញ្ញាតឱ្យបែងចែកតាមទម្រង់ ស្លាក ប្រភេទ និងប្រធានបទ។
5. វិបផតថលទិន្នន័យបើកចំហរបស់សហភាពអឺរ៉ុប
វិបផតថលទិន្នន័យបើកចំហរបស់សហភាពអឺរ៉ុបផ្តល់សិទ្ធិចូលប្រើទិន្នន័យបើកចំហដែលចែករំលែកដោយស្ថាប័ននានានៃសហភាពអឺរ៉ុប។ ទាំងនេះគឺជាទិន្នន័យដែលអាចមានបំណងសម្រាប់ការប្រើប្រាស់ពាណិជ្ជកម្ម និងមិនមែនពាណិជ្ជកម្ម។ នៅក្នុងការចោលរបស់អ្នកប្រើប្រាស់មានសំណុំទិន្នន័យច្រើនជាង 15.5 ពាន់ ដែលគ្របដណ្តប់លើប្រធានបទដូចជា សុខភាព ថាមពល បរិស្ថាន វប្បធម៌ និងការអប់រំ។
ទិន្នន័យសុខភាព
បន្ទាប់ពីវិបត្តិសុខភាពដែលកំពុងកើតមាននៅទូទាំងពិភពលោក សំណុំទិន្នន័យដែលបង្កើតដោយអង្គការសុខភាពមានសារៈសំខាន់ក្នុងការអភិវឌ្ឍន៍ដំណោះស្រាយប្រកបដោយប្រសិទ្ធភាពដើម្បីសង្គ្រោះជីវិត។ សំណុំទិន្នន័យទាំងនេះអាចជួយកំណត់អត្តសញ្ញាណកត្តាហានិភ័យ បង្កើតគំរូនៃការចម្លងជំងឺ និងបង្កើនល្បឿនការធ្វើរោគវិនិច្ឆ័យ។
សំណុំទិន្នន័យទាំងនេះរួមមាន កំណត់ត្រាសុខភាព ប្រជាសាស្រ្តនៃអ្នកជំងឺ អត្រាប្រេវ៉ាឡង់នៃជំងឺ ការប្រើប្រាស់ឱសថ តម្លៃអាហារូបត្ថម្ភ និងច្រើនទៀត។
6. អង្គការឃ្លាំមើលសុខភាពសកល
សំណុំទិន្នន័យនេះគឺជាគំនិតផ្តួចផ្តើមរបស់អង្គការសុខភាពពិភពលោក (WHO)។ វាផ្តល់ទិន្នន័យសាធារណៈទាក់ទងនឹងផ្នែកផ្សេងៗនៃសុខភាព ដែលរៀបចំដោយប្រធានបទដូចជា ប្រព័ន្ធសុខភាព ការគ្រប់គ្រងការប្រើប្រាស់ថ្នាំជក់ មាតុភាព មេរោគអេដស៍/ជំងឺអេដស៍ ជាដើម។ វាក៏មានជម្រើសក្នុងការពិគ្រោះជាមួយទិន្នន័យអំពី COVID-19 ផងដែរ។
7. CORD-19
CORD-19 គឺជាបណ្តុំនៃការបោះពុម្ពផ្សាយសិក្សាអំពី COVID-19 និងអត្ថបទផ្សេងទៀតអំពីមេរោគថ្មីនេះ។ វាជាសំណុំទិន្នន័យបើកចំហដែលមានបំណងបង្កើតការយល់ដឹងថ្មីៗអំពី COVID-19។
ទិន្នន័យសេដ្ឋកិច្ច
សំណុំទិន្នន័យដែលទាក់ទងនឹងបរិយាកាសហិរញ្ញវត្ថុជាធម្មតាប្រមូលបាននូវចំនួនព័ត៌មានដ៏ច្រើន ព្រោះវាជារឿងធម្មតាដែលពួកគេត្រូវបានប្រមូលអស់រយៈពេលជាយូរ។ ពួកវាល្អសម្រាប់បង្កើតការព្យាករណ៍សេដ្ឋកិច្ច ឬបង្កើតនិន្នាការវិនិយោគ។
ជាមួយនឹងសំណុំទិន្នន័យហិរញ្ញវត្ថុត្រឹមត្រូវ ក ម៉ូដែលរៀនម៉ាស៊ីន ប្រហែលជាអាចទស្សន៍ទាយឥរិយាបថនៃទ្រព្យសម្បត្តិដែលបានផ្តល់ឱ្យ។ នោះហើយជាមូលហេតុដែលវិស័យហិរញ្ញវត្ថុកំពុងធ្វើអ្វីៗគ្រប់យ៉ាងតាមអំណាចរបស់ខ្លួនដើម្បីបង្កើតគំរូ ML ដែលមានប្រសិទ្ធភាព ព្រោះអ្វីដែលអាចទស្សន៍ទាយបានសូម្បីតែសមហេតុផលក៏អាចបង្កើតបានរាប់លានដុល្លារដែរ។ Machine Learning កំពុងធ្វើការទស្សន៍ទាយអាកប្បកិរិយារបស់ពលរដ្ឋរួចហើយ ដែលជះឥទ្ធិពលដល់របៀបដែលអ្នកបង្កើតគោលនយោបាយកំពុងធ្វើការងាររបស់ពួកគេ។
8. មូលនិធិរូបិយវត្ថុអន្ដរជាតិ
សំណុំទិន្នន័យ IMF មានសូចនាករសេដ្ឋកិច្ច និងហិរញ្ញវត្ថុ ស្ថិតិប្រទេសសមាជិក និងទិន្នន័យប្រាក់កម្ចី និងអត្រាប្តូរប្រាក់ផ្សេងទៀត។
9. ធនាគារពិភពលោក
ឃ្លាំងរបស់ធនាគារពិភពលោកមានសំណុំទិន្នន័យផ្សេងៗគ្នាជាមួយនឹងព័ត៌មានសេដ្ឋកិច្ចពីប្រទេសផ្សេងៗគ្នា។ មានសំណុំទិន្នន័យច្រើនជាង 17,000 ដែលបែងចែកដោយទ្វីប។
ការពិនិត្យផលិតផល និងសេវាកម្ម
ការវិភាគមនោសញ្ចេតនាបានរកឃើញកម្មវិធីរបស់ខ្លួនក្នុងវិស័យផ្សេងៗ ដែលឥឡូវនេះកំពុងជួយសហគ្រាសក្នុងការប៉ាន់ស្មាន និងរៀនពីអតិថិជន ឬអតិថិជនរបស់ពួកគេបានត្រឹមត្រូវ។ ការវិភាគអារម្មណ៍កំពុងត្រូវបានប្រើប្រាស់កាន់តែខ្លាំងឡើងសម្រាប់ការត្រួតពិនិត្យប្រព័ន្ធផ្សព្វផ្សាយសង្គម ការត្រួតពិនិត្យម៉ាកយីហោ សំឡេងរបស់អតិថិជន (VoC) សេវាកម្មអតិថិជន និងការស្រាវជ្រាវទីផ្សារ។
ការវិភាគអារម្មណ៍ប្រើ NLP (neuro-linguistic programming) វិធីសាស្រ្ត និងក្បួនដោះស្រាយដែលផ្អែកលើច្បាប់ កូនកាត់ ឬពឹងផ្អែកលើបច្ចេកទេសរៀនម៉ាស៊ីនដើម្បីរៀនទិន្នន័យពីសំណុំទិន្នន័យ។
ទិន្នន័យដែលត្រូវការក្នុងការវិភាគមនោសញ្ចេតនាគួរតែមានលក្ខណៈឯកទេស និងត្រូវបានទាមទារក្នុងបរិមាណច្រើន។ ផ្នែកដែលពិបាកបំផុតអំពីដំណើរការបណ្តុះបណ្តាលការវិភាគមនោសញ្ចេតនាគឺការស្វែងរកទិន្នន័យក្នុងបរិមាណច្រើនទេ។ ជំនួសមកវិញ វាគឺដើម្បីស្វែងរកសំណុំទិន្នន័យដែលពាក់ព័ន្ធ។ សំណុំទិន្នន័យទាំងនេះត្រូវតែគ្របដណ្តប់លើផ្នែកធំទូលាយនៃកម្មវិធីវិភាគមនោសញ្ចេតនា និងករណីប្រើប្រាស់។
10. ការពិនិត្យក្រុមហ៊ុន Amazon
សំណុំទិន្នន័យនេះមានប្រហែល 35 លានការពិនិត្យរបស់ Amazon ដែលមានរយៈពេល 18 ឆ្នាំនៃព័ត៌មានដែលប្រមូលបាន។ វាជាសំណុំទិន្នន័យនៃផលិតផល អ្នកប្រើប្រាស់ និងមាតិកាពិនិត្យ។
11. ការពិនិត្យឡើងវិញរបស់ Yelp
Yelp ក៏ផ្តល់ជូននូវសំណុំទិន្នន័យដោយផ្អែកលើព័ត៌មានដែលប្រមូលបានពីសេវាកម្មរបស់ខ្លួន។ មានការពិនិត្យជាង 8 លាន គន្លឹះ 1 លាន បូកនឹងគុណលក្ខណៈជិត 1.5 លានទាក់ទងនឹងអាជីវកម្ម ដូចជាម៉ោងបើក និងភាពទំនេរ។
12. ការពិនិត្យ IMDB
មូលដ្ឋានទិន្នន័យនេះមានសំណុំនៃការពិនិត្យភាពយន្តជាង 25 ពាន់សម្រាប់ការបណ្តុះបណ្តាល និង 25 ពាន់ផ្សេងទៀតសម្រាប់ការធ្វើតេស្តដែលបានយកក្រៅផ្លូវការពីទំព័រ IMDB ដែលមានឯកទេសក្នុងការវាយតម្លៃភាពយន្ត។ វាក៏ផ្តល់នូវទិន្នន័យដែលមិនមានស្លាកសញ្ញាបន្ថែមផងដែរ។
សំណុំទិន្នន័យសម្រាប់ជំហានដំបូងនៅក្នុង ML
13. សំណុំទិន្នន័យគុណភាពស្រា
សំណុំទិន្នន័យនេះផ្តល់ព័ត៌មានទាក់ទងនឹងស្រា ទាំងក្រហម និងបៃតង ដែលផលិតនៅភាគខាងជើងប្រទេសព័រទុយហ្គាល់។ គោលដៅគឺដើម្បីកំណត់គុណភាពស្រាដោយផ្អែកលើការធ្វើតេស្តរូបវិទ្យា។ គួរឱ្យចាប់អារម្មណ៍សម្រាប់អ្នកដែលចង់អនុវត្តការបង្កើតប្រព័ន្ធទស្សន៍ទាយ។
14. សំណុំទិន្នន័យ Titanic
សំណុំទិន្នន័យនេះនាំយកទិន្នន័យពីអ្នកដំណើរពិតប្រាកដចំនួន 887 នាក់ពីកប៉ាល់ទីតានិច ដោយជួរឈរនីមួយៗកំណត់ថាតើពួកគេនៅរស់រានមានជីវិត អាយុ ថ្នាក់អ្នកដំណើរ ភេទ និងថ្លៃជិះយន្តហោះដែលពួកគេបង់។ សំណុំទិន្នន័យនេះគឺជាផ្នែកមួយនៃបញ្ហាប្រឈមដែលបានចាប់ផ្តើមដោយវេទិកា Kaggle ដែលមានគោលបំណងបង្កើតគំរូដែលអាចទស្សន៍ទាយថាតើអ្នកដំណើរណាខ្លះបានរួចរស់ជីវិតពីការលិចនៃកប៉ាល់ទីតានិច។
វេទិកាសម្រាប់ការស្វែងរកសំណុំទិន្នន័យផ្សេងទៀត។
ប្រសិនបើអ្នកចង់ទៅបន្ថែមទៀត និងស្វែងរកសំណុំទិន្នន័យផ្ទាល់ខ្លួនរបស់អ្នក វិធីល្អបំផុតគឺរកមើលតាមរយៈឃ្លាំងដ៏ល្បីល្បាញបំផុតនៃ រៀនម៉ាស៊ីន សកលលោក៖
Kaggle
Kaggle ដែលជាក្រុមហ៊ុនបុត្រសម្ព័ន្ធរបស់ Google LLC គឺជាសហគមន៍អនឡាញនៃអ្នកវិទ្យាសាស្ត្រទិន្នន័យ និងអ្នកជំនាញការរៀនម៉ាស៊ីន។ Kaggle អនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ស្វែងរក និងបោះពុម្ពសំណុំទិន្នន័យ រុករក និងបង្កើតគំរូនៅក្នុងបរិយាកាសវិទ្យាសាស្ត្រទិន្នន័យផ្អែកលើគេហទំព័រ។ ធ្វើការជាមួយអ្នកវិទ្យាសាស្ត្រទិន្នន័យផ្សេងទៀត និង វិស្វកររៀនម៉ាស៊ីននិងចូលរួមក្នុងការប្រកួតប្រជែងដើម្បីដោះស្រាយបញ្ហាប្រឈមផ្នែកវិទ្យាសាស្ត្រទិន្នន័យ។
Kaggle បានចាប់ផ្តើមនៅក្នុងឆ្នាំ 2010 ដោយផ្តល់ជូននូវការប្រកួត Machine Learning ហើយឥឡូវនេះក៏ផ្តល់ជូនសាធារណៈជនផងដែរ។ វេទិកាទិន្នន័យដែលជាកន្លែងធ្វើការផ្អែកលើពពកសម្រាប់វិទ្យាសាស្ត្រទិន្នន័យ និងការអប់រំបញ្ញាសិប្បនិម្មិត។
ស្វែងរកសំណុំទិន្នន័យ
Dataset Search គឺជាម៉ាស៊ីនស្វែងរកពី Google ដែលជួយអ្នកស្រាវជ្រាវស្វែងរកទិន្នន័យអនឡាញដែលអាចប្រើបានដោយសេរី។ នៅទូទាំងបណ្តាញ មានសំណុំទិន្នន័យរាប់លានអំពីស្ទើរតែគ្រប់មុខវិជ្ជាដែលអ្នកចាប់អារម្មណ៍។
ប្រសិនបើអ្នកកំពុងស្វែងរកទិញកូនឆ្កែ អ្នកអាចរកឃើញសំណុំទិន្នន័យដែលចងក្រងពាក្យបណ្តឹងរបស់អ្នកទិញកូនឆ្កែ ឬការសិក្សាអំពីការយល់ដឹងអំពីកូនឆ្កែ។ ឬប្រសិនបើអ្នកចូលចិត្តជិះស្គី អ្នកអាចស្វែងរកទិន្នន័យអំពីចំណូលនៃរមណីយដ្ឋានជិះស្គី ឬអត្រារបួស និងលេខចូលរួម។ Dataset Search បានធ្វើលិបិក្រមស្ទើរតែ 25 លាននៃសំណុំទិន្នន័យទាំងនេះ ដោយផ្តល់ឱ្យអ្នកនូវកន្លែងតែមួយដើម្បីស្វែងរកសំណុំទិន្នន័យ និងស្វែងរកតំណភ្ជាប់ទៅកាន់កន្លែងដែលទិន្នន័យស្ថិតនៅ។
ឃ្លាំងសិក្សាម៉ាស៊ីនយូស៊ីអាយ
UCI Machine Learning Repository គឺជាបណ្តុំនៃមូលដ្ឋានទិន្នន័យ ទ្រឹស្តីដែន និងម៉ាស៊ីនបង្កើតទិន្នន័យ ដែលត្រូវបានប្រើដោយសហគមន៍ Machine Learning សម្រាប់ការវិភាគជាក់ស្តែងនៃក្បួនដោះស្រាយ Machine Learning ។ បណ្ណសារនេះត្រូវបានបង្កើតឡើងជាបណ្ណសារ ftp ក្នុងឆ្នាំ 1987 ដោយ David Aha និងនិស្សិតបញ្ចប់ការសិក្សានៅ UC Irvine ។
ចាប់តាំងពីពេលនោះមក វាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយដោយសិស្ស និស្សិត អ្នកអប់រំ និងអ្នកស្រាវជ្រាវទូទាំងពិភពលោក ជាប្រភពចម្បងនៃសំណុំទិន្នន័យ ML ។ ជាការចង្អុលបង្ហាញពីផលប៉ះពាល់នៃបណ្ណសារ វាត្រូវបានដកស្រង់ជាង 1000 ដង ដែលធ្វើឱ្យវាក្លាយជា "ឯកសារ" ដែលត្រូវបានលើកឡើងច្រើនបំផុត 100 នៅក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រទាំងអស់។
ក្វាន់ល
Quandl គឺជាវេទិកាដែលផ្តល់ឱ្យអ្នកប្រើប្រាស់នូវសំណុំទិន្នន័យសេដ្ឋកិច្ច ហិរញ្ញវត្ថុ និងជម្រើសផ្សេងទៀត។ អ្នកប្រើប្រាស់អាចទាញយកទិន្នន័យឥតគិតថ្លៃ ទិញទិន្នន័យដែលបានបង់ ឬលក់ទិន្នន័យទៅ Quandl ។ វាអាចជាឧបករណ៍មានប្រយោជន៍សម្រាប់ការអភិវឌ្ឍន៍ ក្បួនដោះស្រាយការធ្វើពាណិជ្ជកម្មឧទាហរណ៍។
សន្និដ្ឋាន
តាមរយៈការរុករកឧបករណ៍ទាំងនេះ អ្នកប្រាកដជាស្វែងរកធាតុចូលដ៏អស្ចារ្យសម្រាប់គម្រោងរបស់អ្នក។ ត្រូវប្រាកដថាជ្រើសរើសសំណុំទិន្នន័យដែលសមស្របបំផុតសម្រាប់តម្រូវការជាក់លាក់របស់អ្នក ហើយចងចាំជានិច្ច៖ វាមិនត្រឹមតែអំពីបរិមាណប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានគុណភាពផងដែរ។ សំណុំទិន្នន័យគឺជាមូលដ្ឋាននៃណាមួយ។ គម្រោងរៀនម៉ាស៊ីន ហើយវាចាំបាច់ណាស់ក្នុងការបង្កើតទិន្នន័យគុណភាព ដើម្បីជៀសវាងហានិភ័យនៃការឈានដល់ការសន្និដ្ឋានខុស។
សូមផ្ដល់យោបល់