បញ្ជីនៃក្បួនដោះស្រាយការរៀនម៉ាស៊ីនសំខាន់ៗសម្រាប់អ្នកចាប់ផ្តើមដំបូង

មាតិកា[លាក់][បង្ហាញ]

ដូច្នេះតើអ្វីទៅជា Machine Learning algorithms?
ការសិក្សាដែលស្ថិតក្រោមការត្រួតពិនិត្យ មិនមានការត្រួតពិនិត្យ និងការពង្រឹងការសិក្សា+-
ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនសំខាន់ៗ+-
សន្និដ្ឋាន

ពិភពលោកកំពុងផ្លាស់ប្តូរយ៉ាងឆាប់រហ័ស ដោយសារបញ្ញាសិប្បនិមិត្ត និងការរៀនម៉ាស៊ីន ដែលមានឥទ្ធិពលលើគ្រប់ទិដ្ឋភាពនៃជីវិតប្រចាំថ្ងៃរបស់យើង។

ពីជំនួយការសំឡេងដែលប្រើ NLP និង machine learning ដើម្បីកក់ការណាត់ជួប រកមើលព្រឹត្តិការណ៍នៅលើប្រតិទិនរបស់យើង និងចាក់តន្ត្រីទៅកាន់ឧបករណ៍ដែលមានភាពត្រឹមត្រូវដើម្បីឱ្យពួកគេអាចគិតទុកជាមុនអំពីតម្រូវការរបស់យើង មុនពេលយើងពិចារណាវាផងដែរ។

កុំព្យូទ័រអាចលេងអុក ធ្វើការវះកាត់ និងអភិវឌ្ឍទៅជាម៉ាស៊ីនដែលឆ្លាតជាងមុន និងដូចមនុស្ស ដោយមានជំនួយពីក្បួនដោះស្រាយម៉ាស៊ីន។

យើងស្ថិតនៅក្នុងពេលវេលានៃការរីកចម្រើនផ្នែកបច្ចេកវិទ្យាជាបន្តបន្ទាប់ ហើយតាមរយៈការមើលឃើញពីរបៀបដែលកុំព្យូទ័របានអភិវឌ្ឍតាមពេលវេលា យើងអាចធ្វើការព្យាករណ៍អំពីអ្វីដែលនឹងកើតឡើងនាពេលអនាគត។

ប្រជាធិបតេយ្យភាវូបនីយកម្មនៃឧបករណ៍ និងវិធីសាស្ត្រគណនាគឺជាទិដ្ឋភាពសំខាន់មួយនៃបដិវត្តន៍នេះដែលលេចធ្លោ។ អ្នកវិទ្យាសាស្ត្រទិន្នន័យ បានបង្កើតកុំព្យូទ័រដ៏មានអានុភាពដែលបំផ្លិចបំផ្លាញទិន្នន័យក្នុងកំឡុងពេល XNUMX ឆ្នាំចុងក្រោយនេះ ដោយការអនុវត្តវិធីសាស្រ្តដ៏ទំនើបបំផុតដោយមិនប្រឹងប្រែង។ លទ្ធផលគឺគួរឱ្យភ្ញាក់ផ្អើល។

នៅក្នុងការប្រកាសនេះ យើងនឹងពិនិត្យមើលយ៉ាងដិតដល់ ការរៀនម៉ាស៊ីន ក្បួនដោះស្រាយ និងការប្រែប្រួលទាំងអស់របស់វា។

ដូច្នេះតើអ្វីទៅជា Machine Learning algorithms?

វិធីសាស្រ្តដែលប្រើដោយប្រព័ន្ធ AI ដើម្បីអនុវត្តភារកិច្ចរបស់វា - ជាទូទៅ ការព្យាករណ៍តម្លៃលទ្ធផលពីទិន្នន័យបញ្ចូលដែលបានផ្តល់ឱ្យ - ត្រូវបានគេស្គាល់ថាជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីន។

ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនគឺជាដំណើរការដែលប្រើប្រាស់ទិន្នន័យ និងត្រូវបានប្រើដើម្បីបង្កើតគំរូសិក្សាម៉ាស៊ីនដែលត្រៀមរួចជាស្រេចសម្រាប់ការផលិត។ ប្រសិនបើ machine learning គឺជារថភ្លើងដែលអនុវត្តការងារ នោះក្បួនដោះស្រាយការរៀនម៉ាស៊ីនគឺជាក្បាលរថភ្លើងដែលផ្លាស់ទីការងារ។

វិធីសាស្រ្តរៀនម៉ាស៊ីនល្អបំផុតដើម្បីប្រើប្រាស់នឹងត្រូវបានកំណត់ដោយបញ្ហាអាជីវកម្មដែលអ្នកកំពុងព្យាយាមដោះស្រាយ ប្រភេទនៃសំណុំទិន្នន័យដែលអ្នកកំពុងប្រើប្រាស់ និងធនធានដែលអ្នកមាន។

ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនគឺជាអ្នកដែលបង្វែរសំណុំទិន្នន័យទៅជាគំរូ។ អាស្រ័យលើប្រភេទនៃបញ្ហាដែលអ្នកកំពុងព្យាយាមឆ្លើយ ថាមពលដំណើរការដែលមាន និងប្រភេទនៃទិន្នន័យដែលអ្នកមាន ការគ្រប់គ្រង មិនស្ថិតក្រោមការគ្រប់គ្រង ឬក្បួនដោះស្រាយការរៀនពង្រឹងអាចដំណើរការបានល្អ។

ដូច្នេះ យើងបាននិយាយអំពីការសិក្សាដែលមានការត្រួតពិនិត្យ ការមិនមានការត្រួតពិនិត្យ និងការពង្រឹងការសិក្សា ប៉ុន្តែតើពួកគេមានអ្វីខ្លះ? ចូរយើងរុករកពួកគេ។

ការសិក្សាដែលស្ថិតក្រោមការត្រួតពិនិត្យ មិនមានការត្រួតពិនិត្យ និងការពង្រឹងការសិក្សា

ការរៀនសូត្រត្រួតពិនិត្យ

នៅក្នុងការរៀនសូត្រដែលមានការត្រួតពិនិត្យ គំរូ AI ត្រូវបានបង្កើតឡើងដោយផ្អែកលើការបញ្ចូលដែលត្រូវបានផ្តល់ឱ្យ និងស្លាកដែលតំណាងឱ្យលទ្ធផលដែលបានព្យាករណ៍។ ដោយផ្អែកលើធាតុចូល និងលទ្ធផល គំរូបង្កើតសមីការផែនទី ហើយដោយប្រើសមីការផែនទីនោះ វាព្យាករណ៍ពីស្លាកនៃធាតុបញ្ចូលនាពេលអនាគត។

ចូរនិយាយថាយើងត្រូវបង្កើតគំរូដែលអាចបែងចែករវាងឆ្កែនិងឆ្មា។ រូបថតជាច្រើនរបស់ឆ្មា និងឆ្កែត្រូវបានបញ្ចូលទៅក្នុងគំរូជាមួយនឹងស្លាកដែលបង្ហាញថាពួកគេជាឆ្មា ឬឆ្កែ ដើម្បីហ្វឹកហាត់ម៉ូដែល។

គំរូស្វែងរកបង្កើតសមីការដែលទាក់ទងនឹងស្លាកនៅលើរូបថតបញ្ចូលទៅក្នុងរូបភាពទាំងនោះ។ បើទោះជាតារាម៉ូដែលមិនធ្លាប់ឃើញរូបភាពពីមុនមកក៏ដោយ ក្រោយពេលហ្វឹកហាត់ វាអាចសម្គាល់បានថាតើវាជារបស់ឆ្មា ឬឆ្កែ។

ការរៀនសូត្រដែលមិនមានការត្រួតពិនិត្យ

ការរៀនដោយគ្មានការត្រួតពិនិត្យពាក់ព័ន្ធនឹងការបណ្តុះបណ្តាលគំរូ AI តែលើធាតុចូលដោយមិនដាក់ស្លាកពួកគេ។ គំរូបែងចែកទិន្នន័យបញ្ចូលទៅជាក្រុមដែលមានលក្ខណៈពាក់ព័ន្ធ។

ស្លាកនាពេលអនាគតនៃការបញ្ចូលត្រូវបានព្យាករណ៍អាស្រ័យលើរបៀបដែលគុណលក្ខណៈរបស់វាត្រូវគ្នាយ៉ាងជិតស្និទ្ធមួយនៃចំណាត់ថ្នាក់។ ពិចារណាពីស្ថានភាពដែលយើងត្រូវបែងចែកក្រុមបាល់ក្រហម និងខៀវជាពីរប្រភេទ។

ចូរសន្មតថាលក្ខណៈផ្សេងទៀតរបស់បាល់គឺដូចគ្នាបេះបិទ លើកលែងតែពណ៌។ នៅលើមូលដ្ឋាននៃរបៀបដែលវាអាចបែងចែកបាល់ជាពីរថ្នាក់ គំរូស្វែងរកលក្ខណៈដែលខុសគ្នារវាងបាល់។

កូនបាល់ពីរក្រុម - ពណ៌ខៀវមួយ និងពណ៌ក្រហមមួយ - ត្រូវបានផលិតនៅពេលដែលបាល់ត្រូវបានបែងចែកជាពីរក្រុម ដោយផ្អែកលើពណ៌លាំៗរបស់វា។

ការរៀនសូត្រពង្រឹង

នៅក្នុងការរៀនពង្រឹង គំរូ AI ស្វែងរកប្រាក់ចំណេញជាអតិបរមាដោយការធ្វើសកម្មភាពក៏ដូចជាវាអាចធ្វើទៅបានក្នុងកាលៈទេសៈជាក់លាក់ណាមួយ។ មតិកែលម្អលើលទ្ធផលពីមុនរបស់វាជួយឱ្យគំរូរៀន។

គិតអំពីសេណារីយ៉ូនៅពេលដែលមនុស្សយន្តត្រូវបានណែនាំឱ្យជ្រើសរើសផ្លូវរវាងចំណុច A និង B ។ មនុស្សយន្តដំបូងជ្រើសរើសវគ្គសិក្សាណាមួយព្រោះវាមិនមានបទពិសោធន៍ពីមុន។

មនុស្សយន្តនេះទទួលបានការបញ្ចូលនៅលើផ្លូវដែលវាប្រើប្រាស់ និងទទួលបានចំណេះដឹងពីវា។ មនុស្សយន្តអាចប្រើប្រាស់ធាតុបញ្ចូលដើម្បីដោះស្រាយបញ្ហានៅពេលក្រោយដែលវាជួបប្រទះកាលៈទេសៈស្រដៀងគ្នា។

ជាឧទាហរណ៍ ប្រសិនបើមនុស្សយន្តជ្រើសរើសជម្រើស B ហើយទទួលបានរង្វាន់ ដូចជាមតិស្ថាបនាវិជ្ជមាន វាយល់នៅពេលនេះថាវាត្រូវតែជ្រើសរើសវិធី B ដើម្បីបង្កើនរង្វាន់របស់វា។

ឥឡូវនេះអ្វីដែលអ្នកទាំងអស់គ្នាកំពុងរង់ចាំគឺក្បួនដោះស្រាយ។

ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនសំខាន់ៗ

1. តំរែតំរង់លីនេអ៊ែរ

វិធីសាស្រ្តរៀនតាមម៉ាស៊ីនសាមញ្ញបំផុតដែលងាកចេញពីការរៀនដែលមានការត្រួតពិនិត្យគឺការតំរែតំរង់លីនេអ៊ែរ។ ជាមួយនឹងចំណេះដឹងពីអថេរឯករាជ្យ វាត្រូវបានប្រើប្រាស់ភាគច្រើនដើម្បីដោះស្រាយបញ្ហាតំរែតំរង់ និងបង្កើតការព្យាករណ៍លើអថេរអាស្រ័យជាបន្តបន្ទាប់។

ការស្វែងរកបន្ទាត់សមបំផុត ដែលអាចជួយក្នុងការទស្សន៍ទាយលទ្ធផលសម្រាប់អថេរអាស្រ័យបន្ត គឺជាគោលបំណងនៃតំរែតំរង់លីនេអ៊ែរ។ តម្លៃផ្ទះ អាយុ និងប្រាក់ឈ្នួល គឺជាឧទាហរណ៍មួយចំនួននៃតម្លៃបន្ត។

តំរែតំរង់លីនេអ៊ែរ

គំរូដែលគេស្គាល់ថាជាតំរែតំរង់លីនេអ៊ែរសាមញ្ញប្រើបន្ទាត់ត្រង់ដើម្បីគណនាការផ្សារភ្ជាប់គ្នារវាងអថេរឯករាជ្យមួយ និងអថេរអាស្រ័យមួយ។ មានអថេរឯករាជ្យច្រើនជាងពីរនៅក្នុងការតំរែតំរង់លីនេអ៊ែរច្រើន។

គំរូតំរែតំរង់លីនេអ៊ែរមានការសន្មត់មូលដ្ឋានចំនួនបួន៖

លីនេអ៊ែរ៖ មានការតភ្ជាប់លីនេអ៊ែររវាង X និងមធ្យមនៃ Y ។
Homoscedasticity៖ សម្រាប់រាល់តម្លៃនៃ X ភាពខុសគ្នាដែលនៅសល់គឺដូចគ្នា។
ឯករាជ្យ៖ ការសង្កេតគឺឯករាជ្យពីគ្នាទៅវិញទៅមកក្នុងន័យឯករាជ្យ។
ភាពធម្មតា៖ នៅពេលដែល X ត្រូវបានជួសជុល Y ត្រូវបានចែកចាយជាធម្មតា។

ការតំរែតំរង់លីនេអ៊ែរអនុវត្តយ៉ាងគួរឱ្យកោតសរសើរចំពោះទិន្នន័យដែលអាចបំបែកតាមបន្ទាត់។ វាអាចគ្រប់គ្រងការលើសទម្ងន់បានដោយការប្រើការធ្វើឱ្យទៀងទាត់ សុពលភាពឆ្លងកាត់ និងបច្ចេកទេសកាត់បន្ថយវិមាត្រ។ ទោះយ៉ាងណាក៏ដោយ មានករណីជាច្រើនដែលតម្រូវឲ្យមានវិស្វកម្មមុខងារយ៉ាងទូលំទូលាយ ដែលជួនកាលអាចបណ្តាលឱ្យមានភាពមិនប្រក្រតី និងសំឡេងរំខាន។

2. តំរែតំរង់ផ្នែកដឹកជញ្ជូន

ការតំរែតំរង់ផ្នែកឡូជីស្ទិកគឺជាបច្ចេកទេសរៀនម៉ាស៊ីនមួយផ្សេងទៀតដែលចេញពីការរៀនដែលមានការត្រួតពិនិត្យ។ ការប្រើប្រាស់សំខាន់របស់វាគឺការចាត់ថ្នាក់ ខណៈពេលដែលវាក៏អាចប្រើប្រាស់សម្រាប់បញ្ហាតំរែតំរង់បានផងដែរ។

តំរែតំរង់ផ្នែកឡូជីស្ទិកត្រូវបានប្រើដើម្បីព្យាករណ៍អថេរអាស្រ័យតាមប្រភេទដោយប្រើព័ត៌មានពីកត្តាឯករាជ្យ។ គោលដៅគឺដើម្បីចាត់ថ្នាក់លទ្ធផលដែលអាចធ្លាក់ចុះត្រឹមតែចន្លោះពី 0 និង 1 ប៉ុណ្ណោះ។

តំរែតំរង់ឡូជីខល។

សរុបទម្ងន់នៃធាតុបញ្ចូលត្រូវបានដំណើរការដោយអនុគមន៍ sigmoid ដែលជាមុខងារធ្វើឱ្យសកម្មដែលបំប្លែងតម្លៃរវាង 0 និង 1។

មូលដ្ឋាននៃការតំរែតំរង់នៃភស្តុភារគឺការប៉ាន់ប្រមាណលទ្ធភាពអតិបរមាដែលជាវិធីសាស្រ្តសម្រាប់គណនាប៉ារ៉ាម៉ែត្រនៃការចែកចាយប្រូបាប៊ីលីតេសន្មត់ដែលបានផ្តល់ទិន្នន័យដែលបានអង្កេតជាក់លាក់។

3. មែកធាងការសម្រេចចិត្ត

វិធីសាស្រ្តរៀនម៉ាស៊ីនមួយផ្សេងទៀតដែលបំបែកចេញពីការរៀនដែលមានការត្រួតពិនិត្យគឺជាមែកធាងការសម្រេចចិត្ត។ សម្រាប់ទាំងបញ្ហាចំណាត់ថ្នាក់ និងការតំរែតំរង់ វិធីសាស្រ្តមែកធាងការសម្រេចចិត្តអាចត្រូវបានប្រើប្រាស់។

ឧបករណ៍ធ្វើការសម្រេចចិត្តនេះ ដែលស្រដៀងនឹងដើមឈើ ប្រើការតំណាងដែលមើលឃើញ ដើម្បីបង្ហាញពីលទ្ធផលអនាគត ការចំណាយ និងផលប៉ះពាល់នៃសកម្មភាព។ តាមរយៈការបែងចែកទិន្នន័យទៅជាផ្នែកដាច់ដោយឡែក គំនិតនេះគឺស្រដៀងទៅនឹងចិត្តរបស់មនុស្ស។

មែកធាងសម្រេចចិត្ត

ទិន្នន័យត្រូវបានបែងចែកជាផ្នែកផ្សេងៗគ្នាតាមដែលយើងអាចធ្វើការលម្អិតវាបាន។ គោលបំណងចម្បងរបស់ Decision Tree គឺបង្កើតគំរូបណ្តុះបណ្តាលដែលអាចត្រូវបានប្រើដើម្បីព្យាករណ៍ថ្នាក់នៃអថេរគោលដៅ។ តម្លៃដែលបាត់អាចត្រូវបានគ្រប់គ្រងដោយស្វ័យប្រវត្តិដោយប្រើ Decision Tree ។

មិនមានតម្រូវការសម្រាប់ការអ៊ិនកូដតែមួយដង អថេរអត់ចេះសោះ ឬជំហានក្នុងការព្យាបាលទិន្នន័យផ្សេងទៀតទេ។ វាមានភាពតឹងរ៉ឹងក្នុងន័យថាវាពិបាកក្នុងការបន្ថែមទិន្នន័យថ្មីទៅវា។ ប្រសិនបើអ្នកទទួលបានទិន្នន័យដែលមានស្លាកបន្ថែម អ្នកគួរតែបង្ហាត់មែកធាងឡើងវិញនៅលើសំណុំទិន្នន័យទាំងមូល។

ជាលទ្ធផល មែកធាងការសម្រេចចិត្តគឺជាជម្រើសមិនល្អសម្រាប់កម្មវិធីណាមួយដែលតម្រូវឱ្យមានការផ្លាស់ប្តូរគំរូថាមវន្ត។

ដោយផ្អែកលើប្រភេទនៃអថេរគោលដៅ មែកធាងការសម្រេចចិត្តត្រូវបានបែងចែកជាពីរប្រភេទ៖

Categorical Variable៖ មែកធាងការសម្រេចចិត្តដែលអថេរគោលដៅគឺជាប្រភេទ។
អថេរបន្ត៖ មែកធាងការសម្រេចចិត្តដែលអថេរគោលដៅគឺបន្ត។

4. ព្រៃចៃដន្យ

វិធីសាស្រ្តព្រៃឈើចៃដន្យគឺជាបច្ចេកទេសរៀនម៉ាស៊ីនបន្ទាប់ ហើយជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យដែលត្រូវបានប្រើយ៉ាងទូលំទូលាយនៅក្នុងបញ្ហាចំណាត់ថ្នាក់ និងតំរែតំរង់។ វាក៏ជាវិធីសាស្ត្រផ្អែកលើដើមឈើ ស្រដៀងនឹងមែកធាងការសម្រេចចិត្ត។

ព្រៃឈើនៃដើមឈើ ឬដើមឈើសម្រេចចិត្តជាច្រើនត្រូវបានប្រើប្រាស់ដោយវិធីសាស្ត្រព្រៃឈើចៃដន្យដើម្បីធ្វើការវិនិច្ឆ័យ។ នៅពេលដោះស្រាយភារកិច្ចចាត់ថ្នាក់ វិធីសាស្ត្រព្រៃឈើចៃដន្យបានប្រើអថេរប្រភេទ ខណៈពេលដែលកំពុងដោះស្រាយភារកិច្ចតំរែតំរង់ជាមួយនឹងសំណុំទិន្នន័យដែលមានអថេរបន្ត។

ព្រៃចៃដន្យ

ក្រុម ឬការលាយគ្នានៃគំរូជាច្រើនគឺជាអ្វីដែលវិធីសាស្ត្រព្រៃចៃដន្យធ្វើ ដែលមានន័យថាការទស្សន៍ទាយត្រូវបានធ្វើឡើងដោយប្រើក្រុមនៃគំរូជាជាងមួយ។

សមត្ថភាពប្រើប្រាស់សម្រាប់ទាំងបញ្ហាចំណាត់ថ្នាក់ និងតំរែតំរង់ ដែលបង្កើតបានជាប្រព័ន្ធរៀនម៉ាស៊ីនទំនើបភាគច្រើន គឺជាអត្ថប្រយោជន៍សំខាន់នៃព្រៃចៃដន្យ។

យុទ្ធសាស្ត្រពីរផ្សេងគ្នាត្រូវបានប្រើប្រាស់ដោយ Ensemble៖

ការដាក់កាបូប៖ ដោយធ្វើដូច្នេះ ទិន្នន័យបន្ថែមត្រូវបានបង្កើតឡើងសម្រាប់សំណុំទិន្នន័យបណ្ដុះបណ្ដាល។ ដើម្បីកាត់បន្ថយការប្រែប្រួលនៃការព្យាករណ៍ នេះត្រូវបានធ្វើ។
ការជំរុញគឺជាដំណើរការនៃការរួមបញ្ចូលគ្នារវាងអ្នកសិក្សាខ្សោយជាមួយនឹងអ្នកសិក្សាខ្លាំង ដោយការកសាងគំរូបន្តបន្ទាប់គ្នា ដែលជាលទ្ធផលនៃគំរូចុងក្រោយជាមួយនឹងភាពត្រឹមត្រូវអតិបរមា។

5. Naive Bayes

បញ្ហាចំណាត់ថ្នាក់ប្រព័ន្ធគោលពីរ (ពីរថ្នាក់) និងពហុថ្នាក់អាចត្រូវបានដោះស្រាយដោយប្រើបច្ចេកទេស Naive Bayes ។ នៅពេលដែលវិធីសាស្ត្រត្រូវបានពន្យល់ដោយប្រើតម្លៃបញ្ចូលគោលពីរ ឬប្រភេទ វាជាការងាយស្រួលបំផុតក្នុងការយល់។ ការសន្មត់ដែលធ្វើឡើងដោយអ្នកចាត់ថ្នាក់ Naive Bayes គឺថាអត្ថិភាពនៃលក្ខណៈពិសេសមួយនៅក្នុងថ្នាក់មិនមានផលប៉ះពាល់លើវត្តមាននៃលក្ខណៈពិសេសផ្សេងទៀតទេ។

ណៃបៃ

រូបមន្តខាងលើបង្ហាញពី៖

P(H)៖ លទ្ធភាពដែលសម្មតិកម្ម H គឺត្រឹមត្រូវ។ ប្រូបាប៊ីលីតេពីមុនត្រូវបានគេហៅថានេះ។
P(E): លទ្ធភាពនៃភស្តុតាង
P(E|H)៖ លទ្ធភាពដែលសម្មតិកម្មត្រូវបានគាំទ្រដោយភស្តុតាង។
P(H|E)៖ លទ្ធភាពដែលសម្មតិកម្មគឺជាការពិត ដែលបានផ្តល់ភស្តុតាង។

អ្នកចាត់ថ្នាក់ Naive Bayes នឹងពិចារណាលើលក្ខណៈនីមួយៗនៃលក្ខណៈទាំងនេះជាលក្ខណៈបុគ្គល នៅពេលកំណត់លទ្ធភាពនៃលទ្ធផលជាក់លាក់មួយ ទោះបីជាគុណលក្ខណៈទាំងនេះត្រូវបានភ្ជាប់ទៅគ្នាទៅវិញទៅមកក៏ដោយ។ គំរូ Naive Bayesian គឺសាមញ្ញក្នុងការសាងសង់ និងមានប្រសិទ្ធភាពសម្រាប់សំណុំទិន្នន័យធំ។

វាត្រូវបានគេដឹងថាធ្វើបានល្អជាងសូម្បីតែបច្ចេកទេសចាត់ថ្នាក់ស្មុគស្មាញបំផុតខណៈពេលដែលជាមូលដ្ឋាន។ វាគឺជាបណ្តុំនៃក្បួនដោះស្រាយដែលផ្អែកលើទ្រឹស្តីបទ Bayes ជាជាងវិធីសាស្រ្តតែមួយ។

6. ខេ - អ្នកជិតខាងដែលនៅជិតបំផុត។

បច្ចេកទេស K-nearest neighbors (kNN) គឺជាបណ្តុំនៃការរៀនម៉ាស៊ីនដែលមានការត្រួតពិនិត្យ ដែលអាចត្រូវបានប្រើដើម្បីដោះស្រាយបញ្ហាចំណាត់ថ្នាក់ និងតំរែតំរង់។ ក្បួនដោះស្រាយ KNN សន្មតថាវត្ថុដែលអាចប្រៀបធៀបបានអាចរកបាននៅក្បែរនោះ។

ខ្ញុំចាំថាវាជាការប្រមូលផ្តុំនៃបុគ្គលដែលមានគំនិតដូចគ្នា។ kNN បង្កើតអត្ថប្រយោជន៍ពីគំនិតនៃភាពស្រដៀងគ្នារវាងចំណុចទិន្នន័យផ្សេងទៀតដោយប្រើភាពជិត ភាពជិតស្និទ្ធ ឬចម្ងាយ។ ដើម្បីដាក់ស្លាកទិន្នន័យដែលមើលមិនឃើញដោយផ្អែកលើចំណុចទិន្នន័យដែលអាចសង្កេតបានដែលមានស្លាកនៅជិតបំផុត វិធីសាស្ត្រគណិតវិទ្យាត្រូវបានប្រើប្រាស់ដើម្បីកំណត់ការបំបែករវាងចំណុចនៅលើក្រាហ្វ។

ខេជិតបំផុត

អ្នកត្រូវតែកំណត់ចម្ងាយរវាងចំណុចទិន្នន័យដើម្បីសម្គាល់ចំណុចដែលអាចប្រៀបធៀបបានជិតបំផុត។ ការវាស់វែងពីចម្ងាយដូចជា Euclidean ចម្ងាយ Hamming ចម្ងាយ Manhattan និងចម្ងាយ Minkowski អាចត្រូវបានប្រើសម្រាប់ការនេះ។ K ត្រូវបានគេស្គាល់ថាជាលេខអ្នកជិតខាងដែលនៅជិតបំផុត ហើយជារឿយៗវាជាលេខសេស។

KNN អាចត្រូវបានអនុវត្តចំពោះបញ្ហាចំណាត់ថ្នាក់ និងតំរែតំរង់។ ការទស្សន៍ទាយដែលបានធ្វើឡើងនៅពេលដែល KNN ត្រូវបានប្រើចំពោះបញ្ហាតំរែតំរង់គឺផ្អែកលើមធ្យម ឬមធ្យមនៃការកើតឡើងស្រដៀងគ្នាភាគច្រើន។

លទ្ធផលនៃក្បួនដោះស្រាយការចាត់ថ្នាក់ដោយផ្អែកលើ KNN អាចត្រូវបានកំណត់ថាជាថ្នាក់ដែលមានប្រេកង់ខ្ពស់បំផុតក្នុងចំណោម K ដែលកើតឡើងស្រដៀងគ្នាបំផុត។ រាល់ឧទាហរណ៍ទាំងអស់ត្រូវបោះឆ្នោតឱ្យថ្នាក់របស់ពួកគេ ហើយការទស្សន៍ទាយជាកម្មសិទ្ធិរបស់ថ្នាក់ដែលទទួលបានការបោះឆ្នោតច្រើនជាងគេ។

7. K-មានន័យថា

វាគឺជាបច្ចេកទេសសម្រាប់ការសិក្សាដែលគ្មានការត្រួតពិនិត្យ ដែលដោះស្រាយបញ្ហាជាក្រុម។ សំណុំទិន្នន័យត្រូវបានបែងចែកទៅជាចំនួនជាក់លាក់នៃចង្កោម—ហៅវាថា K—តាមរបៀបដែលចំណុចទិន្នន័យរបស់ចង្កោមនីមួយៗមានភាពដូចគ្នា និងខុសប្លែកពីក្រុមនៅក្នុងចង្កោមផ្សេងទៀត។

K មធ្យោបាយ ១

វិធីសាស្រ្តនៃការធ្វើចង្កោម K មានន័យថា៖

សម្រាប់ចង្កោមនីមួយៗ ក្បួនដោះស្រាយ K-means ជ្រើសរើស k centroids ឬចំណុច។
ជាមួយនឹងចង្កោមកណ្តាល ឬ K ដែលនៅជិតបំផុត ចំណុចទិន្នន័យនីមួយៗបង្កើតបានជាចង្កោម។
ឥឡូវនេះ centroids ថ្មីត្រូវបានផលិតឡើង អាស្រ័យលើសមាជិកចង្កោមដែលមានវត្តមានរួចហើយ។
ចម្ងាយជិតបំផុតសម្រាប់ចំណុចទិន្នន័យនីមួយៗត្រូវបានគណនាដោយប្រើចំណុចកណ្តាលដែលបានធ្វើបច្ចុប្បន្នភាពទាំងនេះ។ រហូតដល់ចំណុចកណ្តាលមិនផ្លាស់ប្តូរ ដំណើរការនេះត្រូវបានធ្វើម្តងទៀត។

វាលឿនជាង គួរឱ្យទុកចិត្តជាង និងងាយស្រួលយល់ជាង។ ប្រសិនបើមានបញ្ហា ភាពប្រែប្រួលរបស់ k-means ធ្វើឱ្យការកែតម្រូវមានលក្ខណៈសាមញ្ញ។ នៅពេលដែលសំណុំទិន្នន័យមានភាពខុសប្លែកគ្នា ឬដាច់ឆ្ងាយពីគ្នាទៅវិញទៅមក លទ្ធផលគឺល្អបំផុត។ វាមិនអាចគ្រប់គ្រងទិន្នន័យខុសប្រក្រតី ឬហួសហេតុបានទេ។

8. គាំទ្រម៉ាស៊ីនវ៉ិចទ័រ

នៅពេលប្រើបច្ចេកទេស SVM ដើម្បីចាត់ថ្នាក់ទិន្នន័យ ទិន្នន័យឆៅត្រូវបានបង្ហាញជាចំនុចនៅក្នុងលំហ n-dimensional (ដែល n គឺជាចំនួននៃលក្ខណៈពិសេសដែលអ្នកមាន)។ បន្ទាប់មកទិន្នន័យអាចត្រូវបានចាត់ថ្នាក់យ៉ាងងាយស្រួល ដោយសារតម្លៃនៃមុខងារនីមួយៗត្រូវបានភ្ជាប់ទៅកូអរដោនេជាក់លាក់មួយ។

ដើម្បីបំបែកទិន្នន័យ ហើយដាក់វានៅលើក្រាហ្វ ប្រើបន្ទាត់ដែលគេស្គាល់ថាជាអ្នកចាត់ថ្នាក់។ វិធីសាស្រ្តនេះកំណត់ចំណុចទិន្នន័យនីមួយៗជាចំណុចមួយក្នុងលំហ n-dimensional ដែល n គឺជាចំនួននៃលក្ខណៈពិសេសដែលអ្នកមាន ហើយតម្លៃនៃលក្ខណៈពិសេសនីមួយៗគឺជាតម្លៃកូអរដោនេជាក់លាក់។

គាំទ្រម៉ាស៊ីនវ៉ិចទ័រ

ឥឡូវនេះយើងនឹងកំណត់ទីតាំងបន្ទាត់ដែលបែងចែកទិន្នន័យជាពីរសំណុំទិន្នន័យដែលត្រូវបានចាត់ថ្នាក់ខុសគ្នា។ ចម្ងាយពីចំណុចជិតបំផុតក្នុងក្រុមនីមួយៗនៃក្រុមទាំងពីរនឹងដាច់ឆ្ងាយពីគ្នាបំផុតតាមបន្ទាត់នេះ។

ដោយសារចំនុចជិតបំផុតទាំងពីរគឺជាចំនុចដែលនៅឆ្ងាយបំផុតពីបន្ទាត់ក្នុងឧទាហរណ៍ខាងលើ បន្ទាត់ដែលបែងចែកទិន្នន័យទៅជាក្រុមពីរដែលត្រូវបានចាត់ថ្នាក់ខុសគ្នាគឺបន្ទាត់កណ្តាល។ អ្នកចាត់ថ្នាក់របស់យើងគឺបន្ទាត់នេះ។

9. ការកាត់បន្ថយវិមាត្រ

ដោយប្រើវិធីសាស្រ្តនៃការកាត់បន្ថយវិមាត្រ ទិន្នន័យបណ្តុះបណ្តាលអាចមានអថេរបញ្ចូលតិចជាង។ នៅក្នុងពាក្យសាមញ្ញ វាសំដៅទៅលើដំណើរការនៃការបង្រួមទំហំនៃសំណុំលក្ខណៈពិសេសរបស់អ្នក។ ចូរស្រមៃថាសំណុំទិន្នន័យរបស់អ្នកមាន 100 ជួរ។ ការកាត់បន្ថយវិមាត្រនឹងបន្ថយចំនួននោះមកត្រឹម 20 ជួរ។

ការកាត់បន្ថយវិមាត្រ

ម៉ូដែលនេះលូតលាស់កាន់តែស្មុគ្រស្មាញដោយស្វ័យប្រវត្តិ ហើយមានហានិភ័យធំជាងនៃការពាក់លើសទម្ងន់ នៅពេលដែលចំនួននៃមុខងារកើនឡើង។ បញ្ហាដ៏ធំបំផុតក្នុងការធ្វើការជាមួយទិន្នន័យក្នុងទំហំធំជាងនេះ គឺអ្វីដែលហៅថា "បណ្តាសានៃវិមាត្រ" ដែលកើតឡើងនៅពេលដែលទិន្នន័យរបស់អ្នកផ្ទុកនូវលក្ខណៈច្រើនលើសលប់។

ធាតុខាងក្រោមអាចត្រូវបានប្រើដើម្បីសម្រេចបាននូវការកាត់បន្ថយវិមាត្រ៖

ដើម្បីស្វែងរក និងជ្រើសរើសលក្ខណៈដែលពាក់ព័ន្ធ ការជ្រើសរើសមុខងារត្រូវបានប្រើប្រាស់។
ដោយប្រើមុខងារដែលមានស្រាប់ វិស្វកម្មមុខងារបង្កើតមុខងារថ្មីៗដោយដៃ។

សន្និដ្ឋាន

ការរៀនដោយម៉ាស៊ីនដែលមិនមានការគ្រប់គ្រងឬមានការត្រួតពិនិត្យគឺអាចធ្វើបានទាំងពីរ។ ជ្រើសរើសការសិក្សាដែលស្ថិតក្រោមការគ្រប់គ្រង ប្រសិនបើទិន្នន័យរបស់អ្នកមានចំនួនតិច ហើយត្រូវបានដាក់ស្លាកយ៉ាងល្អសម្រាប់ការបណ្តុះបណ្តាល។

សំណុំទិន្នន័យធំច្រើនតែអាចអនុវត្ត និងបង្កើតលទ្ធផលល្អប្រសើរដោយប្រើការរៀនដែលគ្មានការត្រួតពិនិត្យ។ ការរៀនសូត្រជ្រៅ វិធីសាស្រ្តគឺល្អបំផុតប្រសិនបើអ្នកមានការប្រមូលទិន្នន័យដែលមានទំហំធំដែលអាចរកបានយ៉ាងងាយស្រួល។

ការរៀនសូត្រពង្រឹង ហើយការរៀនពង្រឹងជ្រៅ គឺជាប្រធានបទមួយចំនួនដែលអ្នកបានសិក្សា។ លក្ខណៈ ការប្រើប្រាស់ និងកម្រិតនៃបណ្តាញសរសៃប្រសាទឥឡូវនេះច្បាស់សម្រាប់អ្នកហើយ។ ជាចុងក្រោយ អ្នកបានពិចារណាលើជម្រើសសម្រាប់ភាសាសរសេរកម្មវិធីផ្សេងៗ អាយឌីអេ និងវេទិកានានា នៅពេលវាមកដល់ការបង្កើតរបស់អ្នកផ្ទាល់។ ម៉ូដែលរៀនម៉ាស៊ីន.

រឿងបន្ទាប់ដែលអ្នកត្រូវធ្វើគឺចាប់ផ្តើមសិក្សានិងប្រើប្រាស់នីមួយៗ ការរៀនម៉ាស៊ីន វិធីសាស្រ្ត។ ទោះបីជាប្រធានបទមានលក្ខណៈទូលំទូលាយក៏ដោយ ប្រធានបទណាមួយអាចត្រូវបានយល់ក្នុងរយៈពេលពីរបីម៉ោង ប្រសិនបើអ្នកផ្តោតលើជម្រៅរបស់វា។ មុខវិជ្ជានីមួយៗឈរតែឯងពីអ្នកដទៃ។

អ្នកត្រូវតែគិតអំពីបញ្ហាមួយក្នុងពេលតែមួយ សិក្សាវា ដាក់វាចូលទៅក្នុងការអនុវត្ត និងប្រើភាសាដែលអ្នកជ្រើសរើសដើម្បីអនុវត្តក្បួនដោះស្រាយនៅក្នុងវា។

បញ្ជីនៃក្បួនដោះស្រាយការរៀនម៉ាស៊ីនសំខាន់ៗសម្រាប់អ្នកចាប់ផ្តើមដំបូង

ដូច្នេះតើអ្វីទៅជា Machine Learning algorithms?