សំណួរសម្ភាសន៍ការរៀនម៉ាស៊ីនកំពូល 40+ (2024)

មាតិកា[លាក់][បង្ហាញ]

1. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនម៉ាស៊ីន បញ្ញាសិប្បនិមិត្ត និងការរៀនស៊ីជម្រៅ។
2. សូមពណ៌នាអំពីប្រភេទផ្សេងៗនៃការរៀនម៉ាស៊ីន។
3. តើអ្វីជាភាពលំអៀងធៀបនឹងការដោះដូរការប្រែប្រួល?
4. ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនបានវិវត្តន៍យ៉ាងខ្លាំងតាមពេលវេលា។ តើមនុស្សម្នាក់ជ្រើសរើសក្បួនដោះស្រាយត្រឹមត្រូវដើម្បីប្រើប្រាស់សំណុំទិន្នន័យដោយរបៀបណា?
5. តើភាពឆបគ្នា និងទំនាក់ទំនងខុសគ្នាដូចម្តេច?
6. នៅក្នុង machine learning តើ clustering មានន័យដូចម្តេច?
7. តើអ្វីទៅជាអ្វីដែលជាអ្វីដែលជាម៉ាស៊ីនដែលអ្នកពេញចិត្តក្បួនដោះស្រាយការរៀនសូត្រ?
8. ការតំរែតំរង់លីនេអ៊ែរក្នុងការរៀនម៉ាស៊ីន៖ តើវាជាអ្វី?
9. រៀបរាប់ពីភាពខុសគ្នារវាង KNN និង k-means clustering ។
10. តើ "ភាពលំអៀងនៃការជ្រើសរើស" មានន័យយ៉ាងណាចំពោះអ្នក?
11. តើទ្រឹស្តីបទ Bayes ជាអ្វី?
12. នៅក្នុងគំរូរៀនម៉ាស៊ីន តើ 'ឈុតហ្វឹកហាត់' និង 'ឈុតសាកល្បង' ជាអ្វី?
13. តើអ្វីទៅជាសម្មតិកម្មនៅក្នុង Machine Learning?
14. តើការរៀនតាមម៉ាស៊ីនមានន័យដូចម្តេច ហើយតើវាអាចការពារដោយរបៀបណា?
15. តើអ្នកចាត់ថ្នាក់ Naive Bayes ជាអ្វី?
16. តើមុខងារចំណាយ និងមុខងារបាត់បង់មានន័យដូចម្តេច?
17. តើអ្វីខុសប្លែកពីគំរូទូទៅពីគំរូរើសអើង?
18. រៀបរាប់ពីការប្រែប្រួលរវាងប្រភេទ I និង Type II errors ។
19. ក្នុងការរៀនម៉ាស៊ីន តើបច្ចេកទេសរៀនរបស់ Ensemble គឺជាអ្វី?
20. តើអ្វីជាគំរូប៉ារ៉ាម៉ែត្រ? ផ្តល់ឧទាហរណ៍មួយ។
21. ពិពណ៌នាអំពីការត្រងសហការ។ ក៏ដូចជាការត្រងផ្អែកលើមាតិកា?
22. តើអ្នកមានន័យយ៉ាងណាចំពោះស៊េរី Time?
23. ពិពណ៌នាអំពីបំរែបំរួលរវាងក្បួនដោះស្រាយការជំរុញជម្រាល និងព្រៃចៃដន្យ។
24. ហេតុអ្វីបានជាអ្នកត្រូវការម៉ាទ្រីសច្របូកច្របល់? តើវាគឺជាអ្វី?
25. តើការវិភាគធាតុផ្សំគោលការណ៍ជាអ្វី?
26. ហេតុអ្វីបានជាការបង្វិលសមាសភាគមានសារៈសំខាន់ខ្លាំងចំពោះ PCA (ការវិភាគសមាសភាគសំខាន់)?
27. តើការធ្វើឱ្យមានភាពប្រក្រតីនិងភាពប្រក្រតីមានភាពខុសគ្នាយ៉ាងណាខ្លះ?
28. តើការធ្វើធម្មតា និងស្តង់ដារខុសគ្នាពីគ្នាទៅវិញទៅមកយ៉ាងដូចម្តេច?
29. តើ "កត្តាអតិផរណាបំរែបំរួល" មានន័យដូចម្តេច?
30. ដោយផ្អែកលើទំហំនៃសំណុំហ្វឹកហាត់ តើអ្នកជ្រើសរើសអ្នកចាត់ថ្នាក់ដោយរបៀបណា?
31. តើក្បួនដោះស្រាយអ្វីនៅក្នុង machine learning ត្រូវបានគេហៅថា "ខ្ជិលរៀន" ហើយហេតុអ្វី?
32. តើ ROC Curve និង AUC ជាអ្វី?
33. តើអ្វីជា hyperparameters? តើអ្វីដែលធ្វើឱ្យពួកគេមានលក្ខណៈពិសេសពីប៉ារ៉ាម៉ែត្រគំរូ?
34. តើ F1 Score ការរំលឹក និងភាពត្រឹមត្រូវមានន័យដូចម្តេច?
35. តើអ្វីជាសុពលភាពឆ្លងដែន?
36. ចូរនិយាយថាអ្នកបានរកឃើញថាគំរូរបស់អ្នកមានភាពខុសប្លែកគ្នាយ៉ាងសំខាន់។ តាមគំនិតរបស់អ្នក តើក្បួនដោះស្រាយមួយណាដែលសាកសមបំផុតក្នុងការដោះស្រាយស្ថានភាពនេះ?
37. តើអ្វីជាភាពខុសគ្នានៃតំរែតំរង់ Ridge ពីការតំរែតំរង់ Lasso?
38. តើមួយណាសំខាន់ជាង: ការអនុវត្តគំរូ ឬភាពត្រឹមត្រូវនៃគំរូ? តើមួយណា ហើយហេតុអ្វីបានជាអ្នកពេញចិត្តវា?
39. តើអ្នកនឹងគ្រប់គ្រងសំណុំទិន្នន័យដែលមានវិសមភាពដោយរបៀបណា?
40. តើអ្នកអាចបែងចែករវាងការជំរុញ និងការវេចខ្ចប់ដោយរបៀបណា?
41. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនអាំងឌុចស្យុង និងនិកាយ។
សន្និដ្ឋាន

អាជីវកម្មកំពុងប្រើប្រាស់បច្ចេកវិទ្យាទំនើបៗដូចជា បញ្ញាសិប្បនិម្មិត (AI) និងការរៀនម៉ាស៊ីន ដើម្បីបង្កើនភាពងាយស្រួលនៃព័ត៌មាន និងសេវាកម្មដល់បុគ្គល។

បច្ចេកវិទ្យាទាំងនេះកំពុងត្រូវបានអនុម័តដោយឧស្សាហកម្មជាច្រើន រួមទាំងធនាគារ ហិរញ្ញវត្ថុ ការលក់រាយ ការផលិត និងការថែទាំសុខភាព។

តួនាទីមួយក្នុងចំនោមតួនាទីរបស់ស្ថាប័នដែលស្វែងរកច្រើនបំផុតក្នុងការប្រើប្រាស់ AI គឺសម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យ វិស្វករបញ្ញាសិប្បនិម្មិត វិស្វកររៀនម៉ាស៊ីន និងអ្នកវិភាគទិន្នន័យ។

ប្រកាសនេះនឹងនាំអ្នកឆ្លងកាត់ភាពខុសគ្នានៃ ការរៀនម៉ាស៊ីន សំណួរសំភាសន៍ ពីមូលដ្ឋានទៅស្មុគ្រស្មាញ ដើម្បីជួយអ្នកត្រៀមខ្លួនសម្រាប់សំណួរណាមួយដែលអ្នកអាចត្រូវបានសួរនៅពេលស្វែងរកការងារដ៏ល្អរបស់អ្នក។

1. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនម៉ាស៊ីន បញ្ញាសិប្បនិមិត្ត និងការរៀនស៊ីជម្រៅ។

បញ្ញាសិប្បនិមិត្តប្រើវិធីសាស្រ្តរៀនម៉ាស៊ីន និងវិធីសាស្រ្តសិក្សាស៊ីជម្រៅជាច្រើនប្រភេទ ដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអនុវត្តការងារដោយប្រើប្រាស់បញ្ញាដូចមនុស្សជាមួយនឹងតក្កវិជ្ជា និងច្បាប់។

ការរៀនម៉ាស៊ីនប្រើស្ថិតិជាច្រើន និងវិធីសាស្រ្ត Deep Learning ដើម្បីឱ្យម៉ាស៊ីនអាចរៀនពីដំណើរការពីមុនរបស់ពួកគេ ហើយកាន់តែមានភាពប៉ិនប្រសប់ក្នុងការធ្វើការងារមួយចំនួនដោយខ្លួនឯងដោយគ្មានការត្រួតពិនិត្យពីមនុស្ស។

Deep Learning គឺជាបណ្តុំនៃក្បួនដោះស្រាយដែលអនុញ្ញាតឱ្យកម្មវិធីរៀនពីខ្លួនវា និងអនុវត្តមុខងារពាណិជ្ជកម្មជាច្រើនដូចជា ការទទួលស្គាល់សំឡេង និងរូបភាព។

ប្រព័ន្ធដែលបង្ហាញពហុស្រទាប់របស់ពួកគេ។ បណ្តាញសរសៃប្រសាទ ទិន្នន័យជាច្រើនសម្រាប់ការរៀន គឺអាចធ្វើការរៀនស៊ីជម្រៅបាន។

2. សូមពណ៌នាអំពីប្រភេទផ្សេងៗនៃការរៀនម៉ាស៊ីន។

ការរៀនម៉ាស៊ីនមានបីប្រភេទផ្សេងៗគ្នា៖

ការរៀនដែលមានការត្រួតពិនិត្យ៖ គំរូបង្កើតការទស្សន៍ទាយ ឬការវិនិច្ឆ័យដោយប្រើប្រាស់ទិន្នន័យដែលមានស្លាកសញ្ញា ឬជាប្រវត្តិសាស្ត្រក្នុងការរៀនតាមម៉ាស៊ីនដែលមានការគ្រប់គ្រង។ សំណុំទិន្នន័យដែលត្រូវបានដាក់ស្លាក ឬដាក់ស្លាកដើម្បីបង្កើនអត្ថន័យ ត្រូវបានគេហៅថាជាទិន្នន័យដែលមានស្លាក។
ការរៀនដែលគ្មានការត្រួតពិនិត្យ៖ យើងមិនមានទិន្នន័យដែលមានស្លាកសញ្ញាសម្រាប់ការរៀនដែលគ្មានការត្រួតពិនិត្យទេ។ នៅក្នុងទិន្នន័យចូល គំរូមួយអាចរកឃើញលំនាំ ភាពចម្លែក និងទំនាក់ទំនង។
ការរៀនពង្រឹង៖ គំរូអាច រៀនដោយប្រើការពង្រឹង ការរៀនសូត្រ និងរង្វាន់ដែលវាទទួលបានសម្រាប់អាកប្បកិរិយាពីមុនរបស់វា។

3. តើអ្វីជាភាពលំអៀងធៀបនឹងការដោះដូរការប្រែប្រួល?

Overfitting គឺជាលទ្ធផលនៃភាពលំអៀង ដែលជាកម្រិតដែលគំរូសមនឹងទិន្នន័យ។ ការលំអៀងគឺបណ្តាលមកពីការសន្មត់មិនត្រឹមត្រូវ ឬសាមញ្ញពេកនៅក្នុងរបស់អ្នក។ ក្បួនដោះស្រាយការរៀនម៉ាស៊ីន.

វ៉ារ្យង់គឺសំដៅទៅលើកំហុសដែលបណ្តាលមកពីភាពស្មុគស្មាញនៅក្នុងក្បួនដោះស្រាយ ML របស់អ្នក ដែលបង្កើតភាពរសើបចំពោះកម្រិតនៃភាពខុសប្លែកគ្នាដ៏ធំនៅក្នុងទិន្នន័យបណ្តុះបណ្តាល និងការប្រើប្រាស់ហួសកម្រិត។

ភាពប្រែប្រួលគឺជាចំនួនគំរូប្រែប្រួលអាស្រ័យលើធាតុបញ្ចូល។

ម៉្យាងទៀត គំរូមូលដ្ឋានមានភាពលំអៀងខ្លាំង ប៉ុន្តែមានស្ថេរភាព (ការប្រែប្រួលទាប)។ Overfitting គឺជាបញ្ហាជាមួយនឹងម៉ូដែលស្មុគស្មាញ ទោះបីជាយ៉ាងណាក៏ដោយពួកគេចាប់យកការពិតនៃម៉ូដែល (ភាពលំអៀងទាប)។

ដើម្បីទប់ស្កាត់ការបំរែបំរួលខ្ពស់ និងភាពលំអៀងខ្ពស់ ការដោះដូររវាងភាពលំអៀង និងការប្រែប្រួលគឺចាំបាច់សម្រាប់ការកាត់បន្ថយកំហុសដ៏ល្អបំផុត។

4. ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនបានវិវត្តន៍យ៉ាងខ្លាំងតាមពេលវេលា។ តើមនុស្សម្នាក់ជ្រើសរើសក្បួនដោះស្រាយត្រឹមត្រូវដើម្បីប្រើប្រាស់សំណុំទិន្នន័យដោយរបៀបណា?

បច្ចេកទេសរៀនម៉ាស៊ីនដែលគួរប្រើគឺអាស្រ័យលើប្រភេទទិន្នន័យនៅក្នុងសំណុំទិន្នន័យជាក់លាក់មួយ។

នៅពេលដែលទិន្នន័យគឺលីនេអ៊ែរ តំរែតំរង់លីនេអ៊ែរត្រូវបានប្រើ។ វិធីសាស្ត្រដាក់ថង់នឹងដំណើរការល្អជាង ប្រសិនបើទិន្នន័យបង្ហាញថាមិនមែនជាលីនេអ៊ែរ។ យើងអាចប្រើប្រាស់សេចក្តីសម្រេចចិត្ត ឬ SVM ប្រសិនបើទិន្នន័យត្រូវវាយតម្លៃ ឬបកស្រាយសម្រាប់គោលបំណងពាណិជ្ជកម្ម។

បណ្តាញសរសៃប្រសាទអាចមានប្រយោជន៍ក្នុងការទទួលបានចម្លើយត្រឹមត្រូវ ប្រសិនបើសំណុំទិន្នន័យរួមមានរូបថត វីដេអូ និងសំឡេង។

ជម្រើសនៃក្បួនដោះស្រាយសម្រាប់កាលៈទេសៈជាក់លាក់មួយ ឬការប្រមូលទិន្នន័យមិនអាចត្រូវបានធ្វើឡើងដោយគ្រាន់តែវាស់វែងតែមួយប៉ុណ្ណោះ។

សម្រាប់គោលបំណងនៃការបង្កើតវិធីសាស្រ្តសមបំផុត យើងត្រូវពិនិត្យទិន្នន័យជាមុនដោយប្រើការវិភាគទិន្នន័យរុករក (EDA) និងស្វែងយល់ពីគោលដៅនៃការប្រើប្រាស់សំណុំទិន្នន័យ។

5. តើភាពឆបគ្នា និងទំនាក់ទំនងខុសគ្នាដូចម្តេច?

Covariance វាយតម្លៃពីរបៀបដែលអថេរពីរត្រូវបានភ្ជាប់ទៅគ្នាទៅវិញទៅមក និងរបៀបដែលមួយអាចផ្លាស់ប្តូរក្នុងការឆ្លើយតបទៅនឹងការផ្លាស់ប្តូរផ្សេងទៀត។

ប្រសិនបើលទ្ធផលគឺវិជ្ជមាន វាបង្ហាញថាមានទំនាក់ទំនងផ្ទាល់រវាងអថេរ ហើយវានឹងកើនឡើង ឬថយចុះជាមួយនឹងការកើនឡើង ឬថយចុះនៅក្នុងអថេរមូលដ្ឋាន ដោយសន្មតថាលក្ខខណ្ឌផ្សេងទៀតទាំងអស់នៅថេរ។

Correlation វាស់តំណភ្ជាប់រវាងអថេរចៃដន្យពីរ ហើយមានតម្លៃខុសគ្នាតែបីប៉ុណ្ណោះ៖ 1, 0 និង -1 ។

6. នៅក្នុង machine learning តើ clustering មានន័យដូចម្តេច?

វិធីសាស្រ្តសិក្សាដែលមិនមានការត្រួតពិនិត្យដែលដាក់ចំណុចទិន្នន័យជាក្រុមរួមគ្នាត្រូវបានគេហៅថា ចង្កោម។ ជាមួយនឹងបណ្តុំនៃចំណុចទិន្នន័យ បច្ចេកទេសនៃការចង្កោមអាចត្រូវបានអនុវត្ត។

អ្នកអាចដាក់ជាក្រុមនៃចំណុចទិន្នន័យទាំងអស់យោងទៅតាមមុខងាររបស់ពួកគេដោយប្រើយុទ្ធសាស្រ្តនេះ។

លក្ខណៈពិសេស និងគុណភាពនៃចំណុចទិន្នន័យដែលធ្លាក់ចូលទៅក្នុងប្រភេទដូចគ្នាគឺស្រដៀងគ្នា ខណៈពេលដែលចំណុចទិន្នន័យដែលធ្លាក់ចូលទៅក្នុងក្រុមដាច់ដោយឡែកគឺខុសគ្នា។

វិធីសាស្រ្តនេះអាចត្រូវបានប្រើដើម្បីវិភាគទិន្នន័យស្ថិតិ។

7. តើអ្វីទៅជាអ្វីដែលជាអ្វីដែលជាម៉ាស៊ីនដែលអ្នកពេញចិត្តក្បួនដោះស្រាយការរៀនសូត្រ?

អ្នកមានឱកាសបង្ហាញពីចំណូលចិត្ត និងទេពកោសល្យពិសេសរបស់អ្នកនៅក្នុងសំណួរនេះ ក៏ដូចជាចំណេះដឹងដ៏ទូលំទូលាយរបស់អ្នកអំពីបច្ចេកទេសរៀនម៉ាស៊ីនជាច្រើនផងដែរ។

នេះគឺជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនធម្មតាមួយចំនួនដែលត្រូវគិតអំពី៖

តំរែតំរង់លីនេអ៊ែរ
តំរែតំរង់ឡូជីខល
ណៃបៃ
ដើមឈើការសម្រេចចិត្ត
K មានន័យថា
ក្បួនដោះស្រាយព្រៃឈើចៃដន្យ
K-អ្នកជិតខាងដែលនៅជិតបំផុត (KNN)

8. ការតំរែតំរង់លីនេអ៊ែរក្នុងការរៀនម៉ាស៊ីន៖ តើវាជាអ្វី?

ក្បួនដោះស្រាយការរៀនតាមម៉ាស៊ីនដែលមានការត្រួតពិនិត្យគឺការតំរែតំរង់លីនេអ៊ែរ។

វាត្រូវបានប្រើប្រាស់ក្នុងការវិភាគព្យាករណ៍ដើម្បីកំណត់ការតភ្ជាប់លីនេអ៊ែររវាងអថេរអាស្រ័យ និងអថេរ។

សមីការតំរែតំរង់លីនេអ៊ែរមានដូចខាងក្រោម៖

Y = A + BX

ដែលជាកន្លែង:

ធាតុបញ្ចូល ឬអថេរឯករាជ្យត្រូវបានគេហៅថា X ។
អថេរអាស្រ័យ ឬលទ្ធផលគឺ Y ។
មេគុណរបស់ X គឺ b ហើយការស្ទាក់ចាប់របស់វាគឺ a ។

9. រៀបរាប់ពីភាពខុសគ្នារវាង KNN និង k-means clustering ។

ភាពខុសគ្នាចម្បងគឺថា KNN (វិធីសាស្ត្រចាត់ថ្នាក់ ការរៀនដែលត្រូវបានត្រួតពិនិត្យ) ត្រូវការចំណុចដែលមានស្លាក ចំណែក k-មានន័យថាមិនមាន (ក្បួនដោះស្រាយចង្កោម ការរៀនដែលគ្មានការត្រួតពិនិត្យ)។

អ្នកអាចចាត់ថ្នាក់ទិន្នន័យដែលមានស្លាកទៅជាចំណុចដែលគ្មានស្លាកដោយប្រើ K-Nearest Neighbors ។ K-means clustering ប្រើចំងាយមធ្យមរវាងចំនុច ដើម្បីរៀនពីរបៀបដាក់ជាក្រុមចំនុចដែលគ្មានស្លាក។

10. តើ "ភាពលំអៀងនៃការជ្រើសរើស" មានន័យយ៉ាងណាចំពោះអ្នក?

ភាពលំអៀងនៅក្នុងដំណាក់កាលគំរូនៃការពិសោធន៍គឺដោយសារតែភាពមិនត្រឹមត្រូវនៃស្ថិតិ។

ក្រុមគំរូមួយត្រូវបានជ្រើសរើសញឹកញាប់ជាងក្រុមផ្សេងទៀតនៅក្នុងការពិសោធន៍ ជាលទ្ធផលនៃភាពមិនត្រឹមត្រូវ។

ប្រសិនបើភាពលំអៀងនៃការជ្រើសរើសមិនត្រូវបានទទួលស្គាល់ វាអាចបណ្តាលឱ្យមានការសន្និដ្ឋានមិនត្រឹមត្រូវ។

11. តើទ្រឹស្តីបទ Bayes ជាអ្វី?

នៅពេលដែលយើងដឹងពីប្រូបាប៊ីលីតេផ្សេងទៀត យើងអាចកំណត់ប្រូបាប៊ីលីតេដោយប្រើទ្រឹស្តីបទ Bayes ។ វាផ្តល់នូវប្រូបាប៊ីលីតេក្រោយនៃការកើតឡើងដោយផ្អែកលើព័ត៌មានមុន ម្យ៉ាងទៀត។

វិធីសាស្ត្រសំឡេងសម្រាប់ការប៉ាន់ស្មានប្រូបាប៊ីលីតេតាមលក្ខខណ្ឌត្រូវបានផ្តល់ដោយទ្រឹស្តីបទនេះ។

នៅពេលបង្កើតបញ្ហានៃការទស្សន៍ទាយការចាត់ថ្នាក់ និងការដាក់គំរូទៅនឹងការបណ្តុះបណ្តាល សំណុំទិន្នន័យនៅក្នុងម៉ាស៊ីនរៀនទ្រឹស្តីបទរបស់ Bayes ត្រូវបានអនុវត្ត (ឧ. Naive Bayes, Bayes Optimal Classifier)។

12. នៅក្នុងគំរូរៀនម៉ាស៊ីន តើ 'ឈុតហ្វឹកហាត់' និង 'ឈុតសាកល្បង' ជាអ្វី?

សំណុំបណ្តុះបណ្តាល៖

សំណុំបណ្ដុះបណ្ដាលមានឧទាហរណ៍ដែលត្រូវបានបញ្ជូនទៅគំរូសម្រាប់ការវិភាគ និងការរៀន។
នេះគឺជាទិន្នន័យដែលមានស្លាកដែលនឹងត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលគំរូ។
ជាធម្មតា 70% នៃទិន្នន័យសរុបត្រូវបានប្រើប្រាស់ជាសំណុំទិន្នន័យបណ្តុះបណ្តាល។

សំណុំសាកល្បង៖

សំណុំតេស្តត្រូវបានប្រើដើម្បីវាយតម្លៃភាពត្រឹមត្រូវនៃការបង្កើតសម្មតិកម្មរបស់គំរូ។
យើងធ្វើតេស្តដោយគ្មានស្លាកសញ្ញា ហើយបន្ទាប់មកប្រើស្លាកដើម្បីបញ្ជាក់លទ្ធផល។
នៅសល់ 30% ត្រូវបានប្រើជាសំណុំទិន្នន័យសាកល្បង។

13. តើអ្វីទៅជាសម្មតិកម្មនៅក្នុង Machine Learning?

Machine Learning អនុញ្ញាតឱ្យការប្រើប្រាស់សំណុំទិន្នន័យដែលមានស្រាប់ ដើម្បីយល់កាន់តែច្បាស់អំពីមុខងារដែលបានផ្តល់ឱ្យដែលភ្ជាប់ការបញ្ចូលទៅលទ្ធផល។ នេះត្រូវបានគេស្គាល់ថាជាមុខងារប្រហាក់ប្រហែល។

ក្នុងករណីនេះ ការប៉ាន់ប្រមាណត្រូវតែត្រូវបានប្រើប្រាស់សម្រាប់មុខងារគោលដៅដែលមិនស្គាល់ ដើម្បីផ្ទេរការសង្កេតដែលអាចយល់បានទាំងអស់ដោយផ្អែកលើស្ថានភាពដែលបានផ្តល់ឱ្យតាមវិធីល្អបំផុតដែលអាចធ្វើទៅបាន។

នៅក្នុងការរៀនម៉ាស៊ីន សម្មតិកម្មគឺជាគំរូដែលជួយក្នុងការប៉ាន់ប្រមាណមុខងារគោលដៅ និងបំពេញការគូសផែនទីបញ្ចូលទៅលទ្ធផលសមស្រប។

ការជ្រើសរើស និងការរចនានៃក្បួនដោះស្រាយអនុញ្ញាតឱ្យមាននិយមន័យនៃលំហនៃសម្មតិកម្មដែលអាចតំណាងដោយគំរូមួយ។

សម្រាប់សម្មតិកម្មតែមួយ អក្សរតូច h (h) ត្រូវបានប្រើ ប៉ុន្តែអក្សរធំ h (H) ត្រូវបានប្រើសម្រាប់ចន្លោះសម្មតិកម្មទាំងមូលដែលកំពុងស្វែងរក។ យើងនឹងពិនិត្យដោយសង្ខេបកំណត់ចំណាំទាំងនេះ៖

សម្មតិកម្ម (h) គឺជាគំរូជាក់លាក់មួយដែលជួយសម្រួលដល់ការគូសផែនទីនៃធាតុបញ្ចូលទៅទិន្នផល ដែលក្រោយមកអាចប្រើសម្រាប់ការវាយតម្លៃ និងការព្យាករណ៍។
សំណុំសម្មតិកម្ម (H) គឺជាចន្លោះដែលអាចស្វែងរកបាននៃសម្មតិកម្មដែលអាចត្រូវបានប្រើដើម្បីគូសផែនទីធាតុចូលទៅនឹងលទ្ធផល។ បញ្ហាស៊ុម គំរូ និងការកំណត់រចនាសម្ព័ន្ធគំរូ គឺជាឧទាហរណ៍មួយចំនួននៃការកំណត់ទូទៅ។

14. តើការរៀនតាមម៉ាស៊ីនមានន័យដូចម្តេច ហើយតើវាអាចការពារដោយរបៀបណា?

នៅពេលដែលម៉ាស៊ីនព្យាយាមរៀនពីសំណុំទិន្នន័យមិនគ្រប់គ្រាន់ ការបំពេញបន្ថែមកើតឡើង។

ជាលទ្ធផល overfitting ត្រូវបានទាក់ទងបញ្ច្រាសជាមួយនឹងបរិមាណទិន្នន័យ។ វិធីសាស្រ្តឆ្លងកាត់សុពលភាពអនុញ្ញាតឱ្យជៀសវាងការពាក់លើសទម្ងន់សម្រាប់សំណុំទិន្នន័យតូចៗ។ សំណុំទិន្នន័យត្រូវបានបំបែកជាពីរផ្នែកនៅក្នុងវិធីសាស្រ្តនេះ។

សំណុំទិន្នន័យសម្រាប់ការធ្វើតេស្ត និងការបណ្តុះបណ្តាលនឹងមានពីរផ្នែកនេះ។ សំណុំទិន្នន័យបណ្តុះបណ្តាលត្រូវបានប្រើដើម្បីបង្កើតគំរូមួយ ខណៈពេលដែលសំណុំទិន្នន័យសាកល្បងត្រូវបានប្រើដើម្បីវាយតម្លៃគំរូដោយប្រើធាតុបញ្ចូលផ្សេងៗគ្នា។

នេះជាវិធីការពារការស្លៀកពាក់លើស។

15. តើអ្នកចាត់ថ្នាក់ Naive Bayes ជាអ្វី?

វិធីសាស្រ្តចាត់ថ្នាក់ផ្សេងៗបង្កើតបានជាអ្នកចាត់ថ្នាក់ Naive Bayes។ សំណុំនៃក្បួនដោះស្រាយដែលគេស្គាល់ថាជាអ្នកចាត់ថ្នាក់ទាំងនេះទាំងអស់ដំណើរការលើគំនិតជាមូលដ្ឋានដូចគ្នា។

ការសន្មត់ដែលធ្វើឡើងដោយអ្នកចាត់ថ្នាក់ Bayes ឆោតល្ងង់ គឺថា វត្តមាន ឬអវត្តមានរបស់លក្ខណៈពិសេសមួយ មិនមានផលប៉ះពាល់លើវត្តមាន ឬអវត្តមាននៃលក្ខណៈពិសេសផ្សេងទៀត។

នៅក្នុងពាក្យផ្សេងទៀត នេះគឺជាអ្វីដែលយើងហៅថា "ឆោតល្ងង់" ព្រោះវាធ្វើឱ្យការសន្មត់ថាគុណលក្ខណៈសំណុំទិន្នន័យនីមួយៗមានសារៈសំខាន់ស្មើគ្នា និងឯករាជ្យ។

ការចាត់ថ្នាក់ត្រូវបានធ្វើដោយប្រើឧបករណ៍ចាត់ថ្នាក់ Bayes ឆោតល្ងង់។ ពួកវាសាមញ្ញក្នុងការប្រើប្រាស់ និងបង្កើតលទ្ធផលល្អប្រសើរជាងការទស្សន៍ទាយដែលស្មុគស្មាញជាង នៅពេលដែលការសន្និដ្ឋានឯករាជ្យគឺជាការពិត។

នៅក្នុងការវិភាគអត្ថបទ តម្រងសារឥតបានការ និងប្រព័ន្ធណែនាំ ពួកគេត្រូវបានប្រើប្រាស់។

16. តើមុខងារចំណាយ និងមុខងារបាត់បង់មានន័យដូចម្តេច?

ឃ្លា "មុខងារបាត់បង់" សំដៅលើដំណើរការនៃការបាត់បង់កុំព្យូទ័រ នៅពេលដែលទិន្នន័យតែមួយត្រូវបានយកមកពិចារណា។

ផ្ទុយទៅវិញ យើងប្រើប្រាស់មុខងារចំណាយដើម្បីកំណត់ចំនួនកំហុសសរុបសម្រាប់ទិន្នន័យជាច្រើន។ មិនមានភាពខុសគ្នាសំខាន់ទេ។

ម៉្យាងទៀត មុខងារចំណាយសរុបភាពខុសគ្នាសម្រាប់សំណុំទិន្នន័យបណ្តុះបណ្តាលទាំងមូល មុខងារបាត់បង់ត្រូវបានរចនាឡើងដើម្បីចាប់យកភាពខុសគ្នារវាងតម្លៃជាក់ស្តែង និងតម្លៃដែលបានព្យាករណ៍សម្រាប់កំណត់ត្រាតែមួយ។

17. តើអ្វីខុសប្លែកពីគំរូទូទៅពីគំរូរើសអើង?

គំរូរើសអើងរៀនពីភាពខុសគ្នារវាងប្រភេទទិន្នន័យជាច្រើន។ គំរូទូទៅជ្រើសរើសប្រភេទទិន្នន័យផ្សេងៗគ្នា។

នៅលើបញ្ហាចំណាត់ថ្នាក់ គំរូរើសអើងច្រើនតែដំណើរការជាងម៉ូដែលផ្សេងទៀត។

18. រៀបរាប់ពីការប្រែប្រួលរវាងប្រភេទ I និង Type II errors ។

ភាពវិជ្ជមានមិនពិតស្ថិតនៅក្រោមប្រភេទនៃកំហុសប្រភេទ I ចំណែកអវិជ្ជមានមិនពិតស្ថិតនៅក្រោមកំហុសប្រភេទទី XNUMX (អះអាងថាមិនមានអ្វីកើតឡើងនៅពេលដែលវាមាន)។

19. ក្នុងការរៀនម៉ាស៊ីន តើបច្ចេកទេសរៀនរបស់ Ensemble គឺជាអ្វី?

បច្ចេកទេសមួយដែលគេហៅថា ensemble learning លាយម៉ូដែលរៀនម៉ាស៊ីនជាច្រើនដើម្បីផលិតម៉ូដែលដ៏មានឥទ្ធិពលបន្ថែមទៀត។

គំរូអាចត្រូវបានផ្លាស់ប្តូរដោយហេតុផលផ្សេងៗគ្នា។ មូលហេតុជាច្រើនគឺ៖

ចំនួនប្រជាជនផ្សេងៗគ្នា
សម្មតិកម្មផ្សេងៗគ្នា
វិធីសាស្រ្តគំរូផ្សេងៗ

យើងនឹងជួបបញ្ហាខណៈពេលប្រើទិន្នន័យការបណ្តុះបណ្តាល និងការសាកល្បងរបស់ម៉ូដែល។ ភាពលំអៀង ភាពប្រែប្រួល និងកំហុសដែលមិនអាចកាត់ថ្លៃបាន គឺជាប្រភេទនៃកំហុសនេះ។

ឥឡូវនេះ យើងហៅសមតុល្យរវាងភាពលំអៀង និងវ៉ារ្យង់នៅក្នុងគំរូនេះថាជាការដោះដូរភាពលំអៀង ហើយវាគួរតែមានជានិច្ច។ ការដោះដូរនេះត្រូវបានសម្រេចតាមរយៈការប្រើប្រាស់ការរៀនជាក្រុម។

ទោះបីជាមានវិធីសាស្រ្តប្រមូលផ្តុំផ្សេងៗគ្នាក៏ដោយ មានយុទ្ធសាស្ត្រទូទៅពីរសម្រាប់រួមបញ្ចូលគ្នានូវគំរូជាច្រើន៖

វិធីសាស្រ្តដើមដែលហៅថា bagging ប្រើឈុតហ្វឹកហាត់ដើម្បីបង្កើតឈុតហ្វឹកហាត់បន្ថែម។
ការជំរុញ ដែលជាបច្ចេកទេសស្មុគ្រស្មាញជាងនេះ៖ ដូចជាការដាក់ថង់ ការជំរុញត្រូវបានប្រើដើម្បីស្វែងរករូបមន្តទម្ងន់ដ៏ល្អសម្រាប់ឈុតហ្វឹកហាត់។

20. តើអ្វីជាគំរូប៉ារ៉ាម៉ែត្រ? ផ្តល់ឧទាហរណ៍មួយ។

មានចំនួនកំណត់នៃប៉ារ៉ាម៉ែត្រនៅក្នុងគំរូប៉ារ៉ាម៉ែត្រ។ ដើម្បីព្យាករណ៍ទិន្នន័យ អ្វីដែលអ្នកត្រូវដឹងគឺប៉ារ៉ាម៉ែត្ររបស់គំរូ។

ខាងក្រោមនេះគឺជាឧទាហរណ៍ធម្មតា៖ តំរែតំរង់តក្កកម្ម តំរែតំរង់លីនេអ៊ែរ និង SVMs លីនេអ៊ែរ។ ម៉ូដែលដែលមិនមានប៉ារ៉ាម៉ែត្រអាចបត់បែនបាន ដោយសារពួកវាអាចផ្ទុកចំនួនប៉ារ៉ាម៉ែត្រគ្មានដែនកំណត់។

ប៉ារ៉ាម៉ែត្រនៃគំរូ និងស្ថានភាពនៃទិន្នន័យដែលបានសង្កេតគឺត្រូវបានទាមទារសម្រាប់ការព្យាករណ៍ទិន្នន័យ។ នេះគឺជាឧទាហរណ៍ធម្មតាមួយចំនួន៖ ម៉ូដែលប្រធានបទដើមឈើការសម្រេចចិត្ត និង k-អ្នកជិតខាងដែលនៅជិតបំផុត។

21. ពិពណ៌នាអំពីការត្រងសហការ។ ក៏ដូចជាការត្រងផ្អែកលើមាតិកា?

វិធីសាស្ត្រសាកល្បង និងពិតសម្រាប់បង្កើតការផ្ដល់យោបល់មាតិកាដែលតម្រូវតាមតម្រូវការគឺការត្រងរួមគ្នា។

ទម្រង់នៃប្រព័ន្ធការណែនាំដែលហៅថាការត្រងរួមគ្នា ប្រាប់អំពីសម្ភារៈថ្មីៗ ដោយធ្វើឱ្យមានតុល្យភាពចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ជាមួយនឹងចំណាប់អារម្មណ៍រួម។

ចំណូលចិត្តរបស់អ្នកប្រើគឺជារឿងតែមួយគត់ដែលប្រព័ន្ធណែនាំផ្អែកលើមាតិកាពិចារណា។ ដោយគិតពីការជ្រើសរើសមុនរបស់អ្នកប្រើ ការណែនាំថ្មីត្រូវបានផ្តល់ពីសម្ភារៈដែលពាក់ព័ន្ធ។

22. តើអ្នកមានន័យយ៉ាងណាចំពោះស៊េរី Time?

ស៊េរីពេលវេលាគឺជាបណ្តុំនៃលេខតាមលំដាប់ឡើង។ ក្នុងរយៈពេលដែលបានកំណត់ទុកជាមុន វាតាមដានចលនានៃចំណុចទិន្នន័យដែលបានជ្រើសរើស និងចាប់យកចំណុចទិន្នន័យតាមកាលកំណត់។

មិនមានការបញ្ចូលពេលវេលាអប្បបរមា ឬអតិបរមាសម្រាប់ស៊េរីពេលវេលាទេ។

ស៊េរីពេលវេលាត្រូវបានប្រើជាញឹកញាប់ដោយអ្នកវិភាគដើម្បីវិភាគទិន្នន័យដោយអនុលោមតាមតម្រូវការតែមួយគត់របស់ពួកគេ។

23. ពិពណ៌នាអំពីបំរែបំរួលរវាងក្បួនដោះស្រាយការជំរុញជម្រាល និងព្រៃចៃដន្យ។

ព្រៃចៃដន្យ៖

ដើមឈើសម្រេចចិត្តមួយចំនួនធំត្រូវបានដាក់បញ្ចូលគ្នានៅចុងបញ្ចប់ ហើយត្រូវបានគេស្គាល់ថាជាព្រៃចៃដន្យ។
ខណៈពេលដែលការជំរុញជម្រាលបង្កើតដើមឈើនីមួយៗដោយឯករាជ្យពីដើមឈើផ្សេងទៀត ព្រៃឈើចៃដន្យបង្កើតដើមឈើនីមួយៗក្នុងពេលតែមួយ។
ពហុថ្នាក់ ការរកឃើញវត្ថុ ដំណើរការល្អជាមួយព្រៃចៃដន្យ។

ការជំរុញជម្រាល៖

ខណៈពេលដែលព្រៃឈើចៃដន្យចូលរួមជាមួយដើមឈើការសម្រេចចិត្តនៅចុងបញ្ចប់នៃដំណើរការនោះ Gradient Boosting Machines រួមបញ្ចូលគ្នានូវពួកវាតាំងពីដំបូង។
ប្រសិនបើប៉ារ៉ាម៉ែត្រត្រូវបានកែតម្រូវបានត្រឹមត្រូវ ការជំរុញជម្រាលនឹងដំណើរការព្រៃឈើចៃដន្យទាក់ទងនឹងលទ្ធផល ប៉ុន្តែវាមិនមែនជាជម្រើសដ៏ឆ្លាតវៃទេ ប្រសិនបើសំណុំទិន្នន័យមានភាពហួសប្រមាណ ភាពមិនប្រក្រតី ឬសំឡេងរំខាន ដោយសារវាអាចបណ្តាលឱ្យម៉ូដែលហួសកម្រិត។
នៅពេលដែលមានទិន្នន័យមិនសមតុល្យ ដូចដែលមាននៅក្នុងការវាយតម្លៃហានិភ័យក្នុងពេលជាក់ស្តែង ការជំរុញជម្រាលដំណើរការបានល្អ។

24. ហេតុអ្វីបានជាអ្នកត្រូវការម៉ាទ្រីសច្របូកច្របល់? តើវាគឺជាអ្វី?

តារាងដែលគេស្គាល់ថាជាម៉ាទ្រីសច្របូកច្របល់ ដែលជួនកាលគេស្គាល់ថាជាម៉ាទ្រីសកំហុស ត្រូវបានគេប្រើយ៉ាងទូលំទូលាយដើម្បីបង្ហាញពីរបៀបដែលគំរូចំណាត់ថ្នាក់ ឬអ្នកចាត់ថ្នាក់ដំណើរការបានល្អលើសំណុំទិន្នន័យសាកល្បងដែលតម្លៃពិតត្រូវបានគេស្គាល់។

វាអនុញ្ញាតឱ្យយើងមើលឃើញពីរបៀបដែលគំរូ ឬក្បួនដោះស្រាយដំណើរការ។ វាធ្វើឱ្យវាសាមញ្ញសម្រាប់យើងក្នុងការរកមើលការយល់ច្រឡំក្នុងចំណោមវគ្គសិក្សាផ្សេងៗ។

វាបម្រើជាវិធីមួយដើម្បីវាយតម្លៃថាតើគំរូ ឬក្បួនដោះស្រាយត្រូវបានអនុវត្តបានល្អប៉ុណ្ណា។

ការព្យាករណ៍របស់គំរូចំណាត់ថ្នាក់ត្រូវបានចងក្រងជាម៉ាទ្រីសច្របូកច្របល់។ តម្លៃរាប់នៃស្លាកថ្នាក់នីមួយៗត្រូវបានប្រើដើម្បីបំបែកចំនួនសរុបនៃការទស្សន៍ទាយត្រឹមត្រូវ និងមិនត្រឹមត្រូវ។

វាផ្តល់ព័ត៌មានលម្អិតអំពីកំហុសដែលធ្វើឡើងដោយអ្នកចាត់ថ្នាក់ ក៏ដូចជាប្រភេទផ្សេងៗនៃកំហុសដែលបណ្តាលមកពីអ្នកចាត់ថ្នាក់។

25. តើការវិភាគធាតុផ្សំគោលការណ៍ជាអ្វី?

តាមរយៈការបង្រួមអប្បបរមាចំនួនអថេរដែលទាក់ទងគ្នាទៅវិញទៅមក គោលដៅគឺដើម្បីកាត់បន្ថយវិមាត្រនៃការប្រមូលទិន្នន័យ។ ប៉ុន្តែវាមានសារៈសំខាន់ក្នុងការរក្សាភាពចម្រុះឱ្យបានច្រើនតាមដែលអាចធ្វើទៅបាន។

អថេរត្រូវបានផ្លាស់ប្តូរទៅជាសំណុំថ្មីទាំងស្រុងនៃអថេរដែលហៅថាសមាសភាគសំខាន់។

កុំព្យូទ័រទាំងនេះមានលក្ខណៈរាងពងក្រពើ ចាប់តាំងពីពួកវាជា eigenvectors របស់ម៉ាទ្រីស covariance ។

26. ហេតុអ្វីបានជាការបង្វិលសមាសភាគមានសារៈសំខាន់ខ្លាំងចំពោះ PCA (ការវិភាគសមាសភាគសំខាន់)?

ការបង្វិលគឺមានសារៈសំខាន់នៅក្នុង PCA ព្រោះវាបង្កើនប្រសិទ្ធភាពការបំបែករវាងភាពខុសគ្នាដែលទទួលបានដោយសមាសភាគនីមួយៗ ធ្វើឱ្យការបកស្រាយសមាសធាតុកាន់តែងាយស្រួល។

យើងទាមទារសមាសភាគបន្ថែម ដើម្បីបង្ហាញពីការប្រែប្រួលសមាសភាគ ប្រសិនបើសមាសធាតុមិនត្រូវបានបង្វិល។

27. តើការធ្វើឱ្យមានភាពប្រក្រតីនិងភាពប្រក្រតីមានភាពខុសគ្នាយ៉ាងណាខ្លះ?

ភាពធម្មតា៖

ទិន្នន័យត្រូវបានផ្លាស់ប្តូរកំឡុងពេលធ្វើឱ្យធម្មតា។ អ្នកគួរតែធ្វើឱ្យទិន្នន័យមានលក្ខណៈធម្មតាប្រសិនបើវាមានមាត្រដ្ឋានដែលខុសគ្នាខ្លាំង ជាពិសេសពីទាបទៅខ្ពស់។ កែតម្រូវជួរឈរនីមួយៗដើម្បីឱ្យស្ថិតិជាមូលដ្ឋានត្រូវគ្នាទាំងអស់។

ដើម្បីធានាថាមិនមានការបាត់បង់ភាពជាក់លាក់ទេ នេះអាចមានប្រយោជន៍។ ការរកឃើញសញ្ញាខណៈពេលដែលមិនអើពើនឹងសំលេងរំខានគឺជាគោលបំណងមួយនៃការបណ្តុះបណ្តាលគំរូ។

មានឱកាសនៃការលើសទម្ងន់ ប្រសិនបើម៉ូដែលត្រូវបានផ្តល់ការគ្រប់គ្រងពេញលេញ ដើម្បីកាត់បន្ថយកំហុស។

ភាពទៀងទាត់៖

នៅក្នុងភាពទៀងទាត់ មុខងារព្យាករណ៍ត្រូវបានកែប្រែ។ នេះជាកម្មវត្ថុនៃការគ្រប់គ្រងមួយចំនួនតាមរយៈការធ្វើឱ្យបានទៀងទាត់ ដែលអនុគ្រោះដល់មុខងារសមល្មមជាងការស្មុគស្មាញ។

28. តើការធ្វើធម្មតា និងស្តង់ដារខុសគ្នាពីគ្នាទៅវិញទៅមកយ៉ាងដូចម្តេច?

បច្ចេកទេសពីរដែលប្រើយ៉ាងទូលំទូលាយសម្រាប់ការធ្វើមាត្រដ្ឋានលក្ខណៈគឺការធ្វើឱ្យមានលក្ខណៈធម្មតា និងស្តង់ដារ។

ភាពធម្មតា៖

ការធ្វើមាត្រដ្ឋានទិន្នន័យឡើងវិញឱ្យសមនឹងជួរ [0,1] ត្រូវបានគេស្គាល់ថាជាការធ្វើឱ្យមានលក្ខណៈធម្មតា។
នៅពេលដែលប៉ារ៉ាម៉ែត្រទាំងអស់ត្រូវតែមានមាត្រដ្ឋានវិជ្ជមានដូចគ្នា ការធ្វើឱ្យធម្មតាគឺមានប្រយោជន៍ ប៉ុន្តែផ្នែកខាងក្រៅនៃសំណុំទិន្នន័យត្រូវបានបាត់បង់។

ភាពទៀងទាត់៖

ទិន្នន័យត្រូវបានធ្វើមាត្រដ្ឋានឡើងវិញដើម្បីឱ្យមានមធ្យម 0 និងគម្លាតស្តង់ដារនៃ 1 ជាផ្នែកនៃដំណើរការស្តង់ដារ (បំរែបំរួលឯកតា)

29. តើ "កត្តាអតិផរណាបំរែបំរួល" មានន័យដូចម្តេច?

សមាមាត្រនៃបំរែបំរួលនៃគំរូទៅនឹងការប្រែប្រួលនៃគំរូដែលមានអថេរឯករាជ្យតែមួយគត់ត្រូវបានគេស្គាល់ថាជាកត្តាអតិផរណាបំរែបំរួល (VIF) ។

VIF ប៉ាន់ប្រមាណចំនួននៃ multicollinearity ដែលមានវត្តមាននៅក្នុងសំណុំនៃអថេរតំរែតំរង់ជាច្រើន។

វ៉ារ្យ៉ង់នៃគំរូ (VIF) គំរូជាមួយនឹងវ៉ារ្យង់អថេរឯករាជ្យមួយ។

30. ដោយផ្អែកលើទំហំនៃសំណុំហ្វឹកហាត់ តើអ្នកជ្រើសរើសអ្នកចាត់ថ្នាក់ដោយរបៀបណា?

ម៉ូដែលដែលមានភាពលំអៀងខ្ពស់ ភាពប្រែប្រួលទាប ដំណើរការបានល្អប្រសើរសម្រាប់ឈុតហ្វឹកហាត់ខ្លីៗ ដោយសារការស្លៀកពាក់លើសគឺទំនងជាតិចជាង។ Naive Bayes គឺជាឧទាហរណ៍មួយ។

ដើម្បីតំណាងឱ្យអន្តរកម្មដ៏ស្មុគស្មាញសម្រាប់សំណុំបណ្តុះបណ្តាលធំ គំរូដែលមានភាពលំអៀងទាប និងការប្រែប្រួលខ្ពស់គឺល្អជាង។ ការតំរែតំរង់នៃភស្តុភារគឺជាឧទាហរណ៍ដ៏ល្អមួយ។

31. តើក្បួនដោះស្រាយអ្វីនៅក្នុង machine learning ត្រូវបានគេហៅថា "ខ្ជិលរៀន" ហើយហេតុអ្វី?

អ្នករៀនយឺត KNN គឺជាក្បួនដោះស្រាយម៉ាស៊ីន។ ដោយសារ K-NN គណនាចម្ងាយជាលក្ខណៈឌីណាមិករាល់ពេលដែលវាចង់ចាត់ថ្នាក់ ជំនួសឱ្យការរៀនតម្លៃ ឬអថេរដែលបានរៀនដោយម៉ាស៊ីនពីទិន្នន័យបណ្តុះបណ្តាល វាទន្ទេញចាំសំណុំទិន្នន័យហ្វឹកហាត់។

នេះធ្វើឱ្យ K-NN ជាមនុស្សខ្ជិលរៀន។

32. តើ ROC Curve និង AUC ជាអ្វី?

ការអនុវត្តនៃគំរូចំណាត់ថ្នាក់នៅគ្រប់កម្រិតទាំងអស់ត្រូវបានតំណាងជាក្រាហ្វិកដោយខ្សែកោង ROC ។ វាមានអត្រាវិជ្ជមានពិត និងលក្ខណៈវិនិច្ឆ័យអត្រាវិជ្ជមានមិនពិត។

និយាយឱ្យសាមញ្ញ តំបន់នៅក្រោមខ្សែកោង ROC ត្រូវបានគេស្គាល់ថា AUC (តំបន់ក្រោមខ្សែកោង ROC) ។ តំបន់ពីរវិមាត្រនៃខ្សែកោង ROC ពី (0,0) ដល់ AUC ត្រូវបានវាស់ (1,1)។ សម្រាប់ការវាយតម្លៃគំរូចំណាត់ថ្នាក់គោលពីរ វាត្រូវបានប្រើជាស្ថិតិការអនុវត្ត។

33. តើអ្វីជា hyperparameters? តើអ្វីដែលធ្វើឱ្យពួកគេមានលក្ខណៈពិសេសពីប៉ារ៉ាម៉ែត្រគំរូ?

អថេរខាងក្នុងនៃគំរូត្រូវបានគេស្គាល់ថាជាប៉ារ៉ាម៉ែត្រគំរូ។ ការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាល តម្លៃនៃប៉ារ៉ាម៉ែត្រគឺប្រហាក់ប្រហែល។

មិនស្គាល់គំរូទេ ប៉ារ៉ាម៉ែត្រខ្ពស់គឺជាអថេរ។ តម្លៃមិនអាចកំណត់ពីទិន្នន័យបានទេ ដូច្នេះពួកវាត្រូវបានប្រើប្រាស់ជាញឹកញាប់ដើម្បីគណនាប៉ារ៉ាម៉ែត្រគំរូ។

34. តើ F1 Score ការរំលឹក និងភាពត្រឹមត្រូវមានន័យដូចម្តេច?

រង្វាស់ភាពច្របូកច្របល់ គឺជារង្វាស់ដែលប្រើដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃគំរូចំណាត់ថ្នាក់។ ឃ្លាខាងក្រោមអាចត្រូវបានប្រើដើម្បីពន្យល់ឱ្យកាន់តែច្បាស់អំពីមាត្រដ្ឋានច្របូកច្របល់៖

TP: True Positives – ទាំងនេះគឺជាតម្លៃវិជ្ជមានដែលត្រូវបានរំពឹងទុកយ៉ាងត្រឹមត្រូវ។ វាបង្ហាញថាតម្លៃនៃថ្នាក់ដែលបានព្យាករ និងថ្នាក់ពិតទាំងពីរគឺវិជ្ជមាន។

TN: True Negatives- ទាំងនេះគឺជាតម្លៃអវិជ្ជមានដែលត្រូវបានព្យាករណ៍យ៉ាងត្រឹមត្រូវ។ វាបង្ហាញថាទាំងតម្លៃនៃថ្នាក់ពិត និងថ្នាក់ដែលរំពឹងទុកគឺអវិជ្ជមាន។

តម្លៃទាំងនេះ - វិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត - កើតឡើងនៅពេលដែលថ្នាក់ពិតប្រាកដរបស់អ្នកខុសពីថ្នាក់ដែលរំពឹងទុក។

ឥឡូវនេះ,

សមាមាត្រនៃអត្រាវិជ្ជមានពិត (TP) ទៅនឹងការសង្កេតទាំងអស់ដែលបានធ្វើឡើងនៅក្នុងថ្នាក់ពិតប្រាកដត្រូវបានគេហៅថាការរំលឹកឡើងវិញដែលត្រូវបានគេស្គាល់ផងដែរថាជាភាពប្រែប្រួល។

ការហៅមកវិញគឺ TP/(TP+FN)។

ភាពជាក់លាក់គឺជារង្វាស់នៃតម្លៃទស្សន៍ទាយវិជ្ជមាន ដែលប្រៀបធៀបចំនួនវិជ្ជមានដែលគំរូពិតជាព្យាករណ៍ទៅនឹងចំនួនវិជ្ជមានដែលវាព្យាករណ៍យ៉ាងត្រឹមត្រូវ។

ភាពជាក់លាក់គឺ TP/(TP + FP)

រង្វាស់លទ្ធផលដែលងាយយល់បំផុតគឺភាពត្រឹមត្រូវ ដែលគ្រាន់តែជាសមាមាត្រនៃការសង្កេតដែលបានព្យាករណ៍ត្រឹមត្រូវចំពោះការសង្កេតទាំងអស់។

ភាពត្រឹមត្រូវគឺស្មើនឹង (TP+TN)/(TP+FP+FN+TN)។

ភាពជាក់លាក់ និងការរំលឹកឡើងវិញមានទម្ងន់ និងមធ្យមដើម្បីផ្តល់ពិន្ទុ F1 ។ ជាលទ្ធផល ពិន្ទុនេះចាត់ទុកទាំងវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត។

F1 ជាញឹកញាប់មានតម្លៃជាងភាពត្រឹមត្រូវ ជាពិសេសប្រសិនបើអ្នកមានការចែកចាយថ្នាក់មិនស្មើគ្នា ទោះបីជាវិចារណញាណក៏ដោយ វាមិនសាមញ្ញទេក្នុងការយល់អំពីភាពត្រឹមត្រូវ។

ភាពត្រឹមត្រូវល្អបំផុតត្រូវបានសម្រេចនៅពេលដែលតម្លៃនៃវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិតអាចប្រៀបធៀបបាន។ វាជាការប្រសើរក្នុងការរួមបញ្ចូលទាំង Precision និង Recall ប្រសិនបើការចំណាយដែលទាក់ទងនឹងភាពវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិតមានភាពខុសគ្នាខ្លាំង។

35. តើអ្វីជាសុពលភាពឆ្លងដែន?

វិធីសាស្រ្តគំរូស្ថិតិដែលហៅថា cross-validation ក្នុង machine learning ប្រើសំណុំរងនៃ dataset ជាច្រើនដើម្បីបណ្តុះបណ្តាល និងវាយតម្លៃនូវ machine learning algorithm ឆ្លងកាត់ជុំជាច្រើន។

បណ្តុំទិន្នន័យថ្មីដែលមិនត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលគំរូត្រូវបានសាកល្បងដោយប្រើសុពលភាពឆ្លង ដើម្បីមើលថាតើគំរូព្យាករណ៍វាបានល្អប៉ុណ្ណា។ ទិន្នន័យហួសកម្រិតត្រូវបានរារាំងតាមរយៈការផ្ទៀងផ្ទាត់ឆ្លងកាត់។

K-Fold វិធីសាស្រ្តគំរូឡើងវិញដែលប្រើញឹកញាប់បំផុតបំបែកសំណុំទិន្នន័យទាំងមូលទៅជាសំណុំ K ដែលមានទំហំស្មើគ្នា។ វាត្រូវបានគេហៅថាការបញ្ជាក់ឆ្លង។

36. ចូរនិយាយថាអ្នកបានរកឃើញថាគំរូរបស់អ្នកមានភាពខុសប្លែកគ្នាយ៉ាងសំខាន់។ តាមគំនិតរបស់អ្នក តើក្បួនដោះស្រាយមួយណាដែលសាកសមបំផុតក្នុងការដោះស្រាយស្ថានភាពនេះ?

ការគ្រប់គ្រងភាពប្រែប្រួលខ្ពស់។

យើងគួរប្រើបច្ចេកទេសវេចខ្ចប់សម្រាប់បញ្ហាជាមួយនឹងការប្រែប្រួលធំ។

ការយកគំរូម្តងហើយម្តងទៀតនៃទិន្នន័យចៃដន្យនឹងត្រូវប្រើដោយក្បួនដោះស្រាយការវេចខ្ចប់ដើម្បីបែងចែកទិន្នន័យទៅជាក្រុមរង។ នៅពេលដែលទិន្នន័យត្រូវបានបែងចែក យើងអាចប្រើប្រាស់ទិន្នន័យចៃដន្យ និងនីតិវិធីបណ្តុះបណ្តាលជាក់លាក់មួយដើម្បីបង្កើតច្បាប់។

បន្ទាប់ពីនោះ ការស្ទង់មតិអាចត្រូវបានប្រើដើម្បីបញ្ចូលគ្នានូវការព្យាករណ៍របស់គំរូ។

37. តើអ្វីជាភាពខុសគ្នានៃតំរែតំរង់ Ridge ពីការតំរែតំរង់ Lasso?

វិធីសាស្រ្តទៀងទាត់ពីរដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយគឺ Lasso (ហៅផងដែរថា L1) និង Ridge (ជួនកាលគេហៅថា L2) តំរែតំរង់។ ពួកវាត្រូវបានប្រើដើម្បីការពារកុំឱ្យទិន្នន័យហួសកម្រិត។

ដើម្បីស្វែងរកដំណោះស្រាយដ៏ល្អបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញ បច្ចេកទេសទាំងនេះត្រូវបានប្រើប្រាស់ដើម្បីដាក់ទណ្ឌកម្មមេគុណ។ ដោយការផាកពិន័យសរុបនៃតម្លៃដាច់ខាតនៃមេគុណ តំរែតំរង់ Lasso ដំណើរការ។

មុខងារពិន័យនៅក្នុងតំរែតំរង់ Ridge ឬ L2 គឺបានមកពីផលបូកនៃការ៉េនៃមេគុណ។

38. តើមួយណាសំខាន់ជាង: ការអនុវត្តគំរូ ឬភាពត្រឹមត្រូវនៃគំរូ? តើមួយណា ហើយហេតុអ្វីបានជាអ្នកពេញចិត្តវា?

នេះជាសំណួរបោកបញ្ឆោត ដូច្នេះដំបូងគេគួរយល់ថាអ្វីជាគំរូនៃការអនុវត្ត។ ប្រសិនបើការអនុវត្តត្រូវបានកំណត់ថាជាល្បឿន នោះវាពឹងផ្អែកលើប្រភេទនៃកម្មវិធី។ កម្មវិធីណាមួយដែលពាក់ព័ន្ធនឹងស្ថានភាពពេលវេលាជាក់ស្តែងនឹងតម្រូវឱ្យមានល្បឿនលឿនជាសមាសធាតុសំខាន់។

ជាឧទាហរណ៍ លទ្ធផលស្វែងរកល្អបំផុតនឹងមានតម្លៃតិចជាងប្រសិនបើលទ្ធផលសំណួរចំណាយពេលយូរពេកដើម្បីមកដល់។

ប្រសិនបើការអនុវត្តត្រូវបានប្រើជាយុត្តិកម្មសម្រាប់ហេតុអ្វីបានជាភាពជាក់លាក់ និងការរំលឹកឡើងវិញគួរតែត្រូវបានកំណត់អាទិភាពខាងលើភាពត្រឹមត្រូវ នោះពិន្ទុ F1 នឹងមានប្រយោជន៍ជាងភាពត្រឹមត្រូវក្នុងការបង្ហាញពីករណីអាជីវកម្មសម្រាប់សំណុំទិន្នន័យដែលមិនមានតុល្យភាព។

39. តើអ្នកនឹងគ្រប់គ្រងសំណុំទិន្នន័យដែលមានវិសមភាពដោយរបៀបណា?

សំណុំទិន្នន័យដែលគ្មានតុល្យភាពអាចទទួលបានអត្ថប្រយោជន៍ពីបច្ចេកទេសគំរូ។ ការយកគំរូអាចត្រូវបានធ្វើក្នុងម៉ូដក្រោម ឬគំរូលើស។

នៅក្រោមគំរូអនុញ្ញាតឱ្យយើងបង្រួមទំហំនៃថ្នាក់ភាគច្រើនដើម្បីផ្គូផ្គងថ្នាក់ជនជាតិភាគតិច ដែលជួយបង្កើនល្បឿនទាក់ទងនឹងការផ្ទុក និងការប្រតិបត្តិពេលដំណើរការ ប៉ុន្តែក៏អាចបណ្តាលឱ្យបាត់បង់ទិន្នន័យដ៏មានតម្លៃផងដែរ។

ដើម្បីដោះស្រាយបញ្ហានៃការបាត់បង់ព័ត៌មានដែលបណ្តាលមកពីការធ្វើគំរូលើស យើងធ្វើគំរូលើក្រុមជនជាតិភាគតិច។ យ៉ាងណាក៏ដោយ នេះធ្វើឲ្យយើងប្រឈមនឹងបញ្ហាលើសទម្ងន់។

យុទ្ធសាស្ត្របន្ថែមរួមមាន:

Cluster-Based Over Sampling- ករណីជនជាតិភាគតិច និងភាគច្រើនជាកម្មវត្ថុបុគ្គលចំពោះបច្ចេកទេសការធ្វើចង្កោម K-មានន័យថានៅក្នុងស្ថានភាពនេះ។ វាត្រូវបានធ្វើដើម្បីស្វែងរកចង្កោមសំណុំទិន្នន័យ។ បន្ទាប់មក ចង្កោមនីមួយៗត្រូវបានយកគំរូតាម ដើម្បីឱ្យថ្នាក់ទាំងអស់មានទំហំដូចគ្នា ហើយចង្កោមទាំងអស់នៅក្នុងថ្នាក់មានឧទាហរណ៍ចំនួនស្មើគ្នា។
SMOTE៖ បច្ចេកទេសលើសសំណាកជនជាតិភាគតិចសំយោគ- បំណែកនៃទិន្នន័យពីថ្នាក់ជនជាតិភាគតិចត្រូវបានប្រើជាឧទាហរណ៍ បន្ទាប់ពីនោះវត្ថុសិប្បនិម្មិតបន្ថែមដែលអាចប្រៀបធៀបទៅនឹងវាត្រូវបានផលិត និងបញ្ចូលទៅក្នុងសំណុំទិន្នន័យដើម។ វិធីសាស្រ្តនេះដំណើរការល្អជាមួយចំណុចទិន្នន័យជាលេខ។

40. តើអ្នកអាចបែងចែករវាងការជំរុញ និងការវេចខ្ចប់ដោយរបៀបណា?

Ensemble Techniques មានកំណែដែលគេស្គាល់ថាជា bagging និង boosting។

កាបូប-

សម្រាប់ក្បួនដោះស្រាយដែលមានការប្រែប្រួលខ្ពស់ ការដាក់ថង់គឺជាបច្ចេកទេសដែលប្រើដើម្បីបន្ថយភាពប្រែប្រួល។ គ្រួសារមួយប្រភេទនៃអ្នកចាត់ថ្នាក់ដែលងាយនឹងលំអៀងគឺគ្រួសារដើមឈើការសម្រេចចិត្ត។

ប្រភេទនៃទិន្នន័យដែលមែកធាងការសម្រេចចិត្តត្រូវបានបណ្តុះបណ្តាល មានឥទ្ធិពលយ៉ាងសំខាន់លើដំណើរការរបស់ពួកគេ។ ដោយសារតែនេះ សូម្បីតែជាមួយនឹងការកែតម្រូវខ្ពស់ខ្លាំងក៏ដោយ ការធ្វើឱ្យទូទៅនៃលទ្ធផលគឺពិបាកជាងក្នុងការទទួលបាននៅក្នុងពួកវា។

ប្រសិនបើទិន្នន័យបណ្តុះបណ្តាលរបស់ដើមឈើការសម្រេចចិត្តត្រូវបានផ្លាស់ប្តូរ នោះលទ្ធផលនឹងប្រែប្រួលយ៉ាងខ្លាំង។

ជាលទ្ធផល ការវេចខ្ចប់ត្រូវបានប្រើប្រាស់ ដែលក្នុងនោះដើមឈើការសម្រេចចិត្តជាច្រើនត្រូវបានបង្កើតឡើង ដែលនីមួយៗត្រូវបានបណ្តុះបណ្តាលដោយប្រើគំរូនៃទិន្នន័យដើម ហើយលទ្ធផលចុងក្រោយគឺជាមធ្យមនៃគំរូផ្សេងៗគ្នាទាំងនេះ។

ការជំរុញ៖

ការជំរុញគឺជាបច្ចេកទេសនៃការធ្វើការទស្សន៍ទាយជាមួយនឹងប្រព័ន្ធចាត់ថ្នាក់ n-weak ដែលក្នុងនោះអ្នកចាត់ថ្នាក់ខ្សោយនីមួយៗបង្កើតឱ្យមានកង្វះខាតនៃអ្នកចាត់ថ្នាក់ខ្លាំងជាងរបស់វា។ យើងសំដៅទៅលើអ្នកចាត់ថ្នាក់ដែលដំណើរការមិនល្អលើសំណុំទិន្នន័យដែលបានផ្តល់ឱ្យជា "អ្នកចាត់ថ្នាក់ខ្សោយ" ។

ការជំរុញគឺច្បាស់ជាដំណើរការជាជាងក្បួនដោះស្រាយ។ ការតំរែតំរង់ផ្នែកភស្តុភារ និងមែកធាងការសម្រេចចិត្តរាក់គឺជាឧទាហរណ៍ទូទៅនៃអ្នកចាត់ថ្នាក់ខ្សោយ។

Adaboost, Gradient Boosting, និង XGBoost គឺជាក្បួនដោះស្រាយការជំរុញដ៏ពេញនិយមបំផុតពីរ ប៉ុន្តែមានច្រើនទៀត

41. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនអាំងឌុចស្យុង និងនិកាយ។

នៅពេលសិក្សាដោយឧទាហរណ៍ពីសំណុំនៃឧទាហរណ៍ដែលបានសង្កេត គំរូមួយប្រើការរៀនដោយប្រយោលដើម្បីឈានដល់ការសន្និដ្ឋានទូទៅ។ ម្យ៉ាងវិញទៀត ជាមួយនឹងការរៀនកាត់យក គំរូប្រើលទ្ធផលមុនពេលបង្កើតរបស់វា។

ការរៀនបញ្ចូលជាដំណើរការនៃការទាញយកសេចក្តីសន្និដ្ឋានពីការសង្កេត។

ការរៀនកាត់គឺជាដំណើរការនៃការបង្កើតការសង្កេតដោយផ្អែកលើការសន្និដ្ឋាន។

សន្និដ្ឋាន

អបអរសាទរ! ទាំងនេះគឺជាសំណួរសំភាសន៍កំពូលទាំង 40 និងខាងលើសម្រាប់ការរៀនម៉ាស៊ីន ដែលឥឡូវនេះអ្នកដឹងពីចម្លើយ។ វិទ្យាសាស្ត្រទិន្នន័យ និង ក្លែងបន្លំ មុខរបរនឹងបន្តមានតម្រូវការ ដោយសារបច្ចេកវិទ្យាជឿនលឿន។

បេក្ខជនដែលធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់ពួកគេអំពីបច្ចេកវិទ្យាទំនើបទាំងនេះ និងធ្វើឱ្យប្រសើរឡើងនូវជំនាញរបស់ពួកគេអាចស្វែងរកលទ្ធភាពការងារជាច្រើនជាមួយនឹងប្រាក់ឈ្នួលប្រកួតប្រជែង។

អ្នកអាចបន្តជាមួយនឹងការឆ្លើយសម្ភាសន៍ឥឡូវនេះ ដោយអ្នកមានការយល់ដឹងច្បាស់លាស់អំពីរបៀបឆ្លើយតបទៅនឹងសំណួរសំភាសន៍រៀនម៉ាស៊ីនដែលគេសួរយ៉ាងទូលំទូលាយ។

អាស្រ័យលើគោលដៅរបស់អ្នក សូមធ្វើតាមជំហានខាងក្រោម។ រៀបចំសម្រាប់ការសម្ភាសន៍ដោយទស្សនា Hashdork's ស៊េរីសម្ភាសន៍.

សំណួរសំភាសន៍រៀនម៉ាស៊ីនកំពូល 40+