មាតិកា[លាក់][បង្ហាញ]
- 1. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនម៉ាស៊ីន បញ្ញាសិប្បនិមិត្ត និងការរៀនស៊ីជម្រៅ។
- 2. សូមពណ៌នាអំពីប្រភេទផ្សេងៗនៃការរៀនម៉ាស៊ីន។
- 3. តើអ្វីជាភាពលំអៀងធៀបនឹងការដោះដូរការប្រែប្រួល?
- 4. ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនបានវិវត្តន៍យ៉ាងខ្លាំងតាមពេលវេលា។ តើមនុស្សម្នាក់ជ្រើសរើសក្បួនដោះស្រាយត្រឹមត្រូវដើម្បីប្រើប្រាស់សំណុំទិន្នន័យដោយរបៀបណា?
- 5. តើភាពឆបគ្នា និងទំនាក់ទំនងខុសគ្នាដូចម្តេច?
- 6. នៅក្នុង machine learning តើ clustering មានន័យដូចម្តេច?
- 7. តើអ្វីទៅជាអ្វីដែលជាអ្វីដែលជាម៉ាស៊ីនដែលអ្នកពេញចិត្តក្បួនដោះស្រាយការរៀនសូត្រ?
- 8. ការតំរែតំរង់លីនេអ៊ែរក្នុងការរៀនម៉ាស៊ីន៖ តើវាជាអ្វី?
- 9. រៀបរាប់ពីភាពខុសគ្នារវាង KNN និង k-means clustering ។
- 10. តើ "ភាពលំអៀងនៃការជ្រើសរើស" មានន័យយ៉ាងណាចំពោះអ្នក?
- 11. តើទ្រឹស្តីបទ Bayes ជាអ្វី?
- 12. នៅក្នុងគំរូរៀនម៉ាស៊ីន តើ 'ឈុតហ្វឹកហាត់' និង 'ឈុតសាកល្បង' ជាអ្វី?
- 13. តើអ្វីទៅជាសម្មតិកម្មនៅក្នុង Machine Learning?
- 14. តើការរៀនតាមម៉ាស៊ីនមានន័យដូចម្តេច ហើយតើវាអាចការពារដោយរបៀបណា?
- 15. តើអ្នកចាត់ថ្នាក់ Naive Bayes ជាអ្វី?
- 16. តើមុខងារចំណាយ និងមុខងារបាត់បង់មានន័យដូចម្តេច?
- 17. តើអ្វីខុសប្លែកពីគំរូទូទៅពីគំរូរើសអើង?
- 18. រៀបរាប់ពីការប្រែប្រួលរវាងប្រភេទ I និង Type II errors ។
- 19. ក្នុងការរៀនម៉ាស៊ីន តើបច្ចេកទេសរៀនរបស់ Ensemble គឺជាអ្វី?
- 20. តើអ្វីជាគំរូប៉ារ៉ាម៉ែត្រ? ផ្តល់ឧទាហរណ៍មួយ។
- 21. ពិពណ៌នាអំពីការត្រងសហការ។ ក៏ដូចជាការត្រងផ្អែកលើមាតិកា?
- 22. តើអ្នកមានន័យយ៉ាងណាចំពោះស៊េរី Time?
- 23. ពិពណ៌នាអំពីបំរែបំរួលរវាងក្បួនដោះស្រាយការជំរុញជម្រាល និងព្រៃចៃដន្យ។
- 24. ហេតុអ្វីបានជាអ្នកត្រូវការម៉ាទ្រីសច្របូកច្របល់? តើវាគឺជាអ្វី?
- 25. តើការវិភាគធាតុផ្សំគោលការណ៍ជាអ្វី?
- 26. ហេតុអ្វីបានជាការបង្វិលសមាសភាគមានសារៈសំខាន់ខ្លាំងចំពោះ PCA (ការវិភាគសមាសភាគសំខាន់)?
- 27. តើការធ្វើឱ្យមានភាពប្រក្រតីនិងភាពប្រក្រតីមានភាពខុសគ្នាយ៉ាងណាខ្លះ?
- 28. តើការធ្វើធម្មតា និងស្តង់ដារខុសគ្នាពីគ្នាទៅវិញទៅមកយ៉ាងដូចម្តេច?
- 29. តើ "កត្តាអតិផរណាបំរែបំរួល" មានន័យដូចម្តេច?
- 30. ដោយផ្អែកលើទំហំនៃសំណុំហ្វឹកហាត់ តើអ្នកជ្រើសរើសអ្នកចាត់ថ្នាក់ដោយរបៀបណា?
- 31. តើក្បួនដោះស្រាយអ្វីនៅក្នុង machine learning ត្រូវបានគេហៅថា "ខ្ជិលរៀន" ហើយហេតុអ្វី?
- 32. តើ ROC Curve និង AUC ជាអ្វី?
- 33. តើអ្វីជា hyperparameters? តើអ្វីដែលធ្វើឱ្យពួកគេមានលក្ខណៈពិសេសពីប៉ារ៉ាម៉ែត្រគំរូ?
- 34. តើ F1 Score ការរំលឹក និងភាពត្រឹមត្រូវមានន័យដូចម្តេច?
- 35. តើអ្វីជាសុពលភាពឆ្លងដែន?
- 36. ចូរនិយាយថាអ្នកបានរកឃើញថាគំរូរបស់អ្នកមានភាពខុសប្លែកគ្នាយ៉ាងសំខាន់។ តាមគំនិតរបស់អ្នក តើក្បួនដោះស្រាយមួយណាដែលសាកសមបំផុតក្នុងការដោះស្រាយស្ថានភាពនេះ?
- 37. តើអ្វីជាភាពខុសគ្នានៃតំរែតំរង់ Ridge ពីការតំរែតំរង់ Lasso?
- 38. តើមួយណាសំខាន់ជាង: ការអនុវត្តគំរូ ឬភាពត្រឹមត្រូវនៃគំរូ? តើមួយណា ហើយហេតុអ្វីបានជាអ្នកពេញចិត្តវា?
- 39. តើអ្នកនឹងគ្រប់គ្រងសំណុំទិន្នន័យដែលមានវិសមភាពដោយរបៀបណា?
- 40. តើអ្នកអាចបែងចែករវាងការជំរុញ និងការវេចខ្ចប់ដោយរបៀបណា?
- 41. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនអាំងឌុចស្យុង និងនិកាយ។
- សន្និដ្ឋាន
អាជីវកម្មកំពុងប្រើប្រាស់បច្ចេកវិទ្យាទំនើបៗដូចជា បញ្ញាសិប្បនិម្មិត (AI) និងការរៀនម៉ាស៊ីន ដើម្បីបង្កើនភាពងាយស្រួលនៃព័ត៌មាន និងសេវាកម្មដល់បុគ្គល។
បច្ចេកវិទ្យាទាំងនេះកំពុងត្រូវបានអនុម័តដោយឧស្សាហកម្មជាច្រើន រួមទាំងធនាគារ ហិរញ្ញវត្ថុ ការលក់រាយ ការផលិត និងការថែទាំសុខភាព។
តួនាទីមួយក្នុងចំនោមតួនាទីរបស់ស្ថាប័នដែលស្វែងរកច្រើនបំផុតក្នុងការប្រើប្រាស់ AI គឺសម្រាប់អ្នកវិទ្យាសាស្ត្រទិន្នន័យ វិស្វករបញ្ញាសិប្បនិម្មិត វិស្វកររៀនម៉ាស៊ីន និងអ្នកវិភាគទិន្នន័យ។
ប្រកាសនេះនឹងនាំអ្នកឆ្លងកាត់ភាពខុសគ្នានៃ ការរៀនម៉ាស៊ីន សំណួរសំភាសន៍ ពីមូលដ្ឋានទៅស្មុគ្រស្មាញ ដើម្បីជួយអ្នកត្រៀមខ្លួនសម្រាប់សំណួរណាមួយដែលអ្នកអាចត្រូវបានសួរនៅពេលស្វែងរកការងារដ៏ល្អរបស់អ្នក។
1. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនម៉ាស៊ីន បញ្ញាសិប្បនិមិត្ត និងការរៀនស៊ីជម្រៅ។
បញ្ញាសិប្បនិមិត្តប្រើវិធីសាស្រ្តរៀនម៉ាស៊ីន និងវិធីសាស្រ្តសិក្សាស៊ីជម្រៅជាច្រើនប្រភេទ ដែលអនុញ្ញាតឱ្យប្រព័ន្ធកុំព្យូទ័រអនុវត្តការងារដោយប្រើប្រាស់បញ្ញាដូចមនុស្សជាមួយនឹងតក្កវិជ្ជា និងច្បាប់។
ការរៀនម៉ាស៊ីនប្រើស្ថិតិជាច្រើន និងវិធីសាស្រ្ត Deep Learning ដើម្បីឱ្យម៉ាស៊ីនអាចរៀនពីដំណើរការពីមុនរបស់ពួកគេ ហើយកាន់តែមានភាពប៉ិនប្រសប់ក្នុងការធ្វើការងារមួយចំនួនដោយខ្លួនឯងដោយគ្មានការត្រួតពិនិត្យពីមនុស្ស។
Deep Learning គឺជាបណ្តុំនៃក្បួនដោះស្រាយដែលអនុញ្ញាតឱ្យកម្មវិធីរៀនពីខ្លួនវា និងអនុវត្តមុខងារពាណិជ្ជកម្មជាច្រើនដូចជា ការទទួលស្គាល់សំឡេង និងរូបភាព។
ប្រព័ន្ធដែលបង្ហាញពហុស្រទាប់របស់ពួកគេ។ បណ្តាញសរសៃប្រសាទ ទិន្នន័យជាច្រើនសម្រាប់ការរៀន គឺអាចធ្វើការរៀនស៊ីជម្រៅបាន។
2. សូមពណ៌នាអំពីប្រភេទផ្សេងៗនៃការរៀនម៉ាស៊ីន។
ការរៀនម៉ាស៊ីនមានបីប្រភេទផ្សេងៗគ្នា៖
- ការរៀនដែលមានការត្រួតពិនិត្យ៖ គំរូបង្កើតការទស្សន៍ទាយ ឬការវិនិច្ឆ័យដោយប្រើប្រាស់ទិន្នន័យដែលមានស្លាកសញ្ញា ឬជាប្រវត្តិសាស្ត្រក្នុងការរៀនតាមម៉ាស៊ីនដែលមានការគ្រប់គ្រង។ សំណុំទិន្នន័យដែលត្រូវបានដាក់ស្លាក ឬដាក់ស្លាកដើម្បីបង្កើនអត្ថន័យ ត្រូវបានគេហៅថាជាទិន្នន័យដែលមានស្លាក។
- ការរៀនដែលគ្មានការត្រួតពិនិត្យ៖ យើងមិនមានទិន្នន័យដែលមានស្លាកសញ្ញាសម្រាប់ការរៀនដែលគ្មានការត្រួតពិនិត្យទេ។ នៅក្នុងទិន្នន័យចូល គំរូមួយអាចរកឃើញលំនាំ ភាពចម្លែក និងទំនាក់ទំនង។
- ការរៀនពង្រឹង៖ គំរូអាច រៀនដោយប្រើការពង្រឹង ការរៀនសូត្រ និងរង្វាន់ដែលវាទទួលបានសម្រាប់អាកប្បកិរិយាពីមុនរបស់វា។
3. តើអ្វីជាភាពលំអៀងធៀបនឹងការដោះដូរការប្រែប្រួល?
Overfitting គឺជាលទ្ធផលនៃភាពលំអៀង ដែលជាកម្រិតដែលគំរូសមនឹងទិន្នន័យ។ ការលំអៀងគឺបណ្តាលមកពីការសន្មត់មិនត្រឹមត្រូវ ឬសាមញ្ញពេកនៅក្នុងរបស់អ្នក។ ក្បួនដោះស្រាយការរៀនម៉ាស៊ីន.
វ៉ារ្យង់គឺសំដៅទៅលើកំហុសដែលបណ្តាលមកពីភាពស្មុគស្មាញនៅក្នុងក្បួនដោះស្រាយ ML របស់អ្នក ដែលបង្កើតភាពរសើបចំពោះកម្រិតនៃភាពខុសប្លែកគ្នាដ៏ធំនៅក្នុងទិន្នន័យបណ្តុះបណ្តាល និងការប្រើប្រាស់ហួសកម្រិត។
ភាពប្រែប្រួលគឺជាចំនួនគំរូប្រែប្រួលអាស្រ័យលើធាតុបញ្ចូល។
ម៉្យាងទៀត គំរូមូលដ្ឋានមានភាពលំអៀងខ្លាំង ប៉ុន្តែមានស្ថេរភាព (ការប្រែប្រួលទាប)។ Overfitting គឺជាបញ្ហាជាមួយនឹងម៉ូដែលស្មុគស្មាញ ទោះបីជាយ៉ាងណាក៏ដោយពួកគេចាប់យកការពិតនៃម៉ូដែល (ភាពលំអៀងទាប)។
ដើម្បីទប់ស្កាត់ការបំរែបំរួលខ្ពស់ និងភាពលំអៀងខ្ពស់ ការដោះដូររវាងភាពលំអៀង និងការប្រែប្រួលគឺចាំបាច់សម្រាប់ការកាត់បន្ថយកំហុសដ៏ល្អបំផុត។
4. ក្បួនដោះស្រាយការរៀនម៉ាស៊ីនបានវិវត្តន៍យ៉ាងខ្លាំងតាមពេលវេលា។ តើមនុស្សម្នាក់ជ្រើសរើសក្បួនដោះស្រាយត្រឹមត្រូវដើម្បីប្រើប្រាស់សំណុំទិន្នន័យដោយរបៀបណា?
បច្ចេកទេសរៀនម៉ាស៊ីនដែលគួរប្រើគឺអាស្រ័យលើប្រភេទទិន្នន័យនៅក្នុងសំណុំទិន្នន័យជាក់លាក់មួយ។
នៅពេលដែលទិន្នន័យគឺលីនេអ៊ែរ តំរែតំរង់លីនេអ៊ែរត្រូវបានប្រើ។ វិធីសាស្ត្រដាក់ថង់នឹងដំណើរការល្អជាង ប្រសិនបើទិន្នន័យបង្ហាញថាមិនមែនជាលីនេអ៊ែរ។ យើងអាចប្រើប្រាស់សេចក្តីសម្រេចចិត្ត ឬ SVM ប្រសិនបើទិន្នន័យត្រូវវាយតម្លៃ ឬបកស្រាយសម្រាប់គោលបំណងពាណិជ្ជកម្ម។
បណ្តាញសរសៃប្រសាទអាចមានប្រយោជន៍ក្នុងការទទួលបានចម្លើយត្រឹមត្រូវ ប្រសិនបើសំណុំទិន្នន័យរួមមានរូបថត វីដេអូ និងសំឡេង។
ជម្រើសនៃក្បួនដោះស្រាយសម្រាប់កាលៈទេសៈជាក់លាក់មួយ ឬការប្រមូលទិន្នន័យមិនអាចត្រូវបានធ្វើឡើងដោយគ្រាន់តែវាស់វែងតែមួយប៉ុណ្ណោះ។
សម្រាប់គោលបំណងនៃការបង្កើតវិធីសាស្រ្តសមបំផុត យើងត្រូវពិនិត្យទិន្នន័យជាមុនដោយប្រើការវិភាគទិន្នន័យរុករក (EDA) និងស្វែងយល់ពីគោលដៅនៃការប្រើប្រាស់សំណុំទិន្នន័យ។
5. តើភាពឆបគ្នា និងទំនាក់ទំនងខុសគ្នាដូចម្តេច?
Covariance វាយតម្លៃពីរបៀបដែលអថេរពីរត្រូវបានភ្ជាប់ទៅគ្នាទៅវិញទៅមក និងរបៀបដែលមួយអាចផ្លាស់ប្តូរក្នុងការឆ្លើយតបទៅនឹងការផ្លាស់ប្តូរផ្សេងទៀត។
ប្រសិនបើលទ្ធផលគឺវិជ្ជមាន វាបង្ហាញថាមានទំនាក់ទំនងផ្ទាល់រវាងអថេរ ហើយវានឹងកើនឡើង ឬថយចុះជាមួយនឹងការកើនឡើង ឬថយចុះនៅក្នុងអថេរមូលដ្ឋាន ដោយសន្មតថាលក្ខខណ្ឌផ្សេងទៀតទាំងអស់នៅថេរ។
Correlation វាស់តំណភ្ជាប់រវាងអថេរចៃដន្យពីរ ហើយមានតម្លៃខុសគ្នាតែបីប៉ុណ្ណោះ៖ 1, 0 និង -1 ។
6. នៅក្នុង machine learning តើ clustering មានន័យដូចម្តេច?
វិធីសាស្រ្តសិក្សាដែលមិនមានការត្រួតពិនិត្យដែលដាក់ចំណុចទិន្នន័យជាក្រុមរួមគ្នាត្រូវបានគេហៅថា ចង្កោម។ ជាមួយនឹងបណ្តុំនៃចំណុចទិន្នន័យ បច្ចេកទេសនៃការចង្កោមអាចត្រូវបានអនុវត្ត។
អ្នកអាចដាក់ជាក្រុមនៃចំណុចទិន្នន័យទាំងអស់យោងទៅតាមមុខងាររបស់ពួកគេដោយប្រើយុទ្ធសាស្រ្តនេះ។
លក្ខណៈពិសេស និងគុណភាពនៃចំណុចទិន្នន័យដែលធ្លាក់ចូលទៅក្នុងប្រភេទដូចគ្នាគឺស្រដៀងគ្នា ខណៈពេលដែលចំណុចទិន្នន័យដែលធ្លាក់ចូលទៅក្នុងក្រុមដាច់ដោយឡែកគឺខុសគ្នា។
វិធីសាស្រ្តនេះអាចត្រូវបានប្រើដើម្បីវិភាគទិន្នន័យស្ថិតិ។
7. តើអ្វីទៅជាអ្វីដែលជាអ្វីដែលជាម៉ាស៊ីនដែលអ្នកពេញចិត្តក្បួនដោះស្រាយការរៀនសូត្រ?
អ្នកមានឱកាសបង្ហាញពីចំណូលចិត្ត និងទេពកោសល្យពិសេសរបស់អ្នកនៅក្នុងសំណួរនេះ ក៏ដូចជាចំណេះដឹងដ៏ទូលំទូលាយរបស់អ្នកអំពីបច្ចេកទេសរៀនម៉ាស៊ីនជាច្រើនផងដែរ។
នេះគឺជាក្បួនដោះស្រាយការរៀនម៉ាស៊ីនធម្មតាមួយចំនួនដែលត្រូវគិតអំពី៖
- តំរែតំរង់លីនេអ៊ែរ
- តំរែតំរង់ឡូជីខល
- ណៃបៃ
- ដើមឈើការសម្រេចចិត្ត
- K មានន័យថា
- ក្បួនដោះស្រាយព្រៃឈើចៃដន្យ
- K-អ្នកជិតខាងដែលនៅជិតបំផុត (KNN)
8. ការតំរែតំរង់លីនេអ៊ែរក្នុងការរៀនម៉ាស៊ីន៖ តើវាជាអ្វី?
ក្បួនដោះស្រាយការរៀនតាមម៉ាស៊ីនដែលមានការត្រួតពិនិត្យគឺការតំរែតំរង់លីនេអ៊ែរ។
វាត្រូវបានប្រើប្រាស់ក្នុងការវិភាគព្យាករណ៍ដើម្បីកំណត់ការតភ្ជាប់លីនេអ៊ែររវាងអថេរអាស្រ័យ និងអថេរ។
សមីការតំរែតំរង់លីនេអ៊ែរមានដូចខាងក្រោម៖
Y = A + BX
ដែលជាកន្លែង:
- ធាតុបញ្ចូល ឬអថេរឯករាជ្យត្រូវបានគេហៅថា X ។
- អថេរអាស្រ័យ ឬលទ្ធផលគឺ Y ។
- មេគុណរបស់ X គឺ b ហើយការស្ទាក់ចាប់របស់វាគឺ a ។
9. រៀបរាប់ពីភាពខុសគ្នារវាង KNN និង k-means clustering ។
ភាពខុសគ្នាចម្បងគឺថា KNN (វិធីសាស្ត្រចាត់ថ្នាក់ ការរៀនដែលត្រូវបានត្រួតពិនិត្យ) ត្រូវការចំណុចដែលមានស្លាក ចំណែក k-មានន័យថាមិនមាន (ក្បួនដោះស្រាយចង្កោម ការរៀនដែលគ្មានការត្រួតពិនិត្យ)។
អ្នកអាចចាត់ថ្នាក់ទិន្នន័យដែលមានស្លាកទៅជាចំណុចដែលគ្មានស្លាកដោយប្រើ K-Nearest Neighbors ។ K-means clustering ប្រើចំងាយមធ្យមរវាងចំនុច ដើម្បីរៀនពីរបៀបដាក់ជាក្រុមចំនុចដែលគ្មានស្លាក។
10. តើ "ភាពលំអៀងនៃការជ្រើសរើស" មានន័យយ៉ាងណាចំពោះអ្នក?
ភាពលំអៀងនៅក្នុងដំណាក់កាលគំរូនៃការពិសោធន៍គឺដោយសារតែភាពមិនត្រឹមត្រូវនៃស្ថិតិ។
ក្រុមគំរូមួយត្រូវបានជ្រើសរើសញឹកញាប់ជាងក្រុមផ្សេងទៀតនៅក្នុងការពិសោធន៍ ជាលទ្ធផលនៃភាពមិនត្រឹមត្រូវ។
ប្រសិនបើភាពលំអៀងនៃការជ្រើសរើសមិនត្រូវបានទទួលស្គាល់ វាអាចបណ្តាលឱ្យមានការសន្និដ្ឋានមិនត្រឹមត្រូវ។
11. តើទ្រឹស្តីបទ Bayes ជាអ្វី?
នៅពេលដែលយើងដឹងពីប្រូបាប៊ីលីតេផ្សេងទៀត យើងអាចកំណត់ប្រូបាប៊ីលីតេដោយប្រើទ្រឹស្តីបទ Bayes ។ វាផ្តល់នូវប្រូបាប៊ីលីតេក្រោយនៃការកើតឡើងដោយផ្អែកលើព័ត៌មានមុន ម្យ៉ាងទៀត។
វិធីសាស្ត្រសំឡេងសម្រាប់ការប៉ាន់ស្មានប្រូបាប៊ីលីតេតាមលក្ខខណ្ឌត្រូវបានផ្តល់ដោយទ្រឹស្តីបទនេះ។
នៅពេលបង្កើតបញ្ហានៃការទស្សន៍ទាយការចាត់ថ្នាក់ និងការដាក់គំរូទៅនឹងការបណ្តុះបណ្តាល សំណុំទិន្នន័យនៅក្នុងម៉ាស៊ីនរៀនទ្រឹស្តីបទរបស់ Bayes ត្រូវបានអនុវត្ត (ឧ. Naive Bayes, Bayes Optimal Classifier)។
12. នៅក្នុងគំរូរៀនម៉ាស៊ីន តើ 'ឈុតហ្វឹកហាត់' និង 'ឈុតសាកល្បង' ជាអ្វី?
សំណុំបណ្តុះបណ្តាល៖
- សំណុំបណ្ដុះបណ្ដាលមានឧទាហរណ៍ដែលត្រូវបានបញ្ជូនទៅគំរូសម្រាប់ការវិភាគ និងការរៀន។
- នេះគឺជាទិន្នន័យដែលមានស្លាកដែលនឹងត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលគំរូ។
- ជាធម្មតា 70% នៃទិន្នន័យសរុបត្រូវបានប្រើប្រាស់ជាសំណុំទិន្នន័យបណ្តុះបណ្តាល។
សំណុំសាកល្បង៖
- សំណុំតេស្តត្រូវបានប្រើដើម្បីវាយតម្លៃភាពត្រឹមត្រូវនៃការបង្កើតសម្មតិកម្មរបស់គំរូ។
- យើងធ្វើតេស្តដោយគ្មានស្លាកសញ្ញា ហើយបន្ទាប់មកប្រើស្លាកដើម្បីបញ្ជាក់លទ្ធផល។
- នៅសល់ 30% ត្រូវបានប្រើជាសំណុំទិន្នន័យសាកល្បង។
13. តើអ្វីទៅជាសម្មតិកម្មនៅក្នុង Machine Learning?
Machine Learning អនុញ្ញាតឱ្យការប្រើប្រាស់សំណុំទិន្នន័យដែលមានស្រាប់ ដើម្បីយល់កាន់តែច្បាស់អំពីមុខងារដែលបានផ្តល់ឱ្យដែលភ្ជាប់ការបញ្ចូលទៅលទ្ធផល។ នេះត្រូវបានគេស្គាល់ថាជាមុខងារប្រហាក់ប្រហែល។
ក្នុងករណីនេះ ការប៉ាន់ប្រមាណត្រូវតែត្រូវបានប្រើប្រាស់សម្រាប់មុខងារគោលដៅដែលមិនស្គាល់ ដើម្បីផ្ទេរការសង្កេតដែលអាចយល់បានទាំងអស់ដោយផ្អែកលើស្ថានភាពដែលបានផ្តល់ឱ្យតាមវិធីល្អបំផុតដែលអាចធ្វើទៅបាន។
នៅក្នុងការរៀនម៉ាស៊ីន សម្មតិកម្មគឺជាគំរូដែលជួយក្នុងការប៉ាន់ប្រមាណមុខងារគោលដៅ និងបំពេញការគូសផែនទីបញ្ចូលទៅលទ្ធផលសមស្រប។
ការជ្រើសរើស និងការរចនានៃក្បួនដោះស្រាយអនុញ្ញាតឱ្យមាននិយមន័យនៃលំហនៃសម្មតិកម្មដែលអាចតំណាងដោយគំរូមួយ។
សម្រាប់សម្មតិកម្មតែមួយ អក្សរតូច h (h) ត្រូវបានប្រើ ប៉ុន្តែអក្សរធំ h (H) ត្រូវបានប្រើសម្រាប់ចន្លោះសម្មតិកម្មទាំងមូលដែលកំពុងស្វែងរក។ យើងនឹងពិនិត្យដោយសង្ខេបកំណត់ចំណាំទាំងនេះ៖
- សម្មតិកម្ម (h) គឺជាគំរូជាក់លាក់មួយដែលជួយសម្រួលដល់ការគូសផែនទីនៃធាតុបញ្ចូលទៅទិន្នផល ដែលក្រោយមកអាចប្រើសម្រាប់ការវាយតម្លៃ និងការព្យាករណ៍។
- សំណុំសម្មតិកម្ម (H) គឺជាចន្លោះដែលអាចស្វែងរកបាននៃសម្មតិកម្មដែលអាចត្រូវបានប្រើដើម្បីគូសផែនទីធាតុចូលទៅនឹងលទ្ធផល។ បញ្ហាស៊ុម គំរូ និងការកំណត់រចនាសម្ព័ន្ធគំរូ គឺជាឧទាហរណ៍មួយចំនួននៃការកំណត់ទូទៅ។
14. តើការរៀនតាមម៉ាស៊ីនមានន័យដូចម្តេច ហើយតើវាអាចការពារដោយរបៀបណា?
នៅពេលដែលម៉ាស៊ីនព្យាយាមរៀនពីសំណុំទិន្នន័យមិនគ្រប់គ្រាន់ ការបំពេញបន្ថែមកើតឡើង។
ជាលទ្ធផល overfitting ត្រូវបានទាក់ទងបញ្ច្រាសជាមួយនឹងបរិមាណទិន្នន័យ។ វិធីសាស្រ្តឆ្លងកាត់សុពលភាពអនុញ្ញាតឱ្យជៀសវាងការពាក់លើសទម្ងន់សម្រាប់សំណុំទិន្នន័យតូចៗ។ សំណុំទិន្នន័យត្រូវបានបំបែកជាពីរផ្នែកនៅក្នុងវិធីសាស្រ្តនេះ។
សំណុំទិន្នន័យសម្រាប់ការធ្វើតេស្ត និងការបណ្តុះបណ្តាលនឹងមានពីរផ្នែកនេះ។ សំណុំទិន្នន័យបណ្តុះបណ្តាលត្រូវបានប្រើដើម្បីបង្កើតគំរូមួយ ខណៈពេលដែលសំណុំទិន្នន័យសាកល្បងត្រូវបានប្រើដើម្បីវាយតម្លៃគំរូដោយប្រើធាតុបញ្ចូលផ្សេងៗគ្នា។
នេះជាវិធីការពារការស្លៀកពាក់លើស។
15. តើអ្នកចាត់ថ្នាក់ Naive Bayes ជាអ្វី?
វិធីសាស្រ្តចាត់ថ្នាក់ផ្សេងៗបង្កើតបានជាអ្នកចាត់ថ្នាក់ Naive Bayes។ សំណុំនៃក្បួនដោះស្រាយដែលគេស្គាល់ថាជាអ្នកចាត់ថ្នាក់ទាំងនេះទាំងអស់ដំណើរការលើគំនិតជាមូលដ្ឋានដូចគ្នា។
ការសន្មត់ដែលធ្វើឡើងដោយអ្នកចាត់ថ្នាក់ Bayes ឆោតល្ងង់ គឺថា វត្តមាន ឬអវត្តមានរបស់លក្ខណៈពិសេសមួយ មិនមានផលប៉ះពាល់លើវត្តមាន ឬអវត្តមាននៃលក្ខណៈពិសេសផ្សេងទៀត។
នៅក្នុងពាក្យផ្សេងទៀត នេះគឺជាអ្វីដែលយើងហៅថា "ឆោតល្ងង់" ព្រោះវាធ្វើឱ្យការសន្មត់ថាគុណលក្ខណៈសំណុំទិន្នន័យនីមួយៗមានសារៈសំខាន់ស្មើគ្នា និងឯករាជ្យ។
ការចាត់ថ្នាក់ត្រូវបានធ្វើដោយប្រើឧបករណ៍ចាត់ថ្នាក់ Bayes ឆោតល្ងង់។ ពួកវាសាមញ្ញក្នុងការប្រើប្រាស់ និងបង្កើតលទ្ធផលល្អប្រសើរជាងការទស្សន៍ទាយដែលស្មុគស្មាញជាង នៅពេលដែលការសន្និដ្ឋានឯករាជ្យគឺជាការពិត។
នៅក្នុងការវិភាគអត្ថបទ តម្រងសារឥតបានការ និងប្រព័ន្ធណែនាំ ពួកគេត្រូវបានប្រើប្រាស់។
16. តើមុខងារចំណាយ និងមុខងារបាត់បង់មានន័យដូចម្តេច?
ឃ្លា "មុខងារបាត់បង់" សំដៅលើដំណើរការនៃការបាត់បង់កុំព្យូទ័រ នៅពេលដែលទិន្នន័យតែមួយត្រូវបានយកមកពិចារណា។
ផ្ទុយទៅវិញ យើងប្រើប្រាស់មុខងារចំណាយដើម្បីកំណត់ចំនួនកំហុសសរុបសម្រាប់ទិន្នន័យជាច្រើន។ មិនមានភាពខុសគ្នាសំខាន់ទេ។
ម៉្យាងទៀត មុខងារចំណាយសរុបភាពខុសគ្នាសម្រាប់សំណុំទិន្នន័យបណ្តុះបណ្តាលទាំងមូល មុខងារបាត់បង់ត្រូវបានរចនាឡើងដើម្បីចាប់យកភាពខុសគ្នារវាងតម្លៃជាក់ស្តែង និងតម្លៃដែលបានព្យាករណ៍សម្រាប់កំណត់ត្រាតែមួយ។
17. តើអ្វីខុសប្លែកពីគំរូទូទៅពីគំរូរើសអើង?
គំរូរើសអើងរៀនពីភាពខុសគ្នារវាងប្រភេទទិន្នន័យជាច្រើន។ គំរូទូទៅជ្រើសរើសប្រភេទទិន្នន័យផ្សេងៗគ្នា។
នៅលើបញ្ហាចំណាត់ថ្នាក់ គំរូរើសអើងច្រើនតែដំណើរការជាងម៉ូដែលផ្សេងទៀត។
18. រៀបរាប់ពីការប្រែប្រួលរវាងប្រភេទ I និង Type II errors ។
ភាពវិជ្ជមានមិនពិតស្ថិតនៅក្រោមប្រភេទនៃកំហុសប្រភេទ I ចំណែកអវិជ្ជមានមិនពិតស្ថិតនៅក្រោមកំហុសប្រភេទទី XNUMX (អះអាងថាមិនមានអ្វីកើតឡើងនៅពេលដែលវាមាន)។
19. ក្នុងការរៀនម៉ាស៊ីន តើបច្ចេកទេសរៀនរបស់ Ensemble គឺជាអ្វី?
បច្ចេកទេសមួយដែលគេហៅថា ensemble learning លាយម៉ូដែលរៀនម៉ាស៊ីនជាច្រើនដើម្បីផលិតម៉ូដែលដ៏មានឥទ្ធិពលបន្ថែមទៀត។
គំរូអាចត្រូវបានផ្លាស់ប្តូរដោយហេតុផលផ្សេងៗគ្នា។ មូលហេតុជាច្រើនគឺ៖
- ចំនួនប្រជាជនផ្សេងៗគ្នា
- សម្មតិកម្មផ្សេងៗគ្នា
- វិធីសាស្រ្តគំរូផ្សេងៗ
យើងនឹងជួបបញ្ហាខណៈពេលប្រើទិន្នន័យការបណ្តុះបណ្តាល និងការសាកល្បងរបស់ម៉ូដែល។ ភាពលំអៀង ភាពប្រែប្រួល និងកំហុសដែលមិនអាចកាត់ថ្លៃបាន គឺជាប្រភេទនៃកំហុសនេះ។
ឥឡូវនេះ យើងហៅសមតុល្យរវាងភាពលំអៀង និងវ៉ារ្យង់នៅក្នុងគំរូនេះថាជាការដោះដូរភាពលំអៀង ហើយវាគួរតែមានជានិច្ច។ ការដោះដូរនេះត្រូវបានសម្រេចតាមរយៈការប្រើប្រាស់ការរៀនជាក្រុម។
ទោះបីជាមានវិធីសាស្រ្តប្រមូលផ្តុំផ្សេងៗគ្នាក៏ដោយ មានយុទ្ធសាស្ត្រទូទៅពីរសម្រាប់រួមបញ្ចូលគ្នានូវគំរូជាច្រើន៖
- វិធីសាស្រ្តដើមដែលហៅថា bagging ប្រើឈុតហ្វឹកហាត់ដើម្បីបង្កើតឈុតហ្វឹកហាត់បន្ថែម។
- ការជំរុញ ដែលជាបច្ចេកទេសស្មុគ្រស្មាញជាងនេះ៖ ដូចជាការដាក់ថង់ ការជំរុញត្រូវបានប្រើដើម្បីស្វែងរករូបមន្តទម្ងន់ដ៏ល្អសម្រាប់ឈុតហ្វឹកហាត់។
20. តើអ្វីជាគំរូប៉ារ៉ាម៉ែត្រ? ផ្តល់ឧទាហរណ៍មួយ។
មានចំនួនកំណត់នៃប៉ារ៉ាម៉ែត្រនៅក្នុងគំរូប៉ារ៉ាម៉ែត្រ។ ដើម្បីព្យាករណ៍ទិន្នន័យ អ្វីដែលអ្នកត្រូវដឹងគឺប៉ារ៉ាម៉ែត្ររបស់គំរូ។
ខាងក្រោមនេះគឺជាឧទាហរណ៍ធម្មតា៖ តំរែតំរង់តក្កកម្ម តំរែតំរង់លីនេអ៊ែរ និង SVMs លីនេអ៊ែរ។ ម៉ូដែលដែលមិនមានប៉ារ៉ាម៉ែត្រអាចបត់បែនបាន ដោយសារពួកវាអាចផ្ទុកចំនួនប៉ារ៉ាម៉ែត្រគ្មានដែនកំណត់។
ប៉ារ៉ាម៉ែត្រនៃគំរូ និងស្ថានភាពនៃទិន្នន័យដែលបានសង្កេតគឺត្រូវបានទាមទារសម្រាប់ការព្យាករណ៍ទិន្នន័យ។ នេះគឺជាឧទាហរណ៍ធម្មតាមួយចំនួន៖ ម៉ូដែលប្រធានបទដើមឈើការសម្រេចចិត្ត និង k-អ្នកជិតខាងដែលនៅជិតបំផុត។
21. ពិពណ៌នាអំពីការត្រងសហការ។ ក៏ដូចជាការត្រងផ្អែកលើមាតិកា?
វិធីសាស្ត្រសាកល្បង និងពិតសម្រាប់បង្កើតការផ្ដល់យោបល់មាតិកាដែលតម្រូវតាមតម្រូវការគឺការត្រងរួមគ្នា។
ទម្រង់នៃប្រព័ន្ធការណែនាំដែលហៅថាការត្រងរួមគ្នា ប្រាប់អំពីសម្ភារៈថ្មីៗ ដោយធ្វើឱ្យមានតុល្យភាពចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ជាមួយនឹងចំណាប់អារម្មណ៍រួម។
ចំណូលចិត្តរបស់អ្នកប្រើគឺជារឿងតែមួយគត់ដែលប្រព័ន្ធណែនាំផ្អែកលើមាតិកាពិចារណា។ ដោយគិតពីការជ្រើសរើសមុនរបស់អ្នកប្រើ ការណែនាំថ្មីត្រូវបានផ្តល់ពីសម្ភារៈដែលពាក់ព័ន្ធ។
22. តើអ្នកមានន័យយ៉ាងណាចំពោះស៊េរី Time?
ស៊េរីពេលវេលាគឺជាបណ្តុំនៃលេខតាមលំដាប់ឡើង។ ក្នុងរយៈពេលដែលបានកំណត់ទុកជាមុន វាតាមដានចលនានៃចំណុចទិន្នន័យដែលបានជ្រើសរើស និងចាប់យកចំណុចទិន្នន័យតាមកាលកំណត់។
មិនមានការបញ្ចូលពេលវេលាអប្បបរមា ឬអតិបរមាសម្រាប់ស៊េរីពេលវេលាទេ។
ស៊េរីពេលវេលាត្រូវបានប្រើជាញឹកញាប់ដោយអ្នកវិភាគដើម្បីវិភាគទិន្នន័យដោយអនុលោមតាមតម្រូវការតែមួយគត់របស់ពួកគេ។
23. ពិពណ៌នាអំពីបំរែបំរួលរវាងក្បួនដោះស្រាយការជំរុញជម្រាល និងព្រៃចៃដន្យ។
ព្រៃចៃដន្យ៖
- ដើមឈើសម្រេចចិត្តមួយចំនួនធំត្រូវបានដាក់បញ្ចូលគ្នានៅចុងបញ្ចប់ ហើយត្រូវបានគេស្គាល់ថាជាព្រៃចៃដន្យ។
- ខណៈពេលដែលការជំរុញជម្រាលបង្កើតដើមឈើនីមួយៗដោយឯករាជ្យពីដើមឈើផ្សេងទៀត ព្រៃឈើចៃដន្យបង្កើតដើមឈើនីមួយៗក្នុងពេលតែមួយ។
- ពហុថ្នាក់ ការរកឃើញវត្ថុ ដំណើរការល្អជាមួយព្រៃចៃដន្យ។
ការជំរុញជម្រាល៖
- ខណៈពេលដែលព្រៃឈើចៃដន្យចូលរួមជាមួយដើមឈើការសម្រេចចិត្តនៅចុងបញ្ចប់នៃដំណើរការនោះ Gradient Boosting Machines រួមបញ្ចូលគ្នានូវពួកវាតាំងពីដំបូង។
- ប្រសិនបើប៉ារ៉ាម៉ែត្រត្រូវបានកែតម្រូវបានត្រឹមត្រូវ ការជំរុញជម្រាលនឹងដំណើរការព្រៃឈើចៃដន្យទាក់ទងនឹងលទ្ធផល ប៉ុន្តែវាមិនមែនជាជម្រើសដ៏ឆ្លាតវៃទេ ប្រសិនបើសំណុំទិន្នន័យមានភាពហួសប្រមាណ ភាពមិនប្រក្រតី ឬសំឡេងរំខាន ដោយសារវាអាចបណ្តាលឱ្យម៉ូដែលហួសកម្រិត។
- នៅពេលដែលមានទិន្នន័យមិនសមតុល្យ ដូចដែលមាននៅក្នុងការវាយតម្លៃហានិភ័យក្នុងពេលជាក់ស្តែង ការជំរុញជម្រាលដំណើរការបានល្អ។
24. ហេតុអ្វីបានជាអ្នកត្រូវការម៉ាទ្រីសច្របូកច្របល់? តើវាគឺជាអ្វី?
តារាងដែលគេស្គាល់ថាជាម៉ាទ្រីសច្របូកច្របល់ ដែលជួនកាលគេស្គាល់ថាជាម៉ាទ្រីសកំហុស ត្រូវបានគេប្រើយ៉ាងទូលំទូលាយដើម្បីបង្ហាញពីរបៀបដែលគំរូចំណាត់ថ្នាក់ ឬអ្នកចាត់ថ្នាក់ដំណើរការបានល្អលើសំណុំទិន្នន័យសាកល្បងដែលតម្លៃពិតត្រូវបានគេស្គាល់។
វាអនុញ្ញាតឱ្យយើងមើលឃើញពីរបៀបដែលគំរូ ឬក្បួនដោះស្រាយដំណើរការ។ វាធ្វើឱ្យវាសាមញ្ញសម្រាប់យើងក្នុងការរកមើលការយល់ច្រឡំក្នុងចំណោមវគ្គសិក្សាផ្សេងៗ។
វាបម្រើជាវិធីមួយដើម្បីវាយតម្លៃថាតើគំរូ ឬក្បួនដោះស្រាយត្រូវបានអនុវត្តបានល្អប៉ុណ្ណា។
ការព្យាករណ៍របស់គំរូចំណាត់ថ្នាក់ត្រូវបានចងក្រងជាម៉ាទ្រីសច្របូកច្របល់។ តម្លៃរាប់នៃស្លាកថ្នាក់នីមួយៗត្រូវបានប្រើដើម្បីបំបែកចំនួនសរុបនៃការទស្សន៍ទាយត្រឹមត្រូវ និងមិនត្រឹមត្រូវ។
វាផ្តល់ព័ត៌មានលម្អិតអំពីកំហុសដែលធ្វើឡើងដោយអ្នកចាត់ថ្នាក់ ក៏ដូចជាប្រភេទផ្សេងៗនៃកំហុសដែលបណ្តាលមកពីអ្នកចាត់ថ្នាក់។
25. តើការវិភាគធាតុផ្សំគោលការណ៍ជាអ្វី?
តាមរយៈការបង្រួមអប្បបរមាចំនួនអថេរដែលទាក់ទងគ្នាទៅវិញទៅមក គោលដៅគឺដើម្បីកាត់បន្ថយវិមាត្រនៃការប្រមូលទិន្នន័យ។ ប៉ុន្តែវាមានសារៈសំខាន់ក្នុងការរក្សាភាពចម្រុះឱ្យបានច្រើនតាមដែលអាចធ្វើទៅបាន។
អថេរត្រូវបានផ្លាស់ប្តូរទៅជាសំណុំថ្មីទាំងស្រុងនៃអថេរដែលហៅថាសមាសភាគសំខាន់។
កុំព្យូទ័រទាំងនេះមានលក្ខណៈរាងពងក្រពើ ចាប់តាំងពីពួកវាជា eigenvectors របស់ម៉ាទ្រីស covariance ។
26. ហេតុអ្វីបានជាការបង្វិលសមាសភាគមានសារៈសំខាន់ខ្លាំងចំពោះ PCA (ការវិភាគសមាសភាគសំខាន់)?
ការបង្វិលគឺមានសារៈសំខាន់នៅក្នុង PCA ព្រោះវាបង្កើនប្រសិទ្ធភាពការបំបែករវាងភាពខុសគ្នាដែលទទួលបានដោយសមាសភាគនីមួយៗ ធ្វើឱ្យការបកស្រាយសមាសធាតុកាន់តែងាយស្រួល។
យើងទាមទារសមាសភាគបន្ថែម ដើម្បីបង្ហាញពីការប្រែប្រួលសមាសភាគ ប្រសិនបើសមាសធាតុមិនត្រូវបានបង្វិល។
27. តើការធ្វើឱ្យមានភាពប្រក្រតីនិងភាពប្រក្រតីមានភាពខុសគ្នាយ៉ាងណាខ្លះ?
ភាពធម្មតា៖
ទិន្នន័យត្រូវបានផ្លាស់ប្តូរកំឡុងពេលធ្វើឱ្យធម្មតា។ អ្នកគួរតែធ្វើឱ្យទិន្នន័យមានលក្ខណៈធម្មតាប្រសិនបើវាមានមាត្រដ្ឋានដែលខុសគ្នាខ្លាំង ជាពិសេសពីទាបទៅខ្ពស់។ កែតម្រូវជួរឈរនីមួយៗដើម្បីឱ្យស្ថិតិជាមូលដ្ឋានត្រូវគ្នាទាំងអស់។
ដើម្បីធានាថាមិនមានការបាត់បង់ភាពជាក់លាក់ទេ នេះអាចមានប្រយោជន៍។ ការរកឃើញសញ្ញាខណៈពេលដែលមិនអើពើនឹងសំលេងរំខានគឺជាគោលបំណងមួយនៃការបណ្តុះបណ្តាលគំរូ។
មានឱកាសនៃការលើសទម្ងន់ ប្រសិនបើម៉ូដែលត្រូវបានផ្តល់ការគ្រប់គ្រងពេញលេញ ដើម្បីកាត់បន្ថយកំហុស។
ភាពទៀងទាត់៖
នៅក្នុងភាពទៀងទាត់ មុខងារព្យាករណ៍ត្រូវបានកែប្រែ។ នេះជាកម្មវត្ថុនៃការគ្រប់គ្រងមួយចំនួនតាមរយៈការធ្វើឱ្យបានទៀងទាត់ ដែលអនុគ្រោះដល់មុខងារសមល្មមជាងការស្មុគស្មាញ។
28. តើការធ្វើធម្មតា និងស្តង់ដារខុសគ្នាពីគ្នាទៅវិញទៅមកយ៉ាងដូចម្តេច?
បច្ចេកទេសពីរដែលប្រើយ៉ាងទូលំទូលាយសម្រាប់ការធ្វើមាត្រដ្ឋានលក្ខណៈគឺការធ្វើឱ្យមានលក្ខណៈធម្មតា និងស្តង់ដារ។
ភាពធម្មតា៖
- ការធ្វើមាត្រដ្ឋានទិន្នន័យឡើងវិញឱ្យសមនឹងជួរ [0,1] ត្រូវបានគេស្គាល់ថាជាការធ្វើឱ្យមានលក្ខណៈធម្មតា។
- នៅពេលដែលប៉ារ៉ាម៉ែត្រទាំងអស់ត្រូវតែមានមាត្រដ្ឋានវិជ្ជមានដូចគ្នា ការធ្វើឱ្យធម្មតាគឺមានប្រយោជន៍ ប៉ុន្តែផ្នែកខាងក្រៅនៃសំណុំទិន្នន័យត្រូវបានបាត់បង់។
ភាពទៀងទាត់៖
- ទិន្នន័យត្រូវបានធ្វើមាត្រដ្ឋានឡើងវិញដើម្បីឱ្យមានមធ្យម 0 និងគម្លាតស្តង់ដារនៃ 1 ជាផ្នែកនៃដំណើរការស្តង់ដារ (បំរែបំរួលឯកតា)
29. តើ "កត្តាអតិផរណាបំរែបំរួល" មានន័យដូចម្តេច?
សមាមាត្រនៃបំរែបំរួលនៃគំរូទៅនឹងការប្រែប្រួលនៃគំរូដែលមានអថេរឯករាជ្យតែមួយគត់ត្រូវបានគេស្គាល់ថាជាកត្តាអតិផរណាបំរែបំរួល (VIF) ។
VIF ប៉ាន់ប្រមាណចំនួននៃ multicollinearity ដែលមានវត្តមាននៅក្នុងសំណុំនៃអថេរតំរែតំរង់ជាច្រើន។
វ៉ារ្យ៉ង់នៃគំរូ (VIF) គំរូជាមួយនឹងវ៉ារ្យង់អថេរឯករាជ្យមួយ។
30. ដោយផ្អែកលើទំហំនៃសំណុំហ្វឹកហាត់ តើអ្នកជ្រើសរើសអ្នកចាត់ថ្នាក់ដោយរបៀបណា?
ម៉ូដែលដែលមានភាពលំអៀងខ្ពស់ ភាពប្រែប្រួលទាប ដំណើរការបានល្អប្រសើរសម្រាប់ឈុតហ្វឹកហាត់ខ្លីៗ ដោយសារការស្លៀកពាក់លើសគឺទំនងជាតិចជាង។ Naive Bayes គឺជាឧទាហរណ៍មួយ។
ដើម្បីតំណាងឱ្យអន្តរកម្មដ៏ស្មុគស្មាញសម្រាប់សំណុំបណ្តុះបណ្តាលធំ គំរូដែលមានភាពលំអៀងទាប និងការប្រែប្រួលខ្ពស់គឺល្អជាង។ ការតំរែតំរង់នៃភស្តុភារគឺជាឧទាហរណ៍ដ៏ល្អមួយ។
31. តើក្បួនដោះស្រាយអ្វីនៅក្នុង machine learning ត្រូវបានគេហៅថា "ខ្ជិលរៀន" ហើយហេតុអ្វី?
អ្នករៀនយឺត KNN គឺជាក្បួនដោះស្រាយម៉ាស៊ីន។ ដោយសារ K-NN គណនាចម្ងាយជាលក្ខណៈឌីណាមិករាល់ពេលដែលវាចង់ចាត់ថ្នាក់ ជំនួសឱ្យការរៀនតម្លៃ ឬអថេរដែលបានរៀនដោយម៉ាស៊ីនពីទិន្នន័យបណ្តុះបណ្តាល វាទន្ទេញចាំសំណុំទិន្នន័យហ្វឹកហាត់។
នេះធ្វើឱ្យ K-NN ជាមនុស្សខ្ជិលរៀន។
32. តើ ROC Curve និង AUC ជាអ្វី?
ការអនុវត្តនៃគំរូចំណាត់ថ្នាក់នៅគ្រប់កម្រិតទាំងអស់ត្រូវបានតំណាងជាក្រាហ្វិកដោយខ្សែកោង ROC ។ វាមានអត្រាវិជ្ជមានពិត និងលក្ខណៈវិនិច្ឆ័យអត្រាវិជ្ជមានមិនពិត។
និយាយឱ្យសាមញ្ញ តំបន់នៅក្រោមខ្សែកោង ROC ត្រូវបានគេស្គាល់ថា AUC (តំបន់ក្រោមខ្សែកោង ROC) ។ តំបន់ពីរវិមាត្រនៃខ្សែកោង ROC ពី (0,0) ដល់ AUC ត្រូវបានវាស់ (1,1)។ សម្រាប់ការវាយតម្លៃគំរូចំណាត់ថ្នាក់គោលពីរ វាត្រូវបានប្រើជាស្ថិតិការអនុវត្ត។
33. តើអ្វីជា hyperparameters? តើអ្វីដែលធ្វើឱ្យពួកគេមានលក្ខណៈពិសេសពីប៉ារ៉ាម៉ែត្រគំរូ?
អថេរខាងក្នុងនៃគំរូត្រូវបានគេស្គាល់ថាជាប៉ារ៉ាម៉ែត្រគំរូ។ ការប្រើប្រាស់ទិន្នន័យបណ្តុះបណ្តាល តម្លៃនៃប៉ារ៉ាម៉ែត្រគឺប្រហាក់ប្រហែល។
មិនស្គាល់គំរូទេ ប៉ារ៉ាម៉ែត្រខ្ពស់គឺជាអថេរ។ តម្លៃមិនអាចកំណត់ពីទិន្នន័យបានទេ ដូច្នេះពួកវាត្រូវបានប្រើប្រាស់ជាញឹកញាប់ដើម្បីគណនាប៉ារ៉ាម៉ែត្រគំរូ។
34. តើ F1 Score ការរំលឹក និងភាពត្រឹមត្រូវមានន័យដូចម្តេច?
រង្វាស់ភាពច្របូកច្របល់ គឺជារង្វាស់ដែលប្រើដើម្បីវាស់ស្ទង់ប្រសិទ្ធភាពនៃគំរូចំណាត់ថ្នាក់។ ឃ្លាខាងក្រោមអាចត្រូវបានប្រើដើម្បីពន្យល់ឱ្យកាន់តែច្បាស់អំពីមាត្រដ្ឋានច្របូកច្របល់៖
TP: True Positives – ទាំងនេះគឺជាតម្លៃវិជ្ជមានដែលត្រូវបានរំពឹងទុកយ៉ាងត្រឹមត្រូវ។ វាបង្ហាញថាតម្លៃនៃថ្នាក់ដែលបានព្យាករ និងថ្នាក់ពិតទាំងពីរគឺវិជ្ជមាន។
TN: True Negatives- ទាំងនេះគឺជាតម្លៃអវិជ្ជមានដែលត្រូវបានព្យាករណ៍យ៉ាងត្រឹមត្រូវ។ វាបង្ហាញថាទាំងតម្លៃនៃថ្នាក់ពិត និងថ្នាក់ដែលរំពឹងទុកគឺអវិជ្ជមាន។
តម្លៃទាំងនេះ - វិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត - កើតឡើងនៅពេលដែលថ្នាក់ពិតប្រាកដរបស់អ្នកខុសពីថ្នាក់ដែលរំពឹងទុក។
ឥឡូវនេះ,
សមាមាត្រនៃអត្រាវិជ្ជមានពិត (TP) ទៅនឹងការសង្កេតទាំងអស់ដែលបានធ្វើឡើងនៅក្នុងថ្នាក់ពិតប្រាកដត្រូវបានគេហៅថាការរំលឹកឡើងវិញដែលត្រូវបានគេស្គាល់ផងដែរថាជាភាពប្រែប្រួល។
ការហៅមកវិញគឺ TP/(TP+FN)។
ភាពជាក់លាក់គឺជារង្វាស់នៃតម្លៃទស្សន៍ទាយវិជ្ជមាន ដែលប្រៀបធៀបចំនួនវិជ្ជមានដែលគំរូពិតជាព្យាករណ៍ទៅនឹងចំនួនវិជ្ជមានដែលវាព្យាករណ៍យ៉ាងត្រឹមត្រូវ។
ភាពជាក់លាក់គឺ TP/(TP + FP)
រង្វាស់លទ្ធផលដែលងាយយល់បំផុតគឺភាពត្រឹមត្រូវ ដែលគ្រាន់តែជាសមាមាត្រនៃការសង្កេតដែលបានព្យាករណ៍ត្រឹមត្រូវចំពោះការសង្កេតទាំងអស់។
ភាពត្រឹមត្រូវគឺស្មើនឹង (TP+TN)/(TP+FP+FN+TN)។
ភាពជាក់លាក់ និងការរំលឹកឡើងវិញមានទម្ងន់ និងមធ្យមដើម្បីផ្តល់ពិន្ទុ F1 ។ ជាលទ្ធផល ពិន្ទុនេះចាត់ទុកទាំងវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិត។
F1 ជាញឹកញាប់មានតម្លៃជាងភាពត្រឹមត្រូវ ជាពិសេសប្រសិនបើអ្នកមានការចែកចាយថ្នាក់មិនស្មើគ្នា ទោះបីជាវិចារណញាណក៏ដោយ វាមិនសាមញ្ញទេក្នុងការយល់អំពីភាពត្រឹមត្រូវ។
ភាពត្រឹមត្រូវល្អបំផុតត្រូវបានសម្រេចនៅពេលដែលតម្លៃនៃវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិតអាចប្រៀបធៀបបាន។ វាជាការប្រសើរក្នុងការរួមបញ្ចូលទាំង Precision និង Recall ប្រសិនបើការចំណាយដែលទាក់ទងនឹងភាពវិជ្ជមានមិនពិត និងអវិជ្ជមានមិនពិតមានភាពខុសគ្នាខ្លាំង។
35. តើអ្វីជាសុពលភាពឆ្លងដែន?
វិធីសាស្រ្តគំរូស្ថិតិដែលហៅថា cross-validation ក្នុង machine learning ប្រើសំណុំរងនៃ dataset ជាច្រើនដើម្បីបណ្តុះបណ្តាល និងវាយតម្លៃនូវ machine learning algorithm ឆ្លងកាត់ជុំជាច្រើន។
បណ្តុំទិន្នន័យថ្មីដែលមិនត្រូវបានប្រើដើម្បីបណ្តុះបណ្តាលគំរូត្រូវបានសាកល្បងដោយប្រើសុពលភាពឆ្លង ដើម្បីមើលថាតើគំរូព្យាករណ៍វាបានល្អប៉ុណ្ណា។ ទិន្នន័យហួសកម្រិតត្រូវបានរារាំងតាមរយៈការផ្ទៀងផ្ទាត់ឆ្លងកាត់។
K-Fold វិធីសាស្រ្តគំរូឡើងវិញដែលប្រើញឹកញាប់បំផុតបំបែកសំណុំទិន្នន័យទាំងមូលទៅជាសំណុំ K ដែលមានទំហំស្មើគ្នា។ វាត្រូវបានគេហៅថាការបញ្ជាក់ឆ្លង។
36. ចូរនិយាយថាអ្នកបានរកឃើញថាគំរូរបស់អ្នកមានភាពខុសប្លែកគ្នាយ៉ាងសំខាន់។ តាមគំនិតរបស់អ្នក តើក្បួនដោះស្រាយមួយណាដែលសាកសមបំផុតក្នុងការដោះស្រាយស្ថានភាពនេះ?
ការគ្រប់គ្រងភាពប្រែប្រួលខ្ពស់។
យើងគួរប្រើបច្ចេកទេសវេចខ្ចប់សម្រាប់បញ្ហាជាមួយនឹងការប្រែប្រួលធំ។
ការយកគំរូម្តងហើយម្តងទៀតនៃទិន្នន័យចៃដន្យនឹងត្រូវប្រើដោយក្បួនដោះស្រាយការវេចខ្ចប់ដើម្បីបែងចែកទិន្នន័យទៅជាក្រុមរង។ នៅពេលដែលទិន្នន័យត្រូវបានបែងចែក យើងអាចប្រើប្រាស់ទិន្នន័យចៃដន្យ និងនីតិវិធីបណ្តុះបណ្តាលជាក់លាក់មួយដើម្បីបង្កើតច្បាប់។
បន្ទាប់ពីនោះ ការស្ទង់មតិអាចត្រូវបានប្រើដើម្បីបញ្ចូលគ្នានូវការព្យាករណ៍របស់គំរូ។
37. តើអ្វីជាភាពខុសគ្នានៃតំរែតំរង់ Ridge ពីការតំរែតំរង់ Lasso?
វិធីសាស្រ្តទៀងទាត់ពីរដែលត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយគឺ Lasso (ហៅផងដែរថា L1) និង Ridge (ជួនកាលគេហៅថា L2) តំរែតំរង់។ ពួកវាត្រូវបានប្រើដើម្បីការពារកុំឱ្យទិន្នន័យហួសកម្រិត។
ដើម្បីស្វែងរកដំណោះស្រាយដ៏ល្អបំផុត និងកាត់បន្ថយភាពស្មុគស្មាញ បច្ចេកទេសទាំងនេះត្រូវបានប្រើប្រាស់ដើម្បីដាក់ទណ្ឌកម្មមេគុណ។ ដោយការផាកពិន័យសរុបនៃតម្លៃដាច់ខាតនៃមេគុណ តំរែតំរង់ Lasso ដំណើរការ។
មុខងារពិន័យនៅក្នុងតំរែតំរង់ Ridge ឬ L2 គឺបានមកពីផលបូកនៃការ៉េនៃមេគុណ។
38. តើមួយណាសំខាន់ជាង: ការអនុវត្តគំរូ ឬភាពត្រឹមត្រូវនៃគំរូ? តើមួយណា ហើយហេតុអ្វីបានជាអ្នកពេញចិត្តវា?
នេះជាសំណួរបោកបញ្ឆោត ដូច្នេះដំបូងគេគួរយល់ថាអ្វីជាគំរូនៃការអនុវត្ត។ ប្រសិនបើការអនុវត្តត្រូវបានកំណត់ថាជាល្បឿន នោះវាពឹងផ្អែកលើប្រភេទនៃកម្មវិធី។ កម្មវិធីណាមួយដែលពាក់ព័ន្ធនឹងស្ថានភាពពេលវេលាជាក់ស្តែងនឹងតម្រូវឱ្យមានល្បឿនលឿនជាសមាសធាតុសំខាន់។
ជាឧទាហរណ៍ លទ្ធផលស្វែងរកល្អបំផុតនឹងមានតម្លៃតិចជាងប្រសិនបើលទ្ធផលសំណួរចំណាយពេលយូរពេកដើម្បីមកដល់។
ប្រសិនបើការអនុវត្តត្រូវបានប្រើជាយុត្តិកម្មសម្រាប់ហេតុអ្វីបានជាភាពជាក់លាក់ និងការរំលឹកឡើងវិញគួរតែត្រូវបានកំណត់អាទិភាពខាងលើភាពត្រឹមត្រូវ នោះពិន្ទុ F1 នឹងមានប្រយោជន៍ជាងភាពត្រឹមត្រូវក្នុងការបង្ហាញពីករណីអាជីវកម្មសម្រាប់សំណុំទិន្នន័យដែលមិនមានតុល្យភាព។
39. តើអ្នកនឹងគ្រប់គ្រងសំណុំទិន្នន័យដែលមានវិសមភាពដោយរបៀបណា?
សំណុំទិន្នន័យដែលគ្មានតុល្យភាពអាចទទួលបានអត្ថប្រយោជន៍ពីបច្ចេកទេសគំរូ។ ការយកគំរូអាចត្រូវបានធ្វើក្នុងម៉ូដក្រោម ឬគំរូលើស។
នៅក្រោមគំរូអនុញ្ញាតឱ្យយើងបង្រួមទំហំនៃថ្នាក់ភាគច្រើនដើម្បីផ្គូផ្គងថ្នាក់ជនជាតិភាគតិច ដែលជួយបង្កើនល្បឿនទាក់ទងនឹងការផ្ទុក និងការប្រតិបត្តិពេលដំណើរការ ប៉ុន្តែក៏អាចបណ្តាលឱ្យបាត់បង់ទិន្នន័យដ៏មានតម្លៃផងដែរ។
ដើម្បីដោះស្រាយបញ្ហានៃការបាត់បង់ព័ត៌មានដែលបណ្តាលមកពីការធ្វើគំរូលើស យើងធ្វើគំរូលើក្រុមជនជាតិភាគតិច។ យ៉ាងណាក៏ដោយ នេះធ្វើឲ្យយើងប្រឈមនឹងបញ្ហាលើសទម្ងន់។
យុទ្ធសាស្ត្របន្ថែមរួមមាន:
- Cluster-Based Over Sampling- ករណីជនជាតិភាគតិច និងភាគច្រើនជាកម្មវត្ថុបុគ្គលចំពោះបច្ចេកទេសការធ្វើចង្កោម K-មានន័យថានៅក្នុងស្ថានភាពនេះ។ វាត្រូវបានធ្វើដើម្បីស្វែងរកចង្កោមសំណុំទិន្នន័យ។ បន្ទាប់មក ចង្កោមនីមួយៗត្រូវបានយកគំរូតាម ដើម្បីឱ្យថ្នាក់ទាំងអស់មានទំហំដូចគ្នា ហើយចង្កោមទាំងអស់នៅក្នុងថ្នាក់មានឧទាហរណ៍ចំនួនស្មើគ្នា។
- SMOTE៖ បច្ចេកទេសលើសសំណាកជនជាតិភាគតិចសំយោគ- បំណែកនៃទិន្នន័យពីថ្នាក់ជនជាតិភាគតិចត្រូវបានប្រើជាឧទាហរណ៍ បន្ទាប់ពីនោះវត្ថុសិប្បនិម្មិតបន្ថែមដែលអាចប្រៀបធៀបទៅនឹងវាត្រូវបានផលិត និងបញ្ចូលទៅក្នុងសំណុំទិន្នន័យដើម។ វិធីសាស្រ្តនេះដំណើរការល្អជាមួយចំណុចទិន្នន័យជាលេខ។
40. តើអ្នកអាចបែងចែករវាងការជំរុញ និងការវេចខ្ចប់ដោយរបៀបណា?
Ensemble Techniques មានកំណែដែលគេស្គាល់ថាជា bagging និង boosting។
កាបូប-
សម្រាប់ក្បួនដោះស្រាយដែលមានការប្រែប្រួលខ្ពស់ ការដាក់ថង់គឺជាបច្ចេកទេសដែលប្រើដើម្បីបន្ថយភាពប្រែប្រួល។ គ្រួសារមួយប្រភេទនៃអ្នកចាត់ថ្នាក់ដែលងាយនឹងលំអៀងគឺគ្រួសារដើមឈើការសម្រេចចិត្ត។
ប្រភេទនៃទិន្នន័យដែលមែកធាងការសម្រេចចិត្តត្រូវបានបណ្តុះបណ្តាល មានឥទ្ធិពលយ៉ាងសំខាន់លើដំណើរការរបស់ពួកគេ។ ដោយសារតែនេះ សូម្បីតែជាមួយនឹងការកែតម្រូវខ្ពស់ខ្លាំងក៏ដោយ ការធ្វើឱ្យទូទៅនៃលទ្ធផលគឺពិបាកជាងក្នុងការទទួលបាននៅក្នុងពួកវា។
ប្រសិនបើទិន្នន័យបណ្តុះបណ្តាលរបស់ដើមឈើការសម្រេចចិត្តត្រូវបានផ្លាស់ប្តូរ នោះលទ្ធផលនឹងប្រែប្រួលយ៉ាងខ្លាំង។
ជាលទ្ធផល ការវេចខ្ចប់ត្រូវបានប្រើប្រាស់ ដែលក្នុងនោះដើមឈើការសម្រេចចិត្តជាច្រើនត្រូវបានបង្កើតឡើង ដែលនីមួយៗត្រូវបានបណ្តុះបណ្តាលដោយប្រើគំរូនៃទិន្នន័យដើម ហើយលទ្ធផលចុងក្រោយគឺជាមធ្យមនៃគំរូផ្សេងៗគ្នាទាំងនេះ។
ការជំរុញ៖
ការជំរុញគឺជាបច្ចេកទេសនៃការធ្វើការទស្សន៍ទាយជាមួយនឹងប្រព័ន្ធចាត់ថ្នាក់ n-weak ដែលក្នុងនោះអ្នកចាត់ថ្នាក់ខ្សោយនីមួយៗបង្កើតឱ្យមានកង្វះខាតនៃអ្នកចាត់ថ្នាក់ខ្លាំងជាងរបស់វា។ យើងសំដៅទៅលើអ្នកចាត់ថ្នាក់ដែលដំណើរការមិនល្អលើសំណុំទិន្នន័យដែលបានផ្តល់ឱ្យជា "អ្នកចាត់ថ្នាក់ខ្សោយ" ។
ការជំរុញគឺច្បាស់ជាដំណើរការជាជាងក្បួនដោះស្រាយ។ ការតំរែតំរង់ផ្នែកភស្តុភារ និងមែកធាងការសម្រេចចិត្តរាក់គឺជាឧទាហរណ៍ទូទៅនៃអ្នកចាត់ថ្នាក់ខ្សោយ។
Adaboost, Gradient Boosting, និង XGBoost គឺជាក្បួនដោះស្រាយការជំរុញដ៏ពេញនិយមបំផុតពីរ ប៉ុន្តែមានច្រើនទៀត
41. ពន្យល់ពីភាពខុសគ្នារវាងការរៀនអាំងឌុចស្យុង និងនិកាយ។
នៅពេលសិក្សាដោយឧទាហរណ៍ពីសំណុំនៃឧទាហរណ៍ដែលបានសង្កេត គំរូមួយប្រើការរៀនដោយប្រយោលដើម្បីឈានដល់ការសន្និដ្ឋានទូទៅ។ ម្យ៉ាងវិញទៀត ជាមួយនឹងការរៀនកាត់យក គំរូប្រើលទ្ធផលមុនពេលបង្កើតរបស់វា។
ការរៀនបញ្ចូលជាដំណើរការនៃការទាញយកសេចក្តីសន្និដ្ឋានពីការសង្កេត។
ការរៀនកាត់គឺជាដំណើរការនៃការបង្កើតការសង្កេតដោយផ្អែកលើការសន្និដ្ឋាន។
សន្និដ្ឋាន
អបអរសាទរ! ទាំងនេះគឺជាសំណួរសំភាសន៍កំពូលទាំង 40 និងខាងលើសម្រាប់ការរៀនម៉ាស៊ីន ដែលឥឡូវនេះអ្នកដឹងពីចម្លើយ។ វិទ្យាសាស្ត្រទិន្នន័យ និង ក្លែងបន្លំ មុខរបរនឹងបន្តមានតម្រូវការ ដោយសារបច្ចេកវិទ្យាជឿនលឿន។
បេក្ខជនដែលធ្វើបច្ចុប្បន្នភាពចំណេះដឹងរបស់ពួកគេអំពីបច្ចេកវិទ្យាទំនើបទាំងនេះ និងធ្វើឱ្យប្រសើរឡើងនូវជំនាញរបស់ពួកគេអាចស្វែងរកលទ្ធភាពការងារជាច្រើនជាមួយនឹងប្រាក់ឈ្នួលប្រកួតប្រជែង។
អ្នកអាចបន្តជាមួយនឹងការឆ្លើយសម្ភាសន៍ឥឡូវនេះ ដោយអ្នកមានការយល់ដឹងច្បាស់លាស់អំពីរបៀបឆ្លើយតបទៅនឹងសំណួរសំភាសន៍រៀនម៉ាស៊ីនដែលគេសួរយ៉ាងទូលំទូលាយ។
អាស្រ័យលើគោលដៅរបស់អ្នក សូមធ្វើតាមជំហានខាងក្រោម។ រៀបចំសម្រាប់ការសម្ភាសន៍ដោយទស្សនា Hashdork's ស៊េរីសម្ភាសន៍.
សូមផ្ដល់យោបល់