Ең жақсы 40+ Machine Learning сұхбат сұрақтары (2024)

Мазмұны[Жасыру][Көрсету]

1. Машиналық оқыту, жасанды интеллект және терең оқыту арасындағы айырмашылықтарды түсіндіріңіз.
2. Машиналық оқытудың әртүрлі түрлерін сипаттаңыз.
3. Дисперсияға қарсы ауытқу деген не?
4. Машиналық оқыту алгоритмдері уақыт өте келе айтарлықтай дамыды. Берілген деректер жиынтығын пайдалану үшін дұрыс алгоритмді қалай таңдауға болады?
5. Ковариация мен корреляция қалай ерекшеленеді?
6. Машиналық оқытуда кластерлеу нені білдіреді?
7. Машиналық оқытудың алгоритмі қандай?
8. Машиналық оқытудағы сызықтық регрессия: бұл не?
9. KNN мен k-орташа кластерлеудің айырмашылығын сипаттаңыз.
10. «Таңдаудың бұрмалануы» сіз үшін нені білдіреді?
11. Бэйс теоремасы дегеніміз не?
12. Машиналық оқыту үлгісінде «оқу жинағы» және «тест жинағы» дегеніміз не?
13. Машиналық оқытудағы гипотеза дегеніміз не?
14. Машиналық оқытуды шамадан тыс орнату нені білдіреді және оны қалай болдырмауға болады?
15. Naive Bayes классификаторлары дегеніміз не?
16. Шығын функциялары мен шығын функциялары нені білдіреді?
17. Генеративті модельдің дискриминативті модельден айырмашылығы неде?
18. I және II типті қателер арасындағы өзгерістерді сипаттаңыз.
19. Машиналық оқытуда ансамбльді оқыту әдісі дегеніміз не?
20. Параметрлік модельдер дегеніміз не? Мысал келтіріңіз.
21. Бірлескен сүзгілеуді сипаттаңыз. Мазмұнға негізделген сүзу сияқты?
22. Уақыт қатары дегенді қалай түсінесіз?
23. Gradient Boosting және Random Forest алгоритмдері арасындағы вариацияларды сипаттаңыз.
24. Шатасу матрицасы не үшін қажет? Бұл не?
25. Принципті компоненттік талдау дегеніміз не?
26. Неліктен құрамдастардың айналуы PCA (негізгі құрамдас талдау) үшін соншалықты маңызды?
27. Регуляризация мен нормалау бір-бірінен қалай ерекшеленеді?
28. Нормалау мен стандарттау бір-бірінен несімен ерекшеленеді?
29. «Ауыспалы инфляция факторы» нақты нені білдіреді?
30. Жаттығу жиынының көлеміне қарай классификаторды қалай таңдайсыз?
31. Машиналық оқытудағы қандай алгоритм «жалқау оқушы» деп аталады және неліктен?
32. ROC қисығы және AUC дегеніміз не?
33. Гиперпараметрлер дегеніміз не? Оларды модель параметрлерінен ерекше ететін не?
34. F1 Ұпай, еске түсіру және дәлдік нені білдіреді?
35. Кросс-валидация дегеніміз не?
36. Модельіңіздің айтарлықтай ауытқуы бар екенін анықтадыңыз делік. Сіздің ойыңызша, бұл жағдайды шешу үшін қандай алгоритм ең қолайлы?
37. Ридж регрессиясының Лассо регрессиясынан айырмашылығы неде?
38. Қайсысы маңыздырақ: үлгі өнімділігі немесе үлгі дәлдігі? Қайсысы және неге оны ұнатасыз?
39. Теңсіздіктері бар деректер жинағын қалай басқар едіңіз?
40. Боостинг пен қаптауды қалай ажыратуға болады?
41. Индуктивті және дедуктивті оқытудың айырмашылығын түсіндіріңіз.
қорытынды

Кәсіпорындар ақпарат пен қызметтердің жеке тұлғаларға қолжетімділігін арттыру үшін жасанды интеллект (AI) және машиналық оқыту сияқты озық технологияларды пайдалануда.

Бұл технологияларды банк ісі, қаржы, бөлшек сауда, өндіріс және денсаулық сақтауды қоса алғанда, әртүрлі салалар қолданады.

AI қолданатын ең көп сұранысқа ие ұйымдастырушылық рөлдердің бірі деректер ғалымдарына, жасанды интеллект инженерлеріне, машиналық оқыту инженерлеріне және деректер талдаушыларына арналған.

Бұл пост сізді әртүрлі жолдармен таныстырады машина оқыту мінсіз жұмыс іздеген кезде қойылатын кез келген сұрақтарға дайындалуға көмектесетін негізгіден күрделіге дейінгі сұхбат сұрақтары.

1. Машиналық оқыту, жасанды интеллект және терең оқыту арасындағы айырмашылықтарды түсіндіріңіз.

Жасанды интеллект компьютерлік жүйелерге логика мен ережелері бар адамға ұқсас интеллект арқылы тапсырмаларды орындауға мүмкіндік беретін әртүрлі машиналық оқыту мен терең оқыту тәсілдерін қолданады.

Машиналық оқыту машиналарға бұрынғы жұмысынан үйренуге және адамның бақылауынсыз белгілі бір тапсырмаларды өздігінен орындауға дағдыландыруға мүмкіндік беру үшін әртүрлі статистика мен Deep Learning тәсілдерін пайдаланады.

Deep Learning - бағдарламалық құралға өзінен үйренуге және дауыс пен суретті тану сияқты әртүрлі коммерциялық функцияларды орындауға мүмкіндік беретін алгоритмдер жиынтығы.

Олардың көпқабаттылығын ашатын жүйелер нейрондық желілер оқуға арналған деректердің үлкен көлеміне терең білім беруге қабілетті.

2. Машиналық оқытудың әртүрлі түрлерін сипаттаңыз.

Машиналық оқытудың үш түрлі түрі бар:

Бақыланатын оқыту: Модель бақыланатын машиналық оқытуда белгіленген немесе тарихи деректерді пайдалана отырып, болжамдарды немесе пайымдауларды жасайды. Мағынасын арттыру үшін белгіленген немесе белгіленген деректер жиыны таңбаланған деректер деп аталады.
Бақылаусыз оқыту: бізде бақылаусыз оқытуға арналған таңбаланған деректер жоқ. Кіріс деректерде үлгі үлгілерді, оғаштықтарды және корреляцияларды таба алады.
Оқытуды бекіту: Үлгі жасай алады пысықтауышты қолдану арқылы үйренеді оқу және оның бұрынғы мінез-құлқы үшін алған сыйлары.

3. Дисперсияға қарсы ауытқу деген не?

Шамадан тыс фитинг - модельдің деректерге сәйкестік дәрежесі болып табылатын ауытқудың нәтижесі. Біржақтылық сіздің қате немесе тым қарапайым болжамдардан туындайды машиналық оқыту алгоритмі.

Дисперсия жаттығу деректеріндегі үлкен дәрежедегі ауытқуларға сезімталдықты тудыратын ML алгоритмінің күрделілігінен туындаған қателерді білдіреді.

Дисперсия - модельдің кірістерге байланысты қаншалықты өзгеретіні.

Басқаша айтқанда, негізгі модельдер өте қиғаш, бірақ тұрақты (төмен дисперсия). Күрделі модельдерге шамадан тыс орнату проблемасы болып табылады, дегенмен олар модельдің шындығын (төмен қиғаштық) түсіреді.

Жоғары вариацияның да, жоғары ауытқудың да алдын алу үшін қателерді ең жақсы азайту үшін қиғаштық пен дисперсия арасындағы айырбастау қажет.

4. Машиналық оқыту алгоритмдері уақыт өте келе айтарлықтай дамыды. Берілген деректер жиынтығын пайдалану үшін дұрыс алгоритмді қалай таңдауға болады?

Қолданылуы тиіс машиналық оқыту әдісі тек нақты деректер жиынындағы деректер түріне байланысты.

Деректер сызықтық болған кезде сызықтық регрессия қолданылады. Деректер сызықты еместігін көрсетсе, қаптау әдісі жақсырақ жұмыс істейді. Деректерді коммерциялық мақсаттарда бағалау немесе түсіндіру қажет болса, біз шешім ағаштарын немесе SVM пайдалана аламыз.

Деректер жинағы фотосуреттерді, бейнелерді және аудионы қамтитын болса, нейрондық желілер дәл жауап алу үшін пайдалы болуы мүмкін.

Белгілі бір жағдайға немесе деректер жинауға арналған алгоритмді таңдауды бір ғана өлшем бойынша жасауға болмайды.

Ең жақсы сәйкестендіру әдісін әзірлеу мақсатында біз алдымен деректерді зерттеу деректерін талдау (EDA) арқылы деректерді тексеруіміз және деректер жиынтығын пайдалану мақсатын түсінуіміз керек.

5. Ковариация мен корреляция қалай ерекшеленеді?

Коварианс екі айнымалының бір-бірімен қалай қосылғанын және екіншісінің өзгеруіне жауап ретінде біреуінің қалай өзгеретінін бағалайды.

Нәтиже оң болса, ол айнымалылар арасында тікелей байланыстың бар екенін және басқа барлық шарттар тұрақты болып қалады деп есептей отырып, негізгі айнымалының ұлғаюы немесе азаюы арқылы біреуі көтерілетінін немесе азаятынын көрсетеді.

Корреляция екі кездейсоқ шама арасындағы байланысты өлшейді және тек үш ерекше мәнге ие: 1, 0 және -1.

6. Машиналық оқытуда кластерлеу нені білдіреді?

Деректер нүктелерін біріктіретін бақылаусыз оқыту әдістері кластерлеу деп аталады. Деректер нүктелерінің жиынтығымен кластерлеу әдісін қолдануға болады.

Осы стратегияны пайдаланып, барлық деректер нүктелерін функцияларына сәйкес топтауға болады.

Бір санатқа жататын деректер нүктелерінің ерекшеліктері мен сапалары ұқсас, ал бөлек топтарға жататын деректер нүктелері әртүрлі.

Бұл әдіс статистикалық деректерді талдау үшін пайдаланылуы мүмкін.

7. Машиналық оқытудың алгоритмі қандай?

Сізде осы сұрақ бойынша өзіңіздің қалауларыңызды және бірегей дарындарыңызды, сондай-ақ көптеген машиналық оқыту әдістері туралы жан-жақты біліміңізді көрсету мүмкіндігіңіз бар.

Мұнда ойлануға болатын бірнеше типтік машиналық оқыту алгоритмдері берілген:

Сызықтық регрессия
Логистикалық регрессия
Наив Байес
Ағаш шешімі
K білдіреді
Кездейсоқ орман алгоритмі
K-ең жақын көрші (KNN)

8. Машиналық оқытудағы сызықтық регрессия: бұл не?

Бақыланатын машиналық оқыту алгоритмі сызықтық регрессия болып табылады.

Ол тәуелді және тәуелсіз айнымалылар арасындағы сызықтық байланысты анықтау үшін болжамды талдауда қолданылады.

Сызықтық регрессия теңдеуі келесідей:

Y = A + BX

мұнда:

Кіріс немесе тәуелсіз айнымалы X деп аталады.
Тәуелді немесе шығыс айнымалы - Y.
Х коэффициенті b, ал кесіндісі а.

9. KNN мен k-орташа кластерлеудің айырмашылығын сипаттаңыз.

Негізгі айырмашылық мынада: KNN (жіктеу әдісі, бақыланатын оқыту) таңбаланған нүктелерді қажет етеді, ал k-орталары қажет емес (кластерлеу алгоритмі, бақылаусыз оқыту).

Белгіленген деректерді K-En Nearest Neighbors көмегімен белгіленбеген нүктеге жіктеуге болады. K-кластерлеу таңбаланбаған нүктелерді топтастыруды үйрену үшін нүктелер арасындағы орташа қашықтықты пайдаланады.

10. «Таңдаудың бұрмалануы» сіз үшін нені білдіреді?

Эксперименттің іріктеу кезеңіндегі ауытқу статистикалық дәлсіздікке байланысты.

Дәлсіздіктің нәтижесінде эксперименттегі басқа топтарға қарағанда бір үлгі тобы жиі таңдалады.

Егер таңдаудағы қиғаштық мойындалмаса, бұл дұрыс емес қорытындыға әкелуі мүмкін.

11. Бэйс теоремасы дегеніміз не?

Басқа ықтималдықтарды білгенде, біз Байес теоремасын пайдаланып ықтималдықты анықтай аламыз. Ол басқаша айтқанда, алдыңғы ақпаратқа негізделген оқиғаның кейінгі ықтималдығын ұсынады.

Шартты ықтималдықтарды бағалаудың дұрыс әдісі осы теоремада берілген.

Классификациялық болжамды модельдеу мәселелерін әзірлеу және үлгіні оқытуға сәйкестендіру кезінде машиналық оқытудағы деректер жиынтығы, Байес теоремасы қолданылады (яғни Naive Bayes, Bayes Optimal Classifier).

12. Машиналық оқыту үлгісінде «оқу жинағы» және «тест жинағы» дегеніміз не?

Жаттығулар жинағы:

Тренинг жинағы талдау және оқу үшін үлгіге жіберілетін даналардан тұрады.
Бұл үлгіні үйрету үшін пайдаланылатын белгіленген деректер.
Әдетте, жалпы деректердің 70% оқу деректер жинағы ретінде пайдаланылады.

Сынақ жинағы:

Сынақ жинағы модель гипотезасын құру дәлдігін бағалау үшін пайдаланылады.
Белгіленген деректерсіз сынақтан өткіземіз, содан кейін нәтижелерді растау үшін белгілерді пайдаланамыз.
Қалған 30% сынақ деректер жинағы ретінде пайдаланылады.

13. Машиналық оқытудағы гипотеза дегеніміз не?

Machine Learning енгізуді шығысқа байланыстыратын берілген функцияны жақсы түсіну үшін бар деректер жиынын пайдалануға мүмкіндік береді. Бұл функция жуықтауы ретінде белгілі.

Бұл жағдайда берілген жағдайға негізделген барлық болжамды бақылауларды ең жақсы жолмен тасымалдау үшін белгісіз мақсатты функция үшін жуықтауды қолдану керек.

Машиналық оқытуда гипотеза мақсатты функцияны бағалауға және сәйкес енгізуден шығаруға салыстыруды аяқтауға көмектесетін модель болып табылады.

Алгоритмдерді таңдау және жобалау модель арқылы ұсынылуы мүмкін ықтимал гипотезалардың кеңістігін анықтауға мүмкіндік береді.

Бір гипотеза үшін кіші әріп h (h) пайдаланылады, бірақ бас әріп h (H) ізделетін барлық гипотеза кеңістігі үшін пайдаланылады. Біз бұл белгілерді қысқаша қарастырамыз:

Гипотеза (h) - кіріс пен шығысты салыстыруды жеңілдететін, кейіннен бағалау және болжау үшін пайдалануға болатын нақты модель.
Гипотезалар жинағы (H) - кірістерді шығыстарға салыстыру үшін пайдалануға болатын гипотезалардың іздеуге болатын кеңістігі. Мәселе жақтауы, үлгі және үлгі конфигурациясы жалпы шектеулердің бірнеше мысалдары болып табылады.

14. Машиналық оқытуды шамадан тыс орнату нені білдіреді және оны қалай болдырмауға болады?

Құрылғы жеткіліксіз деректер жиынынан үйренуге әрекет жасағанда, шамадан тыс орнату орын алады.

Нәтижесінде артық орнату деректер көлемімен кері корреляцияланады. Кросс-тексеру тәсілі шағын деректер жиыны үшін артық сәйкестендіруді болдырмауға мүмкіндік береді. Бұл әдісте деректер жинағы екі бөлікке бөлінеді.

Тестілеу мен оқытуға арналған деректер жинағы осы екі бөліктен тұрады. Жаттығу деректер жинағы үлгі жасау үшін пайдаланылады, ал тестілеу деректер жинағы әртүрлі кірістерді пайдаланып үлгіні бағалау үшін пайдаланылады.

Бұл шамадан тыс қонудың алдын алуға болады.

15. Naive Bayes классификаторлары дегеніміз не?

Әртүрлі жіктеу әдістері Naive Bayes классификаторларын құрайды. Бұл классификаторлар деп аталатын алгоритмдер жиынтығының барлығы бірдей негізгі идеяда жұмыс істейді.

Аңғал Бейс классификаторлары жасаған болжам бір функцияның болуы немесе болмауы басқа мүмкіндіктің бар немесе жоқтығына ешқандай қатысы жоқ.

Басқаша айтқанда, мұны біз «аңғал» деп атаймыз, өйткені ол деректер жиынының әрбір төлсипаты бірдей маңызды және тәуелсіз деген болжам жасайды.

Жіктеу аңғал Bayes классификаторлары арқылы жүзеге асырылады. Оларды пайдалану оңай және тәуелсіздік алғышарттары ақиқат болғанда күрделі болжаушыларға қарағанда жақсы нәтиже береді.

Олар мәтінді талдауда, спамды сүзгілеуде және ұсыныстар жүйесінде қолданылады.

16. Шығын функциялары мен шығын функциялары нені білдіреді?

«Жоғалту функциясы» тіркесі деректердің бір бөлігі ғана ескерілгенде жоғалтуды есептеу процесін білдіреді.

Керісінше, біз көптеген деректер үшін қателердің жалпы санын анықтау үшін шығын функциясын қолданамыз. Ешқандай маңызды айырмашылық жоқ.

Басқаша айтқанда, шығындар функциялары барлық оқу деректер жинағы үшін айырмашылықты біріктіретін болса, жоғалту функциялары бір жазба үшін нақты және болжамды мәндер арасындағы айырмашылықты түсіруге арналған.

17. Генеративті модельдің дискриминативті модельден айырмашылығы неде?

Дискриминациялық модель бірнеше деректер санаттары арасындағы айырмашылықтарды үйренеді. Генеративті модель әртүрлі деректер түрлерін таңдайды.

Жіктеу мәселелері бойынша дискриминациялық модельдер көбінесе басқа модельдерден асып түседі.

18. I және II типті қателер арасындағы өзгерістерді сипаттаңыз.

Жалған позитивтер I типті қателер санатына жатады, ал жалған негативтер II типті қателерге жатады (шынында болған кезде ештеңе болған жоқ деп мәлімдейді).

19. Машиналық оқытуда ансамбльді оқыту әдісі дегеніміз не?

Ансамбльдік оқыту деп аталатын әдіс анағұрлым күшті үлгілерді шығару үшін көптеген машиналық оқыту үлгілерін араластырады.

Модель әртүрлі себептерге байланысты өзгеруі мүмкін. Бірнеше себептер:

Әртүрлі популяциялар
Әртүрлі гипотезалар
Әртүрлі модельдеу әдістері

Модельдің оқу және сынақ деректерін пайдалану кезінде мәселеге тап боламыз. Қиындық, дисперсия және азайтылмайтын қателік бұл қатенің мүмкін түрлері болып табылады.

Енді біз модельдегі қиғаштық пен дисперсия арасындағы тепе-теңдікті қиғаштық-дисперсиялық айырбас деп атаймыз және ол әрқашан болуы керек. Бұл айырбастау ансамбльдік оқытуды пайдалану арқылы жүзеге асырылады.

Әртүрлі ансамбльдік тәсілдер бар болса да, көптеген модельдерді біріктірудің екі жалпы стратегиясы бар:

Қаптау деп аталатын жергілікті әдіс қосымша жаттығу жиынтықтарын жасау үшін оқу жинағын пайдаланады.
Күшейту, күрделірек әдіс: Қаптау сияқты, күшейту жаттығулар жиынтығы үшін тамаша салмақ формуласын табу үшін қолданылады.

20. Параметрлік модельдер дегеніміз не? Мысал келтіріңіз.

Параметрлік үлгілерде параметрлердің шектеулі саны бар. Деректерді болжау үшін үлгінің параметрлерін білу қажет.

Төменде типтік мысалдар берілген: логистикалық регрессия, сызықтық регрессия және сызықтық SVM. Параметрлік емес модельдер икемді, өйткені оларда параметрлердің шектеусіз саны болуы мүмкін.

Модельдің параметрлері және бақыланатын деректердің күйі деректерді болжау үшін қажет. Міне, кейбір типтік мысалдар: тақырып үлгілері, шешім ағаштары және k-ең жақын көршілер.

21. Бірлескен сүзгілеуді сипаттаңыз. Мазмұнға негізделген сүзу сияқты?

Арнайы мазмұн ұсыныстарын жасаудың сыналған және шынайы әдісі бірлескен сүзу болып табылады.

Бірлескен сүзгілеу деп аталатын ұсыныстар жүйесінің нысаны пайдаланушы қалауларын ортақ мүдделермен теңестіру арқылы жаңа материалды болжайды.

Пайдаланушы қалаулары мазмұнға негізделген кеңес беру жүйелері қарастыратын жалғыз нәрсе. Пайдаланушының алдын ала таңдауларына байланысты жаңа ұсыныстар сәйкес материалдан беріледі.

22. Уақыт қатары дегенді қалай түсінесіз?

Уақыт қатары - өсу ретімен сандар жиыны. Алдын ала анықталған уақыт кезеңінде ол таңдалған деректер нүктелерінің қозғалысын бақылайды және деректер нүктелерін мерзімді түрде түсіреді.

Уақыт қатарлары үшін минималды немесе максималды уақыт енгізуі жоқ.

Уақыт қатарларын талдаушылар өздерінің бірегей талаптарына сәйкес деректерді талдау үшін жиі пайдаланады.

23. Gradient Boosting және Random Forest алгоритмдері арасындағы вариацияларды сипаттаңыз.

Кездейсоқ орман:

Шешім ағаштарының үлкен саны соңында біріктірілген және кездейсоқ ормандар ретінде белгілі.
Градиентті күшейту әрбір ағашты басқалардан тәуелсіз өндірсе, кездейсоқ орман әр ағашты бір-бірден салады.
Көп сынып объектіні анықтау кездейсоқ ормандармен жақсы жұмыс істейді.

Градиентті күшейту:

Кездейсоқ ормандар процестің соңында шешім ағаштарына қосылса, Gradient Boosting Machines оларды басынан біріктіреді.
Параметрлер сәйкес реттелсе, градиентті күшейту нәтижелер бойынша кездейсоқ ормандардан асып түседі, бірақ деректер жинағында шектен тыс мәндер, ауытқулар немесе шу көп болса, бұл ақылды таңдау емес, себебі ол модельдің шамадан тыс сәйкестігін тудыруы мүмкін.
Теңгерімсіз деректер болған кезде, нақты уақыттағы тәуекелді бағалау сияқты, градиентті күшейту жақсы нәтиже береді.

24. Шатасу матрицасы не үшін қажет? Бұл не?

Шатасу матрицасы ретінде белгілі кесте, кейде қателік матрицасы ретінде белгілі, нақты мәндері белгілі сынақ деректерінің жиынында жіктеу моделінің немесе жіктеуіштің қаншалықты жақсы орындайтынын көрсету үшін кеңінен қолданылады.

Бұл модель немесе алгоритм қалай орындалатынын көруге мүмкіндік береді. Бұл әртүрлі курстар арасындағы түсінбеушіліктерді анықтауды жеңілдетеді.

Ол модельдің немесе алгоритмнің қаншалықты жақсы орындалғанын бағалау әдісі ретінде қызмет етеді.

Жіктеу моделінің болжамдары шатасу матрицасына жинақталады. Әрбір сынып белгісінің санау мәндері дұрыс және қате болжамдардың жалпы санын бөлу үшін пайдаланылды.

Ол классификатор жасаған ақаулар, сондай-ақ классификаторлар тудырған қателердің әртүрлі түрлері туралы мәліметтерді береді.

25. Принципті компоненттік талдау дегеніміз не?

Бір-бірімен корреляцияланған айнымалылар санын азайту арқылы мақсат деректер жинағының өлшемділігін азайту болып табылады. Бірақ әртүрлілікті мүмкіндігінше сақтау маңызды.

Айнымалылар негізгі құрамдас бөліктер деп аталатын мүлдем жаңа айнымалылар жиынына өзгертіледі.

Бұл ДК ортогональды болып табылады, өйткені олар коварианттық матрицаның меншікті векторлары болып табылады.

26. Неліктен құрамдастардың айналуы PCA (негізгі құрамдас талдау) үшін соншалықты маңызды?

Айналдыру PCA-да өте маңызды, себебі ол әрбір компонентпен алынған дисперсиялар арасындағы бөлуді оңтайландырады, құрамдас интерпретацияны жеңілдетеді.

Құрамдас бөліктер бұрылмаса, құрамдас өзгерістерді білдіру үшін кеңейтілген құрамдастарды талап етеміз.

27. Регуляризация мен нормалау бір-бірінен қалай ерекшеленеді?

Нормалдау:

Қалыпқа келтіру кезінде деректер өзгертіледі. Деректерді қалыпқа келтіру керек, егер оның масштабтары айтарлықтай өзгеше болса, әсіресе төменнен жоғарыға дейін. Негізгі статистиканың барлығы үйлесімді болатындай әрбір бағанды реттеңіз.

Дәлдіктің жоғалмауын қамтамасыз ету үшін бұл пайдалы болуы мүмкін. Шуды елемеу кезінде сигналды анықтау модельдік оқытудың мақсаттарының бірі болып табылады.

Қатені азайту үшін модельге толық бақылау берілсе, артық орнату мүмкіндігі бар.

Регуляризация:

Регуляризацияда болжау функциясы өзгертіледі. Бұл реттеу арқылы белгілі бір бақылауға жатады, бұл күрделі функцияларға қарағанда қарапайым орнату функцияларын қолайлы етеді.

28. Нормалау мен стандарттау бір-бірінен несімен ерекшеленеді?

Функцияларды масштабтаудың ең көп қолданылатын екі әдісі - нормалау және стандарттау.

Нормалдау:

Деректерді [0,1] диапазонға сәйкестендіру үшін қайта масштабтау қалыпқа келтіру ретінде белгілі.
Барлық параметрлер бірдей оң шкалаға ие болғанда, қалыпқа келтіру пайдалы, бірақ деректер жиынының шектен тыс мәндері жоғалады.

Регуляризация:

Деректер стандарттау процесінің бөлігі ретінде орташа 0 және стандартты ауытқу 1 болатындай масштабталады (бірлік дисперсия)

29. «Ауыспалы инфляция факторы» нақты нені білдіреді?

Модель дисперсиясының тек бір тәуелсіз айнымалысы бар модель дисперсиясына қатынасы вариациялық инфляция коэффициенті (VIF) деп аталады.

VIF бірнеше регрессиялық айнымалылар жиынындағы мультиколлинеарлық мөлшерін бағалайды.

Модельдің дисперсиясы (VIF) Бір тәуелсіз айнымалысы бар модель

30. Жаттығу жиынының көлеміне қарай классификаторды қалай таңдайсыз?

Жоғары бейімділік, төмен дисперсия үлгісі қысқа жаттығулар жиынтығы үшін жақсырақ жұмыс істейді, өйткені шамадан тыс орнату ықтималдығы аз. Наив Бэйс - бір мысал.

Үлкен оқу жиыны үшін күрделірек өзара әрекеттесулерді көрсету үшін төмен ауытқуы және жоғары дисперсиясы бар үлгіні таңдауға болады. Логистикалық регрессия жақсы мысал болып табылады.

31. Машиналық оқытудағы қандай алгоритм «жалқау оқушы» деп аталады және неліктен?

Жалқау оқушы, KNN - машиналық оқыту алгоритмі. K-NN жаттығу деректерінен кез келген машинадан үйренген мәндерді немесе айнымалы мәндерді үйренудің орнына жіктеуді қалаған сайын қашықтықты динамикалық түрде есептейтіндіктен, ол жаттығу деректер жинағын есте сақтайды.

Бұл K-NN-ді жалқау оқушы етеді.

32. ROC қисығы және AUC дегеніміз не?

Барлық шектерде жіктеу моделінің өнімділігі графикалық түрде ROC қисығымен көрсетіледі. Оның шынайы оң мөлшерлемесі және жалған оң мөлшерлеме критерийлері бар.

Қарапайым тілмен айтқанда, ROC қисығының астындағы аудан AUC (ROC қисығы астындағы аумақ) деп аталады. ROC қисығының екі өлшемді ауданы (0,0) мен AUC (1,1) өлшенеді. Екілік классификация үлгілерін бағалау үшін ол өнімділік статистикасы ретінде пайдаланылады.

33. Гиперпараметрлер дегеніміз не? Оларды модель параметрлерінен ерекше ететін не?

Модельдің ішкі айнымалысы модель параметрі ретінде белгілі. Жаттығу деректерін пайдалану арқылы параметрдің мәні жуықтап алынады.

Үлгіге белгісіз, гиперпараметр айнымалы болып табылады. Мәнді деректерден анықтау мүмкін емес, сондықтан олар үлгі параметрлерін есептеу үшін жиі пайдаланылады.

34. F1 Ұпай, еске түсіру және дәлдік нені білдіреді?

Шатасу өлшемі классификация үлгісінің тиімділігін өлшеу үшін қолданылатын метрика болып табылады. Шатасу метрикасын жақсырақ түсіндіру үшін келесі сөз тіркестерін пайдалануға болады:

TP: Шынайы оң мәндер – бұл дұрыс болжанған оң мәндер. Ол жобаланған сынып пен нақты сыныптың мәндерінің екеуі де оң екенін көрсетеді.

TN: Шынайы теріс мәндер - бұл дәл болжаған қолайсыз мәндер. Ол нақты сыныптың да, күтілетін сыныптың да теріс екенін көрсетеді.

Бұл мәндер — жалған позитивтер және жалған теріс мәндер — сіздің нақты сыныпыңыз күтілетін сыныптан өзгеше болған кезде пайда болады.

Енді,

Шынайы оң жылдамдықтың (TP) нақты сыныпта жасалған барлық бақылауларға қатынасы еске түсіру деп аталады, сонымен қатар сезімталдық деп те аталады.

Қайта шақыру TP/(TP+FN).

Дәлдік - модель шынымен болжайтын позитивті мәндердің санын оның нақты болжайтын дұрыс позитивтердің санын салыстыратын оң болжамды мәннің өлшемі.

Дәлдік TP/(TP + FP)

Түсінуге болатын ең оңай өнімділік көрсеткіші дәлдік болып табылады, ол дұрыс болжанған бақылаулардың барлық бақылауларға пропорциясы ғана.

Дәлдік (TP+TN)/(TP+FP+FN+TN) тең.

Дәлдік және қайта шақыру F1 ұпайын беру үшін өлшенеді және орташаланады. Нәтижесінде бұл балл жалған позитивтерді де, жалған теріс мәндерді де қарастырады.

F1 жиі дәлдікке қарағанда құндырақ болады, әсіресе егер сізде тең емес класс үлестірімі болса, тіпті интуитивті түрде түсіну дәлдік сияқты оңай болмаса да.

Ең жақсы дәлдікке жалған позитивтер мен жалған негативтердің құны салыстырмалы болған кезде қол жеткізіледі. Жалған позитивтерге және жалған теріс мәндерге байланысты шығындар айтарлықтай ерекшеленетін болса, Дәлдік пен Еске алуды қосқан жөн.

35. Кросс-валидация дегеніміз не?

Машиналық оқытудағы кросс-валидация деп аталатын статистикалық қайта іріктеу тәсілі бірнеше айналымдар бойынша машиналық оқыту алгоритмін үйрету және бағалау үшін бірнеше деректер жиынын пайдаланады.

Модельді үйрету үшін пайдаланылмаған деректердің жаңа пакеті модель оны қаншалықты жақсы болжайтынын көру үшін кросс-тексеру арқылы тексеріледі. Кросс-валидация арқылы деректердің шамадан тыс сәйкестендірілуіне жол берілмейді.

K-Fold Ең жиі қолданылатын қайта үлгілеу әдісі бүкіл деректер жинағын бірдей өлшемдегі K жиындарына бөледі. Ол кросс-валидация деп аталады.

36. Модельіңіздің айтарлықтай ауытқуы бар екенін анықтадыңыз делік. Сіздің ойыңызша, бұл жағдайды шешу үшін қандай алгоритм ең қолайлы?

Жоғары өзгергіштікті басқару

Біз үлкен өзгерістері бар мәселелер үшін қаптау техникасын қолдануымыз керек.

Кездейсоқ деректерді қайталап іріктеу деректерді ішкі топтарға бөлу үшін қаптау алгоритмі арқылы пайдаланылады. Деректер бөлінгеннен кейін біз кездейсоқ деректерді және ережелерді жасау үшін арнайы оқыту процедурасын пайдалана аламыз.

Осыдан кейін сауалнаманы модель болжамдарын біріктіру үшін пайдалануға болады.

37. Ридж регрессиясының Лассо регрессиясынан айырмашылығы неде?

Кеңінен қолданылатын екі регуляризация әдісі - Lasso (L1 деп те аталады) және Ridge (кейде L2 деп аталады) регрессиясы. Олар деректердің шамадан тыс толтырылуын болдырмау үшін қолданылады.

Ең жақсы шешімді табу және күрделілікті азайту үшін бұл әдістер коэффициенттерді жазалау үшін қолданылады. Коэффициенттердің абсолютті мәндерінің жалпы сомасын жазалау арқылы Lasso регрессиясы жұмыс істейді.

Ridge немесе L2 регрессиясындағы айыппұл функциясы коэффициенттердің квадраттарының қосындысынан алынады.

38. Қайсысы маңыздырақ: үлгі өнімділігі немесе үлгі дәлдігі? Қайсысы және неге оны ұнатасыз?

Бұл алдамшы сұрақ, сондықтан алдымен Үлгі өнімділігінің не екенін түсіну керек. Егер өнімділік жылдамдық ретінде анықталса, онда ол қолданба түріне сүйенеді; нақты уақыттағы жағдайды қамтитын кез келген қолданба маңызды құрамдас ретінде жоғары жылдамдықты қажет етеді.

Мысалы, егер Сұрау нәтижелерінің келуі тым ұзақ уақыт алса, ең жақсы іздеу нәтижелерінің құндылығы төмендейді.

Егер өнімділік дәлдік пен еске түсіруді дәлдіктен жоғары қою керектігінің негіздемесі ретінде пайдаланылса, теңгерімсіз кез келген деректер жиыны үшін іскерлік жағдайды көрсетудегі дәлдіктен гөрі F1 ұпайы пайдалырақ болады.

39. Теңсіздіктері бар деректер жинағын қалай басқар едіңіз?

Теңгерімсіз деректер жинағы іріктеу әдістерінен пайда көре алады. Сынама алу аз немесе артық үлгіде жасалуы мүмкін.

Іріктеу астында азшылық класына сәйкес келу үшін көпшілік класының өлшемін кішірейтуге мүмкіндік береді, бұл сақтау және орындау уақытына қатысты жылдамдықты арттыруға көмектеседі, бірақ құнды деректердің жоғалуына әкелуі мүмкін.

Шамадан тыс іріктеуден туындаған ақпарат жоғалу мәселесін шешу үшін біз азшылық класының үлгісін толықтырамыз; дегенмен, бұл бізді шамадан тыс мәселелерге душар етеді.

Қосымша стратегияларға мыналар жатады:

Кластерге негізделген іріктеу - азшылық және көпшілік сынып даналары осы жағдайда K-орталарын кластерлеу әдісіне жеке-жеке бағынады. Бұл деректер жиынының кластерлерін табу үшін жасалады. Содан кейін әрбір кластер барлық сыныптардың өлшемі бірдей болатындай және сынып ішіндегі барлық кластерлерде даналардың бірдей саны болатындай іріктеледі.
SMOTE: Синтетикалық азшылықтарды шамадан тыс іріктеу әдісі- Мысал ретінде азшылық класындағы деректердің бір бөлігі пайдаланылады, содан кейін онымен салыстырылатын қосымша жасанды даналар жасалады және бастапқы деректер жиынына қосылады. Бұл әдіс сандық деректер нүктелерімен жақсы жұмыс істейді.

40. Боостинг пен қаптауды қалай ажыратуға болады?

Ensemble Techniques-тің қаптау және күшейту деп аталатын нұсқалары бар.

Қаптау-

Жоғары вариациясы бар алгоритмдер үшін қаптау дисперсияны азайту үшін қолданылатын әдіс болып табылады. Бұзушылыққа бейім классификаторлардың бір тобы шешім ағашының отбасы болып табылады.

Шешім ағаштары оқытылатын деректер түрі олардың өнімділігіне айтарлықтай әсер етеді. Осыған байланысты, тіпті өте жоғары дәлдікпен, нәтижелерді жалпылау кейде оларда алу әлдеқайда қиын.

Шешім ағаштарының оқу деректері өзгертілсе, нәтижелер айтарлықтай өзгереді.

Нәтижесінде қаптау пайдаланылады, онда көптеген шешім ағаштары жасалады, олардың әрқайсысы бастапқы деректер үлгісін пайдалана отырып оқытылады және түпкілікті нәтиже барлық осы әртүрлі модельдердің орташа мәні болып табылады.

Көтеру:

Күшейту - n-әлсіз жіктеуіш жүйесімен болжау жасау әдісі, онда әрбір әлсіз жіктеуіш өзінің күштірек жіктеуіштерінің кемшіліктерін толтырады. Берілген деректер жиынында нашар жұмыс істейтін классификаторды «әлсіз классификатор» деп атаймыз.

Күшейтудің алгоритм емес, процесс екені анық. Логистикалық регрессия және таяз шешім ағаштары әлсіз жіктеуіштердің жалпы мысалдары болып табылады.

Adaboost, Gradient Boosting және XGBoost - ең танымал екі күшейту алгоритмі, дегенмен тағы да көп.

41. Индуктивті және дедуктивті оқытудың айырмашылығын түсіндіріңіз.

Бақыланатын мысалдар жиынтығынан мысал арқылы үйрену кезінде модель жалпыланған қорытындыға келу үшін индуктивті оқытуды пайдаланады. Екінші жағынан, дедуктивті оқыту арқылы модель өзінікін қалыптастырмас бұрын нәтижені пайдаланады.

Индуктивті оқыту – бақылаудан қорытынды шығару процесі.

Дедуктивті оқыту – қорытындыға негізделген бақылауларды құру процесі.

қорытынды

Құттықтаймыз! Бұл машиналық оқытуға арналған ең жақсы 40 және одан жоғары сұхбат сұрақтары, сіз қазір жауаптарын білесіз. Деректер туралы ғылым және жасанды интеллект технологиялар дамыған сайын кәсіптер сұранысқа ие болады.

Осы озық технологиялар туралы білімін жаңартып, біліктілігін арттыратын үміткерлер бәсекеге қабілетті жалақысы бар кең ауқымды жұмысқа орналасу мүмкіндіктерін таба алады.

Сіз сұхбаттарға жауап беруді жалғастыра аласыз, өйткені сіз машиналық оқытудың кейбір кең таралған сұхбат сұрақтарына қалай жауап беру керектігін жақсы түсіндіңіз.

Мақсаттарыңызға байланысты келесі қадамды орындаңыз. Хашдоркқа бару арқылы сұхбатқа дайындалыңыз Сұхбат сериясы.

Ең жақсы 40+ Machine Learning сұхбат сұрақтары