Мыкты 40+ Machine Learning интервью суроолору (2024)

Мазмуну[Жашыруу][Көрсөтүү]

1. Машина үйрөнүү, жасалма интеллект жана терең үйрөнүү ортосундагы айырмачылыктарды түшүндүрүңүз.
2. Машина үйрөнүүнүн ар кандай түрлөрүн сүрөттөп бериңиз.
3. Дисперсияга каршы келишпестик деген эмне?
4. Машина үйрөнүү алгоритмдери убакыттын өтүшү менен олуттуу өзгөрдү. Берилген маалыматтар топтомун колдонуу үчүн туура алгоритмди кантип тандоо керек?
5. Ковариация жана корреляция кандайча айырмаланат?
6. Машина үйрөнүүдө кластерлөө эмнени билдирет?
7. Машина үйрөнүү алгоритми кайсы?
8. Машинаны үйрөнүүдө сызыктуу регрессия: бул эмне?
9. KNN менен k-кластерлөөнүн ортосундагы айырмачылыктарды сүрөттөп бергиле.
10. Сиз үчүн “тандоодон баш тартуу” эмнени билдирет?
11. Байес теоремасы так эмне?
12. Машина үйрөнүү моделинде "окутуу топтому" жана "сыноо комплекси" деген эмне?
13. Машина үйрөнүүдөгү гипотеза деген эмне?
14. Машина үйрөнүүнүн ашыкча жабдылышы эмнени билдирет жана аны кантип алдын алууга болот?
15. Naive Bayes классификаторлору кайсылар?
16. Чыгым функциялары жана жоготуу функциялары эмнени билдирет?
17. Генеративдик моделди дискриминациялоочу моделден эмнеси менен айырмалайт?
18. I жана II типтеги каталардын ортосундагы вариацияларды сүрөттөп бергиле.
19. Машина үйрөнүүдө ансамблди үйрөнүү техникасы деген эмне?
20. Параметрдик моделдер деген эмне? Мисал келтириңиз.
21. Биргелешип чыпкалоону сүрөттөп бериңиз. Ошондой эле мазмунга негизделген чыпкалоо?
22. Убакыт катарлары деп так эмнени айтасыз?
23. Gradient Boosting жана Random Forest алгоритмдеринин ортосундагы вариацияларды сүрөттөп бергиле.
24. Башаламандык матрицасы эмне үчүн керек? Бул эмне?
25. Принциптүү компоненттик анализ деген эмне?
26. Эмне үчүн компоненттердин айлануусу PCA (негизги компоненттердин анализи) үчүн абдан маанилүү?
27. Регуляризация жана нормалдаштыруу бири-биринен кандайча айырмаланат?
28. Нормалдаштыруу жана стандартташтыруу бири-биринен эмнеси менен айырмаланат?
29. «Инфляциянын дисперсия фактору» так эмнени билдирет?
30. Тренинг топтомунун көлөмүнө жараша классификаторду кантип тандайсыз?
31. Машина үйрөнүүдө кандай алгоритм "жалкоо окуучу" деп аталат жана эмне үчүн?
32. ROC Curve жана AUC деген эмне?
33. Гиперпараметрлер деген эмне? Аларды моделдин параметрлеринен өзгөчөлүгү эмнеси менен айырмаланат?
34. F1 Упай, кайра чакырып алуу жана тактык деген эмнени билдирет?
35. Кайчылаш валидация деген эмне?
36. Келгиле, сиз моделиңизде олуттуу дисперсия бар экенин таптыңыз дейли. Кандай алгоритм, сиздин оюңузча, бул кырдаалды чечүүгө эң ылайыктуу?
37. Ридж регрессиясы Лассо регрессиясынан эмнеси менен айырмаланат?
38. Кайсынысы маанилүү: моделдин иштеши же моделдин тактыгы? Кайсынысы жана эмне үчүн аны жактырасыз?
39. Теңсиздиктер менен берилиштер топтомун кантип башкармак элеңиз?
40. Боостинг менен капкагын кантип айырмалай аласыз?
41. Индуктивдүү жана дедуктивдүү окутуунун айырмасын түшүндүрүңүз.
жыйынтыктоо

Жеке адамдарга маалымат жана кызматтардын жеткиликтүүлүгүн жогорулатуу үчүн ишканалар жасалма интеллект (AI) жана машина үйрөнүү сыяктуу алдыңкы технологияларды колдонуп жатышат.

Бул технологиялар банк иши, финансы, чекене соода, өндүрүш жана саламаттыкты сактоо сыяктуу ар кандай тармактарда колдонулууда.

AI колдонгон эң көп талап кылынган уюштуруучулук ролдордун бири маалымат илимпоздору, жасалма интеллект инженерлери, машина үйрөнүү инженерлери жана маалымат аналитиктери үчүн.

Бул пост сизди ар кандай жолдор менен алып барат машина үйрөнүү Сиздин идеалдуу жумушуңузду издеп жатканда бериле турган суроолорго даяр болууга жардам берүү үчүн негизгиден татаалга чейинки интервью суроолору.

1. Машина үйрөнүү, жасалма интеллект жана терең үйрөнүү ортосундагы айырмачылыктарды түшүндүрүңүз.

Жасалма интеллект компьютердик системаларга логика жана эрежелер менен адамга окшош интеллектти колдонуу менен тапшырмаларды аткарууга мүмкүндүк берген ар кандай машина үйрөнүү жана терең үйрөнүү ыкмаларын колдонот.

Машиналарды үйрөнүү ар кандай статистиканы жана Deep Learning ыкмаларын колдонот, бул машиналарга алардын мурунку көрсөткүчтөрүнөн үйрөнүүгө жана адамдын көзөмөлүсүз белгилүү бир тапшырмаларды өз алдынча аткарууга шыктандырат.

Deep Learning бул программалык камсыздоого өзүнөн үйрөнүүгө жана үн менен сүрөттү таануу сыяктуу түрдүү коммерциялык функцияларды аткарууга мүмкүндүк берген алгоритмдердин жыйындысы.

Алардын көп катмарлуулугун көрсөткөн системалар нейрон тармактары үйрөнүү үчүн маалыматтардын зор көлөмү терең үйрөнүүгө жөндөмдүү.

2. Машина үйрөнүүнүн ар кандай түрлөрүн сүрөттөп бериңиз.

Машина үйрөнүү жалпысынан үч түрдүү типте бар:

Көзөмөлдөнгөн окутуу: Модель көзөмөлдөнгөн машина үйрөнүүсүндө белгиленген же тарыхый маалыматтарды колдонуу менен болжолдоолорду же өкүмдөрдү түзөт. Маанилүүлүгүн жогорулатуу максатында белгиленүүчү же энбелгиленген маалымат топтомдору энбелгиленген маалыматтар деп аталат.
Көзөмөлсүз окутуу: Бизде көзөмөлсүз окутуу үчүн белгиленген дайындар жок. Кирүүчү маалыматтарда модель үлгүлөрдү, кызыктарды жана корреляцияларды таба алат.
Окууну бекемдөө: Үлгү болот бекемдөө аркылуу үйрөнүү үйрөнүү жана анын мурунку жүрүм-туруму үчүн алган сыйлыктары.

3. Дисперсияга каршы келишпестик деген эмне?

Ашыкча тууралоо - бул моделдин маалыматтарга канчалык деңгээлде туура келгендигинин натыйжасы. Бир тараптуулук сиздин туура эмес же өтө жөнөкөй божомолдордон улам келип чыгат машина менен окутуу алгоритми.

Дисперсия сиздин ML алгоритмиңиздин татаалдыгынан келип чыккан каталарды билдирет, бул машыгуу берилиштериндеги жана ашыкча тууралоодогу чоң даражадагы дисперсияларга сезимталдыкты жаратат.

Дисперсия - бул моделдин киргизүүгө жараша канчалык өзгөрүшү.

Башка сөз менен айтканда, негизги моделдер өтө бир жактуу, бирок туруктуу (аз дисперсия). Ашыкча тууралоо татаал моделдердин көйгөйү болуп саналат, бирок алар моделдин реалдуулугун (төмөн бурмалоо) чагылдырат.

Жогорку вариацияны да, чоң бурмалоону да болтурбоо үчүн, катаны эң жакшы азайтуу үчүн бир тараптуулук менен дисперсиянын ортосундагы соодалашуу зарыл.

4. Машина үйрөнүү алгоритмдери убакыттын өтүшү менен олуттуу өзгөрдү. Берилген маалыматтар топтомун колдонуу үчүн туура алгоритмди кантип тандоо керек?

Колдонулууга тийиш болгон машинаны үйрөнүү техникасы белгилүү бир маалымат топтомундагы маалыматтардын түрүнө гана көз каранды.

Маалыматтар сызыктуу болгондо сызыктуу регрессия колдонулат. Берилиштер сызыктуу эместигин көрсөтсө, пакеттөө ыкмасы жакшыраак иштешмек. Эгерде маалыматтар коммерциялык максатта бааланып же чечмеленсе, биз чечим дарактарын же SVM колдоно алабыз.

Берилиштер топтому сүрөттөрдү, видеолорду жана аудиону камтыса, нейрондук тармактар так жооп алуу үчүн пайдалуу болушу мүмкүн.

Белгилүү бир жагдайга же маалыматтарды чогултууга алгоритмди тандоо бир эле өлчөм боюнча жүргүзүлбөйт.

Эң ылайыктуу ыкмасын иштеп чыгуу максатында, биз адегенде чалгындоо маалыматтарын талдоо (EDA) аркылуу маалыматтарды карап чыгып, маалымат топтомун колдонуу максатын түшүнүшүбүз керек.

5. Ковариация жана корреляция кандайча айырмаланат?

Ковариация эки өзгөрмөнүн бири-бири менен кандай байланышы бар экенин жана бири экинчисинин өзгөрүшүнө жооп катары кандай өзгөрүшү мүмкүн экенин баалайт.

Натыйжа оң болсо, бул өзгөрмөлөрдүн ортосунда түз байланыш бар экенин жана башка бардык шарттар туруктуу бойдон кала берет деп ойлогондо, базалык өзгөрмөнүн көбөйүшү же азайышы менен көтөрүлүп же азайарын көрсөтөт.

Корреляция эки кокустук чоңдуктун ортосундагы байланышты өлчөйт жана үч гана айырмаланган мааниге ээ: 1, 0 жана -1.

6. Машина үйрөнүүдө кластерлөө эмнени билдирет?

Берилиштерди топтоштурган көзөмөлсүз окутуу ыкмалары кластерлөө деп аталат. Маалымат чекиттерин чогултуу менен кластердик техниканы колдонсо болот.

Бул стратегияны колдонуп, бардык маалымат чекиттерин функцияларына жараша топтосоңуз болот.

Бир эле категорияга кирген маалымат чекиттеринин өзгөчөлүктөрү жана сапаттары окшош, ал эми өзүнчө топторго кирген маалымат чекиттери башка.

Бул ыкма статистикалык маалыматтарды талдоо үчүн колдонулушу мүмкүн.

7. Машина үйрөнүү алгоритми кайсы?

Сиз бул суроодо өзүңүздүн артыкчылыктарыңызды жана уникалдуу таланттарыңызды, ошондой эле көптөгөн машина үйрөнүү ыкмалары боюнча ар тараптуу билимиңизди көрсөтүүгө мүмкүнчүлүгүңүз бар.

Бул жерде ойлоно турган бир нече типтүү машина үйрөнүү алгоритмдери бар:

Сызыктуу регрессия
Логистикалык регрессия
Naive Bayes
чечим дарактар
K билдирет
Кокус токой алгоритми
К-эң жакын кошуна (KNN)

8. Машинаны үйрөнүүдө сызыктуу регрессия: бул эмне?

Көзөмөлдөнгөн машина үйрөнүү алгоритми сызыктуу регрессия болуп саналат.

Ал көз каранды жана көз карандысыз өзгөрмөлөр ортосундагы сызыктуу байланышты аныктоо үчүн алдын ала талдоо колдонулат.

Сызыктуу регрессиянын теңдемеси төмөнкүдөй:

Y = A + BX

мында:

Киргизүү же көз карандысыз өзгөрмө X деп аталат.
көз каранды же чыгуу өзгөрмө Y болуп саналат.
X коэффиценти б, кесилиши а.

9. KNN менен k-кластерлөөнүн ортосундагы айырмачылыктарды сүрөттөп бергиле.

Негизги айырмачылык: KNN (классификация ыкмасы, көзөмөлдөнгөн окутуу) этикеткаланган пункттарды талап кылат, ал эми k-каражаттары жок (кластерлөө алгоритми, көзөмөлсүз окутуу).

Сиз K-Nearest Neighbors аркылуу энбелгиленген маалыматтарды белгиленбеген чекитке классификациялай аласыз. K-кластерлөө белгиси жок пункттарды кантип топтоого үйрөнүү үчүн пункттардын ортосундагы орточо аралыкты колдонот.

10. Сиз үчүн “тандоодон баш тартуу” эмнени билдирет?

Эксперименттин тандап алуу фазасындагы бурмалоо статистикалык так эместиктен келип чыгат.

Бир үлгү тобу так эместиктин натыйжасында экспериментте башка топторго караганда көбүрөөк тандалат.

Эгерде тандоонун бир жактуулугу моюнга алынбаса, бул туура эмес корутундуга алып келиши мүмкүн.

11. Байес теоремасы так эмне?

Башка ыктымалдуулуктарды билгенибизде, Байес теоремасын колдонуп, ыктымалдуулукту аныктай алабыз. Ал алдын ала маалыматка негизделген, башкача айтканда, бир окуянын кийинки ыктымалдыгын сунуш кылат.

Бул теорема менен шарттуу ыктымалдыктарды баалоонун негиздүү ыкмасы берилген.

Классификацияны болжолдоочу моделдөө маселелерин иштеп чыгууда жана моделди окутууга тууралоодо машина үйрөнүү маалымат топтому, Байес теоремасы колдонулат (б.а. Naive Bayes, Bayes Optimal Classifier).

12. Машина үйрөнүү моделинде "окутуу топтому" жана "сыноо комплекси" деген эмне?

Машыгуу топтому:

Тренинг топтому талдоо жана үйрөнүү үчүн моделге жөнөтүлгөн инстанциялардан турат.
Бул моделди үйрөтүү үчүн колдонула турган белгиленген маалыматтар.
Эреже катары, жалпы маалыматтардын 70% окуу маалымат топтому катары колдонулат.

Сыноо топтому:

Тест топтому моделдин гипотезасын түзүүнүн тактыгын баалоо үчүн колдонулат.
Биз энбелгиленген дайындарсыз сынап, андан соң натыйжаларды ырастоо үчүн энбелгилерди колдонобуз.
Калган 30% тесттик маалымат топтому катары колдонулат.

13. Машина үйрөнүүдөгү гипотеза деген эмне?

Машиналарды үйрөнүү киргизүүнү чыгаруу менен байланыштырган функцияны жакшыраак түшүнүү үчүн учурдагы маалымат топтомдорун колдонууга мүмкүндүк берет. Бул функциянын жакындоосу деп аталат.

Бул учурда, белгисиз максаттуу функция үчүн болжолдуу бардык байкоолорду берилген кырдаалдын негизинде эң жакшы жол менен өткөрүп берүү үчүн колдонулушу керек.

Машина үйрөнүүдө гипотеза - бул максаттуу функцияны баалоого жана киргизүүдөн чыгарууга тиешелүү карталарды толтурууга жардам берген модель.

Алгоритмдерди тандоо жана долбоорлоо модел менен берилиши мүмкүн болгон гипотезалардын мейкиндигин аныктоого мүмкүндүк берет.

Бир гипотеза үчүн кичинекей h (h) колдонулат, ал эми баш тамга h (H) изделип жаткан бүт гипотеза мейкиндиги үчүн колдонулат. Биз бул белгилерди кыскача карап чыгабыз:

Гипотеза (h) - бул кийинчерээк баалоо жана болжолдоо үчүн колдонулушу мүмкүн болгон чыгарууга киргизүүнүн картасын түзүүнү жеңилдеткен белгилүү бир модель.
Гипотезалар жыйындысы (H) - бул киргизүүлөрдү чыгууларга картага түшүрүү үчүн колдонула турган гипотезалардын изделүүчү мейкиндиги. Проблеманы түзүү, моделди түзүү жана моделдин конфигурациясы жалпы чектөөлөрдүн бир нече мисалы.

14. Машина үйрөнүүнүн ашыкча жабдылышы эмнени билдирет жана аны кантип алдын алууга болот?

Машина жетишсиз маалымат топтомун үйрөнүүгө аракет кылганда, ашыкча тууралоо пайда болот.

Натыйжада, overfitting маалымат көлөмү менен тескери корреляцияланат. Кайчылаш текшерүү ыкмасы кичинекей маалымат топтомдору үчүн ашыкча тууралоодон качууга мүмкүндүк берет. Бул ыкмада маалымат топтому эки бөлүккө бөлүнөт.

Сыноо жана окутуу үчүн маалымат топтому ушул эки бөлүктөн турат. Тренинг маалыматтар топтому моделди түзүү үчүн колдонулат, ал эми тестирлөө маалымат топтому ар кандай киргизүүлөрдү колдонуу менен моделди баалоо үчүн колдонулат.

Бул ашыкча кийүүнүн алдын алуу.

15. Naive Bayes классификаторлору кайсылар?

Ар кандай классификация ыкмалары Naive Bayes классификаторлорун түзөт. Бул классификаторлор деп аталган алгоритмдердин жыйындысы бардыгы бир эле негизги идеянын үстүндө иштешет.

Наив Байес классификаторлору тарабынан жасалган божомол бир өзгөчөлүктүн бар же жок болушу башка бир өзгөчөлүктүн бар же жок экендигине эч кандай тиешеси жок.

Башкача айтканда, муну биз "наив" деп атайбыз, анткени ал ар бир маалымат топтомунун атрибуту бирдей мааниге ээ жана көз карандысыз деп болжолдойт.

Классификация жөнөкөй Байес классификаторлорунун жардамы менен жүргүзүлөт. Аларды колдонуу оңой жана көз карандысыздыктын негизи чын болгондо татаалыраак божомолдоочуларга караганда жакшыраак натыйжаларды берет.

Текстти талдоодо, спамдарды чыпкалоодо жана сунуштоо системаларында алар колдонулат.

16. Чыгым функциялары жана жоготуу функциялары эмнени билдирет?

"Жоготуу функциясы" деген сөз бир гана маалымат эске алынганда, эсептөө жоготуу процессин билдирет.

Тескерисинче, биз көптөгөн маалыматтар үчүн каталардын жалпы суммасын аныктоо үчүн чыгым функциясын колдонобуз. Маанилүү айырмачылык жок.

Башка сөз менен айтканда, чыгымдардын функциялары бүткүл окуу маалымат топтому үчүн айырманы бириктирсе, жоготуу функциялары бир жазуу үчүн иш жүзүндөгү жана болжолдонгон маанилердин ортосундагы айырманы кармоо үчүн иштелип чыккан.

17. Генеративдик моделди дискриминациялоочу моделден эмнеси менен айырмалайт?

Дискриминациялык модель бир нече маалымат категорияларынын ортосундагы айырмачылыктарды үйрөнөт. Генеративдик модель ар кандай маалымат түрлөрүн тандайт.

Классификация маселелери боюнча дискриминациялоочу моделдер көбүнчө башка моделдерден ашып кетет.

18. I жана II типтеги каталардын ортосундагы вариацияларды сүрөттөп бергиле.

Жалган позитивдер I типтеги каталардын категориясына кирет, ал эми жалган негативдер II типтеги каталарга кирет (чынында эч нерсе болгон эмес деп ырастоо).

19. Машина үйрөнүүдө ансамблди үйрөнүү техникасы деген эмне?

Ансамблди үйрөнүү деп аталган техника күчтүүрөөк моделдерди чыгаруу үчүн көптөгөн машина үйрөнүү моделдерин аралаштырат.

Модель ар кандай себептерден улам өзгөрүшү мүмкүн. Бир нече себептери болуп төмөнкүлөр саналат:

Ар кандай калктар
Ар кандай гипотезалар
Ар кандай моделдөө ыкмалары

Моделдин окутуу жана тестирлөө дайындарын колдонууда көйгөйгө туш болобуз. Артыкчылык, дисперсия жана азайтылгыс ката бул катанын мүмкүн болгон түрлөрү.

Эми, биз моделдин бир жактуулугу менен дисперсиясынын ортосундагы тең салмактуулукту бир жактуу дисперсия деп атайбыз жана ал ар дайым болушу керек. Бул соодалоо ансамблдик окутууну колдонуу аркылуу ишке ашат.

Ар кандай ансамблдик ыкмалар бар болсо да, көптөгөн моделдерди бириктирүү үчүн эки жалпы стратегия бар:

Каптоо деп аталган жергиликтүү ыкма кошумча машыгуу топтомдорун өндүрүү үчүн машыгуу топтомун колдонот.
Көтөрүү, татаалыраак техника: Каптоо сыяктуу эле, жогорулатуу машыгуу топтому үчүн идеалдуу салмак формуласын табуу үчүн колдонулат.

20. Параметрдик моделдер деген эмне? Мисал келтириңиз.

Параметрдик моделдерде чектелген сандагы параметрлер бар. Маалыматтарды болжолдоо үчүн моделдин параметрлерин билишиңиз керек.

Төмөндө типтүү мисалдар келтирилген: логистикалык регрессия, сызыктуу регрессия жана сызыктуу SVMs. Параметрдик эмес моделдер ийкемдүү, анткени алар чексиз сандагы параметрлерди камтышы мүмкүн.

Маалыматтарды болжолдоо үчүн моделдин параметрлери жана байкалган маалыматтардын абалы талап кылынат. Бул жерде кээ бир типтүү мисалдар келтирилген: тема моделдери, чечим дарактары жана к-жакынкы кошуналар.

21. Биргелешип чыпкалоону сүрөттөп бериңиз. Ошондой эле мазмунга негизделген чыпкалоо?

Ыңгайлаштырылган мазмун сунуштарын түзүүнүн сыналган жана чыныгы ыкмасы бул биргелешкен чыпкалоо.

Биргелешип чыпкалоо деп аталган рекомендация системасынын формасы колдонуучунун каалоолорун жалпы кызыкчылыктар менен тең салмактоо аркылуу жаңы материалды алдын ала айтат.

Колдонуучунун артыкчылыктары мазмунга негизделген сунуш кылуучу тутумдар эске алган жалгыз нерсе. Колдонуучунун алдын ала тандоолорун эске алуу менен, тиешелүү материалдардан жаңы сунуштар берилет.

22. Убакыт катарлары деп так эмнени айтасыз?

Убакыт сериясы - бул өсүү иретиндеги сандар жыйындысы. Алдын ала белгиленген убакыт аралыгында, ал тандалган маалымат чекиттеринин кыймылын көзөмөлдөйт жана мезгил-мезгили менен маалымат чекиттерин басып турат.

Убакыт сериялары үчүн минималдуу же максималдуу убакыт киргизүү жок.

Убакыт катарлары көбүнчө аналитиктер тарабынан алардын уникалдуу талаптарына ылайык маалыматтарды талдоо үчүн колдонулат.

23. Gradient Boosting жана Random Forest алгоритмдеринин ортосундагы вариацияларды сүрөттөп бергиле.

Кокус токой:

Чечим дарактарынын көп сандагы аягында чогулуп, кокус токойлор деп аталат.
Градиентти жогорулатуу ар бир даракты башкалардан көз карандысыз өстүрсө, кокус токой ар бир даракты бирден курат.
Көп класс объектти аныктоо кокус токойлор менен жакшы иштейт.

Градиентти жогорулатуу:

Кокус токойлор процесстин аягында чечим дарактарына кошулса, Gradient Boosting Machines аларды башынан эле бириктирет.
Параметрлер ылайыктуу түрдө туураланган болсо, градиентти жогорулатуу натыйжалары боюнча кокус токойлордон ашып кетет, бирок маалымат топтомунда көп чектер, аномалиялар же ызы-чуу болсо, бул акылдуу тандоо эмес, анткени ал моделдин ашыкча ыңгайлашуусуна алып келиши мүмкүн.
Тобокелдиктерди реалдуу убакыт режиминде баалоодо, тең салмактуу эмес маалыматтар болгондо, градиентти жогорулатуу жакшы натыйжа берет.

24. Башаламандык матрицасы эмне үчүн керек? Бул эмне?

Башаламандык матрицасы катары белгилүү болгон таблица, кээде ката матрицасы деп да белгилүү, классификация модели же классификатор чыныгы маанилери белгилүү болгон сыноо маалыматтарынын топтомун канчалык жакшы аткарарын көрсөтүү үчүн кеңири колдонулат.

Ал бизге моделдин же алгоритмдин кандай аткарыларын көрүүгө мүмкүнчүлүк берет. Бул ар кандай курстардагы түшүнбөстүктөрдү табууга жардам берет.

Бул моделдин же алгоритмдин канчалык деңгээлде аткарылышын баалоо ыкмасы катары кызмат кылат.

Классификация моделинин божомолдору башаламандык матрицасына топтолот. Ар бир класстын энбелгисинин эсептөө маанилери туура жана туура эмес болжолдоолордун жалпы санын бөлүү үчүн колдонулган.

Ал классификатор тарабынан жасалган каталар, ошондой эле классификаторлордон келип чыккан каталардын ар кандай түрлөрү жөнүндө кеңири маалымат берет.

25. Принциптүү компоненттик анализ деген эмне?

Бири-бири менен байланышта болгон өзгөрмөлөрдүн санын азайтуу менен, максат маалыматтарды чогултуунун өлчөмдүүлүгүн минималдаштыруу болуп саналат. Бирок мүмкүн болушунча көп түрдүүлүктү сактоо маанилүү.

Өзгөрмөлөр негизги компоненттер деп аталган өзгөрмөлөрдүн таптакыр жаңы топтомуна өзгөртүлөт.

Бул ДК ортогоналдык болуп саналат, анткени алар ковариациялык матрицанын өздүк векторлору.

26. Эмне үчүн компоненттердин айлануусу PCA (негизги компоненттердин анализи) үчүн абдан маанилүү?

Айлануу PCAда өтө маанилүү, анткени ал ар бир компонент тарабынан алынган дисперсиялардын ортосундагы бөлүнүүнү оптималдаштырып, компоненттерди чечмелөөнү жөнөкөйлөтөт.

Компоненттер айланбаса, компоненттин вариациясын билдирүү үчүн кеңейтилген компоненттерди талап кылабыз.

27. Регуляризация жана нормалдаштыруу бири-биринен кандайча айырмаланат?

Нормалдаштыруу:

Берилиштер нормалдаштыруу учурунда өзгөртүлөт. Маалыматты нормалдаштырышыңыз керек, эгерде анын масштабы кескин түрдө айырмаланат, айрыкча төмөндөн жогоруга чейин. Негизги статистиканын баары бири-бирине шайкеш келгидей ар бир мамычаны тууралаңыз.

тактык эч кандай жоготуу жок экенин камсыз кылуу үчүн, бул пайдалуу болушу мүмкүн. Сигналдын ызы-чуусуна көңүл бурбай, аны аныктоо моделдик окутуунун максаттарынын бири болуп саналат.

Катаны азайтуу үчүн моделге толук башкаруу берилсе, ашыкча тууралоо мүмкүнчүлүгү бар.

Регуляризация:

Регуляризацияда болжолдоо функциясы өзгөртүлөт. Бул жөндөө аркылуу кандайдыр бир көзөмөлгө алынат, бул татаал функцияларга караганда жөнөкөйлөштүрүүнү жактырат.

28. Нормалдаштыруу жана стандартташтыруу бири-биринен эмнеси менен айырмаланат?

Функцияны масштабдоо үчүн эң кеңири колдонулган эки ыкма - нормалдаштыруу жана стандартташтыруу.

Нормалдаштыруу:

Берилиштерди [0,1] диапазонуна ылайыкташтыруу үчүн кайра масштабдоо нормалдаштыруу деп аталат.
Бардык параметрлер бирдей позитивдүү шкалага ээ болушу керек болгондо, нормалдаштыруу пайдалуу, бирок маалымат топтомунун чеги жоголот.

Регуляризация:

Берилиштер стандартташтыруу процессинин бир бөлүгү катары орточо 0 жана стандарттык четтөө 1 болушу үчүн өзгөртүлгөн (Бирдик дисперсиясы)

29. «Инфляциянын дисперсия фактору» так эмнени билдирет?

Моделдин дисперсиясынын бир гана көз карандысыз өзгөрмөлүү моделдин дисперсиясына катышы вариациялык инфляция фактору (VIF) деп аталат.

VIF бир нече регрессия өзгөрмөлөрүнүн топтомундагы мультиколлинеардуулуктун көлөмүн баалайт.

Моделдин дисперсиясы (VIF) Бир көз карандысыз өзгөрмөлүү вариациялуу модел

30. Тренинг топтомунун көлөмүнө жараша классификаторду кантип тандайсыз?

Кыска көнүгүүлөр топтому үчүн жогорку ийкемдүүлүк, аз дисперсия модели жакшыраак иштейт, анткени ашыкча тууралоо азыраак. Naive Bayes бир мисалы болуп саналат.

Чоң машыгуу топтому үчүн татаалыраак өз ара аракеттенүүнү чагылдыруу үчүн, аз жана жогорку дисперсиясы бар модель артык. Логистикалык регрессия жакшы мисал.

31. Машина үйрөнүүдө кандай алгоритм "жалкоо окуучу" деп аталат жана эмне үчүн?

Жалкоо окуучу, KNN бул машина үйрөнүү алгоритми. K-NN машыгуу маалыматтарынан кандайдыр бир машинадан үйрөнгөн баалуулуктарды же өзгөрмөлөрдү үйрөнүүнүн ордуна классификациялоону каалаган сайын аралыкты динамикалык түрдө эсептеп тургандыктан, ал машыгуу маалымат топтомун жаттап алат.

Бул K-NNди жалкоо окуучу кылат.

32. ROC Curve жана AUC деген эмне?

Классификация моделинин бардык босоголордогу көрсөткүчтөрү графикалык түрдө ROC ийри сызыгы менен көрсөтүлөт. Анын чыныгы оң көрсөткүчү жана жалган оң чен критерийлери бар.

Жөнөкөй сөз менен айтканда, ROC ийри астындагы аймак AUC (ROC ийри сызыгынын астындагы аймак) деп аталат. ROC ийри сызыгынын эки өлчөмдүү аянты (0,0) баштап AUC (1,1) чейин өлчөнөт. бинардык классификация моделдерин баалоо үчүн, ал аткаруу статистикасы катары колдонулат.

33. Гиперпараметрлер деген эмне? Аларды моделдин параметрлеринен өзгөчөлүгү эмнеси менен айырмаланат?

Моделдин ички өзгөрмөсү модель параметри катары белгилүү. Окутуу маалыматтарын колдонуу менен параметрдин мааниси болжолдонот.

Моделге белгисиз, гиперпараметр өзгөрмө болуп саналат. Маани маалыматтардын негизинде аныктоо мүмкүн эмес, ошондуктан алар моделдин параметрлерин эсептөө үчүн көп колдонулат.

34. F1 Упай, кайра чакырып алуу жана тактык деген эмнени билдирет?

Чаташкан өлчөм классификация моделинин натыйжалуулугун өлчөө үчүн колдонулган метрика болуп саналат. Башаламандык көрсөткүчүн жакшыраак түшүндүрүү үчүн төмөнкү сөз айкаштарын колдонсо болот:

TP: Чыныгы позитивдер – бул туура күтүлгөн оң баалуулуктар. Бул болжолдонгон класстын жана чыныгы класстын баалуулуктары экөө тең оң экенин көрсөтүп турат.

Т.Н.: Чыныгы негативдер - бул так болжолдонгон терс маанилер. Бул чыныгы класстын да, күтүлгөн класстын да мааниси терс экенин көрсөтүп турат.

Бул баалуулуктар — жалган позитивдер жана жалган негативдер — сиздин классыңыз күтүлгөн класстан айырмаланганда пайда болот.

Эми,

Чыныгы оң ылдамдыктын (TP) чыныгы класста жүргүзүлгөн бардык байкоолорго болгон катышы кайра чакырып алуу деп аталат, ошондой эле сезгичтик деп аталат.

Чакыруу TP/(TP+FN) болуп саналат.

Тактык - бул модель чындап болжолдогон позитивдердин санын канча туура позитивдерди так болжолдогонуна салыштыруучу оң болжолдоочу маанинин өлчөмү.

Тактык TP/(TP + FP)

Түшүнүүгө эң оңой көрсөткүч - бул тактык, бул туура болжолдонгон байкоолордун бардык байкоолорго болгон пропорциясы.

Тактык (TP+TN)/(TP+FP+FN+TN) барабар.

Тактык жана Recall F1 упайын берүү үчүн салмактанып, орточо алынган. Натыйжада, бул упай жалган позитивдерди да, жалган негативдерди да карайт.

F1 көп учурда тактыкка караганда баалуураак, өзгөчө класстын бөлүштүрүлүшү бирдей эмес болсо, интуитивдик жактан тактык сыяктуу түшүнүү оңой болбосо да.

Эң жакшы тактыкка жалган позитивдүү жана жалган негативдердин баасы салыштырылганда жетишилет. Жалган позитивдер менен жалган негативдер менен байланышкан чыгымдар бир кыйла айырмаланып турса, Тактык менен Recall экөөнү тең камтуу артык.

35. Кайчылаш валидация деген эмне?

Машинаны үйрөнүүдө кайчылаш валидация деп аталган статистикалык кайра үлгүлөө ыкмасы бир нече раунд боюнча машина үйрөнүү алгоритмин үйрөтүү жана баалоо үчүн бир нече берилиштер топтомун колдонот.

Модельди үйрөтүү үчүн колдонулбаган маалыматтардын жаңы партиясы моделдин аны канчалык жакшы алдын ала айткандыгын көрүү үчүн кайчылаш валидация аркылуу сыналат. Маалыматтарды ашыкча тууралоо кайчылаш текшерүү аркылуу алдын алат.

K-Fold Эң көп колдонулган кайра үлгүлөө ыкмасы бүт маалымат топтомун бирдей өлчөмдөгү K топтомуна бөлөт. Бул кайчылаш валидация деп аталат.

36. Келгиле, сиз моделиңизде олуттуу дисперсия бар экенин таптыңыз дейли. Кандай алгоритм, сиздин оюңузча, бул кырдаалды чечүүгө эң ылайыктуу?

Жогорку өзгөрмөлүүлүгүн башкаруу

Чоң вариациялары бар көйгөйлөр үчүн каптоо техникасын колдонушубуз керек.

Кокус маалыматтардын кайталанган үлгүлөрүн алуу пакеттөө алгоритми тарабынан берилиштерди подгруппаларга бөлүү үчүн колдонулат. Маалыматтар бөлүнгөндөн кийин, биз эрежелерди түзүү үчүн кокус маалыматтарды жана белгилүү бир окутуу процедурасын колдоно алабыз.

Андан кийин сурамжылоо моделдин божомолдорун айкалыштыруу үчүн колдонулушу мүмкүн.

37. Ридж регрессиясы Лассо регрессиясынан эмнеси менен айырмаланат?

Кеңири колдонулган регуляризациялоонун эки ыкмасы - Лассо (ошондой эле L1 деп аталат) жана Ридж (кээде L2 деп аталат) регрессия. Алар ашыкча маалыматтардын алдын алуу үчүн колдонулат.

Эң жакшы чечимди табуу жана татаалдыкты азайтуу үчүн бул ыкмалар коэффициенттерди жазалоо үчүн колдонулат. Коэффициенттердин абсолюттук маанилеринин жалпы суммасын жазалоо менен Лассо регресси иштейт.

Ridge же L2 регрессиясындагы айып функциясы коэффициенттердин квадраттарынын суммасынан алынат.

38. Кайсынысы маанилүү: моделдин иштеши же моделдин тактыгы? Кайсынысы жана эмне үчүн аны жактырасыз?

Бул алдамчы суроо, андыктан адегенде Модель Performance деген эмне экенин түшүнүү керек. Эгерде аткаруу ылдамдык катары аныкталса, анда ал колдонмонун түрүнө таянат; реалдуу убакыт кырдаалды камтыган ар кандай колдонмо маанилүү компоненти катары жогорку ылдамдыкты талап кылат.

Мисалы, эгер Суроолордун натыйжалары келүүгө өтө көп убакыт талап кылынса, эң жакшы Издөө натыйжалары азыраак баалуу болуп калат.

Эгерде Performance эмне үчүн тактык жана кайра чакырып алуу тактыктан жогору болушу керек экендигин негиздөө үчүн колдонулса, анда F1 упай тең салмаксыз болгон ар кандай маалымат топтому үчүн бизнести көрсөтүүдө тактыкка караганда пайдалуураак болот.

39. Теңсиздиктер менен берилиштер топтомун кантип башкармак элеңиз?

Салмаксыз берилиштер топтому үлгүлөрдү алуу ыкмаларынан пайда көрө алат. Үлгү алуу аз же ашыкча үлгүдө жүргүзүлүшү мүмкүн.

Үлгү алуу астында азчылык классына дал келүү үчүн көпчүлүк класстын өлчөмүн кичирейтүүгө мүмкүндүк берет, бул сактоо жана иштөө убактысын аткарууда ылдамдыкты жогорулатууга жардам берет, бирок баалуу маалыматтардын жоголушуна алып келиши мүмкүн.

Ашыкча тандап алуудан келип чыккан маалымат жоготуу маселесин чечүү үчүн, биз азчылык классынын үлгүсүн көтөрөбүз; ошентсе да, бул бизди ашыкча көйгөйлөргө алып келет.

Кошумча стратегиялар төмөнкүлөрдү камтыйт:

Кластерге негизделген ашыкча тандап алуу - Азчылык жана көпчүлүк класс инстанциялары бул кырдаалда К-каражаттарынын кластерлөө ыкмасына жекече дуушар болушат. Бул маалымат топтомунун кластерлерин табуу үчүн жасалат. Андан кийин, бардык класстар бирдей өлчөмдө жана класстын ичиндеги бардык кластерлерде бирдей сандагы инстанциялар болушу үчүн ар бир кластер ашыкча тандалып алынат.
SMOTE: Синтетикалык азчылыктын ашыкча үлгүсүн алуу техникасы- Азчылыктар классындагы маалыматтардын бир бөлүгү мисал катары колдонулат, андан кийин ага салыштырууга боло турган кошумча жасалма инстанциялар чыгарылып, баштапкы маалымат топтомуна кошулат. Бул ыкма сандык маалымат чекиттери менен жакшы иштейт.

40. Боостинг менен капкагын кантип айырмалай аласыз?

Ansemble Techniques пакеттөө жана жогорулатуу деп аталган версиялары бар.

Каптоо -

Жогорку вариацияга ээ болгон алгоритмдер үчүн каптоо дисперсияны төмөндөтүү үчүн колдонулган ыкма болуп саналат. Классификациялоочу классификаторлордун мындай үй-бүлөлөрүнүн бири чечим дарагынын үй-бүлөсү болуп саналат.

Чечим дарактары үйрөтүлгөн маалыматтардын түрү алардын иштешине олуттуу таасир этет. Ушундан улам, өтө жогорку тактоо менен да, натыйжаларды жалпылоо кээде аларда бир топ кыйыныраак болот.

Чечим дарактарынын окутуу маалыматтары өзгөртүлсө, натыйжалар олуттуу түрдө өзгөрөт.

Натыйжада, пакеттөө колдонулат, мында көптөгөн чечим дарактары түзүлөт, алардын ар бири баштапкы маалыматтардын үлгүсүн колдонуу менен үйрөтүлөт жана акыркы натыйжа бул ар түрдүү моделдердин орточо көрсөткүчү болуп саналат.

Көбөйтүү:

Күчөтүү – бул ар бир алсыз классификатор өзүнүн күчтүү классификаторлорунун кемчиликтерин толтурган n-алсыз классификатор системасы менен болжолдоо ыкмасы. Берилген маалыматтар топтомунда начар иштеген классификаторду биз "алсыз классификатор" деп атайбыз.

Көбөйтүү алгоритм эмес, процесс экени анык. Логистикалык регрессия жана тайыз чечим дарактары алсыз классификаторлордун жалпы мисалдары болуп саналат.

Adaboost, Gradient Boosting жана XGBoost эки эң популярдуу көтөрүүчү алгоритмдер, бирок дагы көптөрү бар.

41. Индуктивдүү жана дедуктивдүү окутуунун айырмасын түшүндүрүңүз.

Байкалган мисалдардын жыйындысынан мисал аркылуу үйрөнүүдө модель жалпыланган жыйынтыкка келүү үчүн индуктивдүү окутууну колдонот. Башка жагынан алганда, дедуктивдүү үйрөнүү менен, модель өзүнүн натыйжасын түзүүдөн мурун колдонот.

Индуктивдүү окутуу – байкоолордон жыйынтык чыгаруу процесси.

Дедуктивдүү окутуу – тыянактардын негизинде байкоолорду түзүү процесси.

жыйынтыктоо

Куттуктайбыз! Бул машина үйрөнүү үчүн эң мыкты 40 жана андан жогору интервью суроолору, аларга азыр сиз жооп бересиз. Маалымат илими жана Жасалма интеллект технологиянын өнүгүшү менен кесиптер суроо-талапка ээ боло берет.

Бул алдыңкы технологиялар боюнча билимин жаңырткан жана квалификациясын өркүндөткөн талапкерлер атаандаштыкка жөндөмдүү эмгек акы менен жумушка орношуу мүмкүнчүлүктөрүн таба алышат.

Машина үйрөнүү маегинде кеңири берилүүчү кээ бир суроолорго кантип жооп берүү керектигин жакшы түшүнгөнүңүздөн кийин, маектерге жооп берүүнү уланта аласыз.

Максаттарыңызга жараша, төмөнкү кадамды жасаңыз. Хашдоркко баруу менен интервьюга даярданыңыз Интервью сериясы.

Мыкты 40+ Machine Learning интервью суроолору