Mashina oʻrganish boʻyicha eng yaxshi 40+ intervyu savollari (2024)

Mundarija[Yashirish][Show]

1. Mashinani o'rganish, sun'iy intellekt va chuqur o'rganish o'rtasidagi farqlarni tushuntiring.
2. Iltimos, mashinani o‘rganishning turli turlarini tavsiflab bering.
3. Dispersiyaga nisbatan qarama-qarshilik nima?
4. Mashinani o'rganish algoritmlari vaqt o'tishi bilan sezilarli darajada rivojlandi. Berilgan ma'lumotlar to'plamidan foydalanish uchun to'g'ri algoritmni qanday tanlash mumkin?
5. Kovariatsiya va korrelyatsiya qanday farqlanadi?
6. Mashinani o'rganishda klasterlash nimani anglatadi?
7. Mashinani o'rganish algoritmi qaysi?
8. Mashina o‘rganishda chiziqli regressiya: bu nima?
9. KNN va k-vositalari klasterlash o'rtasidagi farqlarni aytib bering.
10. “Tanlov tarafdori” siz uchun nimani anglatadi?
11. Bayes teoremasi aynan nima?
12. Mashinani o'rganish modelida "o'quv to'plami" va "sinov to'plami" nima?
13. Mashinani o'rganishda gipoteza nima?
14. Mashinani o'rganishni haddan tashqari moslashtirish nimani anglatadi va uni qanday qilib oldini olish mumkin?
15. Naive Bayes klassifikatorlari aynan nima?
16. Xarajat funksiyalari va yo‘qotish funksiyalari nimani anglatadi?
17. Generativ model diskriminativ modeldan nimasi bilan farqlanadi?
18. I va II turdagi xatolar o‘rtasidagi o‘zgarishlarni aytib bering.
19. Mashinani o'rganishda Ansamblni o'rganish texnikasi nima?
20. Parametrik modellar aynan nima? Misol keltiring.
21. Birgalikda filtrlashni tavsiflang. Shuningdek, kontentga asoslangan filtrlash?
22. Vaqt qatori deganda aynan nimani tushunasiz?
23. Gradient Boosting va Random Forest algoritmlari o‘rtasidagi o‘zgarishlarni tasvirlab bering.
24. Nima uchun chalkashlik matritsasi kerak? Nima u?
25. Prinsipiy komponentli tahlil aynan nima?
26. Nima uchun komponentlarning aylanishi PCA (asosiy komponentlar tahlili) uchun juda muhim?
27. Regulyatsiya va normallashtirish bir-biridan qanday farq qiladi?
28. Normallashtirish va standartlashtirish bir-biridan qanday farq qiladi?
29. “Variatsion inflyatsiya omili” aynan nimani anglatadi?
30. O'quv majmuasining o'lchamidan kelib chiqib, klassifikatorni qanday tanlaysiz?
31. Mashinani o'rganishda qanday algoritm "dangasa o'quvchi" deb ataladi va nima uchun?
32. ROC egri chizig'i va AUC nima?
33. Giperparametrlar nima? Ularni model parametrlaridan nimasi bilan ajralib turadi?
34. F1 Score, recall va precision nimani anglatadi?
35. O'zaro validatsiya aynan nima?
36. Aytaylik, siz modelingiz sezilarli tafovutga ega ekanligini aniqladingiz. Sizningcha, ushbu vaziyatni hal qilish uchun qaysi algoritm eng mos keladi?
37. Ridj regressiyasi Lasso regressiyasidan nimasi bilan farqlanadi?
38. Qaysi biri muhimroq: modelning ishlashi yoki modelning aniqligi? Qaysi biri va nima uchun uni afzal ko'rasiz?
39. Tengsizliklar bilan ma'lumotlar to'plamini qanday boshqargan bo'lardingiz?
40. Boosting va baggingni qanday farqlay olasiz?
41. Induktiv va deduktiv ta’limning farqlarini tushuntiring.
Xulosa

Korxonalar jismoniy shaxslarga axborot va xizmatlardan foydalanish imkoniyatini oshirish uchun sun'iy intellekt (AI) va mashinani o'rganish kabi ilg'or texnologiyalardan foydalanmoqda.

Ushbu texnologiyalar bank, moliya, chakana savdo, ishlab chiqarish va sog'liqni saqlash kabi turli sohalarda qo'llanilmoqda.

Sun'iy intellektdan foydalanadigan eng ko'p talab qilinadigan tashkiliy rollardan biri ma'lumotlar bo'yicha olimlar, sun'iy intellekt bo'yicha muhandislar, mashinani o'rganish muhandislari va ma'lumotlar tahlilchilari uchundir.

Ushbu post sizni turli yo'llar bilan olib boradi kompyuterni o'rganish Sizning ideal ishingizni izlayotganda sizga berilishi mumkin bo'lgan har qanday savollarga tayyor bo'lishingiz uchun asosiydan murakkabgacha bo'lgan intervyu savollari.

1. Mashinani o'rganish, sun'iy intellekt va chuqur o'rganish o'rtasidagi farqlarni tushuntiring.

Sun'iy intellekt kompyuter tizimlariga mantiq va qoidalar bilan insonga o'xshash intellektdan foydalangan holda vazifalarni bajarishga imkon beruvchi turli xil mashina o'rganish va chuqur o'rganish yondashuvlarini qo'llaydi.

Mashinalarni o'rganish turli xil statistika va chuqur o'rganish yondashuvlaridan foydalanadi, bu mashinalarga oldingi ishlashidan o'rganish va inson nazoratisiz muayyan vazifalarni mustaqil ravishda bajarishga ko'proq moslashish imkonini beradi.

Deep Learning - bu dasturiy ta'minotni o'zidan o'rganish va ovoz va tasvirni aniqlash kabi turli tijorat funktsiyalarini bajarish imkonini beruvchi algoritmlar to'plami.

Ularning ko'p qatlamliligini ochib beradigan tizimlar neyron tarmoqlari o'rganish uchun katta hajmdagi ma'lumotlar chuqur o'rganishga qodir.

2. Iltimos, mashinani o‘rganishning turli turlarini tavsiflab bering.

Mashinani o'rganish uch xil turda keng tarqalgan:

Nazorat ostidagi oʻrganish: Model nazorat ostidagi mashinani oʻrganishda etiketli yoki tarixiy maʼlumotlardan foydalangan holda bashorat yoki mulohazalar yaratadi. Ma'nosini oshirish uchun teglangan yoki yorliqlangan ma'lumotlar to'plamlari etiketli ma'lumotlar deb ataladi.
Nazoratsiz oʻrganish: Bizda nazoratsiz oʻrganish uchun belgilangan maʼlumotlar yoʻq. Kiruvchi ma'lumotlarda model naqshlar, g'alatiliklar va korrelyatsiyalarni topishi mumkin.
O'rganishni mustahkamlash: Model mumkin mustahkamlash yordamida o‘rganing o'rganish va oldingi xatti-harakatlari uchun olgan mukofotlari.

3. Dispersiyaga nisbatan qarama-qarshilik nima?

Haddan tashqari moslashish - bu modelning ma'lumotlarga mos kelish darajasi bo'lgan tarafkashlikning natijasidir. Tarafsizlik sizning noto'g'ri yoki juda oddiy taxminlar tufayli yuzaga keladi mashinada o'rganish algoritmi.

Variant ML algoritmidagi murakkablikdan kelib chiqqan xatolarni anglatadi, bu esa o'quv ma'lumotlari va haddan tashqari moslashishdagi katta darajadagi farqlarga sezgirlikni keltirib chiqaradi.

Variant - bu modelning kirish ma'lumotlariga qarab qanchalik o'zgarishi.

Boshqacha qilib aytganda, asosiy modellar o'ta noto'g'ri, ammo barqaror (past dispersiya). Haddan tashqari moslashish murakkab modellar bilan bog'liq muammodir, garchi ular shunga qaramay, modelning haqiqatini (past tarafkashlik) qamrab oladi.

Yuqori o'zgaruvchanlikni va yuqori noto'g'rilikni oldini olish uchun, xatoni eng yaxshi kamaytirish uchun noto'g'ri va dispersiya o'rtasidagi kelishuv zarur.

4. Mashinani o'rganish algoritmlari vaqt o'tishi bilan sezilarli darajada rivojlandi. Berilgan ma'lumotlar to'plamidan foydalanish uchun to'g'ri algoritmni qanday tanlash mumkin?

Foydalanish kerak bo'lgan mashinani o'rganish texnikasi faqat ma'lum bir ma'lumotlar to'plamidagi ma'lumotlar turiga bog'liq.

Ma'lumotlar chiziqli bo'lsa, chiziqli regressiya qo'llaniladi. Agar ma'lumotlar chiziqli emasligini ko'rsatsa, sumkalash usuli yaxshiroq ishlaydi. Agar ma'lumotlar tijorat maqsadlarida baholanishi yoki talqin qilinishi kerak bo'lsa, biz qaror daraxtlari yoki SVM dan foydalanishimiz mumkin.

Agar ma'lumotlar to'plami fotosuratlar, videolar va audiolarni o'z ichiga olsa, neyron tarmoqlar aniq javob olish uchun foydali bo'lishi mumkin.

Muayyan vaziyat yoki ma'lumotlar to'plami uchun algoritmni tanlash faqat bitta o'lchov bilan amalga oshirilmaydi.

Eng yaxshi mos uslubni ishlab chiqish uchun biz birinchi navbatda ma'lumotlarni tadqiqot ma'lumotlarini tahlil qilish (EDA) yordamida tekshirishimiz va ma'lumotlar to'plamidan foydalanish maqsadini tushunishimiz kerak.

5. Kovariatsiya va korrelyatsiya qanday farqlanadi?

Kovariatsiya ikki o'zgaruvchining bir-biriga qanday bog'langanligini va ikkinchisining o'zgarishiga javoban biri qanday o'zgarishi mumkinligini baholaydi.

Agar natija ijobiy bo'lsa, bu o'zgaruvchilar o'rtasida to'g'ridan-to'g'ri bog'liqlik mavjudligini va boshqa barcha shartlar doimiy bo'lib qoladi deb faraz qilgan holda, asosiy o'zgaruvchining ortishi yoki kamayishi bilan ko'tarilishi yoki kamayishini ko'rsatadi.

Korrelyatsiya ikkita tasodifiy o'zgaruvchilar orasidagi bog'lanishni o'lchaydi va faqat uchta aniq qiymatga ega: 1, 0 va -1.

6. Mashinani o'rganishda klasterlash nimani anglatadi?

Ma'lumotlar nuqtalarini birlashtiradigan nazoratsiz o'rganish usullari klasterlash deb ataladi. Ma'lumotlar nuqtalari to'plami bilan klasterlash texnikasini qo'llash mumkin.

Ushbu strategiyadan foydalanib, barcha ma'lumotlar nuqtalarini vazifalariga ko'ra guruhlashingiz mumkin.

Xuddi shu toifaga kiruvchi ma'lumotlar nuqtalarining xususiyatlari va sifatlari o'xshash, alohida guruhlarga kiradigan ma'lumotlar nuqtalari esa boshqacha.

Ushbu yondashuv statistik ma'lumotlarni tahlil qilish uchun ishlatilishi mumkin.

7. Mashinani o'rganish algoritmi qaysi?

Sizda ushbu savolda o'zingizning afzalliklaringiz va noyob iste'dodlaringizni, shuningdek, ko'plab mashinalarni o'rganish texnikasi bo'yicha keng qamrovli bilimingizni namoyish etish imkoniyati mavjud.

Bu erda o'ylab ko'rish uchun bir nechta odatiy mashina o'rganish algoritmlari mavjud:

Lineer regressiya
Logistik regressiya
Naif Bayes
Qaror daraxtlari
K degan ma'noni anglatadi
Tasodifiy o'rmon algoritmi
K-eng yaqin qo'shni (KNN)

8. Mashina o‘rganishda chiziqli regressiya: bu nima?

Boshqariladigan mashinani o'rganish algoritmi chiziqli regressiyadir.

U bog'liq va mustaqil o'zgaruvchilar o'rtasidagi chiziqli aloqani aniqlash uchun bashoratli tahlilda qo'llaniladi.

Chiziqli regressiya tenglamasi quyidagicha:

Y = A + BX

qaerda:

Kirish yoki mustaqil o'zgaruvchi X deb ataladi.
Bog'liq yoki chiqish o'zgaruvchisi Y.
X ning koeffitsienti b, kesishishi esa a.

9. KNN va k-vositalari klasterlash o'rtasidagi farqlarni aytib bering.

Asosiy farq shundaki, KNN (tasniflash usuli, nazorat ostida o'rganish) yorliqli nuqtalarga muhtoj, k-vosita esa kerak emas (klasterlash algoritmi, nazoratsiz o'rganish).

K-Yaqin qo'shnilar yordamida etiketli ma'lumotlarni yorliqsiz nuqtaga tasniflashingiz mumkin. K-klasterlash yorliqsiz nuqtalarni qanday guruhlashni o'rganish uchun nuqtalar orasidagi o'rtacha masofadan foydalanadi.

10. “Tanlov tarafdori” siz uchun nimani anglatadi?

Tajribaning tanlab olish bosqichidagi noaniqlik statistik noaniqlik bilan bog'liq.

Noto'g'rilik natijasida bitta namuna guruhi tajribadagi boshqa guruhlarga qaraganda tez-tez tanlanadi.

Agar tanlovning noto'g'riligi tan olinmasa, bu noto'g'ri xulosaga olib kelishi mumkin.

11. Bayes teoremasi aynan nima?

Boshqa ehtimollarni bilganimizda, Bayes teoremasidan foydalanib, ehtimollikni aniqlashimiz mumkin. Bu oldingi ma'lumotlarga asoslanib, boshqa so'z bilan aytganda, hodisaning keyingi ehtimolini taklif qiladi.

Ushbu teorema shartli ehtimollarni baholashning ishonchli usulini taqdim etadi.

Tasniflash bashoratli modellashtirish muammolarini ishlab chiqishda va modelni treningga moslashtirishda Mashinani o'rganishda ma'lumotlar to'plami, Bayes teoremasi qo'llaniladi (ya'ni Naive Bayes, Bayes optimal tasniflagichi).

12. Mashinani o'rganish modelida "o'quv to'plami" va "sinov to'plami" nima?

Trening to'plami:

Trening to'plami tahlil va o'rganish uchun modelga yuborilgan misollardan iborat.
Bu modelni o'rgatish uchun ishlatiladigan etiketli ma'lumotlar.
Odatda, umumiy ma'lumotlarning 70% o'quv ma'lumotlar to'plami sifatida ishlatiladi.

Sinov to'plami:

Test to'plami modelning gipotezasini yaratish aniqligini baholash uchun ishlatiladi.
Biz yorliqli ma'lumotlarsiz sinovdan o'tkazamiz va natijalarni tasdiqlash uchun teglardan foydalanamiz.
Qolgan 30% sinov ma'lumotlar to'plami sifatida ishlatiladi.

13. Mashinani o'rganishda gipoteza nima?

Mashinani o'rganish kirishni chiqish bilan bog'laydigan berilgan funktsiyani yaxshiroq tushunish uchun mavjud ma'lumotlar to'plamidan foydalanishga imkon beradi. Bu funksiya yaqinlashish deb nomlanadi.

Bunday holda, noma'lum maqsadli funktsiya uchun taxminiy barcha kuzatuvlarni berilgan vaziyat asosida eng yaxshi tarzda o'tkazish uchun yaqinlashish kerak.

Mashinani o'rganishda gipoteza maqsadli funktsiyani baholashga va tegishli kirish-chiqish xaritalarini to'ldirishga yordam beradigan modeldir.

Algoritmlarni tanlash va loyihalash model bilan ifodalanishi mumkin bo'lgan gipotezalar maydonini aniqlash imkonini beradi.

Bitta gipoteza uchun kichik harf h (h) ishlatiladi, lekin bosh harf h (H) qidirilayotgan butun gipoteza maydoni uchun ishlatiladi. Biz ushbu belgilarni qisqacha ko'rib chiqamiz:

Gipoteza (h) ma'lum bir model bo'lib, u keyinchalik baholash va bashorat qilish uchun ishlatilishi mumkin bo'lgan kirishni chiqishga solishtirishni osonlashtiradi.
Gipotezalar to'plami (H) - bu gipotezalarning qidirish mumkin bo'lgan maydoni bo'lib, u kirishlarni chiqishlar bilan taqqoslash uchun ishlatilishi mumkin. Muammoni shakllantirish, model va model konfiguratsiyasi umumiy cheklovlarning bir nechta misolidir.

14. Mashinani o'rganishni haddan tashqari moslashtirish nimani anglatadi va uni qanday qilib oldini olish mumkin?

Mashina etarli bo'lmagan ma'lumotlar to'plamidan o'rganishga harakat qilganda, ortiqcha moslama sodir bo'ladi.

Natijada, ortiqcha moslama ma'lumotlar hajmi bilan teskari bog'liqdir. O'zaro tekshirish yondashuvi kichik ma'lumotlar to'plamlari uchun ortiqcha moslamadan qochish imkonini beradi. Ushbu usulda ma'lumotlar to'plami ikki qismga bo'linadi.

Sinov va o'qitish uchun ma'lumotlar to'plami ushbu ikki qismdan iborat bo'ladi. O'quv ma'lumotlar to'plami model yaratish uchun ishlatiladi, test ma'lumotlar to'plami esa turli xil ma'lumotlardan foydalangan holda modelni baholash uchun ishlatiladi.

Bu haddan tashqari o'rnatishning oldini olish.

15. Naive Bayes klassifikatorlari aynan nima?

Turli tasniflash usullari Naive Bayes tasniflagichlarini tashkil qiladi. Ushbu tasniflagichlar deb nomlanuvchi algoritmlar to'plamining barchasi bir xil asosiy g'oya ustida ishlaydi.

Sodda Bayes klassifikatorlari tomonidan qilingan taxmin shundan iboratki, bir xususiyatning mavjudligi yoki yo'qligi boshqa xususiyatning mavjudligi yoki yo'qligiga hech qanday ta'sir qilmaydi.

Boshqacha qilib aytadigan bo'lsak, biz buni "sodda" deb ataymiz, chunki u har bir ma'lumotlar to'plamining atributi bir xil darajada muhim va mustaqil deb taxmin qiladi.

Tasniflash sodda Bayes klassifikatorlari yordamida amalga oshiriladi. Ulardan foydalanish oson va mustaqillik asosi to'g'ri bo'lganda murakkabroq bashoratchilarga qaraganda yaxshiroq natijalar beradi.

Matnni tahlil qilish, spam-filtrlash va tavsiya tizimlarida ular qo'llaniladi.

16. Xarajat funksiyalari va yo‘qotish funksiyalari nimani anglatadi?

"Yo'qotish funktsiyasi" iborasi faqat bitta ma'lumotni hisobga olgan holda hisoblash yo'qotish jarayonini anglatadi.

Aksincha, biz ko'plab ma'lumotlar uchun xatolarning umumiy miqdorini aniqlash uchun xarajat funktsiyasidan foydalanamiz. Hech qanday muhim farq yo'q.

Boshqacha qilib aytganda, xarajat funktsiyalari butun o'quv ma'lumotlar to'plami uchun farqni jamlagan bo'lsa, yo'qotish funktsiyalari bitta yozuv uchun haqiqiy va taxmin qilingan qiymatlar o'rtasidagi farqni olish uchun mo'ljallangan.

17. Generativ model diskriminativ modeldan nimasi bilan farqlanadi?

Diskriminativ model bir nechta ma'lumotlar toifalari orasidagi farqlarni o'rganadi. Generativ model turli xil ma'lumotlar turlarini tanlaydi.

Tasniflash muammolari bo'yicha diskriminativ modellar ko'pincha boshqa modellardan ustun turadi.

18. I va II turdagi xatolar o‘rtasidagi o‘zgarishlarni aytib bering.

Noto'g'ri pozitivlar I turdagi xatolar toifasiga kiradi, noto'g'ri negativlar esa II toifadagi xatolar (aslida mavjud bo'lganda hech narsa sodir bo'lmagan deb da'vo qilish).

19. Mashinani o'rganishda Ansamblni o'rganish texnikasi nima?

Ansamblni o'rganish deb ataladigan uslub yanada kuchli modellarni ishlab chiqarish uchun ko'plab mashinalarni o'rganish modellarini aralashtiradi.

Model turli sabablarga ko'ra o'zgarishi mumkin. Bir nechta sabablar:

Turli populyatsiyalar
Har xil gipotezalar
Har xil modellashtirish usullari

Modelni o‘qitish va sinovdan o‘tkazish ma’lumotlaridan foydalanishda muammoga duch kelamiz. Tarafsizlik, dispersiya va kamaytirilmaydigan xato bu xatoning mumkin bo'lgan turlaridir.

Endi biz modeldagi tarafkashlik va dispersiya o'rtasidagi bu muvozanatni noaniqlik-variant almashinuvi deb ataymiz va u har doim mavjud bo'lishi kerak. Ushbu o'zaro kelishuv ansambl o'rganishdan foydalanish orqali amalga oshiriladi.

Turli xil ansambl yondashuvlari mavjud bo'lsa-da, ko'plab modellarni birlashtirishning ikkita umumiy strategiyasi mavjud:

Bagging deb nomlangan mahalliy yondashuv qo'shimcha o'quv to'plamlarini ishlab chiqarish uchun o'quv majmuasidan foydalanadi.
Boosting, yanada murakkab texnika: Boosting xuddi sumkalash singari, mashg'ulot to'plami uchun ideal vazn formulasini topish uchun ishlatiladi.

20. Parametrik modellar aynan nima? Misol keltiring.

Parametrik modellarda cheklangan miqdordagi parametrlar mavjud. Ma'lumotlarni prognoz qilish uchun faqat model parametrlarini bilishingiz kerak.

Quyida odatiy misollar keltirilgan: logistik regressiya, chiziqli regressiya va chiziqli SVM. Parametrik bo'lmagan modellar moslashuvchan, chunki ular cheksiz miqdordagi parametrlarni o'z ichiga olishi mumkin.

Model parametrlari va kuzatilgan ma'lumotlarning holati ma'lumotlarni bashorat qilish uchun talab qilinadi. Mana bir nechta tipik misollar: mavzu modellari, qaror daraxtlari va k-eng yaqin qo'shnilar.

21. Birgalikda filtrlashni tavsiflang. Shuningdek, kontentga asoslangan filtrlash?

Moslashtirilgan kontent takliflarini yaratishning sinab ko'rilgan va haqiqiy usuli bu hamkorlikda filtrlashdir.

Birgalikda filtrlash deb ataladigan tavsiyalar tizimining shakli foydalanuvchi imtiyozlarini umumiy manfaatlar bilan muvozanatlash orqali yangi materialni bashorat qiladi.

Kontentga asoslangan tavsiya beruvchi tizimlar hisobga oladigan yagona narsa foydalanuvchi imtiyozlari. Foydalanuvchining oldingi tanlovlarini hisobga olgan holda, tegishli materiallardan yangi tavsiyalar taqdim etiladi.

22. Vaqt qatori deganda aynan nimani tushunasiz?

Vaqt seriyasi - bu o'sish tartibidagi raqamlar to'plami. Oldindan belgilangan vaqt oralig'ida u tanlangan ma'lumotlar nuqtalarining harakatini kuzatib boradi va vaqti-vaqti bilan ma'lumotlar nuqtalarini ushlaydi.

Vaqt seriyalari uchun minimal yoki maksimal vaqt kiritilmagan.

Vaqt seriyalari ko'pincha tahlilchilar tomonidan o'zlarining noyob talablariga muvofiq ma'lumotlarni tahlil qilish uchun ishlatiladi.

23. Gradient Boosting va Random Forest algoritmlari o‘rtasidagi o‘zgarishlarni tasvirlab bering.

Tasodifiy o'rmon:

Ko'p sonli qaror daraxtlari oxirida birlashtirilgan va tasodifiy o'rmonlar deb nomlanadi.
Gradientni kuchaytirish har bir daraxtni boshqalardan mustaqil ravishda ishlab chiqarsa-da, tasodifiy o'rmon har bir daraxtni birma-bir quradi.
Ko'p sinf ob'ektni aniqlash tasodifiy o'rmonlar bilan yaxshi ishlaydi.

Gradientni kuchaytirish:

Tasodifiy o'rmonlar jarayon oxirida qarorlar daraxtlariga qo'shilsa, Gradient Boosting Machines ularni boshidan birlashtiradi.
Parametrlar to'g'ri sozlangan bo'lsa, gradientni kuchaytirish natijalar bo'yicha tasodifiy o'rmonlardan ustun turadi, ammo ma'lumotlar to'plamida juda ko'p o'zgaruvchanlik, anomaliyalar yoki shovqin bo'lsa, bu oqilona tanlov emas, chunki bu modelning haddan tashqari moslashishiga olib kelishi mumkin.
Haqiqiy vaqtda xavfni baholashda bo'lgani kabi, muvozanatsiz ma'lumotlar mavjud bo'lganda, gradientni oshirish yaxshi ishlaydi.

24. Nima uchun chalkashlik matritsasi kerak? Nima u?

Haqiqiy qiymatlari ma'lum bo'lgan test ma'lumotlari to'plamida tasniflash modeli yoki klassifikator qanchalik yaxshi ishlashini ko'rsatish uchun chalkashlik matritsasi deb nomlanuvchi, ba'zan xato matritsasi deb nomlanuvchi jadval keng qo'llaniladi.

Bu bizga model yoki algoritm qanday ishlashini ko'rish imkonini beradi. Bu bizga turli kurslar orasidagi tushunmovchiliklarni aniqlashni osonlashtiradi.

Bu model yoki algoritm qanchalik yaxshi bajarilganligini baholash usuli bo'lib xizmat qiladi.

Tasniflash modelining bashoratlari chalkashlik matritsasiga yig'iladi. Har bir sinf yorlig'ining hisoblash qiymatlari to'g'ri va noto'g'ri bashoratlarning umumiy sonini ajratish uchun ishlatilgan.

Unda klassifikator tomonidan sodir etilgan nosozliklar hamda tasniflagichlar keltirib chiqaradigan turli xil xatolar haqida batafsil ma'lumot berilgan.

25. Prinsipiy komponentli tahlil aynan nima?

Bir-biri bilan bog'liq bo'lgan o'zgaruvchilar sonini minimallashtirish orqali maqsad ma'lumotlar to'plamining o'lchovliligini minimallashtirishdir. Ammo iloji boricha xilma-xillikni saqlab qolish muhimdir.

O'zgaruvchilar asosiy komponentlar deb ataladigan butunlay yangi o'zgaruvchilar to'plamiga o'zgartiriladi.

Ushbu shaxsiy kompyuterlar ortogonaldir, chunki ular kovariatsiya matritsasining xos vektorlari hisoblanadi.

26. Nima uchun komponentlarning aylanishi PCA (asosiy komponentlar tahlili) uchun juda muhim?

Aylanish PCAda juda muhim, chunki u har bir komponent tomonidan olingan farqlar orasidagi bo'linishni optimallashtiradi va komponentlarni talqin qilishni soddalashtiradi.

Komponentlar aylantirilmasa, komponent o'zgarishini ifodalash uchun kengaytirilgan komponentlar talab qilinadi.

27. Regulyatsiya va normallashtirish bir-biridan qanday farq qiladi?

Normalizatsiya:

Normalizatsiya paytida ma'lumotlar o'zgartiriladi. Agar ma'lumotlar keskin farq qiladigan o'lchovlarga ega bo'lsa, ma'lumotlarni normallashtirishingiz kerak, ayniqsa pastdan yuqoriga. Har bir ustunni asosiy statistik ma'lumotlar bir-biriga mos keladigan tarzda sozlang.

Aniqlikni yo'qotmaslik uchun bu foydali bo'lishi mumkin. Shovqinni e'tiborsiz qoldirgan holda signalni aniqlash modelni o'qitishning maqsadlaridan biridir.

Xatoni kamaytirish uchun modelga to'liq nazorat berilsa, haddan tashqari o'rnatish imkoniyati mavjud.

Tartibga solish:

Regulyatsiyada bashorat qilish funktsiyasi o'zgartiriladi. Bu tartibga solish orqali ba'zi bir nazoratga bo'ysunadi, bu murakkab bo'lganlarga nisbatan soddaroq o'rnatish funktsiyalarini afzal ko'radi.

28. Normallashtirish va standartlashtirish bir-biridan qanday farq qiladi?

Xususiyatlarni masshtablashning eng ko'p qo'llaniladigan ikkita usuli - normallashtirish va standartlashtirish.

Normalizatsiya:

Ma'lumotni [0,1] diapazonga moslashtirish uchun o'zgartirish normallashtirish deb nomlanadi.
Agar barcha parametrlar bir xil ijobiy shkalaga ega bo'lishi kerak bo'lsa, normallashtirish foydali bo'ladi, ammo ma'lumotlar to'plamining chegaralari yo'qoladi.

Tartibga solish:

Ma'lumotlar standartlashtirish jarayonining bir qismi sifatida o'rtacha 0 va standart og'ish 1 ga ega bo'lishi uchun o'zgartiriladi (birlik farqi)

29. “Variatsion inflyatsiya omili” aynan nimani anglatadi?

Model dispersiyasining faqat bitta mustaqil o'zgaruvchiga ega bo'lgan model dispersiyasiga nisbati o'zgaruvchan inflyatsiya omili (VIF) deb nomlanadi.

VIF bir nechta regressiya o'zgaruvchilari to'plamida mavjud bo'lgan multikollinearlik miqdorini baholaydi.

Bir mustaqil o'zgaruvchiga ega modelning dispersiyasi (VIF) modeli

30. O'quv majmuasining o'lchamidan kelib chiqib, klassifikatorni qanday tanlaysiz?

Yuqori tarafkashlik, kam tafovutli model qisqa mashg'ulotlar uchun yaxshiroq ishlaydi, chunki haddan tashqari moslashish ehtimoli kamroq. Naive Bayes bir misol.

Katta o'quv majmuasi uchun yanada murakkab o'zaro ta'sirlarni ko'rsatish uchun past tarafkashlik va yuqori dispersiyaga ega model afzalroqdir. Logistik regressiya yaxshi misoldir.

31. Mashinani o'rganishda qanday algoritm "dangasa o'quvchi" deb ataladi va nima uchun?

Sust o'quvchi, KNN - bu mashinani o'rganish algoritmidir. K-NN o'quv ma'lumotlaridan har qanday mashinada o'rganilgan qiymatlarni yoki o'zgaruvchilarni o'rganish o'rniga tasniflashni xohlaganda masofani dinamik ravishda hisoblab chiqadi, chunki u o'quv ma'lumotlar to'plamini yodlaydi.

Bu K-NNni dangasa o'quvchiga aylantiradi.

32. ROC egri chizig'i va AUC nima?

Tasniflash modelining barcha chegaralarda ishlashi grafik ravishda ROC egri chizig'i bilan ifodalanadi. Haqiqiy ijobiy ko'rsatkich va noto'g'ri ijobiy stavka mezonlariga ega.

Oddiy qilib aytganda, ROC egri chizig'i ostidagi maydon AUC (ROC egri chizig'i ostidagi maydon) deb nomlanadi. ROC egri chizig'ining (0,0) dan AUC gacha bo'lgan ikki o'lchovli maydoni (1,1) o'lchanadi. Ikkilik tasniflash modellarini baholash uchun u samaradorlik statistikasi sifatida ishlatiladi.

33. Giperparametrlar nima? Ularni model parametrlaridan nimasi bilan ajralib turadi?

Modelning ichki o'zgaruvchisi model parametri sifatida tanilgan. Trening ma'lumotlaridan foydalanib, parametr qiymati taxminiy hisoblanadi.

Modelga noma'lum, giperparametr o'zgaruvchidir. Qiymatni ma'lumotlardan aniqlash mumkin emas, shuning uchun ular ko'pincha model parametrlarini hisoblash uchun ishlatiladi.

34. F1 Score, recall va precision nimani anglatadi?

Chalkashlik o'lchovi - bu tasniflash modelining samaradorligini o'lchash uchun ishlatiladigan ko'rsatkich. Chalkashlik ko'rsatkichini yaxshiroq tushuntirish uchun quyidagi iboralardan foydalanish mumkin:

TP: Haqiqiy ijobiylar - bu to'g'ri kutilgan ijobiy qiymatlar. Bu prognoz qilingan sinf va haqiqiy sinfning qiymatlari ijobiy ekanligini ko'rsatadi.

TN: Haqiqiy negativlar - bu aniq prognoz qilingan salbiy qiymatlar. Bu haqiqiy sinfning ham, kutilayotgan sinfning ham qiymati salbiy ekanligini ko'rsatadi.

Ushbu qiymatlar - noto'g'ri ijobiy va noto'g'ri salbiy - sizning haqiqiy sinfingiz kutilgan sinfdan farq qilganda paydo bo'ladi.

Endi,

Haqiqiy musbat ko'rsatkichning (TP) haqiqiy sinfda o'tkazilgan barcha kuzatuvlarga nisbati esga olish deb ataladi, shuningdek sezgirlik deb ataladi.

Qaytarib olish TP/(TP+FN).

Aniqlik ijobiy bashorat qiluvchi qiymatning o'lchovidir, u model haqiqatda bashorat qilgan musbatlar sonini qancha to'g'ri musbatlarni aniq bashorat qilgani bilan solishtiradi.

Aniqlik TP/(TP + FP)

Tushunish uchun eng oson ishlash ko'rsatkichi aniqlikdir, bu faqat to'g'ri bashorat qilingan kuzatishlarning barcha kuzatuvlarga nisbati.

Aniqlik (TP+TN)/(TP+FP+FN+TN) ga teng.

Aniqlik va eslab qolish F1 ballini ta'minlash uchun tortiladi va o'rtacha hisoblanadi. Natijada, bu ball noto'g'ri ijobiy va noto'g'ri salbiylarni hisobga oladi.

F1 ko'pincha aniqlikdan ko'ra qimmatroqdir, ayniqsa siz teng bo'lmagan sinf taqsimotiga ega bo'lsangiz, hatto intuitiv ravishda tushunish aniqlik kabi oddiy bo'lmasa ham.

Eng yaxshi aniqlikka noto'g'ri musbat va noto'g'ri salbiylarning narxi solishtirish mumkin bo'lganda erishiladi. Noto'g'ri musbat va noto'g'ri salbiy bilan bog'liq xarajatlar sezilarli darajada farq qiladigan bo'lsa, Precision va Recallni ham qo'shish afzalroqdir.

35. O'zaro validatsiya aynan nima?

Mashinani o'rganishda o'zaro tekshirish deb ataladigan statistik qayta namuna olish usuli bir necha turda mashinani o'rganish algoritmini o'rgatish va baholash uchun bir nechta ma'lumotlar to'plamidan foydalanadi.

Modelni o'rgatishda foydalanilmagan ma'lumotlarning yangi to'plami model uni qanchalik bashorat qilishini ko'rish uchun o'zaro tekshirish yordamida sinovdan o'tkaziladi. O'zaro tekshirish orqali ma'lumotlarning haddan tashqari o'rnatilishi oldini oladi.

K-katlama Eng tez-tez ishlatiladigan qayta namuna olish usuli butun ma'lumotlar to'plamini teng o'lchamdagi K to'plamga ajratadi. U o'zaro tekshirish deb ataladi.

36. Aytaylik, siz modelingiz sezilarli tafovutga ega ekanligini aniqladingiz. Sizningcha, ushbu vaziyatni hal qilish uchun qaysi algoritm eng mos keladi?

Yuqori o'zgaruvchanlikni boshqarish

Katta o'zgarishlar bilan bog'liq muammolar uchun biz qoplash texnikasidan foydalanishimiz kerak.

Tasodifiy ma'lumotlarni takroriy tanlab olish, ma'lumotlarni kichik guruhlarga bo'lish uchun qoplash algoritmi tomonidan qo'llaniladi. Ma'lumotlar bo'lingandan so'ng, biz qoidalarni yaratish uchun tasodifiy ma'lumotlardan va ma'lum bir o'quv protsedurasidan foydalanishimiz mumkin.

Shundan so'ng, so'rovdan model bashoratlarini birlashtirish uchun foydalanish mumkin.

37. Ridj regressiyasi Lasso regressiyasidan nimasi bilan farqlanadi?

Ikkita keng qo'llaniladigan tartibga solish usullari - Lasso (shuningdek, L1 deb ataladi) va Ridge (ba'zan L2 deb ataladi) regressiyasi. Ular ma'lumotlarning haddan tashqari o'rnatilishini oldini olish uchun ishlatiladi.

Eng yaxshi yechimni topish va murakkablikni kamaytirish uchun ushbu usullar koeffitsientlarni jazolash uchun qo'llaniladi. Koeffitsientlarning mutlaq qiymatlarining umumiy miqdorini jazolash orqali Lasso regressiyasi ishlaydi.

Ridge yoki L2 regressiyasidagi jarima funksiyasi koeffitsientlar kvadratlari yig'indisidan kelib chiqadi.

38. Qaysi biri muhimroq: modelning ishlashi yoki modelning aniqligi? Qaysi biri va nima uchun uni afzal ko'rasiz?

Bu aldamchi savol, shuning uchun avvalo Model ishlash nima ekanligini tushunish kerak. Agar ishlash tezlik sifatida aniqlansa, u dastur turiga tayanadi; real vaqtda vaziyatni o'z ichiga olgan har qanday dastur hal qiluvchi komponent sifatida yuqori tezlikni talab qiladi.

Misol uchun, agar so'rov natijalari yetib borishiga juda uzoq vaqt kerak bo'lsa, eng yaxshi qidiruv natijalari unchalik qimmatli bo'lmaydi.

Agar unumdorlik nima uchun aniqlik va eslab qolish aniqlikdan ustun bo'lishi kerakligining asosi sifatida ishlatilsa, F1 balli muvozanatsiz bo'lgan har qanday ma'lumotlar to'plami uchun biznes misolini ko'rsatishda aniqlikdan ko'ra foydaliroq bo'ladi.

39. Tengsizliklar bilan ma'lumotlar to'plamini qanday boshqargan bo'lardingiz?

Balanssiz ma'lumotlar to'plami namuna olish usullaridan foydalanishi mumkin. Namuna olish kam yoki ortiqcha namunali usulda amalga oshirilishi mumkin.

Namuna olish tizimi ozchilik sinfiga mos kelishi uchun koʻpchilik sinfi hajmini kichraytirish imkonini beradi, bu esa saqlash va ish vaqtini bajarish tezligini oshirishga yordam beradi, lekin qimmatli maʼlumotlarning yoʻqolishiga ham olib kelishi mumkin.

Haddan tashqari tanlash natijasida ma'lumotlar yo'qolishi muammosini hal qilish uchun biz ozchiliklar sinfini yangilaymiz; Shunday bo'lsa-da, bu bizni haddan tashqari mos keladigan muammolarga olib keladi.

Qo'shimcha strategiyalar quyidagilarni o'z ichiga oladi:

Klasterga asoslangan namuna olish - ozchilik va ko'pchilik sinf misollari bu vaziyatda K-vositalari klasterlash texnikasiga alohida ta'sir ko'rsatadi. Bu ma'lumotlar to'plami klasterlarini topish uchun amalga oshiriladi. Keyin, har bir klaster haddan tashqari tanlanadi, shunda barcha sinflar bir xil o'lchamga ega va sinf ichidagi barcha klasterlar teng miqdordagi misollarga ega bo'ladi.
SMOTE: Sintetik ozchiliklarni haddan tashqari namuna olish usuli - ozchiliklar sinfidagi ma'lumotlarning bir qismi misol sifatida ishlatiladi, shundan so'ng unga o'xshash qo'shimcha sun'iy misollar ishlab chiqariladi va asl ma'lumotlar to'plamiga qo'shiladi. Ushbu usul raqamli ma'lumotlar nuqtalari bilan yaxshi ishlaydi.

40. Boosting va baggingni qanday farqlay olasiz?

Ansambl texnikasi sumkalash va kuchaytirish deb nomlanuvchi versiyalarga ega.

Qoplash -

Yuqori o'zgarishlarga ega algoritmlar uchun sumkalash - bu farqni kamaytirish uchun ishlatiladigan usul. Tartibga solishga moyil bo'lgan shunday klassifikatorlar oilasi qaror daraxti oilasidir.

Qaror daraxtlari o'qitilgan ma'lumotlar turi ularning ishlashiga sezilarli ta'sir ko'rsatadi. Shu sababli, hatto juda yuqori sozlash bilan ham, natijalarni umumlashtirish ba'zan ularda ancha qiyinroq.

Agar qarorlar daraxtlarining o'quv ma'lumotlari o'zgartirilsa, natijalar sezilarli darajada farq qiladi.

Natijada, ko'plab qarorlar daraxtlari yaratiladigan sumkalardan foydalaniladi, ularning har biri asl ma'lumotlarning namunasi yordamida o'qitiladi va yakuniy natija barcha bu turli modellarning o'rtacha ko'rsatkichidir.

Ko'paytirish:

Boosting - bu n-zaif tasniflagich tizimi bilan bashorat qilish usuli bo'lib, unda har bir zaif tasniflagich o'zining kuchliroq tasniflagichlarining kamchiliklarini qoplaydi. Biz berilgan ma'lumotlar to'plamida yomon ishlaydigan klassifikatorni "zaif tasniflagich" deb nomlaymiz.

Boosting algoritm emas, balki jarayon ekanligi aniq. Logistik regressiya va sayoz qarorlar daraxtlari zaif tasniflagichlarning keng tarqalgan namunasidir.

Adaboost, Gradient Boosting va XGBoost ikkita eng mashhur kuchaytirish algoritmlaridir, ammo yana ko'plari bor.

41. Induktiv va deduktiv ta’limning farqlarini tushuntiring.

Kuzatilgan misollar to'plamidan misol orqali o'rganishda model umumlashtirilgan xulosaga kelish uchun induktiv ta'limdan foydalanadi. Boshqa tomondan, deduktiv ta'lim bilan, model o'zini shakllantirishdan oldin natijadan foydalanadi.

Induktiv ta'lim - bu kuzatishlardan xulosa chiqarish jarayonidir.

Deduktiv ta'lim - bu xulosalar asosida kuzatishlar yaratish jarayoni.

Xulosa

Tabriklaymiz! Bular mashinani oʻrganish boʻyicha eng yaxshi 40 va undan yuqori intervyu savollari boʻlib, siz hozir javoblarini bilasiz. Ma'lumotlar fani va sun'iy intellekt texnologiya rivojlanishi bilan kasblar talabga ega bo'lishda davom etadi.

Ushbu ilg'or texnologiyalar bo'yicha o'z bilimlarini yangilagan va malakasini oshirgan nomzodlar raqobatbardosh ish haqi bilan turli xil ish imkoniyatlarini topishlari mumkin.

Mashinani o'rganish bo'yicha keng tarqalgan intervyu savollariga qanday javob berishni yaxshi tushunganingizdan so'ng, intervyularga javob berishni davom ettirishingiz mumkin.

Maqsadlaringizga qarab, quyidagi qadamni bajaring. Hashdorknikiga tashrif buyurib, intervyuga tayyorlaning Intervyu seriyasi.

Mashina o'rganish bo'yicha intervyu savollari

Mashina o'rganish bo'yicha eng yaxshi 40+ intervyu savollari