Шилдэг 40 гаруй машин сургалтын ярилцлагын асуултууд (2024)

Гарчиг[Нуух][Үзүүлэх]

1. Машин сургалт, хиймэл оюун ухаан, гүнзгий суралцах хоёрын ялгааг тайлбарла.
2. Машин сургалтын янз бүрийн төрлүүдийг тайлбарлана уу.
3. Хязгаарлалттай харьцуулсан зөрүү гэж юу вэ?
4. Машин сургалтын алгоритмууд цаг хугацааны явцад ихээхэн хувьсан өөрчлөгдсөн. Өгөгдлийн багцыг ашиглах зөв алгоритмыг хэрхэн сонгох вэ?
5. Ковариац ба корреляци хэрхэн ялгаатай вэ?
6. Машин сургалтын хувьд кластер гэдэг нь юу гэсэн үг вэ?
7. Таны илүүд үздэг машин сургалтын алгоритм юу вэ?
8. Машины сургалтын шугаман регресс: Энэ юу вэ?
9. KNN ба k-түлхүүний кластерчлалын ялгааг тайлбарла.
10. Таны хувьд “сонголтын гажуудал” юу гэсэн үг вэ?
11. Бэйсийн теорем яг юу вэ?
12. Машины сургалтын загварт "сургалтын багц" ба "туршилтын багц" гэж юу вэ?
13. Машины сургалтын таамаглал гэж юу вэ?
14. Машин сургалтын хэт тохируулга гэдэг нь юу гэсэн үг вэ, түүнээс хэрхэн сэргийлэх вэ?
15. Naive Bayes ангилагч гэж яг юу вэ?
16. Зардлын функц ба алдагдлын функц гэж юу гэсэн үг вэ?
17. Генератив загвар нь ялгах загвараас юугаараа ялгаатай вэ?
18. I болон II төрлийн алдааны ялгааг тайлбарла.
19. Машин сургалтын хувьд чуулга сурах арга гэж юу вэ?
20. Параметрийн загвар гэж яг юу вэ? Нэг жишээ хэлье.
21. Хамтарсан шүүлтүүрийг тайлбарла. Агуулгад суурилсан шүүлтүүртэй адил уу?
22. Цаг хугацааны цуваа гэж та яг юуг хэлээд байна вэ?
23. Gradient Boosting болон Random Forest алгоритмуудын хоорондын өөрчлөлтийг тайлбарла.
24. Төөрөгдлийн матриц яагаад хэрэгтэй вэ? Энэ юу вэ?
25. Зарчмын бүрэлдэхүүний шинжилгээ гэж яг юу вэ?
26. Бүрэлдэхүүн хэсгүүдийн эргэлт нь PCA (үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ) -д яагаад маш чухал байдаг вэ?
27. Зохицуулах болон хэвийн болгох нь бие биенээсээ хэрхэн ялгаатай вэ?
28. Нормчилал ба стандартчилал нь бие биенээсээ юугаараа ялгаатай вэ?
29. “Сэлбэх инфляцийн хүчин зүйл” гэдэг нь яг юу гэсэн үг вэ?
30. Сургалтын багцын хэмжээнээс хамааран ангилагчийг хэрхэн сонгох вэ?
31. Машин сургалтын ямар алгоритмыг “залхуу суралцагч” гэж нэрлэдэг ба яагаад?
32. ROC муруй ба AUC гэж юу вэ?
33. Гиперпараметр гэж юу вэ? Загварын параметрүүдээс юугаараа онцлог вэ?
34. F1 Оноо, санах ой, нарийвчлал нь юу гэсэн үг вэ?
35. Хөндлөнгийн баталгаажуулалт гэж яг юу вэ?
36. Таны загвар ихээхэн ялгаатай байгааг олж мэдсэн гэж бодъё. Таны бодлоор энэ нөхцөл байдлыг шийдвэрлэхэд ямар алгоритм хамгийн тохиромжтой вэ?
37. Риджийн регресс нь Лассогийн регрессээс юугаараа ялгаатай вэ?
38. Загварын гүйцэтгэл эсвэл загварын нарийвчлалын аль нь илүү чухал вэ? Аль нь, яагаад та үүнийг илүүд үзэх вэ?
39. Та тэгш бус өгөгдлийн багцыг хэрхэн удирдах вэ?
40. Өсгөх, уутлах хоёрыг хэрхэн ялгах вэ?
41. Индуктив ба дедуктив сургалтын ялгааг тайлбарла.
Дүгнэлт

Бизнесүүд хувь хүмүүст мэдээлэл, үйлчилгээний хүртээмжийг нэмэгдүүлэхийн тулд хиймэл оюун ухаан (AI) болон машин сургалт зэрэг дэвшилтэт технологийг ашиглаж байна.

Эдгээр технологийг банк, санхүү, жижиглэн худалдаа, үйлдвэрлэл, эрүүл мэндийн салбар зэрэг олон салбарт нэвтрүүлж байна.

AI ашигладаг зохион байгуулалтын хамгийн эрэлттэй үүрэг бол өгөгдөл судлаачид, хиймэл оюун ухааны инженерүүд, машин сургалтын инженерүүд, мэдээллийн шинжээчид юм.

Энэ нийтлэл нь таныг янз бүрийн зүйлд хөтлөх болно машин суралцах Таны хамгийн тохиромжтой ажил хайж байхдаа асууж болох бүх асуултанд бэлдэхэд тань туслах үндсэнээс нарийн төвөгтэй хүртэлх ярилцлагын асуултууд.

1. Машин сургалт, хиймэл оюун ухаан, гүнзгий суралцах хоёрын ялгааг тайлбарла.

Хиймэл оюун ухаан нь компьютерийн системд логик, дүрмийн дагуу хүнтэй төстэй оюун ухааныг ашиглан даалгавруудыг гүйцэтгэх боломжийг олгодог төрөл бүрийн машин сургалтын болон гүнзгий сургалтын аргуудыг ашигладаг.

Машины сургалт нь янз бүрийн статистик болон гүнзгий суралцах аргыг ашигладаг бөгөөд машинууд өмнөх гүйцэтгэлээсээ суралцаж, хүний хяналтгүйгээр тодорхой ажлуудыг бие даан гүйцэтгэх чадвартай болдог.

Deep Learning нь программ хангамжийг өөрөөсөө суралцах, дуу хоолой, зураг таних зэрэг арилжааны олон төрлийн функцийг гүйцэтгэх боломжийг олгодог алгоритмуудын цуглуулга юм.

Тэдний олон давхаргат байдлыг харуулсан системүүд мэдрэлийн сүлжээ сурахад зориулсан асар их хэмжээний өгөгдөлд гүнзгий суралцах боломжтой.

2. Машин сургалтын янз бүрийн төрлүүдийг тайлбарлана уу.

Машины сургалт нь ерөнхийдөө гурван өөр төрөлд байдаг:

Хяналттай сургалт: Загвар нь хяналттай машин сургалтанд шошготой эсвэл түүхэн өгөгдлийг ашиглан таамаглал эсвэл дүгнэлтийг бий болгодог. Утгыг нь нэмэгдүүлэхийн тулд шошгологдсон эсвэл шошгологдсон өгөгдлийн багцыг шошготой өгөгдөл гэж нэрлэдэг.
Хяналтгүй сургалт: Бидэнд хараа хяналтгүй сургалтад зориулсан шошготой өгөгдөл байхгүй. Ирж буй өгөгдөлд загвар нь хэв маяг, хачирхалтай байдал, хамаарлыг олж чадна.
Сургалтыг бататгах: Загвар хийх боломжтой бататгалыг ашиглан сурах суралцах, өмнөх зан үйлийнхээ төлөө авсан шагнал.

3. Хязгаарлалттай харьцуулсан зөрүү гэж юу вэ?

Хэт тохируулга гэдэг нь загвар нь өгөгдөлд хэр нийцэж байгаа нь хэвийсэн байдлын үр дүн юм. Буруу эсвэл хэт энгийн таамаглалаас болж өрөөсгөл машин сурах алгоритм.

Хугацаа гэдэг нь таны ML алгоритмын нарийн төвөгтэй байдлаас үүдэлтэй алдааг хэлдэг бөгөөд энэ нь сургалтын өгөгдөл болон хэт тохируулгад их хэмжээний хэлбэлзэлд мэдрэмтгий байдлыг үүсгэдэг.

Өөрчлөлт гэдэг нь загвар нь оролтоос хамаарч хэр их өөрчлөгдөж байгааг хэлнэ.

Өөрөөр хэлбэл, үндсэн загварууд нь хэт хазайсан боловч тогтвортой (бага хэлбэлзэлтэй) байдаг. Загварын бодит байдлыг (бага хэвийсэн) дүрсэлсэн хэдий ч нарийн төвөгтэй загваруудад хэт тохирох асуудал байдаг.

Өндөр хэлбэлзэл ба өндөр хазайлтаас урьдчилан сэргийлэхийн тулд алдааг хамгийн сайн бууруулахын тулд хазайлт ба зөрүүг хооронд нь солилцох шаардлагатай.

4. Машин сургалтын алгоритмууд цаг хугацааны явцад ихээхэн хувьсан өөрчлөгдсөн. Өгөгдлийн багцыг ашиглах зөв алгоритмыг хэрхэн сонгох вэ?

Ашиглах ёстой машин сургалтын техник нь зөвхөн тодорхой өгөгдлийн багц дахь өгөгдлийн төрлөөс хамаарна.

Өгөгдөл шугаман бол шугаман регрессийг ашигладаг. Хэрэв өгөгдөл шугаман бус байгааг харуулсан бол шуудайлах арга илүү сайн ажиллах болно. Хэрэв өгөгдлийг арилжааны зорилгоор үнэлэх эсвэл тайлбарлах шаардлагатай бол бид шийдвэрийн мод эсвэл SVM ашиглаж болно.

Хэрэв өгөгдлийн багцад зураг, видео, аудио багтсан бол мэдрэлийн сүлжээ нь үнэн зөв хариулт авахад тустай байж болох юм.

Зөвхөн нэг хэмжүүрээр тодорхой нөхцөл байдал эсвэл өгөгдөл цуглуулах алгоритмыг сонгох боломжгүй.

Хамгийн сайн тохирох аргыг боловсруулахын тулд бид эхлээд хайгуулын өгөгдлийн шинжилгээ (EDA) ашиглан өгөгдлийг шалгаж, мэдээллийн багцыг ашиглах зорилгыг ойлгох ёстой.

5. Ковариац ба корреляци хэрхэн ялгаатай вэ?

Ковариац нь хоёр хувьсагч хоорондоо хэрхэн холбогдож, нөгөө хувьсагчийн өөрчлөлтөд нэг нь хэрхэн өөрчлөгдөж болохыг үнэлдэг.

Хэрэв үр дүн эерэг бол энэ нь хувьсагчдын хооронд шууд холбоо байгааг харуулж байгаа бөгөөд бусад бүх нөхцөл тогтмол байна гэж үзвэл суурь хувьсагч өсөх эсвэл буурах үед нэг нь өсөх эсвэл буурах болно.

Корреляци нь хоёр санамсаргүй хэмжигдэхүүний хоорондох холбоосыг хэмждэг бөгөөд зөвхөн 1, 0, -1 гэсэн гурван ялгаатай утгатай байна.

6. Машин сургалтын хувьд кластер гэдэг нь юу гэсэн үг вэ?

Мэдээллийн цэгүүдийг бүлэглэх хяналтгүй сургалтын аргуудыг кластер гэж нэрлэдэг. Мэдээллийн цэгүүдийн цуглуулгын тусламжтайгаар кластер хийх аргыг ашиглаж болно.

Та энэ стратегийг ашиглан бүх өгөгдлийн цэгүүдийг чиг үүргийн дагуу бүлэглэж болно.

Нэг ангилалд багтах өгөгдлийн цэгүүдийн онцлог, чанар нь ижил төстэй байхад тус тусад нь бүлэгт багтах өгөгдлийн цэгүүд өөр өөр байдаг.

Энэ аргыг статистик мэдээлэлд дүн шинжилгээ хийхэд ашиглаж болно.

7. Таны илүүд үздэг машин сургалтын алгоритм юу вэ?

Та энэ асуултад өөрийн сонголт, өвөрмөц авъяас чадвар, түүнчлэн олон тооны машин сурах арга техникүүдийн талаархи иж бүрэн мэдлэгээ харуулах боломжтой.

Энд бодох хэрэгтэй хэд хэдэн ердийн машин сургалтын алгоритмууд байна:

Шугаман регресс
Логистик регресс
Гэнэн Байес
Шийдвэр гаргах мод
K гэсэн үг
Санамсаргүй ойн алгоритм
K-хамгийн ойрын хөрш (KNN)

8. Машины сургалтын шугаман регресс: Энэ юу вэ?

Хяналттай машин сургалтын алгоритм нь шугаман регресс юм.

Энэ нь хамааралтай болон бие даасан хувьсагчдын хоорондох шугаман холболтыг тодорхойлохын тулд урьдчилан таамаглах шинжилгээнд ашиглагддаг.

Шугаман регрессийн тэгшитгэл нь дараах байдалтай байна.

Y = A + BX

хаана:

Оролтын буюу бие даасан хувьсагчийг X гэж нэрлэдэг.
Хараат буюу гаралтын хувьсагч нь Y байна.
X-ийн коэффициент нь b ба огтлолцол нь a.

9. KNN ба k-түлхүүний кластерчлалын ялгааг тайлбарла.

Үндсэн ялгаа нь KNN (ангилах арга, хяналттай суралцах) нь шошготой цэгүүдийг шаарддаг бол k-тэдгээрийн хувьд шаардлагагүй (бүлэглэх алгоритм, хяналтгүй суралцах).

Та K-Nearest Neighbors-ийг ашиглан шошготой өгөгдлийг шошгогүй цэг болгон ангилж болно. K- гэсэн үг кластер нь тэмдэглэгээгүй цэгүүдийг хэрхэн бүлэглэх талаар сурахын тулд цэгүүдийн хоорондох дундаж зайг ашигладаг.

10. Таны хувьд “сонголтын гажуудал” юу гэсэн үг вэ?

Туршилтын түүвэрлэлтийн үе шат дахь хазайлт нь статистикийн алдаатай холбоотой юм.

Нэг түүврийн бүлгийг туршилтын бусад бүлгүүдээс илүү олон удаа сонгосон нь алдаатай байдаг.

Хэрэв сонголтын хэвийсэн байдлыг хүлээн зөвшөөрөхгүй бол энэ нь буруу дүгнэлтэд хүргэж болзошгүй юм.

11. Бэйсийн теорем яг юу вэ?

Бид бусад магадлалыг мэддэг бол Байесийн теоремыг ашиглан магадлалыг тодорхойлж чадна. Энэ нь өмнөх мэдээлэлд тулгуурлан тохиолдох магадлалыг санал болгодог, өөрөөр хэлбэл.

Нөхцөлт магадлалыг тооцоолох найдвартай аргыг энэ теоремоор хангана.

Ангилалыг урьдчилан таамаглах загварчлалын асуудлыг боловсруулах, загварыг сургалтанд тохируулах үед машин сургалтын мэдээллийн багц, Бэйсийн теоремыг ашигласан (өөрөөр хэлбэл Naive Bayes, Bayes Optimal Classifier).

12. Машины сургалтын загварт "сургалтын багц" ба "туршилтын багц" гэж юу вэ?

Сургалтын багц:

Сургалтын багц нь загварт дүн шинжилгээ хийх, суралцах зорилгоор илгээсэн тохиолдлуудаас бүрдэнэ.
Энэ бол загварыг сургахад ашиглах шошготой өгөгдөл юм.
Ерөнхийдөө нийт өгөгдлийн 70%-ийг сургалтын мэдээллийн багц болгон ашигладаг.

Туршилтын багц:

Туршилтын багц нь загварын таамаглалыг бий болгох нарийвчлалыг үнэлэхэд ашиглагддаг.
Бид шошготой өгөгдөлгүйгээр тест хийж, үр дүнг баталгаажуулахын тулд шошгыг ашигладаг.
Үлдсэн 30%-ийг туршилтын өгөгдлийн багц болгон ашигладаг.

13. Машины сургалтын таамаглал гэж юу вэ?

Машины сургалт нь оролтыг гаралттай холбодог өгөгдсөн функцийг илүү сайн ойлгохын тулд одоо байгаа өгөгдлийн багцыг ашиглах боломжийг олгодог. Үүнийг функцийн ойртолт гэж нэрлэдэг.

Энэ тохиолдолд өгөгдсөн нөхцөл байдалд суурилсан бүх ажиглалтыг аль болох хамгийн сайн байдлаар шилжүүлэхийн тулд үл мэдэгдэх зорилтот функцэд ойртуулах шаардлагатай.

Машины сургалтын хувьд таамаглал нь зорилтот функцийг тооцоолох, оролтоос гаралтад тохирох зураглалыг гүйцэтгэхэд тусалдаг загвар юм.

Алгоритмуудын сонголт, загвар нь загвараар төлөөлүүлж болох боломжит таамаглалын орон зайг тодорхойлох боломжийг олгодог.

Нэг таамаглалын хувьд жижиг үсгээр h (h) ашигладаг бол том h (H) нь хайж буй таамаглалын бүх орон зайд ашиглагддаг. Бид эдгээр тэмдэглэгээг товчхон авч үзэх болно:

Таамаглал (h) нь орцыг гаралттай харьцуулах боломжийг олгодог тодорхой загвар бөгөөд үүнийг дараа нь үнэлгээ, таамаглалд ашиглаж болно.
Таамаглалын багц (H) нь оролтыг гаралт руу буулгахад ашиглаж болох таамаглалуудын хайх боломжтой орон зай юм. Асуудлын хүрээ, загвар, загварын тохиргоо нь ерөнхий хязгаарлалтын цөөн хэдэн жишээ юм.

14. Машин сургалтын хэт тохируулга гэдэг нь юу гэсэн үг вэ, түүнээс хэрхэн сэргийлэх вэ?

Машин хангалтгүй өгөгдлийн багцаас суралцах гэж оролдох үед хэт тохируулга үүсдэг.

Үүний үр дүнд overfitting нь өгөгдлийн эзлэхүүнтэй урвуу хамааралтай байдаг. Хөндлөн баталгаажуулалтын арга нь жижиг өгөгдлийн багцад хэт тааруулахаас зайлсхийх боломжийг олгодог. Энэ аргаар өгөгдлийн багцыг хоёр хэсэгт хуваадаг.

Туршилт, сургалтын мэдээллийн багц нь эдгээр хоёр хэсгээс бүрдэнэ. Сургалтын өгөгдлийн багц нь загвар үүсгэхэд ашиглагддаг бол туршилтын өгөгдлийн багц нь өөр өөр оролтуудыг ашиглан загварыг үнэлэхэд ашиглагддаг.

Энэ нь хэт их ачаалал өгөхөөс урьдчилан сэргийлэх арга юм.

15. Naive Bayes ангилагч гэж яг юу вэ?

Төрөл бүрийн ангиллын аргууд нь Naive Bayes ангилагчдыг бүрдүүлдэг. Эдгээр ангилагч гэж нэрлэгддэг алгоритмуудын багц нь бүгд ижил үндсэн санаа дээр ажилладаг.

Гэнэн Bayes ангилагчдын хийсэн таамаглал нь нэг онцлог шинж чанар байгаа эсэх нь өөр шинж чанар байгаа эсэхээс үл хамаарна.

Өөрөөр хэлбэл, бид үүнийг "гэнэн" гэж нэрлэдэг бөгөөд энэ нь өгөгдлийн багцын шинж чанар бүр ижил ач холбогдолтой, бие даасан гэсэн таамаглалыг бий болгодог.

Ангилалыг гэнэн Bayes ангилагч ашиглан хийдэг. Тэдгээрийг ашиглахад хялбар бөгөөд бие даасан байдлын үндэслэл үнэн байх үед илүү төвөгтэй таамаглагчдаас илүү сайн үр дүнд хүргэдэг.

Текстийн шинжилгээ, спам шүүлтүүр, зөвлөмжийн системд тэдгээрийг ашигладаг.

16. Зардлын функц ба алдагдлын функц гэж юу гэсэн үг вэ?

"Алдагдах функц" гэсэн хэллэг нь зөвхөн нэг өгөгдлийг харгалзан үзэхэд алдагдлыг тооцоолох үйл явцыг хэлнэ.

Үүний эсрэгээр бид олон тооны өгөгдлийн нийт алдааны хэмжээг тодорхойлохын тулд зардлын функцийг ашигладаг. Ямар ч чухал ялгаа байхгүй.

Өөрөөр хэлбэл, зардлын функцүүд нь сургалтын бүх мэдээллийн багцын зөрүүг нэгтгэдэг бол алдагдлын функцууд нь нэг бичлэгийн бодит болон таамагласан утгуудын зөрүүг олж авах зорилготой юм.

17. Генератив загвар нь ялгах загвараас юугаараа ялгаатай вэ?

Ялгаварлан гадуурхах загвар нь хэд хэдэн өгөгдлийн ангиллын ялгааг олж мэддэг. Төрөл бүрийн загвар нь янз бүрийн өгөгдлийн төрлүүдийг авдаг.

Ангилалын асуудлууд дээр ялгаварлан гадуурхах загварууд нь бусад загваруудаас илүү сайн ажилладаг.

18. I болон II төрлийн алдааны ялгааг тайлбарла.

Хуурамч эерэг нь I төрлийн алдааны ангилалд багтдаг бол худал сөрөг нь II төрлийн алдааны ангилалд багтдаг (энэ нь үнэн хэрэгтээ юу ч болоогүй гэж үздэг).

19. Машин сургалтын хувьд чуулга сурах арга гэж юу вэ?

Чуулганы сургалт гэж нэрлэгддэг техник нь илүү хүчирхэг загваруудыг гаргахын тулд олон машин сургалтын загваруудыг хольдог.

Загвар нь янз бүрийн шалтгааны улмаас өөрчлөгдөж болно. Хэд хэдэн шалтгаан нь:

Төрөл бүрийн популяци
Төрөл бүрийн таамаглал
Төрөл бүрийн загварчлалын аргууд

Загварын сургалт, туршилтын өгөгдлийг ашиглах явцад бид асуудалтай тулгарах болно. Хязгаарлалт, дисперс, бууруулж болохгүй алдаа нь энэ алдааны боломжит төрлүүд юм.

Одоо бид загвар дахь хазайлт ба дисперсийн хоорондын тэнцвэрийг хэвийсэн зөрүүний солилцоо гэж нэрлэдэг бөгөөд энэ нь үргэлж байх ёстой. Энэхүү солилцоо нь чуулгын сургалтыг ашиглах замаар хийгддэг.

Хэдийгээр янз бүрийн чуулгын аргууд байдаг ч олон загварыг хослуулах хоёр нийтлэг стратеги байдаг:

Bagging гэж нэрлэгддэг төрөлхийн арга нь сургалтын багцыг нэмэлт сургалтын багц үйлдвэрлэхэд ашигладаг.
Өсгөх, илүү боловсронгуй техник: Бөглөхтэй адил дасгалын багцад тохирох жингийн томъёог олохын тулд өргөлтийг ашигладаг.

20. Параметрийн загвар гэж яг юу вэ? Нэг жишээ хэлье.

Параметрийн загварт хязгаарлагдмал тооны параметрүүд байдаг. Өгөгдлийг урьдчилан таамаглахын тулд та зөвхөн загварын параметрүүдийг мэдэх хэрэгтэй.

Дараах нь ердийн жишээнүүд юм: логистик регресс, шугаман регресс, шугаман SVM. Параметрийн бус загварууд нь хязгааргүй тооны параметрүүдийг агуулж чаддаг тул уян хатан байдаг.

Өгөгдлийн таамаглалд загварын параметрүүд болон ажиглагдсан өгөгдлийн статус шаардлагатай. Энд зарим ердийн жишээнүүд байна: сэдвийн загварууд, шийдвэрийн мод, k-хамгийн ойрын хөршүүд.

21. Хамтарсан шүүлтүүрийг тайлбарла. Агуулгад суурилсан шүүлтүүртэй адил уу?

Тохиромжтой агуулгын зөвлөмжийг бий болгох туршилт, үнэн арга бол хамтын шүүлтүүр юм.

Хамтарсан шүүлтүүр гэж нэрлэгддэг зөвлөмжийн системийн нэг хэлбэр нь хэрэглэгчийн сонголтыг нийтлэг ашиг сонирхолд нийцүүлэн шинэ материалыг зөгнөдөг.

Хэрэглэгчийн сонголт бол контент дээр суурилсан зөвлөмжийн системд анхаарах цорын ганц зүйл юм. Хэрэглэгчийн өмнөх сонголтын дагуу холбогдох материалаас шинэ зөвлөмжүүдийг өгсөн болно.

22. Цаг хугацааны цуваа гэж та яг юуг хэлээд байна вэ?

Хугацааны цуваа нь өсөх дарааллаар бичигдсэн тоонуудын цуглуулга юм. Урьдчилан тогтоосон хугацааны туршид энэ нь сонгосон өгөгдлийн цэгүүдийн хөдөлгөөнийг хянаж, өгөгдлийн цэгүүдийг үе үе барьж авдаг.

Хугацааны цувааны хувьд хамгийн бага эсвэл хамгийн их хугацааны оролт байхгүй.

Хугацааны цувааг шинжээчид өөрсдийн өвөрмөц шаардлагын дагуу өгөгдөлд дүн шинжилгээ хийхэд ашигладаг.

23. Gradient Boosting болон Random Forest алгоритмуудын хоорондын өөрчлөлтийг тайлбарла.

Санамсаргүй ой:

Олон тооны шийдвэрийн модыг төгсгөлд нь нэгтгэж, санамсаргүй ой гэж нэрлэдэг.
Градиент нэмэгдүүлэх нь мод бүрийг бусдаас үл хамааран ургуулдаг бол санамсаргүй ой мод бүрийг нэг нэгээр нь барьдаг.
Олон анги объект илрүүлэх санамсаргүй ойтой сайн ажилладаг.

Градиент нэмэгдүүлэх:

Санамсаргүй ой нь үйл явцын төгсгөлд шийдвэрийн модтой нэгддэг бол Gradient Boosting Machines нь тэдгээрийг эхнээс нь нэгтгэдэг.
Хэрэв параметрүүдийг зохих ёсоор тохируулсан бол градиентийг нэмэгдүүлэх нь үр дүнгийн хувьд санамсаргүй ойг давж гарна, гэхдээ өгөгдлийн багцад хэт давсан үзүүлэлт, гажуудал, дуу чимээ ихтэй байвал энэ нь ухаалаг сонголт биш бөгөөд энэ нь загварыг хэт тохируулж болно.
Бодит цагийн эрсдлийн үнэлгээний нэгэн адил тэнцвэргүй өгөгдөл байгаа тохиолдолд градиент нэмэгдүүлэх нь сайн ажилладаг.

24. Төөрөгдлийн матриц яагаад хэрэгтэй вэ? Энэ юу вэ?

Ангиллын загвар буюу ангилагч нь бодит утгууд нь мэдэгдэж байгаа тестийн өгөгдлийн багц дээр хэр сайн ажиллаж байгааг харуулахын тулд төөрөгдлийн матриц гэж нэрлэгддэг хүснэгтийг заримдаа алдааны матриц гэж нэрлэдэг.

Энэ нь загвар эсвэл алгоритм хэрхэн ажиллаж байгааг харах боломжийг бидэнд олгодог. Энэ нь янз бүрийн хичээлүүдийн дунд үл ойлголцлыг олж илрүүлэхэд хялбар болгодог.

Энэ нь загвар эсвэл алгоритмыг хэр сайн гүйцэтгэж байгааг үнэлэх арга болдог.

Ангиллын загварын таамаглалыг төөрөгдлийн матрицад нэгтгэдэг. Анги тус бүрийн тооллын утгыг зөв ба буруу таамаглалын нийт тоог задлахад ашигласан.

Энэ нь ангилагчийн алдаа, мөн ангилагчаас үүссэн янз бүрийн төрлийн алдааны талаар дэлгэрэнгүй мэдээллийг өгдөг.

25. Зарчмын бүрэлдэхүүний шинжилгээ гэж яг юу вэ?

Өөр хоорондоо хамааралтай хувьсагчдын тоог багасгах замаар өгөгдөл цуглуулах хэмжээсийг багасгах зорилготой юм. Гэхдээ аль болох олон янз байдлыг хадгалах нь чухал.

Хувьсагчдыг үндсэн бүрэлдэхүүн хэсэг гэж нэрлэдэг цоо шинэ хувьсагчдын багц болгон өөрчилдөг.

Эдгээр компьютерууд нь ковариацын матрицын хувийн векторууд тул ортогональ байдаг.

26. Бүрэлдэхүүн хэсгүүдийн эргэлт нь PCA (үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ) -д яагаад маш чухал байдаг вэ?

Эргүүлэх нь PCA-д чухал ач холбогдолтой бөгөөд учир нь энэ нь бүрэлдэхүүн хэсэг тус бүрээр олж авсан хэлбэлзлийн хоорондын ялгааг оновчтой болгож, бүрэлдэхүүн хэсгийн тайлбарыг хялбар болгодог.

Бүрэлдэхүүн хэсгүүдийг эргүүлээгүй тохиолдолд бүрэлдэхүүн хэсгийн өөрчлөлтийг илэрхийлэхийн тулд бид өргөтгөсөн бүрэлдэхүүн хэсгүүдийг шаарддаг.

27. Зохицуулах болон хэвийн болгох нь бие биенээсээ хэрхэн ялгаатай вэ?

Хэвийн байдал:

Хэвийн байдалд оруулах явцад өгөгдөл өөрчлөгддөг. Өгөгдөл нь эрс ялгаатай, ялангуяа баганаас өндөр хүртэлх масштабтай бол та өгөгдлийг хэвийн болгох хэрэгтэй. Үндсэн статистикууд бүгд нийцтэй байхаар багана бүрийг тохируулна уу.

Нарийвчлалыг алдахгүйн тулд энэ нь ашигтай байж болно. Дуу чимээг үл тоомсорлож дохиог илрүүлэх нь загвар сургалтын нэг зорилт юм.

Алдааг багасгахын тулд загварт бүрэн хяналт олговол хэт тааруулах магадлал бий.

Зохицуулалт:

Зохицуулалтын үед таамаглах функцийг өөрчилдөг. Энэ нь нарийн төвөгтэй функцүүдээс илүү хялбар холбох функцийг илүүд үздэг зохицуулалтаар тодорхой хяналтанд байдаг.

28. Нормчилал ба стандартчилал нь бие биенээсээ юугаараа ялгаатай вэ?

Онцлог шинж чанарыг нэмэгдүүлэхэд хамгийн өргөн хэрэглэгддэг хоёр арга бол нормчлол ба стандартчилал юм.

Хэвийн байдал:

Өгөгдлийн хэмжээг [0,1] мужид тохируулахыг хэвийн болгох гэж нэрлэдэг.
Бүх параметрүүд нь ижил эерэг хуваарьтай байх ёстой бол хэвийн болгох нь тустай боловч өгөгдлийн багцын хэтийн утга алдагдана.

Зохицуулалт:

Стандартчиллын үйл явцын нэг хэсэг болгон өгөгдлийн хэмжээг 0 дундаж, стандарт хазайлт 1 байхаар өөрчилсөн (нэгжийн зөрүү)

29. “Сэлбэх инфляцийн хүчин зүйл” гэдэг нь яг юу гэсэн үг вэ?

Зөвхөн нэг бие даасан хувьсагчтай загварын дисперсийн харьцааг вариацын инфляцийн хүчин зүйл (VIF) гэж нэрлэдэг.

VIF нь хэд хэдэн регрессийн хувьсагчийн багцад байгаа олон шугаман байдлын хэмжээг тооцдог.

Загварын хэлбэлзэл (VIF) Нэг бие даасан хувьсагчтай загвар

30. Сургалтын багцын хэмжээнээс хамааран ангилагчийг хэрхэн сонгох вэ?

Өндөр хэвийсэн, бага хэлбэлзэлтэй загвар нь богино сургалтын багцад илүү сайн ажилладаг, учир нь хэт тохируулга хийх магадлал бага байдаг. Гэнэн Бэйс бол нэг жишээ юм.

Том хэмжээний сургалтын багцад илүү төвөгтэй харилцан үйлчлэлийг илэрхийлэхийн тулд бага хазайлттай, өндөр хэлбэлзэлтэй загварыг илүүд үздэг. Логистик регресс бол сайн жишээ юм.

31. Машин сургалтын ямар алгоритмыг “залхуу суралцагч” гэж нэрлэдэг ба яагаад?

Сулхан суралцагч KNN бол машин сургалтын алгоритм юм. K-NN нь сургалтын өгөгдлөөс ямар нэгэн машинд сурсан утгууд эсвэл хувьсагчдыг сурахын оронд ангилахыг хүсэх бүртээ зайг динамикаар тооцдог тул сургалтын мэдээллийн багцыг цээжилдэг.

Энэ нь K-NN-ийг залхуу суралцагч болгодог.

32. ROC муруй ба AUC гэж юу вэ?

Ангиллын загварын бүх босгон дахь гүйцэтгэлийг ROC муруйгаар графикаар илэрхийлнэ. Энэ нь үнэн эерэг хувьтай, худал эерэг үзүүлэлттэй байдаг.

Энгийнээр хэлбэл, ROC муруй доорх талбайг AUC (ROC муруй доорх талбай) гэж нэрлэдэг. ROC муруйны хоёр хэмжээст талбайг (0,0) -аас AUC хүртэл (1,1) хэмжинэ. Хоёртын ангиллын загваруудыг үнэлэхийн тулд гүйцэтгэлийн статистик болгон ашигладаг.

33. Гиперпараметр гэж юу вэ? Загварын параметрүүдээс юугаараа онцлог вэ?

Загварын дотоод хувьсагчийг загварын параметр гэж нэрлэдэг. Сургалтын өгөгдлийг ашиглан параметрийн утгыг ойролцоолно.

Загварт үл мэдэгдэх гиперпараметр нь хувьсагч юм. Өгөгдлөөс утгыг тодорхойлох боломжгүй тул загварын параметрүүдийг тооцоолоход ихэвчлэн ашигладаг.

34. F1 Оноо, санах ой, нарийвчлал нь юу гэсэн үг вэ?

Төөрөгдлийн хэмжүүр нь ангиллын загварын үр нөлөөг хэмжихэд ашигладаг хэмжүүр юм. Төөрөгдлийн хэмжүүрийг илүү сайн тайлбарлахын тулд дараах хэллэгүүдийг ашиглаж болно.

TP: Жинхэнэ эерэг талууд - Эдгээр нь зөв таамаглаж байсан эерэг утгууд юм. Энэ нь төлөвлөсөн анги болон бодит ангийн утгууд хоёулаа эерэг болохыг харуулж байна.

TN: Үнэн сөрөг талууд- Эдгээр нь үнэн зөв урьдчилан таамагласан сөрөг утгууд юм. Энэ нь бодит анги болон хүлээгдэж буй ангийн үнэ цэнэ хоёулаа сөрөг байгааг харуулж байна.

Эдгээр утгууд - худал эерэг ба худал сөрөг - таны бодит анги хүлээгдэж буй ангиас ялгаатай үед үүсдэг.

Одоо

Бодит ангид хийсэн бүх ажиглалтын бодит эерэг хувь (TP)-ийн харьцааг санах ой гэж нэрлэдэг бөгөөд үүнийг мэдрэмж гэж нэрлэдэг.

Эргэн татах нь TP/(TP+FN).

Нарийвчлал нь эерэг таамаглах утгын хэмжүүр бөгөөд загвар нь үнэхээр таамаглаж буй эерэг үзүүлэлтүүдийн тоог хичнээн зөв эерэгийг үнэн зөв таамаглаж байгаатай харьцуулдаг.

Нарийвчлал нь TP/(TP + FP)

Гүйцэтгэлийн хэмжүүрийг ойлгоход хамгийн хялбар нь нарийвчлал бөгөөд энэ нь зөв таамагласан ажиглалтын бүх ажиглалтад эзлэх хувь юм.

Нарийвчлал нь (TP+TN)/(TP+FP+FN+TN) тэнцүү байна.

Нарийвчлал ба Эргэн дуудах чадварыг жигнэж, дунджаар тооцож, F1 оноог гаргадаг. Үүний үр дүнд энэ оноо нь хуурамч эерэг ба хуурамч сөрөг аль алиныг нь авч үздэг.

F1 нь ихэвчлэн нарийвчлалаас илүү үнэ цэнэтэй байдаг, ялангуяа хэрэв та ангиллын тэгш бус хуваарилалттай бол зөн совингоор ойлгоход нарийвчлалтай адил хялбар биш байсан ч гэсэн үнэ цэнэтэй байдаг.

Хуурамч эерэг ба худал сөрөг үр дүнг харьцуулах боломжтой үед хамгийн сайн нарийвчлалд хүрдэг. Хуурамч эерэг ба худал сөрөг үзүүлэлттэй холбоотой зардал ихээхэн ялгаатай бол Нарийвчлал ба Эргэн дуудах хоёрыг хоёуланг нь оруулах нь зүйтэй.

35. Хөндлөнгийн баталгаажуулалт гэж яг юу вэ?

Машины сургалтын хөндлөн баталгаажуулалт гэж нэрлэгддэг статистикийн дахин дээж авах арга нь машин сургалтын алгоритмыг хэд хэдэн үе шатанд сургаж, үнэлэхийн тулд хэд хэдэн өгөгдлийн багцыг ашигладаг.

Загварыг сургахад ашиглагдаагүй өгөгдлийн шинэ багцыг загвар нь хэр сайн таамаглаж байгааг харахын тулд хөндлөн баталгаажуулалтыг ашиглан туршиж үздэг. Хөндлөн баталгаажуулалтаар дамжуулан өгөгдлийг хэт тохируулахаас сэргийлдэг.

K-Fold Хамгийн түгээмэл хэрэглэгддэг дахин загварчлалын арга нь бүх өгөгдлийн багцыг ижил хэмжээтэй K багц болгон хуваадаг. Үүнийг хөндлөн баталгаажуулалт гэж нэрлэдэг.

36. Таны загвар ихээхэн ялгаатай байгааг олж мэдсэн гэж бодъё. Таны бодлоор энэ нөхцөл байдлыг шийдвэрлэхэд ямар алгоритм хамгийн тохиромжтой вэ?

Өндөр хэлбэлзлийг удирдах

Бид уутлах техникийг их хэмжээний өөрчлөлттэй асуудлуудад ашиглах ёстой.

Өгөгдлийг дэд бүлгүүдэд хуваахын тулд шуудайлах алгоритмаар санамсаргүй өгөгдлийн давтан түүвэрлэлтийг ашиглана. Өгөгдлийг хуваасны дараа бид санамсаргүй өгөгдөл болон дүрэм үүсгэхийн тулд тусгай сургалтын процедурыг ашиглаж болно.

Үүний дараа санал асуулгыг ашиглан загварын таамаглалыг нэгтгэж болно.

37. Риджийн регресс нь Лассогийн регрессээс юугаараа ялгаатай вэ?

Өргөн хэрэглэгддэг зохицуулалтын хоёр арга бол Lasso (мөн L1 гэж нэрлэдэг) ба Ridge (заримдаа L2 гэж нэрлэдэг) регресс юм. Эдгээр нь өгөгдлийг хэт тохируулахаас урьдчилан сэргийлэхэд ашиглагддаг.

Хамгийн сайн шийдлийг олж, нарийн төвөгтэй байдлыг багасгахын тулд коэффициентүүдийг шийтгэхийн тулд эдгээр аргуудыг ашигладаг. Коэффициентуудын үнэмлэхүй утгуудын нийлбэрийг шийтгэх замаар Лассо регресс ажилладаг.

Ridge эсвэл L2 регрессийн торгуулийн функцийг коэффициентүүдийн квадратуудын нийлбэрээс гаргаж авдаг.

38. Загварын гүйцэтгэл эсвэл загварын нарийвчлалын аль нь илүү чухал вэ? Аль нь, яагаад та үүнийг илүүд үзэх вэ?

Энэ бол хуурамч асуулт тул эхлээд Загварын гүйцэтгэл гэж юу болохыг ойлгох хэрэгтэй. Хэрэв гүйцэтгэлийг хурд гэж тодорхойлсон бол энэ нь хэрэглээний төрлөөс хамаарна; Бодит цагийн нөхцөл байдлыг хамарсан аливаа програм нь чухал бүрэлдэхүүн хэсэг болох өндөр хурдыг шаарддаг.

Жишээлбэл, асуулгын үр дүн хэтэрхий удаж байвал хайлтын хамгийн сайн үр дүн нь үнэ цэнэгүй болно.

Гүйцэтгэлийг яагаад нарийвчлал, санах ойг нарийвчлалаас дээгүүрт тавих ёстойг тайлбарлах үндэслэл болгон ашигладаг бол тэнцвэргүй өгөгдлийн багцын бизнесийн жишээг харуулахын тулд F1 оноо нь нарийвчлалаас илүү ашигтай байх болно.

39. Та тэгш бус өгөгдлийн багцыг хэрхэн удирдах вэ?

Тэнцвэргүй өгөгдлийн багц нь түүвэрлэлтийн техникээс ашиг тус хүртэх боломжтой. Дээж авах ажлыг дутуу эсвэл хэтрүүлсэн хэлбэрээр хийж болно.

Дээж авах нь олонхийн ангийн хэмжээг цөөнхийн ангилалд тохируулан багасгах боломжийг бидэнд олгодог бөгөөд энэ нь хадгалалт болон ажиллах хугацааны гүйцэтгэлийн хурдыг нэмэгдүүлэхэд тусалдаг боловч үнэ цэнэтэй өгөгдлийг алдахад хүргэдэг.

Хэт түүврийн улмаас үүссэн мэдээллийн алдагдлыг арилгахын тулд бид Цөөнхийн ангиллыг дээшлүүлдэг; Гэсэн хэдий ч энэ нь биднийг хэт тохирох асуудалд хүргэдэг.

Нэмэлт стратегид дараахь зүйлс орно.

Кластерт суурилсан түүвэрлэлт- Цөөнхийн болон олонхийн ангийн тохиолдлууд энэ нөхцөлд тус бүр нь K-дунжааны кластерын техникт хамрагддаг. Энэ нь өгөгдлийн багц кластеруудыг олохын тулд хийгддэг. Дараа нь кластер бүрийг хэт түүвэрлэсэн бөгөөд ингэснээр бүх ангиуд ижил хэмжээтэй, анги доторх бүх кластер ижил тооны тохиолдлуудтай байна.
SMOTE: Synthetic Minority Over-sampling Technique- Цөөнхийн ангиллын өгөгдлийн зүсмэлийг жишээ болгон ашигладаг бөгөөд үүний дараа түүнтэй харьцуулах боломжтой нэмэлт хиймэл тохиолдлуудыг гаргаж, анхны өгөгдлийн багцад нэмнэ. Энэ арга нь тоон өгөгдлийн цэгүүдтэй сайн ажилладаг.

40. Өсгөх, уутлах хоёрыг хэрхэн ялгах вэ?

Ansemble Techniques нь уутлах, өсгөх гэж нэрлэгддэг хувилбаруудтай.

уутлах -

Өндөр хэлбэлзэлтэй алгоритмуудын хувьд уутлах нь хэлбэлзлийг багасгахад ашигладаг арга юм. Хязгаарлалтад өртөмтгий ангилагчдын нэг гэр бүлийн шийдвэрийн модны гэр бүл юм.

Шийдвэрлэх модыг сургах өгөгдлийн төрөл нь тэдний гүйцэтгэлд ихээхэн нөлөөлдөг. Ийм учраас маш өндөр нарийвчлалтай байсан ч үр дүнг ерөнхийд нь гаргах нь заримдаа илүү хэцүү байдаг.

Хэрэв шийдвэрийн модны сургалтын өгөгдөл өөрчлөгдвөл үр дүн нь ихээхэн ялгаатай байна.

Үүний үр дүнд уутлах аргыг ашигладаг бөгөөд үүнд олон шийдвэрийн мод бий болсон бөгөөд тэдгээр нь тус бүрийг анхны өгөгдлийн дээжийг ашиглан сургадаг бөгөөд эцсийн үр дүн нь эдгээр бүх загваруудын дундаж юм.

Өсгөх:

Өсгөх гэдэг нь сул ангилагч бүр илүү хүчтэй ангилагчийнхаа дутагдлыг нөхдөг n-сул ангилагчийн системээр таамаглах арга юм. Өгөгдсөн өгөгдлийн багц дээр муу ажилладаг ангилагчийг бид "сул ангилагч" гэж нэрлэдэг.

Өсгөх нь алгоритм гэхээсээ илүүтэй процесс юм. Логистик регресс ба гүехэн шийдвэрийн мод нь сул ангилагчдын нийтлэг жишээ юм.

Adaboost, Gradient Boosting, XGBoost нь хамгийн алдартай хоёр өргөлтийн алгоритмууд боловч өөр олон байдаг.

41. Индуктив ба дедуктив сургалтын ялгааг тайлбарла.

Ажиглагдсан жишээнүүдээс жишээгээр суралцахдаа загвар нь ерөнхий дүгнэлтэнд хүрэхийн тулд индуктив сургалтыг ашигладаг. Нөгөөтэйгүүр, дедуктив сургалтын тусламжтайгаар загвар нь үр дүнг өөрөө бий болгохоос өмнө ашигладаг.

Индуктив сургалт нь ажиглалтаас дүгнэлт гаргах үйл явц юм.

Дедуктив сургалт гэдэг нь дүгнэлтэнд үндэслэн ажиглалт үүсгэх үйл явц юм.

Дүгнэлт

Баяр хүргэе! Эдгээр нь одоо та хариултыг нь мэдэж байгаа машин сурахад зориулсан ярилцлагын шилдэг 40 ба түүнээс дээш асуултууд юм. Өгөгдлийн шинжлэх ухаан ба хиймэл оюун технологи хөгжихийн хэрээр мэргэжлүүд эрэлттэй хэвээр байх болно.

Эдгээр дэвшилтэт технологийн талаарх мэдлэгээ шинэчилж, ур чадвараа дээшлүүлсэн нэр дэвшигчид өрсөлдөхүйц цалинтай олон төрлийн ажилд орох боломжтой.

Та одоо маш их асуудаг машин сургалтын ярилцлагын асуултуудад хэрхэн хариулах талаар сайн ойлголттой болсон тул ярилцлагад хариулж болно.

Зорилгоос хамааран дараах алхмуудыг хийгээрэй. Хашдорк дээр очиж ярилцлагадаа бэлдээрэй Ярилцлагын цуврал.

Машины сургалтын шилдэг 40 гаруй ярилцлагын асуултууд