Լավագույն 40+ մեքենայական ուսուցման հարցազրույցի հարցեր (2024)

Բառը[Թաքցնել][Ցուցադրում]

1. Բացատրեք մեքենայական ուսուցման, արհեստական բանականության և խորը ուսուցման միջև եղած տարբերությունները:
2. Խնդրում ենք նկարագրել մեքենայական ուսուցման տարբեր տեսակները:
3. Ո՞րն է կողմնակալությունն ընդդեմ շեղումների փոխզիջման:
4. Մեքենայի ուսուցման ալգորիթմները ժամանակի ընթացքում զգալիորեն զարգացել են: Ինչպե՞ս է ընտրվում տվյալ տվյալների հավաքածուն օգտագործելու ճիշտ ալգորիթմը:
5. Ինչպե՞ս են տարբերվում կովարիանսը և հարաբերակցությունը:
6. Մեքենայի ուսուցման մեջ ի՞նչ է նշանակում կլաստերավորում:
7. Ո՞րն է ձեր նախընտրած մեքենայական ուսուցման ալգորիթմը:
8. Գծային ռեգրեսիա մեքենայական ուսուցման մեջ. ի՞նչ է դա:
9. Նկարագրեք KNN-ի և k-means-ի կլաստերավորման տարբերությունները:
10. Ի՞նչ է ձեզ համար նշանակում «ընտրության կողմնակալություն»:
11. Ի՞նչ է կոնկրետ Բեյսի թեորեմը:
12. Մեքենայական ուսուցման մոդելում որո՞նք են «ուսուցման հավաքածուն» և «թեստային հավաքածուն»:
13. Ի՞նչ է հիպոթեզը մեքենայական ուսուցման մեջ:
14. Ի՞նչ է նշանակում մեքենայական ուսուցման գերհարմարեցում, և ինչպե՞ս կարելի է այն կանխել:
15. Կոնկրետ ինչ են Naive Bayes դասակարգիչները:
16. Ի՞նչ են նշանակում ծախսերի և կորստի գործառույթներ:
17. Ինչո՞վ է տարբերվում գեներատիվ մոդելը խտրական մոդելից:
18. Նկարագրեք I և II տիպի սխալների տատանումները:
19. Մեքենայական ուսուցման մեջ ո՞րն է Անսամբլի ուսուցման տեխնիկան:
20. Ի՞նչ են կոնկրետ պարամետրային մոդելները: Օրինակ բերեք.
21. Նկարագրեք համատեղ զտումը: Ինչպես նաև բովանդակության վրա հիմնված զտո՞ւմ։
22. Կոնկրետ ի՞նչ նկատի ունեք ժամանակային շարք ասելով:
23. Նկարագրեք տատանումները Gradient Boosting և Random Forest ալգորիթմների միջև:
24. Ինչու՞ է ձեզ անհրաժեշտ շփոթության մատրիցա: Ի՞նչ է դա։
25. Ի՞նչ է իրենից ներկայացնում սկզբունքային բաղադրիչի վերլուծությունը:
26. Ինչո՞ւ է բաղադրիչի ռոտացիան այդքան կարևոր PCA-ի համար (հիմնական բաղադրիչի վերլուծություն):
27. Ինչպե՞ս են կանոնավորացումը և նորմալացումը տարբերվում միմյանցից:
28. Ինչպե՞ս են նորմալացումը և ստանդարտացումը տարբերվում միմյանցից:
29. Կոնկրետ ի՞նչ է նշանակում «վարիանսային գնաճի գործոն»:
30. Ելնելով ուսումնական հավաքածուի չափից՝ ինչպե՞ս եք ընտրում դասակարգիչը:
31. Մեքենայական ուսուցման ո՞ր ալգորիթմն է կոչվում «ծույլ սովորող» և ինչու:
32. Որոնք են ROC կորը և AUC-ը:
33. Ի՞նչ են հիպերպարամետրերը: Ինչո՞վ են դրանք յուրահատուկ մոդելի պարամետրերից:
34. Ի՞նչ են նշանակում F1 Score, հիշել և ճշգրտություն:
35. Ի՞նչ է իրականում խաչաձև վավերացումը:
36. Ենթադրենք, դուք հայտնաբերել եք, որ ձեր մոդելը զգալի շեղում ունի: Ո՞ր ալգորիթմն է, ըստ Ձեզ, առավել հարմար այս իրավիճակի համար:
37. Ինչո՞վ է տարբերվում Ռիջի ռեգրեսիան Լասո ռեգրեսիայից:
38. Ո՞րն է ավելի կարևոր՝ մոդելի կատարումը, թե՞ մոդելի ճշգրտությունը: Ո՞ր մեկը և ինչո՞ւ եք դրան ձեռնտու:
39. Ինչպե՞ս կկառավարեք անհավասարություններով տվյալների բազան:
40. Ինչպե՞ս կարող եք տարբերակել խթանումը և պարկը:
41. Բացատրե՛ք ինդուկտիվ և դեդուկտիվ ուսուցման տարբերությունները:
Եզրափակում

Բիզնեսներն օգտագործում են առաջադեմ տեխնոլոգիաներ, ինչպիսիք են արհեստական ինտելեկտը (AI) և մեքենայական ուսուցումը, որպեսզի մեծացնեն տեղեկատվության և ծառայությունների հասանելիությունը անհատներին:

Այս տեխնոլոգիաները ընդունվում են մի շարք ոլորտների կողմից, ներառյալ բանկային, ֆինանսները, մանրածախ առևտուրը, արտադրությունը և առողջապահությունը:

AI-ն օգտագործող ամենապահանջված կազմակերպչական դերերից մեկը տվյալների գիտնականների, արհեստական բանականության ինժեներների, մեքենայական ուսուցման ինժեներների և տվյալների վերլուծաբանների համար է:

Այս գրառումը ձեզ կտանի մի շարք հարցերի միջով Machine Learning Հարցազրույցի հարցեր՝ հիմնականից մինչև բարդ, որոնք կօգնեն ձեզ պատրաստվել ցանկացած հարցի, որը կարող է տրվել ձեր իդեալական աշխատանք փնտրելիս:

1. Բացատրեք մեքենայական ուսուցման, արհեստական բանականության և խորը ուսուցման միջև եղած տարբերությունները:

Արհեստական ինտելեկտը օգտագործում է մեքենայական ուսուցման և խորը ուսուցման մի շարք մոտեցումներ, որոնք թույլ են տալիս համակարգչային համակարգերին կատարել առաջադրանքներ՝ օգտագործելով մարդու նման բանականությունը տրամաբանությամբ և կանոններով:

Մեքենայական ուսուցումն օգտագործում է մի շարք վիճակագրություն և խորը ուսուցման մոտեցումներ, որոնք հնարավորություն են տալիս մեքենաներին սովորել իրենց նախկին կատարողականից և ավելի հմուտ լինել որոշակի առաջադրանքներ ինքնուրույն կատարելու մեջ՝ առանց մարդու հսկողության:

Deep Learning-ը ալգորիթմների հավաքածու է, որը թույլ է տալիս ծրագրաշարին սովորել ինքն իրենից և իրականացնել մի շարք առևտրային գործառույթներ, ինչպիսիք են ձայնի և պատկերի ճանաչումը:

Համակարգեր, որոնք բացահայտում են իրենց բազմաշերտությունը նյարդային ցանցեր ուսուցման համար հսկայական քանակությամբ տվյալներ կարող են խորը ուսուցում անել:

2. Խնդրում ենք նկարագրել մեքենայական ուսուցման տարբեր տեսակները:

Մեքենայական ուսուցումը լայնորեն գոյություն ունի երեք տարբեր տեսակի.

Վերահսկվող ուսուցում. մոդելը ստեղծում է կանխատեսումներ կամ դատողություններ՝ օգտագործելով պիտակավորված կամ պատմական տվյալներ վերահսկվող մեքենայական ուսուցման մեջ: Տվյալների հավաքածուները, որոնք հատկորոշվել կամ պիտակվել են իրենց նշանակությունը մեծացնելու նպատակով, կոչվում են պիտակավորված տվյալներ:
Չվերահսկվող ուսուցում. մենք չունենք պիտակավորված տվյալներ չվերահսկվող ուսուցման համար: Մուտքային տվյալների մեջ մոդելը կարող է գտնել օրինաչափություններ, տարօրինակություններ և հարաբերակցություններ:
Ամրապնդման ուսուցում. մոդելը կարող է սովորել՝ օգտագործելով ուժեղացում սովորելը և այն պարգևները, որոնք նա ստացել է իր նախկին վարքի համար:

3. Ո՞րն է կողմնակալությունն ընդդեմ շեղումների փոխզիջման:

Գերհամապատասխանությունը կողմնակալության արդյունք է, որը մոդելի տվյալների համապատասխանության աստիճանն է: Կողմնակալությունը պայմանավորված է ձեր սխալ կամ չափազանց պարզ ենթադրություններով մեքենայական ուսուցման ալգորիթմ.

Տարբերությունը վերաբերում է սխալներին, որոնք առաջացել են ձեր ML ալգորիթմի բարդության պատճառով, որն առաջացնում է զգայունություն մարզումների տվյալների և գերհամապատասխանության մեծ աստիճանի շեղումների նկատմամբ:

Տարբերությունն այն է, թե որքանով է մոդելը տատանվում՝ կախված մուտքերից:

Այլ կերպ ասած, հիմնական մոդելները չափազանց կողմնակալ են, բայց կայուն (ցածր շեղում): Չափազանց հարմարեցումը բարդ մոդելների խնդիր է, թեև դրանք, այնուամենայնիվ, արտացոլում են մոդելի իրականությունը (ցածր կողմնակալություն):

Ե՛վ բարձր տատանումները, և՛ մեծ կողմնակալությունը կանխելու համար սխալների լավագույն կրճատման համար անհրաժեշտ է փոխզիջում կողմնակալության և շեղումների միջև:

4. Մեքենայի ուսուցման ալգորիթմները ժամանակի ընթացքում զգալիորեն զարգացել են: Ինչպե՞ս է ընտրվում տվյալ տվյալների հավաքածուն օգտագործելու ճիշտ ալգորիթմը:

Մեքենայի ուսուցման տեխնիկան, որը պետք է օգտագործվի, կախված է միայն տվյալ տվյալների տեսակից:

Երբ տվյալները գծային են, օգտագործվում է գծային ռեգրեսիա: Փաթեթավորման մեթոդը ավելի լավ կաշխատի, եթե տվյալները նշեն ոչ գծային: Մենք կարող ենք օգտագործել որոշումների ծառերը կամ SVM, եթե տվյալները պետք է գնահատվեն կամ մեկնաբանվեն առևտրային նպատակներով:

Նյարդային ցանցերը կարող են օգտակար լինել ճշգրիտ պատասխան ստանալու համար, եթե տվյալների հավաքածուն ներառում է լուսանկարներ, տեսանյութեր և աուդիո:

Որոշակի հանգամանքների կամ տվյալների հավաքագրման համար ալգորիթմի ընտրությունը չի կարող կատարվել միայն մեկ չափման վրա:

Լավագույն հարմարեցման մեթոդ մշակելու նպատակով մենք նախ պետք է ուսումնասիրենք տվյալները՝ օգտագործելով հետախուզական տվյալների վերլուծություն (EDA) և հասկանանք տվյալների բազան օգտագործելու նպատակը:

5. Ինչպե՞ս են տարբերվում կովարիանսը և հարաբերակցությունը:

Կովարիանսը գնահատում է, թե ինչպես են երկու փոփոխականները կապված միմյանց հետ և ինչպես կարող է մեկը փոխվել՝ ի պատասխան մյուսի փոփոխության:

Եթե արդյունքը դրական է, դա ցույց է տալիս, որ փոփոխականների միջև կա ուղիղ կապ, և որ մեկը կբարձրանա կամ կնվազի բազային փոփոխականի աճով կամ նվազմամբ՝ ենթադրելով, որ մնացած բոլոր պայմանները մնում են անփոփոխ:

Հարաբերակցությունը չափում է կապը երկու պատահական փոփոխականների միջև և ունի միայն երեք տարբեր արժեքներ՝ 1, 0 և -1:

6. Մեքենայի ուսուցման մեջ ի՞նչ է նշանակում կլաստերավորում:

Չվերահսկվող ուսուցման մեթոդները, որոնք միավորում են տվյալների կետերը, կոչվում են կլաստերավորում: Տվյալների կետերի հավաքածուի միջոցով կարող է կիրառվել կլաստերավորման տեխնիկան:

Դուք կարող եք խմբավորել բոլոր տվյալների կետերը՝ ըստ իրենց գործառույթների՝ օգտագործելով այս ռազմավարությունը:

Նույն կատեգորիայի մեջ մտնող տվյալների կետերի առանձնահատկություններն ու որակները նման են, մինչդեռ առանձին խմբավորումների մեջ ընկած տվյալների կետերը տարբեր են:

Այս մոտեցումը կարող է օգտագործվել վիճակագրական տվյալների վերլուծության համար:

7. Ո՞րն է ձեր նախընտրած մեքենայական ուսուցման ալգորիթմը:

Դուք հնարավորություն ունեք ցույց տալու ձեր նախասիրությունները և եզակի տաղանդները այս հարցում, ինչպես նաև մեքենայական ուսուցման բազմաթիվ տեխնիկայի վերաբերյալ ձեր համապարփակ գիտելիքները:

Ահա մի քանի տիպիկ մեքենայական ուսուցման ալգորիթմներ, որոնց մասին պետք է մտածել.

Գծային ռեգրեսիա
Լոգիստիկ ռեգրեսիա
Միամիտ Բեյզ
Որոշել ծառերը
K նշանակում է
Պատահական անտառային ալգորիթմ
K-մոտակա հարևան (KNN)

8. Գծային ռեգրեսիա մեքենայական ուսուցման մեջ. ի՞նչ է դա:

Վերահսկվող մեքենայական ուսուցման ալգորիթմը գծային ռեգրեսիա է:

Այն օգտագործվում է կանխատեսող վերլուծության մեջ՝ կախված և անկախ փոփոխականների միջև գծային կապը որոշելու համար:

Գծային ռեգրեսիայի հավասարումը հետևյալն է.

Y = A + BX

որտեղ

Մուտքային կամ անկախ փոփոխականը կոչվում է X:
Կախյալ կամ ելքային փոփոխականը Y է:
X-ի գործակիցը b է, իսկ կտրվածքը՝ a:

9. Նկարագրեք KNN-ի և k-means-ի կլաստերավորման տարբերությունները:

Առաջնային տարբերակումն այն է, որ KNN-ին (դասակարգման մեթոդ, վերահսկվող ուսուցում) անհրաժեշտ են պիտակավորված կետեր, մինչդեռ k-միջինը` ոչ (կլաստերի ալգորիթմ, չվերահսկվող ուսուցում):

Դուք կարող եք դասակարգել պիտակավորված տվյալները չպիտակավորված կետի` օգտագործելով K-Nearest Neighbors-ը: K-means կլաստերավորումն օգտագործում է կետերի միջև միջին հեռավորությունը՝ սովորելու, թե ինչպես խմբավորել չպիտակավորված կետերը:

10. Ի՞նչ է ձեզ համար նշանակում «ընտրության կողմնակալություն»:

Փորձի նմուշառման փուլում կողմնակալությունը պայմանավորված է վիճակագրական անճշտությամբ:

Անճշտության հետևանքով մեկ ընտրանքային խումբ ընտրվում է ավելի հաճախ, քան մյուս խմբերը փորձի ժամանակ:

Եթե ընտրության կողմնակալությունը չընդունվի, դա կարող է հանգեցնել սխալ եզրակացության:

11. Ի՞նչ է կոնկրետ Բեյսի թեորեմը:

Երբ մենք տեղյակ ենք այլ հավանականությունների մասին, մենք կարող ենք որոշել հավանականությունը՝ օգտագործելով Բեյսի թեորեմը: Այն առաջարկում է առաջացման հետին հավանականությունը՝ հիմնված նախնական տեղեկատվության վրա, այլ կերպ ասած:

Այս թեորեմով ապահովված է պայմանական հավանականությունների գնահատման հիմնավոր մեթոդ։

Դասակարգման կանխատեսող մոդելավորման խնդիրներ մշակելիս և մոդելը դասընթացին համապատասխանեցնելիս տվյալների բազա մեքենայական ուսուցման մեջ, կիրառվում է Բայեսի թեորեմը (այսինքն՝ միամիտ Բայես, Բեյսի օպտիմալ դասակարգիչ)։

12. Մեքենայական ուսուցման մոդելում որո՞նք են «ուսուցման հավաքածուն» և «թեստային հավաքածուն»:

Վերապատրաստման հավաքածու.

Դասընթացների հավաքածուն բաղկացած է օրինակներից, որոնք ուղարկվում են մոդել՝ վերլուծության և սովորելու համար:
Սա պիտակավորված տվյալներն են, որոնք կօգտագործվեն մոդելը վարժեցնելու համար:
Որպես կանոն, ընդհանուր տվյալների 70%-ն օգտագործվում է որպես վերապատրաստման տվյալների բազա:

Թեստային հավաքածու.

Թեստային հավաքածուն օգտագործվում է մոդելի վարկածների առաջացման ճշգրտությունը գնահատելու համար:
Մենք փորձարկում ենք առանց պիտակավորված տվյալների, այնուհետև օգտագործում ենք պիտակներ՝ արդյունքները հաստատելու համար:
Մնացած 30%-ն օգտագործվում է որպես թեստային տվյալների հավաքածու:

13. Ի՞նչ է հիպոթեզը մեքենայական ուսուցման մեջ:

Մեքենայական ուսուցումը հնարավորություն է տալիս օգտագործել առկա տվյալների հավաքածուները՝ ավելի լավ հասկանալու համար տվյալ գործառույթը, որը կապում է մուտքը ելքի հետ: Սա հայտնի է որպես ֆունկցիայի մոտարկում:

Այս դեպքում, մոտարկումը պետք է կիրառվի անհայտ թիրախային ֆունկցիայի համար՝ տվյալ իրավիճակի վրա հիմնված բոլոր հնարավոր դիտարկումները լավագույնս փոխանցելու համար:

Մեքենայական ուսուցման մեջ հիպոթեզը մոդել է, որն օգնում է գնահատել թիրախային ֆունկցիան և լրացնել համապատասխան մուտքային-ելքային քարտեզագրումները:

Ալգորիթմների ընտրությունը և ձևավորումը թույլ են տալիս սահմանել հնարավոր վարկածների տարածությունը, որը կարող է ներկայացվել մոդելով:

Մեկ վարկածի համար օգտագործվում է փոքրատառ h (h), բայց մեծատառ h (H) օգտագործվում է ամբողջ հիպոթեզի տարածության համար, որը որոնվում է: Մենք համառոտ կվերանայենք այս նշումները.

Հիպոթեզը (h)-ը որոշակի մոդել է, որը հեշտացնում է մուտքի ելքի քարտեզագրումը, որը հետագայում կարող է օգտագործվել գնահատման և կանխատեսման համար:
Հիպոթեզների հավաքածուն (H) վարկածների որոնելի տարածություն է, որը կարող է օգտագործվել մուտքերը ելքերին քարտեզագրելու համար: Խնդիրների շրջանակը, մոդելը և մոդելի կազմաձևումը ընդհանուր սահմանափակումների մի քանի օրինակ են:

14. Ի՞նչ է նշանակում մեքենայական ուսուցման գերհարմարեցում, և ինչպե՞ս կարելի է այն կանխել:

Երբ մեքենան փորձում է սովորել ոչ բավարար տվյալներից, տեղի է ունենում գերհարմարեցում:

Արդյունքում, գերհագեցումը հակադարձ փոխկապակցված է տվյալների ծավալի հետ: Խաչաձև վավերացման մոտեցումը թույլ է տալիս խուսափել փոքր տվյալների հավաքածուների չափից ավելի հարմարեցումից: Այս մեթոդով տվյալների բազան բաժանվում է երկու մասի:

Թեստավորման և վերապատրաստման համար նախատեսված տվյալների հավաքածուն բաղկացած կլինի այս երկու մասերից: Ուսուցման տվյալների բազան օգտագործվում է մոդել ստեղծելու համար, մինչդեռ թեստավորման տվյալների բազան օգտագործվում է մոդելը գնահատելու համար՝ օգտագործելով տարբեր մուտքեր:

Ահա թե ինչպես կարելի է կանխել չափից ավելի տեղադրումը:

15. Կոնկրետ ինչ են Naive Bayes դասակարգիչները:

Տարբեր դասակարգման մեթոդները կազմում են Naive Bayes դասակարգիչները: Մի շարք ալգորիթմներ, որոնք հայտնի են որպես այս դասակարգիչներ, բոլորն աշխատում են նույն հիմնարար գաղափարի վրա:

Բեյսի միամիտ դասակարգիչների կողմից արված ենթադրությունն այն է, որ մի հատկանիշի առկայությունը կամ բացակայությունը որևէ ազդեցություն չունի մեկ այլ հատկանիշի առկայության կամ բացակայության վրա:

Այլ կերպ ասած, սա այն է, ինչ մենք անվանում ենք «միամիտ», քանի որ այն ենթադրում է, որ տվյալների յուրաքանչյուր հատկանիշ հավասարապես կարևոր և անկախ է:

Դասակարգումը կատարվում է միամիտ Bayes դասակարգիչների միջոցով: Դրանք օգտագործման համար պարզ են և ավելի լավ արդյունքներ են տալիս, քան ավելի բարդ կանխատեսիչները, երբ անկախության նախադրյալը ճշմարիտ է:

Տեքստի վերլուծության, սպամի զտման և առաջարկությունների համակարգերում դրանք օգտագործվում են:

16. Ի՞նչ են նշանակում ծախսերի և կորստի գործառույթներ:

«Կորստի ֆունկցիա» արտահայտությունը վերաբերում է կորստի հաշվարկման գործընթացին, երբ հաշվի է առնվում միայն մեկ տվյալ:

Հակառակը, մենք օգտագործում ենք ծախսերի գործառույթը բազմաթիվ տվյալների համար սխալների ընդհանուր քանակը որոշելու համար: Ոչ մի էական տարբերություն գոյություն չունի:

Այլ կերպ ասած, այն դեպքում, երբ ծախսերի գործառույթները միավորում են տարբերությունը վերապատրաստման ամբողջ տվյալների համար, կորստի գործառույթները նախատեսված են մեկ գրառման համար իրական և կանխատեսված արժեքների տարբերությունը ֆիքսելու համար:

17. Ինչո՞վ է տարբերվում գեներատիվ մոդելը խտրական մոդելից:

Խտրական մոդելը սովորում է տվյալների մի քանի կատեգորիաների միջև եղած տարբերությունները: Գեներատիվ մոդելը ընտրում է տվյալների տարբեր տեսակներ:

Դասակարգման խնդիրների դեպքում խտրական մոդելները հաճախ գերազանցում են մյուս մոդելներին:

18. Նկարագրեք I և II տիպի սխալների տատանումները:

Կեղծ դրականները պատկանում են I տիպի սխալների կատեգորիային, մինչդեռ կեղծ բացասականները մտնում են տիպի II սխալների տակ (պնդելով, որ ոչինչ չի պատահել, երբ իրականում եղել է):

19. Մեքենայական ուսուցման մեջ ո՞րն է Անսամբլի ուսուցման տեխնիկան:

Անսամբլային ուսուցում կոչվող տեխնիկան խառնում է մեքենայական ուսուցման բազմաթիվ մոդելներ՝ ավելի հզոր մոդելներ արտադրելու համար:

Մոդելը կարող է տարբեր լինել տարբեր պատճառներով: Մի քանի պատճառներ են.

Տարբեր բնակչություններ
Տարբեր վարկածներ
Մոդելավորման տարբեր մեթոդներ

Մոդելի ուսուցման և փորձարկման տվյալները օգտագործելիս մենք խնդրի կհանդիպենք: Կողմնակալությունը, շեղումը և անկրճատելի սխալը այս սխալի հնարավոր տեսակներն են:

Այժմ մենք մոդելում կողմնակալության և շեղումների միջև այս հավասարակշռությունը անվանում ենք կողմնակալության-տարբերման փոխզիջում, և այն միշտ պետք է գոյություն ունենա: Այս փոխզիջումն իրականացվում է անսամբլային ուսուցման միջոցով:

Չնայած կան անսամբլային տարբեր մոտեցումներ, կան երկու ընդհանուր ռազմավարություն բազմաթիվ մոդելների համադրման համար.

Ներքին մոտեցումը, որը կոչվում է տոպրակ, օգտագործում է ուսուցման հավաքածուն՝ լրացուցիչ ուսումնական հավաքածուներ արտադրելու համար:
Boosting-ը, ավելի բարդ տեխնիկա. Շատ նման պարկերով, Boosting-ը օգտագործվում է մարզումների համար նախատեսված կշռման իդեալական բանաձևը գտնելու համար:

20. Ի՞նչ են կոնկրետ պարամետրային մոդելները: Օրինակ բերեք.

Պարամետրային մոդելներում կան սահմանափակ քանակությամբ պարամետրեր: Տվյալների կանխատեսման համար անհրաժեշտ է միայն իմանալ մոդելի պարամետրերը:

Հետևյալները բնորոշ օրինակներ են. լոգիստիկ ռեգրեսիա, գծային ռեգրեսիա և գծային SVM-ներ: Ոչ պարամետրային մոդելները ճկուն են, քանի որ դրանք կարող են պարունակել անսահմանափակ թվով պարամետրեր:

Տվյալների կանխատեսումների համար պահանջվում են մոդելի պարամետրերը և դիտարկված տվյալների կարգավիճակը: Ահա մի քանի բնորոշ օրինակներ. թեմայի մոդելներ, որոշումների ծառեր և k-մոտակա հարևաններ։

21. Նկարագրեք համատեղ զտումը: Ինչպես նաև բովանդակության վրա հիմնված զտո՞ւմ։

Հարմարեցված բովանդակության առաջարկներ ստեղծելու փորձված և իրական մեթոդը համատեղ զտումն է:

Առաջարկությունների համակարգի ձևը, որը կոչվում է համագործակցային զտում, կանխագուշակում է թարմ նյութերը՝ հավասարակշռելով օգտվողների նախասիրությունները ընդհանուր հետաքրքրությունների հետ:

Օգտատիրոջ նախասիրությունները միակ բանն են, որ հաշվի են առնում բովանդակության վրա հիմնված առաջարկող համակարգերը: Օգտագործողի նախնական ընտրության լույսի ներքո՝ նոր առաջարկություններ են տրվում հարակից նյութերից:

22. Կոնկրետ ի՞նչ նկատի ունեք ժամանակային շարք ասելով:

Ժամանակային շարքը թվերի հավաքածու է աճման կարգով: Նախապես որոշված ժամանակահատվածում այն վերահսկում է ընտրված տվյալների կետերի շարժը և պարբերաբար գրավում տվյալների կետերը:

Ժամանակային շարքերի համար նվազագույն կամ առավելագույն ժամանակի մուտքագրում չկա:

Ժամանակային շարքերը հաճախ օգտագործվում են վերլուծաբանների կողմից տվյալների վերլուծության համար՝ իրենց յուրահատուկ պահանջներին համապատասխան:

23. Նկարագրեք տատանումները Gradient Boosting և Random Forest ալգորիթմների միջև:

Պատահական անտառ.

Որոշման մեծ թվով ծառեր հավաքվում են վերջում և հայտնի են որպես պատահական անտառներ:
Մինչ գրադիենտ խթանումը յուրաքանչյուր ծառ արտադրում է մյուսներից անկախ, պատահական անտառը յուրաքանչյուր ծառը կառուցում է մեկ առ մեկ:
Բազմադաս օբյեկտների հայտնաբերում լավ է աշխատում պատահական անտառների հետ:

Գրադիենտի բարձրացում.

Մինչ պատահական անտառները միանում են որոշման ծառերին գործընթացի վերջում, գրադիենտ խթանող մեքենաները սկզբից միավորում են դրանք:
Եթե պարամետրերը պատշաճ կերպով ճշգրտված են, գրադիենտ խթանումը արդյունքների առումով գերազանցում է պատահական անտառներին, բայց դա խելացի ընտրություն չէ, եթե տվյալների հավաքածուն ունի շատ արտանետումներ, անոմալիաներ կամ աղմուկ, քանի որ դա կարող է հանգեցնել մոդելի գերհարմարեցման:
Երբ կան անհավասարակշիռ տվյալներ, ինչպես իրական ժամանակի ռիսկերի գնահատման դեպքում, գրադիենտ խթանումը լավ է գործում:

24. Ինչու՞ է ձեզ անհրաժեշտ շփոթության մատրիցա: Ի՞նչ է դա։

Աղյուսակը, որը հայտնի է որպես շփոթության մատրիցա, որը երբեմն հայտնի է որպես սխալի մատրիցա, լայնորեն օգտագործվում է ցույց տալու համար, թե դասակարգման մոդելը կամ դասակարգիչը որքան լավ է աշխատում մի շարք թեստային տվյալների վրա, որոնց իրական արժեքները հայտնի են:

Այն թույլ է տալիս մեզ տեսնել, թե ինչպես է գործում մոդելը կամ ալգորիթմը: Դա մեզ համար հեշտացնում է տարբեր դասընթացների միջև թյուրիմացություններ հայտնաբերելը:

Այն ծառայում է որպես միջոց՝ գնահատելու, թե որքան լավ է կատարվում մոդելը կամ ալգորիթմը:

Դասակարգման մոդելի կանխատեսումները կազմվում են շփոթության մատրիցի մեջ: Յուրաքանչյուր դասի պիտակի հաշվարկի արժեքները օգտագործվել են ճիշտ և սխալ կանխատեսումների ընդհանուր թիվը բաժանելու համար:

Այն մանրամասներ է ներկայացնում դասակարգչի կողմից թույլ տրված անսարքությունների, ինչպես նաև դասակարգիչների կողմից առաջացած տարբեր տեսակի սխալների մասին:

25. Ի՞նչ է իրենից ներկայացնում սկզբունքային բաղադրիչի վերլուծությունը:

Նվազագույնի հասցնելով միմյանց հետ փոխկապակցված փոփոխականների քանակը՝ նպատակն է նվազագույնի հասցնել տվյալների հավաքագրման ծավալայինությունը: Բայց կարևոր է հնարավորինս պահպանել բազմազանությունը:

Փոփոխականները փոխվում են փոփոխականների միանգամայն նոր շարքի, որը կոչվում է հիմնական բաղադրիչներ:

Այս ԱՀ-ները ուղղանկյուն են, քանի որ դրանք կովարիանսային մատրիցայի սեփական վեկտորներն են:

26. Ինչո՞ւ է բաղադրիչի ռոտացիան այդքան կարևոր PCA-ի համար (հիմնական բաղադրիչի վերլուծություն):

Պտտումը շատ կարևոր է PCA-ում, քանի որ այն օպտիմալացնում է տարանջատումը յուրաքանչյուր բաղադրիչի կողմից ստացված շեղումների միջև՝ դարձնելով բաղադրիչի մեկնաբանումը ավելի պարզ:

Մենք պահանջում ենք ընդլայնված բաղադրիչներ՝ բաղադրիչի տատանումները արտահայտելու համար, եթե բաղադրիչները չեն պտտվում:

27. Ինչպե՞ս են կանոնավորացումը և նորմալացումը տարբերվում միմյանցից:

Նորմալացում.

Նորմալացման ընթացքում տվյալները փոխվում են: Դուք պետք է նորմալացնեք տվյալները, եթե դրանք ունեն սանդղակներ, որոնք կտրուկ տարբերվում են, հատկապես ցածրից բարձր: Կարգավորեք յուրաքանչյուր սյունակ այնպես, որ հիմնարար վիճակագրությունը բոլորը համատեղելի լինեն:

Ապահովելու համար, որ ճշգրտության կորուստ չկա, սա կարող է օգտակար լինել: Աղմուկը անտեսելիս ազդանշանի հայտնաբերումը մոդելի ուսուցման նպատակներից մեկն է:

Չափից դուրս տեղավորվելու հավանականություն կա, եթե մոդելին տրվի ամբողջական վերահսկողություն՝ սխալը նվազեցնելու համար:

Կանոնավորում.

Պարբերականացման դեպքում կանխատեսման ֆունկցիան փոփոխվում է։ Սա ենթակա է որոշակի վերահսկողության կանոնավորացման միջոցով, ինչը նպաստում է ավելի պարզ տեղադրման գործառույթներին, քան բարդ գործառույթներին:

28. Ինչպե՞ս են նորմալացումը և ստանդարտացումը տարբերվում միմյանցից:

Առանձնահատկությունների մասշտաբավորման երկու ամենալայն կիրառվող տեխնիկան են նորմալացումը և ստանդարտացումը:

Նորմալացում.

Տվյալների վերագնահատումը [0,1] միջակայքին համապատասխանելու համար հայտնի է որպես նորմալացում:
Երբ բոլոր պարամետրերը պետք է ունենան միևնույն դրական սանդղակը, նորմալացումը օգտակար է, բայց տվյալների հավաքածուի արտաքին ցուցանիշները կորչում են:

Կանոնավորում.

Տվյալները վերագնահատվում են՝ ունենալով միջինը 0 և ստանդարտ շեղում 1՝ որպես ստանդարտացման գործընթացի մաս (Միավոր շեղում)

29. Կոնկրետ ի՞նչ է նշանակում «վարիանսային գնաճի գործոն»:

Մոդելի շեղումների հարաբերակցությունը միայն մեկ անկախ փոփոխականով մոդելի շեղմանը հայտնի է որպես տատանումների գնաճի գործոն (VIF):

VIF-ը գնահատում է մի քանի ռեգրեսիոն փոփոխականների շարքում առկա բազմակողմանիության քանակը:

Մոդելի շեղում (VIF) Մոդել մեկ անկախ փոփոխական փոփոխականությամբ

30. Ելնելով ուսումնական հավաքածուի չափից՝ ինչպե՞ս եք ընտրում դասակարգիչը:

Բարձր կողմնակալության, ցածր շեղումների մոդելն ավելի լավ է գործում կարճ մարզումների հավաքածուի համար, քանի որ ավելի քիչ հավանական է: Միամիտ Բեյսը օրինակներից մեկն է:

Մեծ ուսուցման հավաքածուի համար ավելի բարդ փոխազդեցությունները ներկայացնելու համար նախընտրելի է ցածր կողմնակալությամբ և բարձր շեղումներով մոդելը: Լավ օրինակ է լոգիստիկ ռեգրեսիան:

31. Մեքենայական ուսուցման ո՞ր ալգորիթմն է կոչվում «ծույլ սովորող» և ինչու:

Դանդաղ սովորող KNN-ը մեքենայական ուսուցման ալգորիթմ է: Քանի որ K-NN-ը դինամիկ կերպով հաշվարկում է հեռավորությունը, ամեն անգամ, երբ ցանկանում է դասակարգել՝ ուսուցման տվյալներից մեքենայական սովորած արժեքներ կամ փոփոխականներ սովորելու փոխարեն, այն անգիր է անում ուսումնական տվյալների հավաքածուն:

Սա K-NN-ին դարձնում է ծույլ սովորող:

32. Որոնք են ROC կորը և AUC-ը:

Դասակարգման մոդելի կատարումը բոլոր շեմերում գրաֆիկորեն ներկայացված է ROC կորով: Այն ունի ճշմարիտ դրական և կեղծ դրական դրույքաչափի չափանիշներ:

Պարզ ասած, ROC կորի տակ գտնվող տարածքը հայտնի է որպես AUC (Area Under the ROC Curve): ROC կորի երկչափ տարածքը (0,0)-ից մինչև AUC չափվում է (1,1): Երկուական դասակարգման մոդելների գնահատման համար այն օգտագործվում է որպես կատարողականի վիճակագրություն:

33. Ի՞նչ են հիպերպարամետրերը: Ինչո՞վ են դրանք յուրահատուկ մոդելի պարամետրերից:

Մոդելի ներքին փոփոխականը հայտնի է որպես մոդելի պարամետր: Օգտագործելով վերապատրաստման տվյալները, պարամետրի արժեքը մոտավոր է:

Մոդելի համար անհայտ հիպերպարամետրը փոփոխական է: Արժեքը չի կարող որոշվել տվյալների հիման վրա, ուստի դրանք հաճախ օգտագործվում են մոդելի պարամետրերը հաշվարկելու համար:

34. Ի՞նչ են նշանակում F1 Score, հիշել և ճշգրտություն:

Շփոթության չափումը չափիչ է, որն օգտագործվում է դասակարգման մոդելի արդյունավետությունը գնահատելու համար: Հետևյալ արտահայտությունները կարող են օգտագործվել շփոթության չափման ավելի լավ բացատրելու համար.

TP. True Positives – Սրանք այն դրական արժեքներն են, որոնք ճիշտ ակնկալվում էին: Այն ենթադրում է, որ կանխատեսվող դասի և փաստացի դասի արժեքները երկուսն էլ դրական են:

TN. True Negatives- Սրանք այն բացասական արժեքներն են, որոնք ճշգրիտ կանխատեսվել են: Այն ենթադրում է, որ և՛ իրական դասի արժեքը, և՛ ակնկալվող դասը բացասական են:

Այս արժեքները՝ կեղծ դրական և կեղծ բացասական, առաջանում են, երբ ձեր իրական դասը տարբերվում է ակնկալվող դասից:

հիմա,

Իրական դրական դրույքաչափի (TP) հարաբերակցությունը փաստացի դասում կատարված բոլոր դիտարկումներին կոչվում է հետկանչ, որը նաև հայտնի է որպես զգայունություն:

Հետկանչը՝ TP/(TP+FN):

Ճշգրիտությունը դրական կանխագուշակող արժեքի չափումն է, որը համեմատում է մոդելի իրական կանխատեսած դրականների քանակը և այն ճշգրիտ կանխատեսած դրականների թիվը:

Ճշգրիտությունը TP/(TP + FP) է

Կատարողականության ամենահեշտ չափանիշը հասկանալու համար ճշտությունն է, որը ճիշտ կանխատեսված դիտարկումների համամասնությունն է բոլոր դիտարկումներին:

Ճշգրտությունը հավասար է (TP+TN)/(TP+FP+FN+TN):

Ճշգրիտությունը և հետկանչը կշռված և միջինացված են՝ F1 միավորը ապահովելու համար: Արդյունքում, այս միավորը համարում է և՛ կեղծ դրական, և՛ կեղծ բացասական:

F1-ը հաճախ ավելի արժեքավոր է, քան ճշգրտությունը, հատկապես, եթե դուք ունեք դասերի անհավասար բաշխում, նույնիսկ եթե ինտուիտիվ կերպով դա այնքան էլ պարզ չէ, որքան ճշգրտությունը:

Լավագույն ճշգրտությունը ձեռք է բերվում, երբ կեղծ դրական և կեղծ բացասականների արժեքը համադրելի է: Նախընտրելի է ներառել և՛ Ճշգրիտ, և՛ հետ կանչել, եթե կեղծ դրական և կեղծ բացասականների հետ կապված ծախսերը զգալիորեն տարբերվում են:

35. Ի՞նչ է իրականում խաչաձև վավերացումը:

Վիճակագրական վերընտրանքի մոտեցումը, որը կոչվում է խաչաձև վավերացում մեքենայական ուսուցման մեջ, օգտագործում է տվյալների մի քանի ենթաբազմություններ՝ մի շարք փուլերի ընթացքում մեքենայական ուսուցման ալգորիթմը վերապատրաստելու և գնահատելու համար:

Տվյալների նոր խմբաքանակը, որը չի օգտագործվել մոդելը վարժեցնելու համար, փորձարկվում է խաչաձև վավերացման միջոցով՝ տեսնելու, թե որքան լավ է մոդելը կանխատեսում այն: Տվյալների գերհամապատասխանեցումը կանխվում է խաչաձև վավերացման միջոցով:

K-Fold Ամենահաճախ օգտագործվող վերանմուշառման մեթոդը ամբողջ տվյալների բազան բաժանում է հավասար չափերի K խմբերի: Այն կոչվում է խաչաձեւ վավերացում:

36. Ենթադրենք, դուք հայտնաբերել եք, որ ձեր մոդելը զգալի շեղում ունի: Ո՞ր ալգորիթմն է, ըստ Ձեզ, առավել հարմար այս իրավիճակի համար:

Բարձր փոփոխականության կառավարում

Մենք պետք է օգտագործենք պարկերի տեխնիկան մեծ տատանումների հետ կապված խնդիրների դեպքում:

Պատահական տվյալների կրկնվող նմուշառումը կօգտագործվի փաթեթավորման ալգորիթմի կողմից՝ տվյալները ենթախմբերի բաժանելու համար: Երբ տվյալները բաժանվեն, մենք կարող ենք օգտագործել պատահական տվյալներ և հատուկ ուսուցման ընթացակարգ՝ կանոններ ստեղծելու համար:

Դրանից հետո հարցումը կարող էր օգտագործվել մոդելի կանխատեսումները համատեղելու համար։

37. Ինչո՞վ է տարբերվում Ռիջի ռեգրեսիան Լասո ռեգրեսիայից:

Երկու լայնորեն օգտագործվող կանոնավորացման մեթոդներն են Lasso (նաև կոչվում է L1) և Ridge (երբեմն կոչվում է L2) ռեգրեսիա: Դրանք օգտագործվում են տվյալների գերհամապատասխանությունը կանխելու համար:

Լավագույն լուծումը գտնելու և բարդությունը նվազագույնի հասցնելու համար այս տեխնիկան կիրառվում է գործակիցները պատժելու համար: Գործակիցների բացարձակ արժեքների հանրագումարը տուգանելով՝ գործում է Լասսոյի ռեգրեսիան։

Ridge կամ L2 ռեգրեսիայում տուգանքի ֆունկցիան ստացվում է գործակիցների քառակուսիների գումարից։

38. Ո՞րն է ավելի կարևոր՝ մոդելի կատարումը, թե՞ մոդելի ճշգրտությունը: Ո՞ր մեկը և ինչո՞ւ եք դրան ձեռնտու:

Սա խաբուսիկ հարց է, ուստի նախ պետք է հասկանալ, թե ինչ է Model Performance-ը: Եթե կատարումը սահմանվում է որպես արագություն, ապա այն կախված է կիրառման տեսակից. ցանկացած ծրագիր, որը ներառում է իրական ժամանակի իրավիճակ, կպահանջի բարձր արագություն՝ որպես կարևոր բաղադրիչ:

Օրինակ, լավագույն որոնման արդյունքները կդառնան ավելի քիչ արժեքավոր, եթե Հարցման արդյունքները շատ երկար տևեն:

Եթե Performance-ն օգտագործվում է որպես հիմնավորում այն բանի համար, թե ինչու պետք է ճշգրտությունը և հետ կանչը առաջնահերթ լինեն ճշտությունից վեր, ապա F1 միավորն ավելի օգտակար կլինի, քան ճշգրտությունը՝ ցանկացած անհավասարակշիռ տվյալների հավաքածուի համար բիզնես դեպքը ցուցադրելու համար:

39. Ինչպե՞ս կկառավարեք անհավասարություններով տվյալների բազան:

Անհավասարակշռված տվյալների բազան կարող է օգուտ քաղել նմուշառման տեխնիկայից: Նմուշառումը կարող է իրականացվել ինչպես ցածր, այնպես էլ գերնմուշով:

Նմուշառման տակ մեզ թույլ է տալիս փոքրացնել մեծամասնության դասի չափը՝ փոքրամասնության դասին համապատասխանելու համար, ինչը օգնում է մեծացնել արագությունը պահպանման և գործարկման ժամանակի հետ կապված, բայց կարող է նաև հանգեցնել արժեքավոր տվյալների կորստի:

Գերընտրանքից առաջացած տեղեկատվության կորստի խնդիրը շտկելու համար մենք վերընտրում ենք Փոքրամասնության դասը. այնուամենայնիվ, սա ստիպում է մեզ բախվել չափազանց մեծ խնդիրների:

Լրացուցիչ ռազմավարությունները ներառում են.

Կլաստերների վրա հիմնված Over Sampling- Փոքրամասնության և մեծամասնության դասերի օրինակներն այս իրավիճակում անհատապես ենթարկվում են K-միջոցների կլաստերավորման տեխնիկայի: Սա արվում է տվյալների կլաստերները գտնելու համար: Այնուհետև յուրաքանչյուր կլաստերի գերնմուշը վերցվում է այնպես, որ բոլոր դասերն ունենան նույն չափը, իսկ դասի բոլոր կլաստերներն ունենան հավասար թվով օրինակներ:
SMOTE. Synthetic Minority Over-sampling Technique- Որպես օրինակ օգտագործվում է փոքրամասնության դասի տվյալների մի հատված, որից հետո լրացուցիչ արհեստական օրինակներ, որոնք համեմատելի են դրա հետ, արտադրվում և ավելացվում են սկզբնական տվյալների բազայում: Այս մեթոդը լավ է աշխատում թվային տվյալների կետերի հետ:

40. Ինչպե՞ս կարող եք տարբերակել խթանումը և պարկը:

Ensemble Techniques-ն ունի տարբերակներ, որոնք հայտնի են որպես պարկեր և խթանող:

Պայուսակ-

Բարձր տատանումներով ալգորիթմների համար պարկավորումը տեխնիկա է, որն օգտագործվում է շեղումը նվազեցնելու համար: Դասակարգիչների այդպիսի ընտանիքներից մեկը, որը հակված է կողմնակալության, որոշումների ծառի ընտանիքն է:

Տվյալների տեսակը, որոնց վրա վերապատրաստվում են որոշումների ծառերը, էական ազդեցություն ունի դրանց կատարման վրա: Այդ պատճառով, նույնիսկ շատ բարձր ճշգրտման դեպքում, արդյունքների ընդհանրացումը երբեմն շատ ավելի դժվար է դրանցում ձեռք բերելը:

Եթե որոշումների ծառերի վերապատրաստման տվյալները փոխվում են, արդյունքները էականորեն տարբերվում են:

Որպես հետևանք, օգտագործվում է տոպրակ, որի մեջ ստեղծվում են շատ որոշումների ծառեր, որոնցից յուրաքանչյուրը վերապատրաստվում է՝ օգտագործելով սկզբնական տվյալների նմուշը, և վերջնական արդյունքը բոլոր այս տարբեր մոդելների միջինն է:

Ամրապնդում.

Boosting-ը n-թույլ դասակարգիչ համակարգով կանխատեսումներ անելու տեխնիկան է, որտեղ յուրաքանչյուր թույլ դասակարգիչ լրացնում է իր ավելի ուժեղ դասակարգիչների թերությունները: Մենք վերաբերում ենք դասակարգիչին, որը վատ է աշխատում տվյալ տվյալների հավաքածուի վրա՝ որպես «թույլ դասակարգիչ»:

Boosting-ը ակնհայտորեն գործընթաց է, քան ալգորիթմ: Լոգիստիկ ռեգրեսիան և ծանծաղ որոշումների ծառերը թույլ դասակարգիչների սովորական օրինակներ են:

Adaboost-ը, Gradient Boosting-ը և XGBoost-ը երկու ամենահայտնի խթանման ալգորիթմներն են, այնուամենայնիվ, կան շատ ավելին:

41. Բացատրե՛ք ինդուկտիվ և դեդուկտիվ ուսուցման տարբերությունները:

Դիտարկված օրինակների մի շարքից օրինակով սովորելիս մոդելն օգտագործում է ինդուկտիվ ուսուցում՝ ընդհանրացված եզրակացության հանգելու համար: Մյուս կողմից, դեդուկտիվ ուսուցման դեպքում մոդելն օգտագործում է արդյունքը՝ նախքան սեփականը ստեղծելը:

Ինդուկտիվ ուսուցումը դիտարկումներից եզրակացություններ անելու գործընթաց է:

Դեդուկտիվ ուսուցումը եզրակացությունների վրա հիմնված դիտարկումներ ստեղծելու գործընթաց է:

Եզրափակում

Շնորհավորում եմ Սրանք մեքենայական ուսուցման լավագույն 40 և ավելի բարձր հարցազրույցի հարցերն են, որոնց պատասխանները դուք այժմ գիտեք: Տվյալների գիտություն և Արհեստական բանականություն Զբաղմունքները կշարունակեն պահանջարկ ունենալ, քանի որ տեխնոլոգիաները զարգանում են:

Թեկնածուները, ովքեր թարմացնում են իրենց գիտելիքները այս առաջադեմ տեխնոլոգիաների վերաբերյալ և բարելավում են իրենց հմտությունները, կարող են գտնել զբաղվածության լայն հնարավորություններ մրցակցային վարձատրությամբ:

Դուք կարող եք շարունակել պատասխանել հարցազրույցներին այժմ, երբ լավ եք հասկանում, թե ինչպես պատասխանել մեքենայական ուսուցման հարցազրույցի լայնորեն տրվող որոշ հարցերին:

Կախված ձեր նպատակներից՝ կատարեք հետևյալ քայլը. Պատրաստվեք հարցազրույցների՝ այցելելով Hashdork's Հարցազրույցների շարք.

Լավագույն 40+ մեքենայական ուսուցման հարցազրույցի հարցեր

1. Բացատրեք մեքենայական ուսուցման, արհեստական ​​բանականության և խորը ուսուցման միջև եղած տարբերությունները: