Բառը[Թաքցնել][Ցուցադրում]
- 1. Բացատրեք մեքենայական ուսուցման, արհեստական բանականության և խորը ուսուցման միջև եղած տարբերությունները:
- 2. Խնդրում ենք նկարագրել մեքենայական ուսուցման տարբեր տեսակները:
- 3. Ո՞րն է կողմնակալությունն ընդդեմ շեղումների փոխզիջման:
- 4. Մեքենայի ուսուցման ալգորիթմները ժամանակի ընթացքում զգալիորեն զարգացել են: Ինչպե՞ս է ընտրվում տվյալ տվյալների հավաքածուն օգտագործելու ճիշտ ալգորիթմը:
- 5. Ինչպե՞ս են տարբերվում կովարիանսը և հարաբերակցությունը:
- 6. Մեքենայի ուսուցման մեջ ի՞նչ է նշանակում կլաստերավորում:
- 7. Ո՞րն է ձեր նախընտրած մեքենայական ուսուցման ալգորիթմը:
- 8. Գծային ռեգրեսիա մեքենայական ուսուցման մեջ. ի՞նչ է դա:
- 9. Նկարագրեք KNN-ի և k-means-ի կլաստերավորման տարբերությունները:
- 10. Ի՞նչ է ձեզ համար նշանակում «ընտրության կողմնակալություն»:
- 11. Ի՞նչ է կոնկրետ Բեյսի թեորեմը:
- 12. Մեքենայական ուսուցման մոդելում որո՞նք են «ուսուցման հավաքածուն» և «թեստային հավաքածուն»:
- 13. Ի՞նչ է հիպոթեզը մեքենայական ուսուցման մեջ:
- 14. Ի՞նչ է նշանակում մեքենայական ուսուցման գերհարմարեցում, և ինչպե՞ս կարելի է այն կանխել:
- 15. Կոնկրետ ինչ են Naive Bayes դասակարգիչները:
- 16. Ի՞նչ են նշանակում ծախսերի և կորստի գործառույթներ:
- 17. Ինչո՞վ է տարբերվում գեներատիվ մոդելը խտրական մոդելից:
- 18. Նկարագրեք I և II տիպի սխալների տատանումները:
- 19. Մեքենայական ուսուցման մեջ ո՞րն է Անսամբլի ուսուցման տեխնիկան:
- 20. Ի՞նչ են կոնկրետ պարամետրային մոդելները: Օրինակ բերեք.
- 21. Նկարագրեք համատեղ զտումը: Ինչպես նաև բովանդակության վրա հիմնված զտո՞ւմ։
- 22. Կոնկրետ ի՞նչ նկատի ունեք ժամանակային շարք ասելով:
- 23. Նկարագրեք տատանումները Gradient Boosting և Random Forest ալգորիթմների միջև:
- 24. Ինչու՞ է ձեզ անհրաժեշտ շփոթության մատրիցա: Ի՞նչ է դա։
- 25. Ի՞նչ է իրենից ներկայացնում սկզբունքային բաղադրիչի վերլուծությունը:
- 26. Ինչո՞ւ է բաղադրիչի ռոտացիան այդքան կարևոր PCA-ի համար (հիմնական բաղադրիչի վերլուծություն):
- 27. Ինչպե՞ս են կանոնավորացումը և նորմալացումը տարբերվում միմյանցից:
- 28. Ինչպե՞ս են նորմալացումը և ստանդարտացումը տարբերվում միմյանցից:
- 29. Կոնկրետ ի՞նչ է նշանակում «վարիանսային գնաճի գործոն»:
- 30. Ելնելով ուսումնական հավաքածուի չափից՝ ինչպե՞ս եք ընտրում դասակարգիչը:
- 31. Մեքենայական ուսուցման ո՞ր ալգորիթմն է կոչվում «ծույլ սովորող» և ինչու:
- 32. Որոնք են ROC կորը և AUC-ը:
- 33. Ի՞նչ են հիպերպարամետրերը: Ինչո՞վ են դրանք յուրահատուկ մոդելի պարամետրերից:
- 34. Ի՞նչ են նշանակում F1 Score, հիշել և ճշգրտություն:
- 35. Ի՞նչ է իրականում խաչաձև վավերացումը:
- 36. Ենթադրենք, դուք հայտնաբերել եք, որ ձեր մոդելը զգալի շեղում ունի: Ո՞ր ալգորիթմն է, ըստ Ձեզ, առավել հարմար այս իրավիճակի համար:
- 37. Ինչո՞վ է տարբերվում Ռիջի ռեգրեսիան Լասո ռեգրեսիայից:
- 38. Ո՞րն է ավելի կարևոր՝ մոդելի կատարումը, թե՞ մոդելի ճշգրտությունը: Ո՞ր մեկը և ինչո՞ւ եք դրան ձեռնտու:
- 39. Ինչպե՞ս կկառավարեք անհավասարություններով տվյալների բազան:
- 40. Ինչպե՞ս կարող եք տարբերակել խթանումը և պարկը:
- 41. Բացատրե՛ք ինդուկտիվ և դեդուկտիվ ուսուցման տարբերությունները:
- Եզրափակում
Բիզնեսներն օգտագործում են առաջադեմ տեխնոլոգիաներ, ինչպիսիք են արհեստական ինտելեկտը (AI) և մեքենայական ուսուցումը, որպեսզի մեծացնեն տեղեկատվության և ծառայությունների հասանելիությունը անհատներին:
Այս տեխնոլոգիաները ընդունվում են մի շարք ոլորտների կողմից, ներառյալ բանկային, ֆինանսները, մանրածախ առևտուրը, արտադրությունը և առողջապահությունը:
AI-ն օգտագործող ամենապահանջված կազմակերպչական դերերից մեկը տվյալների գիտնականների, արհեստական բանականության ինժեներների, մեքենայական ուսուցման ինժեներների և տվյալների վերլուծաբանների համար է:
Այս գրառումը ձեզ կտանի մի շարք հարցերի միջով Machine Learning Հարցազրույցի հարցեր՝ հիմնականից մինչև բարդ, որոնք կօգնեն ձեզ պատրաստվել ցանկացած հարցի, որը կարող է տրվել ձեր իդեալական աշխատանք փնտրելիս:
1. Բացատրեք մեքենայական ուսուցման, արհեստական բանականության և խորը ուսուցման միջև եղած տարբերությունները:
Արհեստական ինտելեկտը օգտագործում է մեքենայական ուսուցման և խորը ուսուցման մի շարք մոտեցումներ, որոնք թույլ են տալիս համակարգչային համակարգերին կատարել առաջադրանքներ՝ օգտագործելով մարդու նման բանականությունը տրամաբանությամբ և կանոններով:
Մեքենայական ուսուցումն օգտագործում է մի շարք վիճակագրություն և խորը ուսուցման մոտեցումներ, որոնք հնարավորություն են տալիս մեքենաներին սովորել իրենց նախկին կատարողականից և ավելի հմուտ լինել որոշակի առաջադրանքներ ինքնուրույն կատարելու մեջ՝ առանց մարդու հսկողության:
Deep Learning-ը ալգորիթմների հավաքածու է, որը թույլ է տալիս ծրագրաշարին սովորել ինքն իրենից և իրականացնել մի շարք առևտրային գործառույթներ, ինչպիսիք են ձայնի և պատկերի ճանաչումը:
Համակարգեր, որոնք բացահայտում են իրենց բազմաշերտությունը նյարդային ցանցեր ուսուցման համար հսկայական քանակությամբ տվյալներ կարող են խորը ուսուցում անել:
2. Խնդրում ենք նկարագրել մեքենայական ուսուցման տարբեր տեսակները:
Մեքենայական ուսուցումը լայնորեն գոյություն ունի երեք տարբեր տեսակի.
- Վերահսկվող ուսուցում. մոդելը ստեղծում է կանխատեսումներ կամ դատողություններ՝ օգտագործելով պիտակավորված կամ պատմական տվյալներ վերահսկվող մեքենայական ուսուցման մեջ: Տվյալների հավաքածուները, որոնք հատկորոշվել կամ պիտակվել են իրենց նշանակությունը մեծացնելու նպատակով, կոչվում են պիտակավորված տվյալներ:
- Չվերահսկվող ուսուցում. մենք չունենք պիտակավորված տվյալներ չվերահսկվող ուսուցման համար: Մուտքային տվյալների մեջ մոդելը կարող է գտնել օրինաչափություններ, տարօրինակություններ և հարաբերակցություններ:
- Ամրապնդման ուսուցում. մոդելը կարող է սովորել՝ օգտագործելով ուժեղացում սովորելը և այն պարգևները, որոնք նա ստացել է իր նախկին վարքի համար:
3. Ո՞րն է կողմնակալությունն ընդդեմ շեղումների փոխզիջման:
Գերհամապատասխանությունը կողմնակալության արդյունք է, որը մոդելի տվյալների համապատասխանության աստիճանն է: Կողմնակալությունը պայմանավորված է ձեր սխալ կամ չափազանց պարզ ենթադրություններով մեքենայական ուսուցման ալգորիթմ.
Տարբերությունը վերաբերում է սխալներին, որոնք առաջացել են ձեր ML ալգորիթմի բարդության պատճառով, որն առաջացնում է զգայունություն մարզումների տվյալների և գերհամապատասխանության մեծ աստիճանի շեղումների նկատմամբ:
Տարբերությունն այն է, թե որքանով է մոդելը տատանվում՝ կախված մուտքերից:
Այլ կերպ ասած, հիմնական մոդելները չափազանց կողմնակալ են, բայց կայուն (ցածր շեղում): Չափազանց հարմարեցումը բարդ մոդելների խնդիր է, թեև դրանք, այնուամենայնիվ, արտացոլում են մոդելի իրականությունը (ցածր կողմնակալություն):
Ե՛վ բարձր տատանումները, և՛ մեծ կողմնակալությունը կանխելու համար սխալների լավագույն կրճատման համար անհրաժեշտ է փոխզիջում կողմնակալության և շեղումների միջև:
4. Մեքենայի ուսուցման ալգորիթմները ժամանակի ընթացքում զգալիորեն զարգացել են: Ինչպե՞ս է ընտրվում տվյալ տվյալների հավաքածուն օգտագործելու ճիշտ ալգորիթմը:
Մեքենայի ուսուցման տեխնիկան, որը պետք է օգտագործվի, կախված է միայն տվյալ տվյալների տեսակից:
Երբ տվյալները գծային են, օգտագործվում է գծային ռեգրեսիա: Փաթեթավորման մեթոդը ավելի լավ կաշխատի, եթե տվյալները նշեն ոչ գծային: Մենք կարող ենք օգտագործել որոշումների ծառերը կամ SVM, եթե տվյալները պետք է գնահատվեն կամ մեկնաբանվեն առևտրային նպատակներով:
Նյարդային ցանցերը կարող են օգտակար լինել ճշգրիտ պատասխան ստանալու համար, եթե տվյալների հավաքածուն ներառում է լուսանկարներ, տեսանյութեր և աուդիո:
Որոշակի հանգամանքների կամ տվյալների հավաքագրման համար ալգորիթմի ընտրությունը չի կարող կատարվել միայն մեկ չափման վրա:
Լավագույն հարմարեցման մեթոդ մշակելու նպատակով մենք նախ պետք է ուսումնասիրենք տվյալները՝ օգտագործելով հետախուզական տվյալների վերլուծություն (EDA) և հասկանանք տվյալների բազան օգտագործելու նպատակը:
5. Ինչպե՞ս են տարբերվում կովարիանսը և հարաբերակցությունը:
Կովարիանսը գնահատում է, թե ինչպես են երկու փոփոխականները կապված միմյանց հետ և ինչպես կարող է մեկը փոխվել՝ ի պատասխան մյուսի փոփոխության:
Եթե արդյունքը դրական է, դա ցույց է տալիս, որ փոփոխականների միջև կա ուղիղ կապ, և որ մեկը կբարձրանա կամ կնվազի բազային փոփոխականի աճով կամ նվազմամբ՝ ենթադրելով, որ մնացած բոլոր պայմանները մնում են անփոփոխ:
Հարաբերակցությունը չափում է կապը երկու պատահական փոփոխականների միջև և ունի միայն երեք տարբեր արժեքներ՝ 1, 0 և -1:
6. Մեքենայի ուսուցման մեջ ի՞նչ է նշանակում կլաստերավորում:
Չվերահսկվող ուսուցման մեթոդները, որոնք միավորում են տվյալների կետերը, կոչվում են կլաստերավորում: Տվյալների կետերի հավաքածուի միջոցով կարող է կիրառվել կլաստերավորման տեխնիկան:
Դուք կարող եք խմբավորել բոլոր տվյալների կետերը՝ ըստ իրենց գործառույթների՝ օգտագործելով այս ռազմավարությունը:
Նույն կատեգորիայի մեջ մտնող տվյալների կետերի առանձնահատկություններն ու որակները նման են, մինչդեռ առանձին խմբավորումների մեջ ընկած տվյալների կետերը տարբեր են:
Այս մոտեցումը կարող է օգտագործվել վիճակագրական տվյալների վերլուծության համար:
7. Ո՞րն է ձեր նախընտրած մեքենայական ուսուցման ալգորիթմը:
Դուք հնարավորություն ունեք ցույց տալու ձեր նախասիրությունները և եզակի տաղանդները այս հարցում, ինչպես նաև մեքենայական ուսուցման բազմաթիվ տեխնիկայի վերաբերյալ ձեր համապարփակ գիտելիքները:
Ահա մի քանի տիպիկ մեքենայական ուսուցման ալգորիթմներ, որոնց մասին պետք է մտածել.
- Գծային ռեգրեսիա
- Լոգիստիկ ռեգրեսիա
- Միամիտ Բեյզ
- Որոշել ծառերը
- K նշանակում է
- Պատահական անտառային ալգորիթմ
- K-մոտակա հարևան (KNN)
8. Գծային ռեգրեսիա մեքենայական ուսուցման մեջ. ի՞նչ է դա:
Վերահսկվող մեքենայական ուսուցման ալգորիթմը գծային ռեգրեսիա է:
Այն օգտագործվում է կանխատեսող վերլուծության մեջ՝ կախված և անկախ փոփոխականների միջև գծային կապը որոշելու համար:
Գծային ռեգրեսիայի հավասարումը հետևյալն է.
Y = A + BX
որտեղ
- Մուտքային կամ անկախ փոփոխականը կոչվում է X:
- Կախյալ կամ ելքային փոփոխականը Y է:
- X-ի գործակիցը b է, իսկ կտրվածքը՝ a:
9. Նկարագրեք KNN-ի և k-means-ի կլաստերավորման տարբերությունները:
Առաջնային տարբերակումն այն է, որ KNN-ին (դասակարգման մեթոդ, վերահսկվող ուսուցում) անհրաժեշտ են պիտակավորված կետեր, մինչդեռ k-միջինը` ոչ (կլաստերի ալգորիթմ, չվերահսկվող ուսուցում):
Դուք կարող եք դասակարգել պիտակավորված տվյալները չպիտակավորված կետի` օգտագործելով K-Nearest Neighbors-ը: K-means կլաստերավորումն օգտագործում է կետերի միջև միջին հեռավորությունը՝ սովորելու, թե ինչպես խմբավորել չպիտակավորված կետերը:
10. Ի՞նչ է ձեզ համար նշանակում «ընտրության կողմնակալություն»:
Փորձի նմուշառման փուլում կողմնակալությունը պայմանավորված է վիճակագրական անճշտությամբ:
Անճշտության հետևանքով մեկ ընտրանքային խումբ ընտրվում է ավելի հաճախ, քան մյուս խմբերը փորձի ժամանակ:
Եթե ընտրության կողմնակալությունը չընդունվի, դա կարող է հանգեցնել սխալ եզրակացության:
11. Ի՞նչ է կոնկրետ Բեյսի թեորեմը:
Երբ մենք տեղյակ ենք այլ հավանականությունների մասին, մենք կարող ենք որոշել հավանականությունը՝ օգտագործելով Բեյսի թեորեմը: Այն առաջարկում է առաջացման հետին հավանականությունը՝ հիմնված նախնական տեղեկատվության վրա, այլ կերպ ասած:
Այս թեորեմով ապահովված է պայմանական հավանականությունների գնահատման հիմնավոր մեթոդ։
Դասակարգման կանխատեսող մոդելավորման խնդիրներ մշակելիս և մոդելը դասընթացին համապատասխանեցնելիս տվյալների բազա մեքենայական ուսուցման մեջ, կիրառվում է Բայեսի թեորեմը (այսինքն՝ միամիտ Բայես, Բեյսի օպտիմալ դասակարգիչ)։
12. Մեքենայական ուսուցման մոդելում որո՞նք են «ուսուցման հավաքածուն» և «թեստային հավաքածուն»:
Վերապատրաստման հավաքածու.
- Դասընթացների հավաքածուն բաղկացած է օրինակներից, որոնք ուղարկվում են մոդել՝ վերլուծության և սովորելու համար:
- Սա պիտակավորված տվյալներն են, որոնք կօգտագործվեն մոդելը վարժեցնելու համար:
- Որպես կանոն, ընդհանուր տվյալների 70%-ն օգտագործվում է որպես վերապատրաստման տվյալների բազա:
Թեստային հավաքածու.
- Թեստային հավաքածուն օգտագործվում է մոդելի վարկածների առաջացման ճշգրտությունը գնահատելու համար:
- Մենք փորձարկում ենք առանց պիտակավորված տվյալների, այնուհետև օգտագործում ենք պիտակներ՝ արդյունքները հաստատելու համար:
- Մնացած 30%-ն օգտագործվում է որպես թեստային տվյալների հավաքածու:
13. Ի՞նչ է հիպոթեզը մեքենայական ուսուցման մեջ:
Մեքենայական ուսուցումը հնարավորություն է տալիս օգտագործել առկա տվյալների հավաքածուները՝ ավելի լավ հասկանալու համար տվյալ գործառույթը, որը կապում է մուտքը ելքի հետ: Սա հայտնի է որպես ֆունկցիայի մոտարկում:
Այս դեպքում, մոտարկումը պետք է կիրառվի անհայտ թիրախային ֆունկցիայի համար՝ տվյալ իրավիճակի վրա հիմնված բոլոր հնարավոր դիտարկումները լավագույնս փոխանցելու համար:
Մեքենայական ուսուցման մեջ հիպոթեզը մոդել է, որն օգնում է գնահատել թիրախային ֆունկցիան և լրացնել համապատասխան մուտքային-ելքային քարտեզագրումները:
Ալգորիթմների ընտրությունը և ձևավորումը թույլ են տալիս սահմանել հնարավոր վարկածների տարածությունը, որը կարող է ներկայացվել մոդելով:
Մեկ վարկածի համար օգտագործվում է փոքրատառ h (h), բայց մեծատառ h (H) օգտագործվում է ամբողջ հիպոթեզի տարածության համար, որը որոնվում է: Մենք համառոտ կվերանայենք այս նշումները.
- Հիպոթեզը (h)-ը որոշակի մոդել է, որը հեշտացնում է մուտքի ելքի քարտեզագրումը, որը հետագայում կարող է օգտագործվել գնահատման և կանխատեսման համար:
- Հիպոթեզների հավաքածուն (H) վարկածների որոնելի տարածություն է, որը կարող է օգտագործվել մուտքերը ելքերին քարտեզագրելու համար: Խնդիրների շրջանակը, մոդելը և մոդելի կազմաձևումը ընդհանուր սահմանափակումների մի քանի օրինակ են:
14. Ի՞նչ է նշանակում մեքենայական ուսուցման գերհարմարեցում, և ինչպե՞ս կարելի է այն կանխել:
Երբ մեքենան փորձում է սովորել ոչ բավարար տվյալներից, տեղի է ունենում գերհարմարեցում:
Արդյունքում, գերհագեցումը հակադարձ փոխկապակցված է տվյալների ծավալի հետ: Խաչաձև վավերացման մոտեցումը թույլ է տալիս խուսափել փոքր տվյալների հավաքածուների չափից ավելի հարմարեցումից: Այս մեթոդով տվյալների բազան բաժանվում է երկու մասի:
Թեստավորման և վերապատրաստման համար նախատեսված տվյալների հավաքածուն բաղկացած կլինի այս երկու մասերից: Ուսուցման տվյալների բազան օգտագործվում է մոդել ստեղծելու համար, մինչդեռ թեստավորման տվյալների բազան օգտագործվում է մոդելը գնահատելու համար՝ օգտագործելով տարբեր մուտքեր:
Ահա թե ինչպես կարելի է կանխել չափից ավելի տեղադրումը:
15. Կոնկրետ ինչ են Naive Bayes դասակարգիչները:
Տարբեր դասակարգման մեթոդները կազմում են Naive Bayes դասակարգիչները: Մի շարք ալգորիթմներ, որոնք հայտնի են որպես այս դասակարգիչներ, բոլորն աշխատում են նույն հիմնարար գաղափարի վրա:
Բեյսի միամիտ դասակարգիչների կողմից արված ենթադրությունն այն է, որ մի հատկանիշի առկայությունը կամ բացակայությունը որևէ ազդեցություն չունի մեկ այլ հատկանիշի առկայության կամ բացակայության վրա:
Այլ կերպ ասած, սա այն է, ինչ մենք անվանում ենք «միամիտ», քանի որ այն ենթադրում է, որ տվյալների յուրաքանչյուր հատկանիշ հավասարապես կարևոր և անկախ է:
Դասակարգումը կատարվում է միամիտ Bayes դասակարգիչների միջոցով: Դրանք օգտագործման համար պարզ են և ավելի լավ արդյունքներ են տալիս, քան ավելի բարդ կանխատեսիչները, երբ անկախության նախադրյալը ճշմարիտ է:
Տեքստի վերլուծության, սպամի զտման և առաջարկությունների համակարգերում դրանք օգտագործվում են:
16. Ի՞նչ են նշանակում ծախսերի և կորստի գործառույթներ:
«Կորստի ֆունկցիա» արտահայտությունը վերաբերում է կորստի հաշվարկման գործընթացին, երբ հաշվի է առնվում միայն մեկ տվյալ:
Հակառակը, մենք օգտագործում ենք ծախսերի գործառույթը բազմաթիվ տվյալների համար սխալների ընդհանուր քանակը որոշելու համար: Ոչ մի էական տարբերություն գոյություն չունի:
Այլ կերպ ասած, այն դեպքում, երբ ծախսերի գործառույթները միավորում են տարբերությունը վերապատրաստման ամբողջ տվյալների համար, կորստի գործառույթները նախատեսված են մեկ գրառման համար իրական և կանխատեսված արժեքների տարբերությունը ֆիքսելու համար:
17. Ինչո՞վ է տարբերվում գեներատիվ մոդելը խտրական մոդելից:
Խտրական մոդելը սովորում է տվյալների մի քանի կատեգորիաների միջև եղած տարբերությունները: Գեներատիվ մոդելը ընտրում է տվյալների տարբեր տեսակներ:
Դասակարգման խնդիրների դեպքում խտրական մոդելները հաճախ գերազանցում են մյուս մոդելներին:
18. Նկարագրեք I և II տիպի սխալների տատանումները:
Կեղծ դրականները պատկանում են I տիպի սխալների կատեգորիային, մինչդեռ կեղծ բացասականները մտնում են տիպի II սխալների տակ (պնդելով, որ ոչինչ չի պատահել, երբ իրականում եղել է):
19. Մեքենայական ուսուցման մեջ ո՞րն է Անսամբլի ուսուցման տեխնիկան:
Անսամբլային ուսուցում կոչվող տեխնիկան խառնում է մեքենայական ուսուցման բազմաթիվ մոդելներ՝ ավելի հզոր մոդելներ արտադրելու համար:
Մոդելը կարող է տարբեր լինել տարբեր պատճառներով: Մի քանի պատճառներ են.
- Տարբեր բնակչություններ
- Տարբեր վարկածներ
- Մոդելավորման տարբեր մեթոդներ
Մոդելի ուսուցման և փորձարկման տվյալները օգտագործելիս մենք խնդրի կհանդիպենք: Կողմնակալությունը, շեղումը և անկրճատելի սխալը այս սխալի հնարավոր տեսակներն են:
Այժմ մենք մոդելում կողմնակալության և շեղումների միջև այս հավասարակշռությունը անվանում ենք կողմնակալության-տարբերման փոխզիջում, և այն միշտ պետք է գոյություն ունենա: Այս փոխզիջումն իրականացվում է անսամբլային ուսուցման միջոցով:
Չնայած կան անսամբլային տարբեր մոտեցումներ, կան երկու ընդհանուր ռազմավարություն բազմաթիվ մոդելների համադրման համար.
- Ներքին մոտեցումը, որը կոչվում է տոպրակ, օգտագործում է ուսուցման հավաքածուն՝ լրացուցիչ ուսումնական հավաքածուներ արտադրելու համար:
- Boosting-ը, ավելի բարդ տեխնիկա. Շատ նման պարկերով, Boosting-ը օգտագործվում է մարզումների համար նախատեսված կշռման իդեալական բանաձևը գտնելու համար:
20. Ի՞նչ են կոնկրետ պարամետրային մոդելները: Օրինակ բերեք.
Պարամետրային մոդելներում կան սահմանափակ քանակությամբ պարամետրեր: Տվյալների կանխատեսման համար անհրաժեշտ է միայն իմանալ մոդելի պարամետրերը:
Հետևյալները բնորոշ օրինակներ են. լոգիստիկ ռեգրեսիա, գծային ռեգրեսիա և գծային SVM-ներ: Ոչ պարամետրային մոդելները ճկուն են, քանի որ դրանք կարող են պարունակել անսահմանափակ թվով պարամետրեր:
Տվյալների կանխատեսումների համար պահանջվում են մոդելի պարամետրերը և դիտարկված տվյալների կարգավիճակը: Ահա մի քանի բնորոշ օրինակներ. թեմայի մոդելներ, որոշումների ծառեր և k-մոտակա հարևաններ։
21. Նկարագրեք համատեղ զտումը: Ինչպես նաև բովանդակության վրա հիմնված զտո՞ւմ։
Հարմարեցված բովանդակության առաջարկներ ստեղծելու փորձված և իրական մեթոդը համատեղ զտումն է:
Առաջարկությունների համակարգի ձևը, որը կոչվում է համագործակցային զտում, կանխագուշակում է թարմ նյութերը՝ հավասարակշռելով օգտվողների նախասիրությունները ընդհանուր հետաքրքրությունների հետ:
Օգտատիրոջ նախասիրությունները միակ բանն են, որ հաշվի են առնում բովանդակության վրա հիմնված առաջարկող համակարգերը: Օգտագործողի նախնական ընտրության լույսի ներքո՝ նոր առաջարկություններ են տրվում հարակից նյութերից:
22. Կոնկրետ ի՞նչ նկատի ունեք ժամանակային շարք ասելով:
Ժամանակային շարքը թվերի հավաքածու է աճման կարգով: Նախապես որոշված ժամանակահատվածում այն վերահսկում է ընտրված տվյալների կետերի շարժը և պարբերաբար գրավում տվյալների կետերը:
Ժամանակային շարքերի համար նվազագույն կամ առավելագույն ժամանակի մուտքագրում չկա:
Ժամանակային շարքերը հաճախ օգտագործվում են վերլուծաբանների կողմից տվյալների վերլուծության համար՝ իրենց յուրահատուկ պահանջներին համապատասխան:
23. Նկարագրեք տատանումները Gradient Boosting և Random Forest ալգորիթմների միջև:
Պատահական անտառ.
- Որոշման մեծ թվով ծառեր հավաքվում են վերջում և հայտնի են որպես պատահական անտառներ:
- Մինչ գրադիենտ խթանումը յուրաքանչյուր ծառ արտադրում է մյուսներից անկախ, պատահական անտառը յուրաքանչյուր ծառը կառուցում է մեկ առ մեկ:
- Բազմադաս օբյեկտների հայտնաբերում լավ է աշխատում պատահական անտառների հետ:
Գրադիենտի բարձրացում.
- Մինչ պատահական անտառները միանում են որոշման ծառերին գործընթացի վերջում, գրադիենտ խթանող մեքենաները սկզբից միավորում են դրանք:
- Եթե պարամետրերը պատշաճ կերպով ճշգրտված են, գրադիենտ խթանումը արդյունքների առումով գերազանցում է պատահական անտառներին, բայց դա խելացի ընտրություն չէ, եթե տվյալների հավաքածուն ունի շատ արտանետումներ, անոմալիաներ կամ աղմուկ, քանի որ դա կարող է հանգեցնել մոդելի գերհարմարեցման:
- Երբ կան անհավասարակշիռ տվյալներ, ինչպես իրական ժամանակի ռիսկերի գնահատման դեպքում, գրադիենտ խթանումը լավ է գործում:
24. Ինչու՞ է ձեզ անհրաժեշտ շփոթության մատրիցա: Ի՞նչ է դա։
Աղյուսակը, որը հայտնի է որպես շփոթության մատրիցա, որը երբեմն հայտնի է որպես սխալի մատրիցա, լայնորեն օգտագործվում է ցույց տալու համար, թե դասակարգման մոդելը կամ դասակարգիչը որքան լավ է աշխատում մի շարք թեստային տվյալների վրա, որոնց իրական արժեքները հայտնի են:
Այն թույլ է տալիս մեզ տեսնել, թե ինչպես է գործում մոդելը կամ ալգորիթմը: Դա մեզ համար հեշտացնում է տարբեր դասընթացների միջև թյուրիմացություններ հայտնաբերելը:
Այն ծառայում է որպես միջոց՝ գնահատելու, թե որքան լավ է կատարվում մոդելը կամ ալգորիթմը:
Դասակարգման մոդելի կանխատեսումները կազմվում են շփոթության մատրիցի մեջ: Յուրաքանչյուր դասի պիտակի հաշվարկի արժեքները օգտագործվել են ճիշտ և սխալ կանխատեսումների ընդհանուր թիվը բաժանելու համար:
Այն մանրամասներ է ներկայացնում դասակարգչի կողմից թույլ տրված անսարքությունների, ինչպես նաև դասակարգիչների կողմից առաջացած տարբեր տեսակի սխալների մասին:
25. Ի՞նչ է իրենից ներկայացնում սկզբունքային բաղադրիչի վերլուծությունը:
Նվազագույնի հասցնելով միմյանց հետ փոխկապակցված փոփոխականների քանակը՝ նպատակն է նվազագույնի հասցնել տվյալների հավաքագրման ծավալայինությունը: Բայց կարևոր է հնարավորինս պահպանել բազմազանությունը:
Փոփոխականները փոխվում են փոփոխականների միանգամայն նոր շարքի, որը կոչվում է հիմնական բաղադրիչներ:
Այս ԱՀ-ները ուղղանկյուն են, քանի որ դրանք կովարիանսային մատրիցայի սեփական վեկտորներն են:
26. Ինչո՞ւ է բաղադրիչի ռոտացիան այդքան կարևոր PCA-ի համար (հիմնական բաղադրիչի վերլուծություն):
Պտտումը շատ կարևոր է PCA-ում, քանի որ այն օպտիմալացնում է տարանջատումը յուրաքանչյուր բաղադրիչի կողմից ստացված շեղումների միջև՝ դարձնելով բաղադրիչի մեկնաբանումը ավելի պարզ:
Մենք պահանջում ենք ընդլայնված բաղադրիչներ՝ բաղադրիչի տատանումները արտահայտելու համար, եթե բաղադրիչները չեն պտտվում:
27. Ինչպե՞ս են կանոնավորացումը և նորմալացումը տարբերվում միմյանցից:
Նորմալացում.
Նորմալացման ընթացքում տվյալները փոխվում են: Դուք պետք է նորմալացնեք տվյալները, եթե դրանք ունեն սանդղակներ, որոնք կտրուկ տարբերվում են, հատկապես ցածրից բարձր: Կարգավորեք յուրաքանչյուր սյունակ այնպես, որ հիմնարար վիճակագրությունը բոլորը համատեղելի լինեն:
Ապահովելու համար, որ ճշգրտության կորուստ չկա, սա կարող է օգտակար լինել: Աղմուկը անտեսելիս ազդանշանի հայտնաբերումը մոդելի ուսուցման նպատակներից մեկն է:
Չափից դուրս տեղավորվելու հավանականություն կա, եթե մոդելին տրվի ամբողջական վերահսկողություն՝ սխալը նվազեցնելու համար:
Կանոնավորում.
Պարբերականացման դեպքում կանխատեսման ֆունկցիան փոփոխվում է։ Սա ենթակա է որոշակի վերահսկողության կանոնավորացման միջոցով, ինչը նպաստում է ավելի պարզ տեղադրման գործառույթներին, քան բարդ գործառույթներին:
28. Ինչպե՞ս են նորմալացումը և ստանդարտացումը տարբերվում միմյանցից:
Առանձնահատկությունների մասշտաբավորման երկու ամենալայն կիրառվող տեխնիկան են նորմալացումը և ստանդարտացումը:
Նորմալացում.
- Տվյալների վերագնահատումը [0,1] միջակայքին համապատասխանելու համար հայտնի է որպես նորմալացում:
- Երբ բոլոր պարամետրերը պետք է ունենան միևնույն դրական սանդղակը, նորմալացումը օգտակար է, բայց տվյալների հավաքածուի արտաքին ցուցանիշները կորչում են:
Կանոնավորում.
- Տվյալները վերագնահատվում են՝ ունենալով միջինը 0 և ստանդարտ շեղում 1՝ որպես ստանդարտացման գործընթացի մաս (Միավոր շեղում)
29. Կոնկրետ ի՞նչ է նշանակում «վարիանսային գնաճի գործոն»:
Մոդելի շեղումների հարաբերակցությունը միայն մեկ անկախ փոփոխականով մոդելի շեղմանը հայտնի է որպես տատանումների գնաճի գործոն (VIF):
VIF-ը գնահատում է մի քանի ռեգրեսիոն փոփոխականների շարքում առկա բազմակողմանիության քանակը:
Մոդելի շեղում (VIF) Մոդել մեկ անկախ փոփոխական փոփոխականությամբ
30. Ելնելով ուսումնական հավաքածուի չափից՝ ինչպե՞ս եք ընտրում դասակարգիչը:
Բարձր կողմնակալության, ցածր շեղումների մոդելն ավելի լավ է գործում կարճ մարզումների հավաքածուի համար, քանի որ ավելի քիչ հավանական է: Միամիտ Բեյսը օրինակներից մեկն է:
Մեծ ուսուցման հավաքածուի համար ավելի բարդ փոխազդեցությունները ներկայացնելու համար նախընտրելի է ցածր կողմնակալությամբ և բարձր շեղումներով մոդելը: Լավ օրինակ է լոգիստիկ ռեգրեսիան:
31. Մեքենայական ուսուցման ո՞ր ալգորիթմն է կոչվում «ծույլ սովորող» և ինչու:
Դանդաղ սովորող KNN-ը մեքենայական ուսուցման ալգորիթմ է: Քանի որ K-NN-ը դինամիկ կերպով հաշվարկում է հեռավորությունը, ամեն անգամ, երբ ցանկանում է դասակարգել՝ ուսուցման տվյալներից մեքենայական սովորած արժեքներ կամ փոփոխականներ սովորելու փոխարեն, այն անգիր է անում ուսումնական տվյալների հավաքածուն:
Սա K-NN-ին դարձնում է ծույլ սովորող:
32. Որոնք են ROC կորը և AUC-ը:
Դասակարգման մոդելի կատարումը բոլոր շեմերում գրաֆիկորեն ներկայացված է ROC կորով: Այն ունի ճշմարիտ դրական և կեղծ դրական դրույքաչափի չափանիշներ:
Պարզ ասած, ROC կորի տակ գտնվող տարածքը հայտնի է որպես AUC (Area Under the ROC Curve): ROC կորի երկչափ տարածքը (0,0)-ից մինչև AUC չափվում է (1,1): Երկուական դասակարգման մոդելների գնահատման համար այն օգտագործվում է որպես կատարողականի վիճակագրություն:
33. Ի՞նչ են հիպերպարամետրերը: Ինչո՞վ են դրանք յուրահատուկ մոդելի պարամետրերից:
Մոդելի ներքին փոփոխականը հայտնի է որպես մոդելի պարամետր: Օգտագործելով վերապատրաստման տվյալները, պարամետրի արժեքը մոտավոր է:
Մոդելի համար անհայտ հիպերպարամետրը փոփոխական է: Արժեքը չի կարող որոշվել տվյալների հիման վրա, ուստի դրանք հաճախ օգտագործվում են մոդելի պարամետրերը հաշվարկելու համար:
34. Ի՞նչ են նշանակում F1 Score, հիշել և ճշգրտություն:
Շփոթության չափումը չափիչ է, որն օգտագործվում է դասակարգման մոդելի արդյունավետությունը գնահատելու համար: Հետևյալ արտահայտությունները կարող են օգտագործվել շփոթության չափման ավելի լավ բացատրելու համար.
TP. True Positives – Սրանք այն դրական արժեքներն են, որոնք ճիշտ ակնկալվում էին: Այն ենթադրում է, որ կանխատեսվող դասի և փաստացի դասի արժեքները երկուսն էլ դրական են:
TN. True Negatives- Սրանք այն բացասական արժեքներն են, որոնք ճշգրիտ կանխատեսվել են: Այն ենթադրում է, որ և՛ իրական դասի արժեքը, և՛ ակնկալվող դասը բացասական են:
Այս արժեքները՝ կեղծ դրական և կեղծ բացասական, առաջանում են, երբ ձեր իրական դասը տարբերվում է ակնկալվող դասից:
հիմա,
Իրական դրական դրույքաչափի (TP) հարաբերակցությունը փաստացի դասում կատարված բոլոր դիտարկումներին կոչվում է հետկանչ, որը նաև հայտնի է որպես զգայունություն:
Հետկանչը՝ TP/(TP+FN):
Ճշգրիտությունը դրական կանխագուշակող արժեքի չափումն է, որը համեմատում է մոդելի իրական կանխատեսած դրականների քանակը և այն ճշգրիտ կանխատեսած դրականների թիվը:
Ճշգրիտությունը TP/(TP + FP) է
Կատարողականության ամենահեշտ չափանիշը հասկանալու համար ճշտությունն է, որը ճիշտ կանխատեսված դիտարկումների համամասնությունն է բոլոր դիտարկումներին:
Ճշգրտությունը հավասար է (TP+TN)/(TP+FP+FN+TN):
Ճշգրիտությունը և հետկանչը կշռված և միջինացված են՝ F1 միավորը ապահովելու համար: Արդյունքում, այս միավորը համարում է և՛ կեղծ դրական, և՛ կեղծ բացասական:
F1-ը հաճախ ավելի արժեքավոր է, քան ճշգրտությունը, հատկապես, եթե դուք ունեք դասերի անհավասար բաշխում, նույնիսկ եթե ինտուիտիվ կերպով դա այնքան էլ պարզ չէ, որքան ճշգրտությունը:
Լավագույն ճշգրտությունը ձեռք է բերվում, երբ կեղծ դրական և կեղծ բացասականների արժեքը համադրելի է: Նախընտրելի է ներառել և՛ Ճշգրիտ, և՛ հետ կանչել, եթե կեղծ դրական և կեղծ բացասականների հետ կապված ծախսերը զգալիորեն տարբերվում են:
35. Ի՞նչ է իրականում խաչաձև վավերացումը:
Վիճակագրական վերընտրանքի մոտեցումը, որը կոչվում է խաչաձև վավերացում մեքենայական ուսուցման մեջ, օգտագործում է տվյալների մի քանի ենթաբազմություններ՝ մի շարք փուլերի ընթացքում մեքենայական ուսուցման ալգորիթմը վերապատրաստելու և գնահատելու համար:
Տվյալների նոր խմբաքանակը, որը չի օգտագործվել մոդելը վարժեցնելու համար, փորձարկվում է խաչաձև վավերացման միջոցով՝ տեսնելու, թե որքան լավ է մոդելը կանխատեսում այն: Տվյալների գերհամապատասխանեցումը կանխվում է խաչաձև վավերացման միջոցով:
K-Fold Ամենահաճախ օգտագործվող վերանմուշառման մեթոդը ամբողջ տվյալների բազան բաժանում է հավասար չափերի K խմբերի: Այն կոչվում է խաչաձեւ վավերացում:
36. Ենթադրենք, դուք հայտնաբերել եք, որ ձեր մոդելը զգալի շեղում ունի: Ո՞ր ալգորիթմն է, ըստ Ձեզ, առավել հարմար այս իրավիճակի համար:
Բարձր փոփոխականության կառավարում
Մենք պետք է օգտագործենք պարկերի տեխնիկան մեծ տատանումների հետ կապված խնդիրների դեպքում:
Պատահական տվյալների կրկնվող նմուշառումը կօգտագործվի փաթեթավորման ալգորիթմի կողմից՝ տվյալները ենթախմբերի բաժանելու համար: Երբ տվյալները բաժանվեն, մենք կարող ենք օգտագործել պատահական տվյալներ և հատուկ ուսուցման ընթացակարգ՝ կանոններ ստեղծելու համար:
Դրանից հետո հարցումը կարող էր օգտագործվել մոդելի կանխատեսումները համատեղելու համար։
37. Ինչո՞վ է տարբերվում Ռիջի ռեգրեսիան Լասո ռեգրեսիայից:
Երկու լայնորեն օգտագործվող կանոնավորացման մեթոդներն են Lasso (նաև կոչվում է L1) և Ridge (երբեմն կոչվում է L2) ռեգրեսիա: Դրանք օգտագործվում են տվյալների գերհամապատասխանությունը կանխելու համար:
Լավագույն լուծումը գտնելու և բարդությունը նվազագույնի հասցնելու համար այս տեխնիկան կիրառվում է գործակիցները պատժելու համար: Գործակիցների բացարձակ արժեքների հանրագումարը տուգանելով՝ գործում է Լասսոյի ռեգրեսիան։
Ridge կամ L2 ռեգրեսիայում տուգանքի ֆունկցիան ստացվում է գործակիցների քառակուսիների գումարից։
38. Ո՞րն է ավելի կարևոր՝ մոդելի կատարումը, թե՞ մոդելի ճշգրտությունը: Ո՞ր մեկը և ինչո՞ւ եք դրան ձեռնտու:
Սա խաբուսիկ հարց է, ուստի նախ պետք է հասկանալ, թե ինչ է Model Performance-ը: Եթե կատարումը սահմանվում է որպես արագություն, ապա այն կախված է կիրառման տեսակից. ցանկացած ծրագիր, որը ներառում է իրական ժամանակի իրավիճակ, կպահանջի բարձր արագություն՝ որպես կարևոր բաղադրիչ:
Օրինակ, լավագույն որոնման արդյունքները կդառնան ավելի քիչ արժեքավոր, եթե Հարցման արդյունքները շատ երկար տևեն:
Եթե Performance-ն օգտագործվում է որպես հիմնավորում այն բանի համար, թե ինչու պետք է ճշգրտությունը և հետ կանչը առաջնահերթ լինեն ճշտությունից վեր, ապա F1 միավորն ավելի օգտակար կլինի, քան ճշգրտությունը՝ ցանկացած անհավասարակշիռ տվյալների հավաքածուի համար բիզնես դեպքը ցուցադրելու համար:
39. Ինչպե՞ս կկառավարեք անհավասարություններով տվյալների բազան:
Անհավասարակշռված տվյալների բազան կարող է օգուտ քաղել նմուշառման տեխնիկայից: Նմուշառումը կարող է իրականացվել ինչպես ցածր, այնպես էլ գերնմուշով:
Նմուշառման տակ մեզ թույլ է տալիս փոքրացնել մեծամասնության դասի չափը՝ փոքրամասնության դասին համապատասխանելու համար, ինչը օգնում է մեծացնել արագությունը պահպանման և գործարկման ժամանակի հետ կապված, բայց կարող է նաև հանգեցնել արժեքավոր տվյալների կորստի:
Գերընտրանքից առաջացած տեղեկատվության կորստի խնդիրը շտկելու համար մենք վերընտրում ենք Փոքրամասնության դասը. այնուամենայնիվ, սա ստիպում է մեզ բախվել չափազանց մեծ խնդիրների:
Լրացուցիչ ռազմավարությունները ներառում են.
- Կլաստերների վրա հիմնված Over Sampling- Փոքրամասնության և մեծամասնության դասերի օրինակներն այս իրավիճակում անհատապես ենթարկվում են K-միջոցների կլաստերավորման տեխնիկայի: Սա արվում է տվյալների կլաստերները գտնելու համար: Այնուհետև յուրաքանչյուր կլաստերի գերնմուշը վերցվում է այնպես, որ բոլոր դասերն ունենան նույն չափը, իսկ դասի բոլոր կլաստերներն ունենան հավասար թվով օրինակներ:
- SMOTE. Synthetic Minority Over-sampling Technique- Որպես օրինակ օգտագործվում է փոքրամասնության դասի տվյալների մի հատված, որից հետո լրացուցիչ արհեստական օրինակներ, որոնք համեմատելի են դրա հետ, արտադրվում և ավելացվում են սկզբնական տվյալների բազայում: Այս մեթոդը լավ է աշխատում թվային տվյալների կետերի հետ:
40. Ինչպե՞ս կարող եք տարբերակել խթանումը և պարկը:
Ensemble Techniques-ն ունի տարբերակներ, որոնք հայտնի են որպես պարկեր և խթանող:
Պայուսակ-
Բարձր տատանումներով ալգորիթմների համար պարկավորումը տեխնիկա է, որն օգտագործվում է շեղումը նվազեցնելու համար: Դասակարգիչների այդպիսի ընտանիքներից մեկը, որը հակված է կողմնակալության, որոշումների ծառի ընտանիքն է:
Տվյալների տեսակը, որոնց վրա վերապատրաստվում են որոշումների ծառերը, էական ազդեցություն ունի դրանց կատարման վրա: Այդ պատճառով, նույնիսկ շատ բարձր ճշգրտման դեպքում, արդյունքների ընդհանրացումը երբեմն շատ ավելի դժվար է դրանցում ձեռք բերելը:
Եթե որոշումների ծառերի վերապատրաստման տվյալները փոխվում են, արդյունքները էականորեն տարբերվում են:
Որպես հետևանք, օգտագործվում է տոպրակ, որի մեջ ստեղծվում են շատ որոշումների ծառեր, որոնցից յուրաքանչյուրը վերապատրաստվում է՝ օգտագործելով սկզբնական տվյալների նմուշը, և վերջնական արդյունքը բոլոր այս տարբեր մոդելների միջինն է:
Ամրապնդում.
Boosting-ը n-թույլ դասակարգիչ համակարգով կանխատեսումներ անելու տեխնիկան է, որտեղ յուրաքանչյուր թույլ դասակարգիչ լրացնում է իր ավելի ուժեղ դասակարգիչների թերությունները: Մենք վերաբերում ենք դասակարգիչին, որը վատ է աշխատում տվյալ տվյալների հավաքածուի վրա՝ որպես «թույլ դասակարգիչ»:
Boosting-ը ակնհայտորեն գործընթաց է, քան ալգորիթմ: Լոգիստիկ ռեգրեսիան և ծանծաղ որոշումների ծառերը թույլ դասակարգիչների սովորական օրինակներ են:
Adaboost-ը, Gradient Boosting-ը և XGBoost-ը երկու ամենահայտնի խթանման ալգորիթմներն են, այնուամենայնիվ, կան շատ ավելին:
41. Բացատրե՛ք ինդուկտիվ և դեդուկտիվ ուսուցման տարբերությունները:
Դիտարկված օրինակների մի շարքից օրինակով սովորելիս մոդելն օգտագործում է ինդուկտիվ ուսուցում՝ ընդհանրացված եզրակացության հանգելու համար: Մյուս կողմից, դեդուկտիվ ուսուցման դեպքում մոդելն օգտագործում է արդյունքը՝ նախքան սեփականը ստեղծելը:
Ինդուկտիվ ուսուցումը դիտարկումներից եզրակացություններ անելու գործընթաց է:
Դեդուկտիվ ուսուցումը եզրակացությունների վրա հիմնված դիտարկումներ ստեղծելու գործընթաց է:
Եզրափակում
Շնորհավորում եմ Սրանք մեքենայական ուսուցման լավագույն 40 և ավելի բարձր հարցազրույցի հարցերն են, որոնց պատասխանները դուք այժմ գիտեք: Տվյալների գիտություն և Արհեստական բանականություն Զբաղմունքները կշարունակեն պահանջարկ ունենալ, քանի որ տեխնոլոգիաները զարգանում են:
Թեկնածուները, ովքեր թարմացնում են իրենց գիտելիքները այս առաջադեմ տեխնոլոգիաների վերաբերյալ և բարելավում են իրենց հմտությունները, կարող են գտնել զբաղվածության լայն հնարավորություններ մրցակցային վարձատրությամբ:
Դուք կարող եք շարունակել պատասխանել հարցազրույցներին այժմ, երբ լավ եք հասկանում, թե ինչպես պատասխանել մեքենայական ուսուցման հարցազրույցի լայնորեն տրվող որոշ հարցերին:
Կախված ձեր նպատակներից՝ կատարեք հետևյալ քայլը. Պատրաստվեք հարցազրույցների՝ այցելելով Hashdork's Հարցազրույցների շարք.
Թողնել գրառում