Топ 40+ прашања за интервју за машинско учење (2024)

Содржина[Крие][Прикажи]

1. Објаснете ги разликите помеѓу машинското учење, вештачката интелигенција и длабокото учење.
2. Ве молиме опишете ги различните типови на машинско учење.
3. Што е компромисот за пристрасност наспроти варијанса?
4. Алгоритмите за машинско учење значително еволуирале со текот на времето. Како да се избере вистинскиот алгоритам за да се искористи дадениот сет на податоци?
5. Како се разликуваат коваријансата и корелацијата?
6. Во машинското учење, што значи кластерирање?
7. Кој е вашиот префериран алгоритам за машинско учење?
8. Линеарна регресија во машинското учење: што е тоа?
9. Опишете ги разликите помеѓу КНН и кластерирањето k-средства.
10. Што значи за вас „пристрасност при изборот“?
11. Што точно е Бејсовата теорема?
12. Во моделот за машинско учење, што се „множество за обука“ и „сет на тест“?
13. Што е хипотеза во машинското учење?
14. Што значи преоптоварување со машинско учење и како може да се спречи?
15. Што точно се класификатори на Naive Bayes?
16. Што значат функции на трошоци и функции на загуба?
17. Што го разликува генеративниот модел од дискриминативен модел?
18. Опишете ги варијациите помеѓу грешките од тип I и тип II.
19. Во машинското учење, што е техниката за учење на ансамблот?
20. Што точно се параметарски модели? Дај пример.
21. Опишете го заедничкото филтрирање. Како и филтрирање базирано на содржина?
22. Што точно подразбираш под Временска серија?
23. Опишете ги варијациите помеѓу алгоритмите за зголемување на градиентот и алгоритмите за случајна шума.
24. Зошто ви е потребна матрица за конфузија? Што е тоа?
25. Што точно е анализа на принципиелна компонента?
26. Зошто ротацијата на компонентите е толку клучна за PCA (анализа на главна компонента)?
27. Како се разликуваат регулацијата и нормализацијата една од друга?
28. Како нормализацијата и стандардизацијата се разликуваат една од друга?
29. Што точно значи „фактор на инфлација на варијанса“?
30. Врз основа на големината на комплетот за обука, како избирате класификатор?
31. Кој алгоритам во машинското учење се нарекува „мрзлив ученик“ и зошто?
32. Што се крива ROC и AUC?
33. Што се хиперпараметри? Што ги прави уникатни од параметрите на моделот?
34. Што значат F1 Резултат, потсетување и прецизност?
35. Што точно е вкрстена валидација?
36. Да речеме дека откривте дека вашиот модел има значителна варијанса. Кој алгоритам, според вас, е најсоодветен за справување со оваа ситуација?
37. Што ја разликува Риџ регресијата од регресијата Ласо?
38. Што е поважно: перформансите на моделот или точноста на моделот? Кој и зошто ќе го фаворизирате?
39. Како би управувале со база на податоци со нееднаквости?
40. Како можеш да направиш разлика помеѓу засилување и вреќање?
41. Објасни ги разликите помеѓу индуктивното и дедуктивното учење.
Заклучок

Бизнисите користат најсовремена технологија, како што се вештачката интелигенција (ВИ) и машинското учење, за да ја зголемат пристапноста до информации и услуги за поединци.

Овие технологии се усвоени од различни индустрии, вклучувајќи банкарство, финансии, малопродажба, производство и здравствена заштита.

Една од најбараните организациски улоги што користи вештачка интелигенција е за научници за податоци, инженери за вештачка интелигенција, инженери за машинско учење и аналитичари на податоци.

Овој пост ќе ве води низ различни машинско учење прашања за интервју, од основни до сложени, за да ви помогнат да се подготвите за какви било прашања што би можеле да ви бидат поставени кога ја барате вашата идеална работа.

1. Објаснете ги разликите помеѓу машинското учење, вештачката интелигенција и длабокото учење.

Вештачката интелигенција користи различни пристапи за машинско учење и длабоко учење кои им овозможуваат на компјутерските системи да извршуваат задачи користејќи човечка интелигенција со логика и правила.

Машинското учење користи разновидни статистички податоци и пристапи за длабоко учење за да им овозможи на машините да учат од нивните претходни перформанси и да станат повешти во извршувањето на одредени задачи самостојно без човечки надзор.

Длабокото учење е збирка на алгоритми што му овозможуваат на софтверот да учи од себе и да извршува различни комерцијални функции, како што се препознавање глас и слика.

Системи кои ги изложуваат нивните повеќеслојни нервните мрежи до огромни количини на податоци за учење се способни да направат длабоко учење.

2. Ве молиме опишете ги различните типови на машинско учење.

Машинското учење опширно постои во три различни типа:

Надгледувано учење: моделот создава предвидувања или пресуди користејќи означени или историски податоци во надгледуваното машинско учење. Збирките на податоци кои се означени или означени со цел да се зголеми нивното значење се нарекуваат означени податоци.
Учење без надзор: немаме означени податоци за учење без надзор. Во дојдовните податоци, моделот може да најде обрасци, необичности и корелации.
Засилено учење: Моделот може учат со користење на засилување учењето и наградите што ги доби за своето претходно однесување.

3. Што е компромисот за пристрасност наспроти варијанса?

Прекумерното поставување е резултат на пристрасност, што е степенот до кој моделот одговара на податоците. Пристрасноста е предизвикана од неточни или премногу едноставни претпоставки во вашите алгоритам за машинско учење.

Варијансата се однесува на грешките предизвикани од сложеноста во вашиот ML алгоритам, што создава чувствителност на големи степени на варијанса во податоците за обука и преоптоварување.

Варијансата е колку моделот варира во зависност од влезните податоци.

Со други зборови, основните модели се крајно пристрасни, но стабилни (ниска варијанса). Прекумерното поставување е проблем со сложените модели, иако тие сепак ја доловуваат реалноста на моделот (ниска пристрасност).

Со цел да се спречи и големата варијација и високата пристрасност, неопходна е размена помеѓу пристрасноста и варијансата за најдобро намалување на грешката.

4. Алгоритмите за машинско учење значително еволуирале со текот на времето. Како да се избере вистинскиот алгоритам за да се искористи дадениот сет на податоци?

Техниката за машинско учење што треба да се користи зависи само од видот на податоците во одредена база на податоци.

Кога податоците се линеарни, се користи линеарна регресија. Методот на торбички ќе функционира подобро ако податоците укажуваат на нелинеарност. Можеме да користиме стебла на одлуки или SVM ако податоците треба да се проценат или интерпретираат за комерцијални цели.

Невронските мрежи може да бидат корисни за да се добие точен одговор ако сетот вклучува фотографии, видеа и аудио.

Изборот на алгоритам за одредена околност или собирање податоци не може да се направи само на една мерка.

За целта да се развие методот најдобро одговара, прво мораме да ги испитаме податоците користејќи истражувачка анализа на податоци (EDA) и да ја разбереме целта за користење на базата на податоци.

5. Како се разликуваат коваријансата и корелацијата?

Коваријансата проценува како две променливи се поврзани една со друга и како едната може да се промени како одговор на промените во другата.

Ако резултатот е позитивен, тој покажува дека постои директна врска помеѓу променливите и дека едната би се зголемила или намалувала со зголемување или намалување на основната променлива, под претпоставка дека сите други услови остануваат константни.

Корелацијата ја мери врската помеѓу две случајни променливи и има само три различни вредности: 1, 0 и -1.

6. Во машинското учење, што значи кластерирање?

Методите за учење без надзор кои ги групираат точките на податоци заедно се нарекуваат кластерирање. Со собирање точки на податоци, може да се примени техниката на кластерирање.

Можете да ги групирате сите точки на податоци според нивните функции користејќи ја оваа стратегија.

Карактеристиките и квалитетите на податочните точки кои спаѓаат во иста категорија се слични, додека оние на податочните точки кои спаѓаат во посебни групирања се различни.

Овој пристап може да се користи за анализа на статистички податоци.

7. Кој е вашиот префериран алгоритам за машинско учење?

Имате шанса да ги покажете вашите преференции и уникатни таленти во ова прашање, како и вашето сеопфатно познавање на бројни техники за машинско учење.

Еве неколку типични алгоритми за машинско учење за кои треба да размислите:

Линеарна регресија
Логистичка регресија
Наивен Бајес
Одлуки дрва
К значи
Алгоритам за случаен шуми
К-најблискиот сосед (КНН)

8. Линеарна регресија во машинското учење: што е тоа?

Надгледуваниот алгоритам за машинско учење е линеарна регресија.

Се користи во предвидувачката анализа за да се одреди линеарната врска помеѓу зависните и независните променливи.

Равенката на линеарна регресија е следна:

Y = A + BX

каде што:

Влезната или независната променлива се нарекува X.
Зависната или излезната променлива е Y.
Коефициентот на X е b, а неговото пресекување е a.

9. Опишете ги разликите помеѓу КНН и кластерирањето k-средства.

Примарната разлика е во тоа што на KNN (метод на класификација, надгледувано учење) му требаат означени точки, додека на k-значи не (алгоритам за групирање, учење без надзор).

Можете да ги класифицирате означените податоци во неозначена точка со користење на K-Најблиски соседи. Кластерирањето К-средства го користи просечното растојание помеѓу точките за да научи како да групира неозначени точки.

10. Што значи за вас „пристрасност при изборот“?

Пристрасноста во фазата на земање примероци на експериментот се должи на статистичка неточност.

Една група примероци се избира почесто од другите групи во експериментот како резултат на неточноста.

Ако пристрасноста на изборот не се признае, тоа може да резултира со неточен заклучок.

11. Што точно е Бејсовата теорема?

Кога сме свесни за други веројатности, можеме да одредиме веројатност користејќи ја теоремата на Бејс. Таа нуди задната веројатност за појава врз основа на претходни информации, со други зборови.

Звучен метод за проценка на условните веројатности е обезбеден со оваа теорема.

При развивање на проблеми со предвидливо моделирање на класификација и приспособување на модел на обука база на податоци во машинското учење, применета е теорема на Бајс (т.е. Naive Bayes, Bayes Optimal Classifier).

12. Во моделот за машинско учење, што се „множество за обука“ и „сет на тест“?

Сет за обука:

Сетот за обука се состои од инстанци кои се испраќаат до моделот за анализа и учење.
Ова се означените податоци што ќе се користат за обука на моделот.
Вообичаено, 70% од вкупните податоци се користат како база на податоци за обука.

Тест сет:

Тест множеството се користи за да се процени точноста на генерирањето на хипотезата на моделот.
Ние тестираме без означени податоци, а потоа користиме етикети за да ги потврдиме резултатите.
Останатите 30% се користат како тест база на податоци.

13. Што е хипотеза во машинското учење?

Машинското учење овозможува користење на постојните збирки на податоци за подобро разбирање на дадената функција која го поврзува влезот со излезот. Ова е познато како приближување на функцијата.

Во овој случај, мора да се примени приближување за непознатата целна функција за да ги пренесе сите замисливи набљудувања врз основа на дадената ситуација на најдобар можен начин.

Во машинското учење, хипотезата е модел кој помага во проценката на целната функција и комплетирање на соодветните пресликувања од влезно-излез.

Изборот и дизајнот на алгоритмите овозможуваат дефинирање на просторот на можни хипотези кои можат да бидат претставени со модел.

За една хипотеза, се користи мала буква h (h), но големата буква h (H) се користи за целиот простор за хипотеза што се пребарува. Накратко ќе ги разгледаме овие ознаки:

Хипотезата (h) е одреден модел кој го олеснува мапирањето на влезот до излезот, кој последователно може да се користи за евалуација и предвидување.
Збир на хипотези (H) е простор за пребарување на хипотези што може да се користи за мапирање на влезови на излези. Врамувањето на проблемите, моделот и конфигурацијата на моделот се неколку примери на генерички ограничувања.

14. Што значи преоптоварување со машинско учење и како може да се спречи?

Кога машината се обидува да научи од недоволна база на податоци, се случува преоптоварување.

Како резултат на тоа, прекумерното поставување е во обратна корелација со обемот на податоци. Пристапот за вкрстена валидација овозможува да се избегне преоптоварување за мали збирки податоци. Базата на податоци е поделена на два дела во овој метод.

Податокот за тестирање и обука ќе се состои од овие два дела. Базата на податоци за обука се користи за креирање модел, додека пак базата за тестирање се користи за евалуација на моделот користејќи различни влезови.

Ова е како да се спречи преоптоварување.

15. Што точно се класификатори на Naive Bayes?

Различни методи на класификација ги сочинуваат класификаторите на Naive Bayes. Збир на алгоритми познати како овие класификатори работат на истата основна идеја.

Претпоставката направена од наивните класификатори на Bayes е дека присуството или отсуството на една карактеристика нема никакво влијание врз присуството или отсуството на друга карактеристика.

Со други зборови, ова е она што ние го нарекуваме „наивно“ бидејќи ја прави претпоставката дека секој атрибут на податоци е подеднакво значаен и независен.

Класификацијата се врши со употреба на наивни Bayes класификатори. Тие се едноставни за употреба и даваат подобри резултати од посложените предвидувачи кога премисата за независност е вистинита.

Во анализа на текст, филтрирање спам и системи за препораки, тие се користат.

16. Што значат функции на трошоци и функции на загуба?

Фразата „функција на загуба“ се однесува на процесот на пресметување на загубата кога се зема предвид само еден податок.

Спротивно на тоа, ние ја користиме функцијата на трошоци за да го одредиме вкупниот износ на грешки за бројни податоци. Не постои значајна разлика.

Со други зборови, додека функциите на трошоците ја собираат разликата за целата база на податоци за обука, функциите за загуба се дизајнирани да ја доловат разликата помеѓу вистинските и предвидените вредности за еден запис.

17. Што го разликува генеративниот модел од дискриминативен модел?

Дискриминативниот модел ги учи разликите помеѓу неколку категории на податоци. Генеративен модел зема различни типови на податоци.

За проблемите со класификација, дискриминативните модели често ги надминуваат другите модели.

18. Опишете ги варијациите помеѓу грешките од тип I и тип II.

Лажните позитиви спаѓаат во категоријата грешки од типот I, додека лажните негативни одат под грешките од типот II (тврдејќи дека ништо не се случило кога навистина се случило).

19. Во машинското учење, што е техниката за учење на ансамблот?

Техниката наречена ансамблско учење меша многу модели за машинско учење за да произведе помоќни модели.

Моделот може да се менува од различни причини. Неколку причини се:

Различни популации
Разни хипотези
Различни методи на моделирање

Ќе наидеме на проблем при користењето на податоците за обука и тестирање на моделот. Пристрасност, варијанса и нередуцирана грешка се можни типови на оваа грешка.

Сега, оваа рамнотежа помеѓу пристрасноста и варијансата во моделот ја нарекуваме компромисна пристрасност-варијанса, и таа секогаш треба да постои. Овој компромис се постигнува преку употреба на учење на ансамблот.

Иако постојат различни пристапи на ансамблот на располагање, постојат две вообичаени стратегии за комбинирање на многу модели:

Природниот пристап наречен bagging го користи комплетот за обука за да произведе дополнителни сетови за обука.
Засилување, пософистицирана техника: Слично како торбичката, засилувањето се користи за да се најде идеалната формула за тежина за сетот за обука.

20. Што точно се параметарски модели? Дај пример.

Во параметарските модели има ограничен број на параметри. За да ги предвидите податоците, се што треба да знаете се параметрите на моделот.

Следниве се типични примери: логистичка регресија, линеарна регресија и линеарни SVM. Непараметриските модели се флексибилни бидејќи можат да содржат неограничен број параметри.

За предвидувањата на податоците се потребни параметри на моделот и статусот на набљудуваните податоци. Еве неколку типични примери: модели на тема, дрва за одлуки и k-најблиски соседи.

21. Опишете го заедничкото филтрирање. Како и филтрирање базирано на содржина?

Испробан метод за креирање приспособени предлози за содржина е филтрирањето за соработка.

Форма на систем за препораки наречена колаборативно филтрирање претскажува свеж материјал преку балансирање на преференциите на корисникот со заедничките интереси.

Корисничките параметри се единственото нешто што го земаат предвид системите за препораки базирани на содржина. Со оглед на претходните избори на корисникот, се обезбедуваат нови препораки од поврзаниот материјал.

22. Што точно подразбираш под Временска серија?

Временска серија е збир на броеви во растечки редослед. Во текот на предодреден временски период, го следи движењето на избраните точки на податоци и периодично ги доловува точките на податоци.

Нема минимално или максимално временско внесување за временски серии.

Временските серии често се користат од аналитичарите за да ги анализираат податоците во согласност со нивните единствени барања.

23. Опишете ги варијациите помеѓу алгоритмите за зголемување на градиентот и алгоритмите за случајна шума.

Случајна шума:

Голем број дрвја за одлучување се здружени заедно на крајот и се познати како случајни шуми.
Додека зголемувањето на градиентот го произведува секое дрво независно од другите, случајната шума го гради секое дрво едно по едно.
Повеќекласни откривање на објекти работи добро со случајни шуми.

Зајакнување на градиент:

Додека случајните шуми се придружуваат на стеблата на одлучување на крајот од процесот, машините за засилување на градиент ги комбинираат од почеток.
Ако параметрите се соодветно приспособени, зголемувањето на градиент ги надминува случајните шуми во однос на резултатите, но не е паметен избор ако множеството податоци има многу оддалечени, аномалии или бучава бидејќи тоа може да предизвика префитување на моделот.
Кога има неурамнотежени податоци, како што има при проценката на ризикот во реално време, зголемувањето на градиентот функционира добро.

24. Зошто ви е потребна матрица за конфузија? Што е тоа?

Табелата позната како матрица за конфузија, понекогаш позната како матрица на грешки, е широко користена за да покаже колку добро функционира моделот на класификација или класификаторот на збир на податоци за тестирање за кои се познати вистинските вредности.

Тоа ни овозможува да видиме како функционира модел или алгоритам. Тоа ни го олеснува откривањето на недоразбирањата меѓу различните курсеви.

Служи како начин да се оцени колку добро е изведен модел или алгоритам.

Предвидувањата на моделот за класификација се составуваат во матрица за конфузија. Вредностите за броење на секоја ознака за класа беа искористени за разложување на вкупниот број на точни и неточни предвидувања.

Обезбедува детали за грешките направени од класификаторот, како и за различните видови грешки предизвикани од класификаторите.

25. Што точно е анализа на принципиелна компонента?

Со минимизирање на бројот на променливи кои се во корелација една со друга, целта е да се минимизира димензионалноста на собирањето податоци. Но, важно е да се задржи различноста колку што е можно повеќе.

Променливите се менуваат во сосема нов сет на променливи наречени главни компоненти.

Овие компјутери се ортогонални бидејќи се сопствени вектори на матрицата на коваријанса.

26. Зошто ротацијата на компонентите е толку клучна за PCA (анализа на главна компонента)?

Ротацијата е клучна во PCA бидејќи го оптимизира раздвојувањето помеѓу варијансите добиени од секоја компонента, правејќи ја интерпретацијата на компонентите поедноставна.

Потребни ни се проширени компоненти за да се изразат варијациите на компонентите ако компонентите не се ротираат.

27. Како се разликуваат регулацијата и нормализацијата една од друга?

Нормализација:

Податоците се менуваат за време на нормализацијата. Треба да ги нормализирате податоците ако има скали кои се драстично различни, особено од ниски до високи. Прилагодете ја секоја колона така што основните статистики се сите компатибилни.

За да се осигура дека нема губење на прецизноста, ова може да биде корисно. Откривањето на сигналот при игнорирање на бучавата е една од целите на обуката за модели.

Постои можност да се преклопи ако на моделот му се даде целосна контрола за да се намали грешката.

Регулација:

При регулација, функцијата за предвидување е изменета. Ова е предмет на одредена контрола преку регулација, што ги фаворизира поедноставните функции на монтирање во однос на комплицираните.

28. Како нормализацијата и стандардизацијата се разликуваат една од друга?

Двете најшироко користени техники за скалирање на карактеристики се нормализација и стандардизација.

Нормализација:

Повторното скалирање на податоците за да одговараат на опсегот [0,1] е познато како нормализација.
Кога сите параметри мора да имаат иста позитивна скала, нормализацијата е корисна, но оддалечените вредности на множеството податоци се губат.

Регулација:

Податоците се рескалираат за да имаат средна вредност од 0 и стандардна девијација од 1 како дел од процесот на стандардизација (Единичка варијанса)

29. Што точно значи „фактор на инфлација на варијанса“?

Односот на варијансата на моделот со варијансата на моделот со само една независна променлива е познат како фактор на инфлација на варијација (VIF).

VIF ја проценува количината на мултиколинеарност присутна во множество од неколку регресивни променливи.

Варијанса на моделот (VIF) Модел со една независна варијабилна варијанса

30. Врз основа на големината на комплетот за обука, како избирате класификатор?

Моделот со голема пристрасност и ниска варијанса има подобри резултати за краток сет за тренирање бидејќи преоптоварувањето е помалку веројатно. Наив Бејс е еден пример.

Со цел да се претстават покомплицирани интеракции за голем сет за обука, се претпочита модел со мала пристрасност и голема варијанса. Логистичката регресија е добар пример.

31. Кој алгоритам во машинското учење се нарекува „мрзлив ученик“ и зошто?

Забавен ученик, KNN е алгоритам за машинско учење. Бидејќи K-NN динамички го пресметува растојанието секој пат кога сака да класифицира наместо да научи какви било вредности или променливи научени од машината од податоците за обуката, тој ја меморира базата на податоци за обука.

Ова го прави К-НН мрзлив ученик.

32. Што се крива ROC и AUC?

Изведбата на класификациски модел на сите прагови е претставена графички со ROC кривата. Има критериум за вистинска позитивна стапка и лажно позитивна стапка.

Едноставно кажано, областа под кривата ROC е позната како AUC (Area Under the ROC Curve). Дводимензионалната површина на кривата ROC од (0,0) до AUC се мери (1,1). За оценување на моделите на бинарна класификација, таа се користи како статистика за перформанси.

33. Што се хиперпараметри? Што ги прави уникатни од параметрите на моделот?

Внатрешна променлива на моделот е позната како параметар на моделот. Користејќи ги податоците за обука, вредноста на параметарот се приближува.

Непознат за моделот, хиперпараметар е променлива. Вредноста не може да се одреди од податоците, затоа тие често се користат за пресметување на параметрите на моделот.

34. Што значат F1 Резултат, потсетување и прецизност?

Мерката за конфузија е метрика што се користи за да се измери ефективноста на класификацискиот модел. Следниве фрази може да се користат за подобро објаснување на метриката за конфузија:

ТП: Вистински позитиви - Ова се позитивните вредности што беа предвидени правилно. Тоа сугерира дека вредностите на проектираната класа и вистинската класа се позитивни.

ТН: Вистински Негативни - Ова се негативните вредности што беа точно прогнозирани. Тоа сугерира дека и вредноста на вистинската класа и очекуваната класа се негативни.

Овие вредности - лажно позитивни и лажни негативни - се појавуваат кога вашата вистинска класа се разликува од предвидената класа.

Сега,

Односот на вистинската позитивна стапка (TP) со сите набљудувања направени во вистинската класа се нарекува повлекување, исто така познато како чувствителност.

Повлекувањето е TP/(TP+FN).

Прецизноста е мерка за позитивната предвидувачка вредност, која го споредува бројот на позитивни што моделот навистина ги предвидува со тоа колку точни позитиви точно предвидува.

Прецизноста е TP/(TP + FP)

Најлесно да се разбере метриката на перформансите е точноста, што е само пропорција на правилно предвидените набљудувања со сите набљудувања.

Точноста е еднаква на (TP+TN)/(TP+FP+FN+TN).

Прецизноста и потсетувањето се пондерирани и просечни за да се обезбеди F1 резултат. Како резултат на тоа, овој резултат ги зема предвид и лажните позитивни и лажните негативни.

F1 е често повредна од точноста, особено ако имате нееднаква распределба на класата, дури и ако интуитивно не е толку едноставно за разбирање како точноста.

Најдобрата точност се постигнува кога цената на лажни позитиви и лажни негативни резултати е споредлива. Пожелно е да се вклучат и прецизност и отповикување ако трошоците поврзани со лажни позитиви и лажни негативни значајно се разликуваат.

35. Што точно е вкрстена валидација?

Пристапот за статистичко преземање примероци наречен вкрстена валидација во машинското учење користи неколку подмножества на податоци за обука и евалуација на алгоритам за машинско учење низ повеќе кругови.

Нова група на податоци што не се користеле за обука на моделот се тестира со помош на вкрстена валидација за да се види колку добро моделот го предвидува. Прекумерното поставување на податоците е спречено преку вкрстена валидација.

K-Fold Најчесто користениот метод за преземање примероци ја дели целата база на податоци на K сетови со еднакви големини. Тоа се нарекува вкрстена валидација.

36. Да речеме дека откривте дека вашиот модел има значителна варијанса. Кој алгоритам, според вас, е најсоодветен за справување со оваа ситуација?

Управување со висока варијабилност

Треба да ја користиме техниката на вреќање за проблеми со големи варијации.

Повторено земање примероци од случајни податоци ќе се користи од страна на алгоритмот за спакуване за да се подели податоците во подгрупи. Откако податоците ќе се поделат, можеме да користиме случајни податоци и специфична процедура за обука за да генерираме правила.

После тоа, анкетата може да се искористи за да се комбинираат предвидувањата на моделот.

37. Што ја разликува Риџ регресијата од регресијата Ласо?

Два широко користени методи за регулација се Ласо (исто така наречена L1) и Ridge (понекогаш наречена L2) регресија. Тие се користат за да се спречи преоптоварување на податоците.

Со цел да се открие најдоброто решение и да се минимизира сложеноста, овие техники се користат за казнување на коефициентите. Со казнување на збирот на апсолутните вредности на коефициентите, функционира регресијата Ласо.

Казнената функција во Ridge или L2 регресија е изведена од збирот на квадратите на коефициентите.

38. Што е поважно: перформансите на моделот или точноста на моделот? Кој и зошто ќе го фаворизирате?

Ова е измамливо прашање, па затоа прво треба да се разбере што е Model Performance. Ако перформансите се дефинираат како брзина, тогаш тие се потпираат на типот на апликацијата; секоја апликација која вклучува ситуација во реално време ќе бара голема брзина како клучна компонента.

На пример, најдобрите резултати од пребарувањето ќе станат помалку вредни ако резултатите од Барањето бараат премногу долго за да пристигнат.

Ако перформансите се користат како оправдување зошто прецизноста и отповикувањето треба да бидат приоритетни над прецизноста, тогаш F1 резултатот ќе биде покорисен отколку точноста во демонстрацијата на деловниот случај за кој било сет на податоци што е неурамнотежен.

39. Како би управувале со база на податоци со нееднаквости?

Неизбалансирана база на податоци може да има корист од техниките за земање примероци. Земањето мостри може да се направи или на начин под или прекумерен.

Под Семплирање ни овозможува да ја намалиме големината на мнозинската класа за да одговара на класата на малцинствата, што помага да се зголеми брзината во однос на складирањето и извршувањето на времето, но исто така може да резултира со губење на вредни податоци.

Со цел да го решиме проблемот со загубата на информации предизвикана од прекумерното земање примероци, ја зголемуваме класата на малцинствата; сепак, ова нè тера да наидеме на проблеми со преоптоварување.

Дополнителни стратегии вклучуваат:

Во оваа ситуација, примероците на малцинската и мнозинската класа поединечно се подложени на техниката на кластерирање К-средства. Ова е направено за да се најдат кластери на податоци. Потоа, секој кластер е прекумерен, така што сите класи имаат иста големина и сите кластери во класата имаат еднаков број на примероци.
SMOTE: Техника за прекумерно земање примероци на синтетички малцинства- Како пример се користи парче податоци од класата на малцинствата, по што се произведуваат дополнителни вештачки примероци кои се споредливи со него и се додаваат во оригиналната база на податоци. Овој метод добро функционира со нумерички точки на податоци.

40. Како можеш да направиш разлика помеѓу засилување и вреќање?

Техниките на ансамблот имаат верзии познати како багинг и засилување.

торбичка-

За алгоритми со голема варијација, багинг е техника што се користи за намалување на варијансата. Едно такво семејство на класификатори што е склоно кон пристрасност е семејството на стебла на одлуки.

Типот на податоци на кои се обучуваат стеблата на одлуки има значително влијание врз нивната изведба. Поради ова, дури и со многу високо дотерување, генерализацијата на исходите понекогаш е многу потешко да се постигне кај нив.

Ако податоците за обука на дрвата за одлучување се променети, резултатите значително се разликуваат.

Како последица на тоа, се користи вреќање, во кое се создаваат многу стебла за одлучување, од кои секое е обучено користејќи примерок од оригиналните податоци, а крајниот резултат е просекот на сите овие различни модели.

Зајакнување:

Засилувањето е техника на правење предвидувања со систем на n-слаб класификатор во кој секој слаб класификатор ги надополнува недостатоците на неговите посилни класификатори. Ние се однесуваме на класификатор кој работи лошо на дадено збир на податоци како „слаб класификатор“.

Засилувањето е очигледно процес наместо алгоритам. Логистичка регресија и плитки стебла за одлучување се вообичаени примери на слаби класификатори.

Adaboost, Gradient Boosting и XGBoost се двата најпопуларни алгоритми за засилување, меѓутоа, има многу повеќе.

41. Објасни ги разликите помеѓу индуктивното и дедуктивното учење.

Кога се учи со пример од збир на набљудувани примери, моделот користи индуктивно учење за да дојде до генерализиран заклучок. Од друга страна, со дедуктивното учење, моделот го користи резултатот пред да формира свој.

Индуктивното учење е процес на извлекување заклучоци од набљудувања.

Дедуктивното учење е процес на создавање набљудувања врз основа на заклучоци.

Заклучок

Честитки! Ова се првите 40 и погоре прашања за интервју за машинско учење на кои сега ги знаете одговорите. Наука за податоци и вештачка интелигенција професиите ќе продолжат да бидат барани како што ќе напредува технологијата.

Кандидатите кои го ажурираат своето знаење за овие најсовремени технологии и го подобруваат својот сет на вештини можат да најдат широк спектар на можности за вработување со конкурентна плата.

Може да продолжите со одговарање на интервјуата сега кога имате солидно разбирање за тоа како да одговорите на некои од широко поставуваните прашања за интервју за машинско учење.

Во зависност од вашите цели, направете го следниот чекор. Подгответе се за интервјуа со посета на Хашдорк Серија на интервјуа.

Топ 40+ прашања за интервју за машинско учење