Преглед садржаја[Сакрити][Прикажи]
- 1. Објасните разлике између машинског учења, вештачке интелигенције и дубоког учења.
- 2. Молимо опишите различите врсте машинског учења.
- 3. Шта је компромис између пристрасности и варијансе?
- 4. Алгоритми машинског учења су током времена значајно еволуирали. Како изабрати прави алгоритам за коришћење датог скупа података?
- 5. Како се разликују коваријанса и корелација?
- 6. У машинском учењу, шта значи груписање?
- 7. Који је ваш преферирани алгоритам машинског учења?
- 8. Линеарна регресија у машинском учењу: шта је то?
- 9. Опишите разлике између КНН и к-меанс груписања.
- 10. Шта за вас значи „пристрасност избора“?
- 11. Шта је тачно Бајесова теорема?
- 12. У моделу машинског учења, шта су „сет за обуку“ и „сет за тестирање“?
- 13. Шта је хипотеза у машинском учењу?
- 14. Шта значи преоптерећење машинским учењем и како се то може спречити?
- 15. Шта су тачно наивни Бајесови класификатори?
- 16. Шта значе функције трошкова и функције губитка?
- 17. Шта разликује генеративни модел од дискриминативног модела?
- 18. Опишите варијације између грешака типа И и типа ИИ.
- 19. У машинском учењу, шта је техника Енсембле учења?
- 20. Шта су заправо параметарски модели? Дајте пример.
- 21. Опишите сарадничко филтрирање. Као и филтрирање засновано на садржају?
- 22. Шта тачно подразумевате под Тиме серијом?
- 23. Опишите варијације између алгоритама за повећање градијента и алгоритама Рандом Форест.
- 24. Зашто вам је потребна матрица забуне? Шта је то?
- 25. Шта је заправо анализа принципа компоненте?
- 26. Зашто је ротација компоненти тако кључна за ПЦА (анализу главних компоненти)?
- 27. Како се регуларизација и нормализација разликују једна од друге?
- 28. Како се нормализација и стандардизација разликују једна од друге?
- 29. Шта тачно значи „фактор инфлације варијансе“?
- 30. На основу величине комплета за обуку, како бирате класификатор?
- 31. Који алгоритам у машинском учењу се назива „лењи ученик“ и зашто?
- 32. Шта су РОЦ крива и АУЦ?
- 33. Шта су хиперпараметри? Шта их чини јединственим од параметара модела?
- 34. Шта значе Ф1 резултат, опозив и прецизност?
- 35. Шта је тачно унакрсна валидација?
- 36. Рецимо да сте открили да ваш модел има значајну варијацију. Који је алгоритам, по вашем мишљењу, најпогоднији за решавање ове ситуације?
- 37. Шта разликује Риџ регресију од Ласо регресије?
- 38. Шта је важније: перформансе модела или тачност модела? Који и зашто ћете га фаворизовати?
- 39. Како бисте управљали скупом података са неједнакостима?
- 40. Како можете да разликујете појачавање и стављање у врећу?
- 41. Објасните разлике између индуктивног и дедуктивног учења.
- Zakljucak
Предузећа користе најсавременију технологију, као што су вештачка интелигенција (АИ) и машинско учење, да повећају доступност информација и услуга појединцима.
Ове технологије усвајају различите индустрије, укључујући банкарство, финансије, малопродају, производњу и здравствену заштиту.
Једна од најтраженијих организационих улога која користи АИ је за научнике података, инжењере вештачке интелигенције, инжењере машинског учења и аналитичаре података.
Овај пост ће вас водити кроз разне Машина учење питања за интервју, од основних до сложених, која ће вам помоћи да се припремите за сва питања која вам се могу поставити када тражите свој идеалан посао.
1. Објасните разлике између машинског учења, вештачке интелигенције и дубоког учења.
Вештачка интелигенција користи различите приступе машинског учења и дубоког учења који омогућавају рачунарским системима да извршавају задатке користећи интелигенцију налик човеку са логиком и правилима.
Машинско учење користи различите статистике и приступе дубоког учења како би омогућило машинама да уче из својих претходних перформанси и да постану вешти у самосталном обављању одређених задатака без људског надзора.
Дубоко учење је колекција алгоритама који омогућавају софтверу да учи од себе и да обавља различите комерцијалне функције, као што је препознавање гласа и слике.
Системи који излажу своју вишеслојност неуронске мреже да огромне количине података за учење могу да ураде дубоко учење.
2. Молимо опишите различите врсте машинског учења.
Машинско учење углавном постоји у три различита типа:
- Учење под надзором: Модел креира предвиђања или просудбе користећи означене или историјске податке у надгледаном машинском учењу. Скупови података који су означени или означени да би се повећало њихово значење називају се означеним подацима.
- Учење без надзора: Немамо означене податке за учење без надзора. У долазним подацима, модел може пронаћи обрасце, необичности и корелације.
- Учење за појачање: модел може научити користећи поткрепљење учење и награде које је добио за своје претходно понашање.
3. Шта је компромис између пристрасности и варијансе?
Прекомерно прилагођавање је резултат пристрасности, што је степен у коме модел одговара подацима. Пристрасност је узрокована нетачним или превише једноставним претпоставкама у вашем алгоритам машинског учења.
Варијанца се односи на грешке узроковане сложеношћу вашег МЛ алгоритма, који производи осетљивост на велике степене варијансе у подацима о обуци и прекомерном прилагођавању.
Варијанца је колико се модел разликује у зависности од инпута.
Другим речима, основни модели су изузетно пристрасни, али стабилни (мала варијанса). Преоптерећење је проблем са сложеним моделима, иако они ипак обухватају стварност модела (ниска пристрасност).
Да би се спречиле и велике варијације и велике пристрасности, неопходан је компромис између пристрасности и варијансе за најбоље смањење грешке.
4. Алгоритми машинског учења су током времена значајно еволуирали. Како изабрати прави алгоритам за коришћење датог скупа података?
Техника машинског учења коју треба користити зависи само од врсте података у одређеном скупу података.
Када су подаци линеарни, користи се линеарна регресија. Метода паковања би имала бољи учинак ако би подаци указивали на нелинеарност. Можемо да користимо стабла одлучивања или СВМ ако се подаци морају проценити или тумачити у комерцијалне сврхе.
Неуронске мреже могу бити корисне за добијање тачног одговора ако скуп података укључује фотографије, видео записе и аудио записе.
Избор алгоритма за одређену околност или прикупљање података не може се извршити само на једној мери.
Да бисмо развили најбољу методу, морамо прво испитати податке користећи истраживачку анализу података (ЕДА) и схватити циљ коришћења скупа података.
5. Како се разликују коваријанса и корелација?
Коваријанса процењује како су две варијабле повезане једна са другом и како се једна може променити као одговор на промене у другој.
Ако је резултат позитиван, то указује на то да постоји директна веза између варијабли и да би се један повећавао или смањивао са повећањем или смањењем основне варијабле, под претпоставком да сви остали услови остају константни.
Корелација мери везу између две случајне променљиве и има само три различите вредности: 1, 0 и -1.
6. У машинском учењу, шта значи груписање?
Методе учења без надзора које групишу тачке података заједно се називају груписање. Уз колекцију тачака података, техника груписања се може применити.
Помоћу ове стратегије можете груписати све тачке података према њиховим функцијама.
Карактеристике и квалитети тачака података које спадају у исту категорију су сличне, док су тачке података које спадају у одвојене групе различите.
Овај приступ се може користити за анализу статистичких података.
7. Који је ваш преферирани алгоритам машинског учења?
Имате прилику да покажете своје преференције и јединствене таленте у овом питању, као и своје свеобухватно знање о бројним техникама машинског учења.
Ево неколико типичних алгоритама за машинско учење о којима треба размишљати:
- Линеарна регресија
- Логистичка регресија
- Наивни Баиес
- Одлуке стабала
- К значи
- Алгоритам случајне шуме
- К-најближи сусед (КНН)
8. Линеарна регресија у машинском учењу: шта је то?
Надзирани алгоритам машинског учења је линеарна регресија.
Користи се у предиктивној анализи за одређивање линеарне везе између зависних и независних варијабли.
Једначина линеарне регресије је следећа:
И = А + БКС
где је:
- Улазна или независна променљива се назива Кс.
- Зависна или излазна променљива је И.
- Кс-ов коефицијент је б, а његов пресек је а.
9. Опишите разлике између КНН и к-меанс груписања.
Примарна разлика је у томе што КНН (метода класификације, надгледано учење) треба означене тачке, док к-меанс не (алгоритам груписања, учење без надзора).
Можете класификовати означене податке у неозначену тачку користећи К-неарест Неигхборс. Груписање К-средстава користи просечну удаљеност између тачака да научи како да групише неозначене тачке.
10. Шта за вас значи „пристрасност избора“?
Пристрасност у фази узорковања експеримента је због статистичке нетачности.
Једна група узорака се бира чешће од других група у експерименту као резултат нетачности.
Ако се пристрасност избора не призна, то би могло довести до погрешног закључка.
11. Шта је тачно Бајесова теорема?
Када смо свесни других вероватноћа, можемо одредити вероватноћу користећи Бајесову теорему. Другим речима, нуди постериорну вероватноћу појаве на основу претходних информација.
Ова теорема пружа добар метод за процену условних вероватноћа.
Приликом развијања класификацијских проблема предиктивног моделирања и уклапања модела у обуку скуп података у машинском учењу, примењује се Бајесова теорема (тј. Наивни Бајес, Бајесов оптимални класификатор).
12. У моделу машинског учења, шта су „сет за обуку“ и „сет за тестирање“?
Сет за обуку:
- Скуп за обуку се састоји од инстанци које се шаљу моделу на анализу и учење.
- Ово су означени подаци који ће се користити за обуку модела.
- Обично се 70% укупних података користи као скуп података за обуку.
Тест сет:
- Скуп тестова се користи за процену тачности генерисања хипотезе модела.
- Тестирамо без означених података, а затим користимо ознаке да потврдимо резултате.
- Преосталих 30% се користи као скуп података за тестирање.
13. Шта је хипотеза у машинском учењу?
Машинско учење омогућава коришћење постојећих скупова података за боље разумевање дате функције која повезује улаз и излаз. Ово је познато као апроксимација функције.
У овом случају, апроксимација се мора применити за непознату циљну функцију како би се на најбољи могући начин пренела сва замислива запажања заснована на датој ситуацији.
У машинском учењу, хипотеза је модел који помаже у процени циљне функције и комплетирању одговарајућих улазно-излазних мапирања.
Избор и дизајн алгоритама омогућавају дефинисање простора могућих хипотеза које се могу представити моделом.
За једну хипотезу се користи мала слова х (х), али велико х (Х) се користи за цео простор хипотезе који се тражи. Укратко ћемо прегледати ове ознаке:
- Хипотеза (х) је посебан модел који олакшава мапирање инпута у излаз, који се касније може користити за евалуацију и предвиђање.
- Скуп хипотеза (Х) је простор хипотеза који се може претраживати и који се може користити за мапирање улаза у излазе. Уоквиривање проблема, модел и конфигурација модела су неколико примера генеричких ограничења.
14. Шта значи преоптерећење машинским учењем и како се то може спречити?
Када машина покуша да учи из недовољног скупа података, долази до претеривања.
Као резултат тога, прекомерно прилагођавање је у обрнутој корелацији са обимом података. Приступ унакрсне валидације омогућава да се избегне прекомерна опрема за мале скупове података. Скуп података је подељен на два дела у овој методи.
Скуп података за тестирање и обуку састојаће се од ова два дела. Скуп података за обуку се користи за креирање модела, док се скуп података за тестирање користи за процену модела користећи различите улазе.
Ово је начин да се спречи прекомерна опрема.
15. Шта су тачно наивни Бајесови класификатори?
Различите методе класификације чине наивне Бајесове класификаторе. Скуп алгоритама познатих као ови класификатори сви раде на истој основној идеји.
Претпоставка коју чине наивни Бајесови класификатори је да присуство или одсуство једне карактеристике нема утицаја на присуство или одсуство друге карактеристике.
Другим речима, то је оно што називамо „наивним“ јер претпоставља да је сваки атрибут скупа података подједнако значајан и независан.
Класификација се врши коришћењем наивних Бајесових класификатора. Једноставни су за употребу и дају боље резултате од сложенијих предиктора када је премиса независности тачна.
Они се користе у анализи текста, филтрирању нежељене поште и системима за препоруке.
16. Шта значе функције трошкова и функције губитка?
Израз „функција губитка“ односи се на процес израчунавања губитка када се узме у обзир само један податак.
Насупрот томе, користимо функцију трошкова да бисмо одредили укупан износ грешака за бројне податке. Не постоји значајна разлика.
Другим речима, док функције трошкова агрегирају разлику за цео скуп података за обуку, функције губитка су дизајниране да захвате разлику између стварних и предвиђених вредности за један запис.
17. Шта разликује генеративни модел од дискриминативног модела?
Дискриминативни модел учи разлике између неколико категорија података. Генеративни модел прихвата различите типове података.
У проблемима класификације, дискриминативни модели често надмашују друге моделе.
18. Опишите варијације између грешака типа И и типа ИИ.
Лажни позитивни резултати спадају у категорију грешака типа И, док лажно негативни спадају у грешке типа ИИ (тврдећи да се ништа није догодило када се заиста догодило).
19. У машинском учењу, шта је техника Енсембле учења?
Техника која се зове учење ансамбла меша многе моделе машинског учења да би произвела моћније моделе.
Модел се може мењати из разних разлога. Неколико узрока је:
- Вариоус Популатионс
- Разне хипотезе
- Различите методе моделирања
Наићи ћемо на проблем док користимо податке о обуци и тестирању модела. Пристрасност, варијанса и неумањива грешка су могући типови ове грешке.
Сада, ову равнотежу између пристрасности и варијансе у моделу називамо компромисом пристрасности и варијансе, и она би увек требало да постоји. Овај компромис се постиже коришћењем ансамбл учења.
Иако су доступни различити приступи ансамбла, постоје две заједничке стратегије за комбиновање многих модела:
- Изворни приступ који се зове баггинг користи сет за обуку за производњу додатних сетова за обуку.
- Боостинг, софистициранија техника: Слично као и стављање у вреће, појачавање се користи за проналажење идеалне формуле за пондерисање за сет за тренинг.
20. Шта су заправо параметарски модели? Дајте пример.
У параметарским моделима постоји ограничена количина параметара. Да бисте прогнозирали податке, све што треба да знате су параметри модела.
Следе типични примери: логистичка регресија, линеарна регресија и линеарни СВМ. Непараметарски модели су флексибилни јер могу да садрже неограничен број параметара.
За предвиђање података потребни су параметри модела и статус посматраних података. Ево неколико типичних примера: тематски модели, стабла одлучивања и к-најближи суседи.
21. Опишите сарадничко филтрирање. Као и филтрирање засновано на садржају?
Испробан метод за креирање прилагођених предлога садржаја је колаборативно филтрирање.
Форма система препорука који се зове колаборативно филтрирање предвиђа свеж материјал балансирајући корисничке преференције са заједничким интересовањима.
Корисничке поставке су једина ствар коју системи препоруке засновани на садржају узимају у обзир. У светлу претходног избора корисника, нове препоруке су дате из сродног материјала.
22. Шта тачно подразумевате под Тиме серијом?
Временска серија је колекција бројева у растућем редоследу. Током унапред одређеног временског периода, он прати кретање изабраних тачака података и периодично снима тачке података.
Не постоји минимални или максимални унос времена за временске серије.
Аналитичари често користе временске серије за анализу података у складу са својим јединственим захтевима.
23. Опишите варијације између алгоритама за повећање градијента и алгоритама Рандом Форест.
Случајна шума:
- Велики број стабала одлучивања се на крају обједињује и позната је као насумичне шуме.
- Док повећање градијента производи свако дрво независно од осталих, насумична шума гради свако дрво једно по једно.
- Мултицласс откривање објекта добро ради са случајним шумама.
Појачавање градијента:
- Док се насумичне шуме придружују стаблима одлучивања на крају процеса, машине за повећање градијента их комбинују од почетка.
- Ако су параметри на одговарајући начин прилагођени, повећање градијента надмашује случајне шуме у смислу резултата, али није паметан избор ако скуп података има много одступања, аномалија или шума јер би то могло довести до преоптерећења модела.
- Када постоје неуравнотежени подаци, као што постоји у процени ризика у реалном времену, повећање градијента има добре резултате.
24. Зашто вам је потребна матрица забуне? Шта је то?
Табела позната као матрица конфузије, понекад позната и као матрица грешака, широко се користи да покаже колико добро се класификациони модел, или класификатор, понаша на скупу података теста за које су познате праве вредности.
Омогућава нам да видимо како функционише модел или алгоритам. То нам олакшава уочавање неспоразума међу различитим курсевима.
Он служи као начин да се процени колико је добро изведен модел или алгоритам.
Предвиђања модела класификације се састављају у матрицу конфузије. Вредности броја сваке ознаке класе коришћене су да се разбије укупан број тачних и нетачних предвиђања.
Пружа детаље о грешкама које је направио класификатор, као ио различитим врстама грешака које су проузроковали класификатори.
25. Шта је заправо анализа принципа компоненте?
Минимизирањем броја варијабли које су међусобно повезане, циљ је да се минимизира димензионалност прикупљања података. Али важно је задржати разноликост што је више могуће.
Променљиве се мењају у потпуно нови скуп варијабли које се називају главне компоненте.
Ови рачунари су ортогонални јер су својствени вектори коваријансне матрице.
26. Зашто је ротација компоненти тако кључна за ПЦА (анализу главних компоненти)?
Ротација је кључна у ПЦА јер оптимизује раздвајање варијанси добијених од сваке компоненте, чинећи интерпретацију компоненте једноставнијом.
Потребне су нам проширене компоненте да бисмо изразили варијацију компоненти ако се компоненте не ротирају.
27. Како се регуларизација и нормализација разликују једна од друге?
Нормализација:
Подаци се мењају током нормализације. Требало би да нормализујете податке ако имају скале које се драстично разликују, посебно од ниске до високе. Прилагодите сваку колону тако да све основне статистике буду компатибилне.
Да би се осигурало да нема губитка прецизности, ово може бити корисно. Детекција сигнала уз игнорисање буке један је од циљева обуке модела.
Постоји шанса за преуређивање ако се моделу да потпуна контрола како би се смањила грешка.
Регуларизација:
У регуларизацији, функција предвиђања је модификована. Ово је подложно одређеној контроли кроз регуларизацију, која фаворизује једноставније функције уклапања у односу на компликоване.
28. Како се нормализација и стандардизација разликују једна од друге?
Две најчешће коришћене технике за скалирање карактеристика су нормализација и стандардизација.
Нормализација:
- Поновно скалирање података тако да одговарају опсегу [0,1] познато је као нормализација.
- Када сви параметри морају имати исту позитивну скалу, нормализација је од помоћи, али се губици скупа података губе.
Регуларизација:
- Подаци се мењају тако да имају средњу вредност од 0 и стандардну девијацију од 1 као део процеса стандардизације (варијанса јединице)
29. Шта тачно значи „фактор инфлације варијансе“?
Однос варијансе модела и варијансе модела са само једном независном променљивом познат је као фактор инфлације варијације (ВИФ).
ВИФ процењује количину мултиколинеарности присутне у скупу неколико регресионих варијабли.
Варијанца модела (ВИФ) Модел са једном независном променљивом варијансом
30. На основу величине комплета за обуку, како бирате класификатор?
Модел са великом пристрасношћу и ниском варијансом има боље резултате за кратак скуп тренинга јер је мање вероватно да је прекомерно прилагођавање. Наивни Бајес је један пример.
Да би се представиле компликованије интеракције за велики скуп за обуку, пожељнији је модел са ниском пристрасношћу и великом варијансом. Логистичка регресија је добар пример.
31. Који алгоритам у машинском учењу се назива „лењи ученик“ и зашто?
Споро ученик, КНН је алгоритам за машинско учење. Пошто К-НН динамички израчунава раздаљину сваки пут када жели да класификује уместо да учи било које машински научене вредности или променљиве из података за обуку, он памти скуп података за обуку.
Ово чини К-НН лењим учеником.
32. Шта су РОЦ крива и АУЦ?
Учинак класификационог модела на свим праговима је графички представљен РОЦ кривом. Има критеријуме истинске позитивне и лажно позитивне стопе.
Једноставно речено, површина испод РОЦ криве је позната као АУЦ (Област испод РОЦ криве). Мери се дводимензионална површина РОЦ криве од (0,0) до АУЦ (1,1). За процену модела бинарне класификације, користи се као статистика учинка.
33. Шта су хиперпараметри? Шта их чини јединственим од параметара модела?
Интерна варијабла модела позната је као параметар модела. Користећи податке о обуци, вредност параметра се апроксимира.
Непознат моделу, хиперпараметар је променљива. Вредност се не може одредити из података, па се они често користе за израчунавање параметара модела.
34. Шта значе Ф1 резултат, опозив и прецизност?
Мера конфузије је метрика која се користи за мерење ефикасности модела класификације. Следеће фразе се могу користити за боље објашњење метрике конфузије:
ТП: Праве позитивне вредности – Ово су позитивне вредности које су исправно предвиђене. То сугерише да су вредности пројектоване класе и стварне класе позитивне.
ТН: Праве негативне вредности - Ово су штетне вредности које су тачно предвиђене. То сугерише да су и вредност стварне класе и очекиване класе негативне.
Ове вредности — лажно позитивне и лажно негативне — се јављају када се ваша стварна класа разликује од очекиване класе.
sada,
Однос праве позитивне стопе (ТП) према свим запажањима направљеним у стварној класи назива се опозив, такође познат као осетљивост.
Опозив је ТП/(ТП+ФН).
Прецизност је мера позитивне предиктивне вредности, која упоређује број позитивних вредности које модел заиста предвиђа са колико тачних позитивних вредности тачно предвиђа.
Прецизност је ТП/(ТП + ФП)
Најлакша метрика учинка за разумевање је тачност, која је само пропорција правилно предвиђених запажања у односу на сва запажања.
Прецизност је једнака (ТП+ТН)/(ТП+ФП+ФН+ТН).
Прецизност и опозив су пондерисани и усредњени да би се обезбедио Ф1 резултат. Као резултат тога, овај резултат узима у обзир и лажне позитивне и лажне негативне.
Ф1 је често вреднији од тачности, посебно ако имате неједнаку дистрибуцију класа, чак и ако интуитивно то није тако једноставно за схватити као тачност.
Најбоља тачност се постиже када је цена лажних позитивних и лажних негативних резултата упоредива. Пожељно је укључити и прецизност и опозив ако се трошкови повезани са лажно позитивним и лажно негативним значајно разликују.
35. Шта је тачно унакрсна валидација?
Приступ статистичког поновног узорковања који се назива унакрсна валидација у машинском учењу користи неколико подскупова скупова података за обуку и процену алгоритма машинског учења у више рунди.
Нова серија података која није коришћена за обуку модела се тестира коришћењем унакрсног провера да би се видело колико добро модел то предвиђа. Претеривање података је спречено унакрсном валидацијом.
К-Фолд Најчешће коришћена метода поновног узорковања дели цео скуп података у К скупова једнаких величина. То се зове унакрсна валидација.
36. Рецимо да сте открили да ваш модел има значајну варијацију. Који је алгоритам, по вашем мишљењу, најпогоднији за решавање ове ситуације?
Управљање великом варијабилности
Требало би да користимо технику паковања за проблеме са великим варијацијама.
Поновљено узорковање насумичних података користило би се од стране алгоритма за складиштење података да подели податке у подгрупе. Када су подаци подељени, можемо да користимо насумичне податке и специфичну процедуру обуке за генерисање правила.
Након тога, анкетирање би се могло користити за комбиновање предвиђања модела.
37. Шта разликује Риџ регресију од Ласо регресије?
Две широко коришћене методе регуларизације су Ласо (такође названа Л1) и Риџ (понекад названа Л2) регресија. Користе се за спречавање прекомерног прилагођавања података.
Да би се открило најбоље решење и минимизирала сложеност, ове технике се користе за кажњавање коефицијената. Кажњавањем укупних апсолутних вредности коефицијената, Ласо регресија функционише.
Функција казне у Риџ или Л2 регресији се изводи из збира квадрата коефицијената.
38. Шта је важније: перформансе модела или тачност модела? Који и зашто ћете га фаворизовати?
Ово је варљиво питање, тако да прво треба разумети шта су перформансе модела. Ако се перформансе дефинишу као брзина, онда се ослањају на тип апликације; свака апликација која укључује ситуацију у реалном времену захтевала би велику брзину као кључну компоненту.
На пример, најбољи резултати претраге постаће мање вредни ако је потребно предуго да стигну резултати упита.
Ако се перформансе користе као оправдање зашто би прецизност и опозив требало да буду приоритет изнад тачности, онда ће Ф1 резултат бити кориснији од тачности у демонстрирању пословног случаја за било који скуп података који је неуравнотежен.
39. Како бисте управљали скупом података са неједнакостима?
Неуравнотежени скуп података може имати користи од техника узорковања. Узорковање се може обавити на начин са мањим или прекомерним узорковањем.
Под узорковањем нам омогућава да смањимо величину већинске класе да би одговарала мањинској, што помаже у повећању брзине у погледу складиштења и извршавања, али такође може довести до губитка вредних података.
Да бисмо поправили проблем губитка информација узрокованог превеликим узорковањем, вршимо надозорковање класе Минорити; ипак, то нас доводи до проблема са преоптерећењем.
Додатне стратегије укључују:
- Прекомерно узорковање засновано на кластерима – Инстанце мањинске и већинске класе су појединачно подвргнуте техници груписања К-средњих вредности у овој ситуацији. Ово се ради да би се пронашли кластери скупова података. Затим се сваки кластер преузоркује тако да све класе имају исту величину и да сви кластери унутар класе имају једнак број инстанци.
- СМОТЕ: Синтхетиц Минорити Овер-самплинг Тецхникуе - Део података из мањинске класе се користи као пример, након чега се производе додатне вештачке инстанце које су упоредиве са њом и додају оригиналном скупу података. Овај метод добро функционише са нумеричким подацима.
40. Како можете да разликујете појачавање и стављање у врећу?
Енсембле Тецхникуес имају верзије познате као баггинг и боостинг.
Паковање-
За алгоритме са великом варијацијом, гомилање је техника која се користи за смањење варијансе. Једна таква породица класификатора која је склона пристрасности је породица стабла одлучивања.
Врста података за које се обучавају стабла одлучивања има значајан утицај на њихов учинак. Због тога је, чак и са веома високим финим подешавањем, у њима понекад далеко теже постићи генерализацију исхода.
Ако се подаци о обуци стабла одлука измене, резултати се значајно разликују.
Као последица тога, користи се складиштење у врећама, у коме се креирају многа стабла одлучивања, од којих се свако обучава коришћењем узорка оригиналних података, а крајњи резултат је просек свих ових различитих модела.
појачавање:
Појачавање је техника предвиђања са н-слабим класификаторским системом у коме сваки слаби класификатор надокнађује недостатке својих јачих класификатора. Класификатор који лоше ради на датом скупу података називамо „слабим класификатором“.
Појачавање је очигледно процес, а не алгоритам. Логистичка регресија и плитка стабла одлучивања су уобичајени примери слабих класификатора.
Адабоост, Градиент Боостинг и КСГБоост су два најпопуларнија алгоритма за појачавање, међутим, постоји много више.
41. Објасните разлике између индуктивног и дедуктивног учења.
Када се учи на примеру из скупа посматраних примера, модел користи индуктивно учење да би дошао до генерализованог закључка. С друге стране, код дедуктивног учења, модел користи резултат пре него што формира свој.
Индуктивно учење је процес извлачења закључака из запажања.
Дедуктивно учење је процес стварања запажања заснованих на закључцима.
Zakljucak
Цонгратс! Ово су 40 и више питања за интервју за машинско учење на која сада знате одговоре. Наука о подацима и вештачка интелигенција занимања ће и даље бити тражена како технологија буде напредовала.
Кандидати који ажурирају своје знање о овим најсавременијим технологијама и унапреде своје вештине могу пронаћи широк спектар могућности запошљавања уз конкурентну плату.
Можете наставити са одговарањем на интервјуе сада када имате солидно разумевање како да одговорите на нека од често постављаних питања за интервју за машинско учење.
У зависности од ваших циљева, предузмите следећи корак. Припремите се за интервјуе тако што ћете посетити Хасхдорк'с Интервиев Сериес.
Ostavite komentar