Змест[Схаваць][Паказаць]
- 1. Растлумачце адрозненні паміж машынным навучаннем, штучным інтэлектам і глыбокім навучаннем.
- 2. Апішыце розныя тыпы машыннага навучання.
- 3. Што такое кампраміс зрушэння супраць дысперсіі?
- 4. Алгарытмы машыннага навучання значна развіліся з цягам часу. Як выбраць правільны алгарытм для выкарыстання зададзенага набору даных?
- 5. Чым адрозніваюцца каварыяцыя і карэляцыя?
- 6. Што азначае кластэрызацыя ў машынным навучанні?
- 7. Які алгарытм машыннага навучання вы аддаеце перавагу?
- 8. Лінейная рэгрэсія ў машынным навучанні: што гэта такое?
- 9. Апішыце адрозненні паміж KNN і кластэрызацыяй k-сярэдніх.
- 10. Што для вас азначае "прадузятасць адбору"?
- 11. Што такое тэарэма Байеса?
- 12. Што такое "навучальны набор" і "тэставы набор" у мадэлі машыннага навучання?
- 13. Што такое гіпотэза ў машынным навучанні?
- 14. Што азначае пераабсталяванне машыннага навучання і як гэта можна прадухіліць?
- 15. Што такое наіўныя класіфікатары Байеса?
- 16. Што азначаюць функцыі выдаткаў і функцыі страт?
- 17. Што адрознівае генератыўную мадэль ад дыскрымінатыўнай?
- 18. Апішыце адрозненні памылак тыпу I і тыпу II.
- 19. Што такое методыка ансамблевага навучання ў машынным навучанні?
- 20. Што такое параметрычныя мадэлі? Прывядзіце прыклад.
- 21. Апішыце сумесную фільтрацыю. А таксама фільтраванне на аснове кантэнту?
- 22. Што менавіта вы маеце на ўвазе пад часовым шэрагам?
- 23. Апішыце адрозненні паміж алгарытмамі Gradient Boosting і Random Forest.
- 24. Навошта патрэбна матрыца блытаніны? Што гэта?
- 25. Што такое аналіз асноўных кампанентаў?
- 26. Чаму ратацыя кампанентаў так важная для PCA (аналіз галоўных кампанентаў)?
- 27. Як рэгулярізацыя і нармалізацыя адрозніваюцца адна ад адной?
- 28. Чым нармалізацыя і стандартызацыя адрозніваюцца адна ад адной?
- 29. Што менавіта азначае «каэфіцыент інфляцыі адхіленняў»?
- 30. Як вы выбіраеце класіфікатар у залежнасці ад памеру навучальнага набору?
- 31. Які алгарытм у машынным навучанні называюць «лянівым навучэнцам» і чаму?
- 32. Што такое крывая ROC і AUC?
- 33. Што такое гіперпараметры? Што робіць іх унікальнымі з мадэльных параметраў?
- 34. Што азначаюць адзнака F1, запамінанне і дакладнасць?
- 35. Што такое крос-праверка?
- 36. Дапусцім, вы выявілі, што ваша мадэль мае значную дысперсію. Які алгарытм, на ваш погляд, найбольш прыдатны для вырашэння гэтай сітуацыі?
- 37. Што адрознівае рэгрэсію Рыджа ад рэгрэсіі Ласо?
- 38. Што больш важна: прадукцыйнасць мадэлі або дакладнасць мадэлі? Які з іх і чаму вы аддасце перавагу?
- 39. Як бы вы кіравалі наборам даных з няроўнасцямі?
- 40. Як можна адрозніць бустынг ад пакавання?
- 41. Растлумачце адрозненні паміж індуктыўным і дэдуктыўным навучаннем.
- заключэнне
Кампаніі выкарыстоўваюць перадавыя тэхналогіі, такія як штучны інтэлект (AI) і машыннае навучанне, каб павялічыць даступнасць інфармацыі і паслуг для людзей.
Гэтыя тэхналогіі ўкараняюцца ў розных галінах, у тым ліку ў банкаўскай сферы, фінансах, рознічным гандлі, вытворчасці і ахове здароўя.
Адна з найбольш запатрабаваных арганізацыйных роляў, якія выкарыстоўваюць штучны інтэлект, - гэта навукоўцы па апрацоўцы дадзеных, інжынеры па штучным інтэлекце, інжынеры па машынным навучанні і аналітыкі даных.
Гэты пост правядзе вас праз розныя навучанне з дапамогай машыны пытанні для інтэрв'ю, ад асноўных да складаных, каб дапамагчы вам падрыхтавацца да любых пытанняў, якія вам могуць задаць пры пошуку ідэальнай працы.
1. Растлумачце адрозненні паміж машынным навучаннем, штучным інтэлектам і глыбокім навучаннем.
Штучны інтэлект выкарыстоўвае розныя метады машыннага і глыбокага навучання, якія дазваляюць камп'ютэрным сістэмам выконваць задачы з выкарыстаннем чалавечага інтэлекту з логікай і правіламі.
Машыннае навучанне выкарыстоўвае разнастайныя статыстычныя дадзеныя і падыходы глыбокага навучання, якія дазваляюць машынам вучыцца на іх папярэдніх паказчыках і станавіцца больш дасведчанымі ў выкананні пэўных задач самастойна без нагляду чалавека.
Глыбокае навучанне - гэта набор алгарытмаў, які дазваляе праграмнаму забеспячэнню вучыцца самому і выконваць розныя камерцыйныя функцыі, такія як распазнаванне голасу і выявы.
Сістэмы, якія падвяргаюць іх шматслойнасці нейронавыя сеткі велізарныя аб'ёмы даных для навучання могуць зрабіць глыбокае навучанне.
2. Апішыце розныя тыпы машыннага навучання.
Машыннае навучанне існуе ў трох розных тыпах:
- Кантраляванае навучанне: мадэль стварае прагнозы або меркаванні, выкарыстоўваючы пазначаныя або гістарычныя дадзеныя ў кантраляваным машынным навучанні. Наборы даных, якія былі пазначаны тэгамі або пазначаны, каб павялічыць іх значэнне, называюцца пазначанымі данымі.
- Навучанне без нагляду: у нас няма пазначаных даных для навучання без нагляду. Ва ўваходных дадзеных мадэль можа знаходзіць заканамернасці, дзівацтвы і карэляцыі.
- Навучанне з падмацаваннем: мадэль можа вучыцца з дапамогай падмацавання навучанне і ўзнагароды, атрыманыя за ранейшыя паводзіны.
3. Што такое кампраміс зрушэння супраць дысперсіі?
Пераабсталяванне з'яўляецца вынікам зрушэння, якое з'яўляецца ступенню, у якой мадэль адпавядае дадзеным. Прадузятасць выклікана няправільнымі або занадта простымі здагадкамі ў вашым алгарытм машыннага навучання.
Дысперсія адносіцца да памылак, выкліканых складанасцю вашага алгарытму ML, які стварае адчувальнасць да вялікай ступені дысперсіі ў даных навучання і пераабсталявання.
Дысперсія - гэта тое, наколькі мадэль адрозніваецца ў залежнасці ад уводу.
Іншымі словамі, базавыя мадэлі надзвычай прадузятыя, але стабільныя (нізкая дысперсія). Пераабсталяванне - праблема са складанымі мадэлямі, хоць яны, тым не менш, адлюстроўваюць рэальнасць мадэлі (нізкі ўхіл).
Каб прадухіліць як вялікія варыяцыі, так і вялікія зрушэнні, неабходны кампраміс паміж зрушэннем і дысперсіяй для найлепшага скарачэння памылак.
4. Алгарытмы машыннага навучання значна развіліся з цягам часу. Як выбраць правільны алгарытм для выкарыстання зададзенага набору даных?
Тэхніка машыннага навучання, якую трэба выкарыстоўваць, залежыць толькі ад тыпу даных у пэўным наборы даных.
Калі даныя лінейныя, выкарыстоўваецца лінейная рэгрэсія. Метад пакетавання будзе працаваць лепш, калі даныя паказваюць на нелінейнасць. Мы можам выкарыстоўваць дрэвы рашэнняў або SVM, калі даныя павінны быць ацэнены або інтэрпрэтаваныя ў камерцыйных мэтах.
Нейронныя сеткі могуць быць карысныя для атрымання дакладнага адказу, калі набор даных уключае фота, відэа і аўдыя.
Выбар алгарытму для канкрэтных абставін або збору даных не можа быць зроблены толькі на адной меры.
Каб распрацаваць найбольш прыдатны метад, мы павінны спачатку вывучыць даныя з дапамогай даследчага аналізу даных (EDA) і зразумець мэту выкарыстання набору даных.
5. Чым адрозніваюцца каварыяцыя і карэляцыя?
Каварыянтнасць ацэньвае, як дзве зменныя звязаны адна з адной і як адна можа змяніцца ў адказ на змены ў другой.
Калі вынік станоўчы, гэта паказвае на тое, што існуе прамая сувязь паміж зменнымі і што адна будзе павялічвацца або памяншацца з павелічэннем або памяншэннем базавай зменнай, мяркуючы, што ўсе іншыя ўмовы застаюцца нязменнымі.
Карэляцыя вымярае сувязь паміж дзвюма выпадковымі зменнымі і мае толькі тры розныя значэнні: 1, 0 і -1.
6. Што азначае кластэрызацыя ў машынным навучанні?
Метады некантраляванага навучання, якія групуюць пункты даных, называюцца кластэрызацыяй. З наборам кропак даных можна прымяніць тэхніку кластарызацыі.
З дапамогай гэтай стратэгіі вы можаце згрупаваць усе пункты даных у адпаведнасці з іх функцыямі.
Характарыстыкі і якасці пунктаў даных, якія ўваходзяць у адну катэгорыю, падобныя, у той час як пункты даных, якія ўваходзяць у асобныя групы, адрозніваюцца.
Такі падыход можна выкарыстоўваць для аналізу статыстычных даных.
7. Які алгарытм машыннага навучання вы аддаеце перавагу?
У вас ёсць шанец прадэманстраваць свае перавагі і унікальныя таленты ў гэтым пытанні, а таксама ўсебаковае веданне шматлікіх метадаў машыннага навучання.
Вось некалькі тыповых алгарытмаў машыннага навучання, над якімі варта падумаць:
- Лінейная рэгрэсія
- Лагістычны рэгрэс
- Наіўныя Баесы
- дрэвы рашэнняў
- Да значыць
- Алгарытм выпадковага лесу
- K-бліжэйшы сусед (KNN)
8. Лінейная рэгрэсія ў машынным навучанні: што гэта такое?
Кантраляваны алгарытм машыннага навучання - гэта лінейная рэгрэсія.
Ён выкарыстоўваецца ў прагнастычным аналізе для вызначэння лінейнай сувязі паміж залежнымі і незалежнымі зменнымі.
Ураўненне лінейнай рэгрэсіі выглядае наступным чынам:
Y = A + BX
дзе:
- Уваходная або незалежная зменная называецца X.
- Залежная або выхадная зменная - Y.
- Каэфіцыент X роўны b, а яго перасячэнне роўна a.
9. Апішыце адрозненні паміж KNN і кластэрызацыяй k-сярэдніх.
Асноўнае адрозненне заключаецца ў тым, што KNN (метад класіфікацыі, навучанне пад кантролем) мае патрэбу ў пазначаных кропках, у той час як k-сярэднія не патрабуюць (алгарытм кластарызацыі, навучанне без кантролю).
Вы можаце класіфікаваць пазначаныя даныя ў непазначаныя кропкі з дапамогай K-бліжэйшых суседзяў. Кластэрызацыя K-means выкарыстоўвае сярэднюю адлегласць паміж кропкамі, каб навучыцца групаваць непазначаныя кропкі.
10. Што для вас азначае "прадузятасць адбору"?
Зрушэнне ў фазе выбаркі эксперыменту звязана са статыстычнай недакладнасцю.
Адна група выбаркі выбіраецца часцей, чым іншыя групы ў эксперыменце ў выніку недакладнасці.
Калі ўхіл адбору не прызнаецца, гэта можа прывесці да няправільнай высновы.
11. Што такое тэарэма Байеса?
Калі мы ведаем пра іншыя верагоднасці, мы можам вызначыць іх з дапамогай тэарэмы Байеса. Іншымі словамі, ён прапануе апошнюю верагоднасць здарэння на аснове папярэдняй інфармацыі.
Гэтая тэарэма забяспечвае надзейны метад ацэнкі ўмоўных верагоднасцей.
Пры распрацоўцы задач прагнастычнага мадэлявання класіфікацыі і падганяння мадэлі да навучання набор даных у машынным навучанні, прымяняецца тэарэма Байеса (г.зн. наіўны Байеса, аптымальны класіфікатар Байеса).
12. Што такое "навучальны набор" і "тэставы набор" у мадэлі машыннага навучання?
Навучальны набор:
- Навучальны набор складаецца з асобнікаў, якія адпраўляюцца ў мадэль для аналізу і навучання.
- Гэта пазначаныя даныя, якія будуць выкарыстоўвацца для навучання мадэлі.
- Як правіла, 70% ад агульнай колькасці дадзеных выкарыстоўваецца ў якасці навучальнага набору дадзеных.
Тэставы набор:
- Набор тэстаў выкарыстоўваецца для ацэнкі дакладнасці генерацыі гіпотэзы мадэлі.
- Мы правяраем без пазначаных дадзеных, а затым выкарыстоўваем пазнакі для пацверджання вынікаў.
- Астатнія 30% выкарыстоўваюцца ў якасці тэставага набору дадзеных.
13. Што такое гіпотэза ў машынным навучанні?
Машыннае навучанне дазваляе выкарыстоўваць існуючыя наборы даных для лепшага разумення зададзенай функцыі, якая звязвае ўвод і вывад. Гэта вядома як апраксімацыя функцыі.
У гэтым выпадку неабходна выкарыстоўваць набліжэнне для невядомай мэтавай функцыі, каб найлепшым чынам перадаць усе мажлівыя назіранні, заснаваныя на дадзенай сітуацыі.
У машынным навучанні гіпотэза - гэта мадэль, якая дапамагае ў ацэнцы мэтавай функцыі і выкананні адпаведных супастаўленняў уводу-вываду.
Выбар і дызайн алгарытмаў дазваляюць вызначыць прастору магчымых гіпотэз, якія могуць быць прадстаўлены мадэллю.
Для адной гіпотэзы выкарыстоўваецца малая літара h (h), але вялікая h (H) выкарыстоўваецца для ўсёй прасторы гіпотэз, у якой вядзецца пошук. Мы коратка разгледзім гэтыя абазначэнні:
- Гіпотэза (h) - гэта пэўная мадэль, якая палягчае адлюстраванне ўваходных дадзеных і вынікаў, якія пасля могуць выкарыстоўвацца для ацэнкі і прагназавання.
- Набор гіпотэз (H) - гэта прастора гіпотэз з магчымасцю пошуку, якую можна выкарыстоўваць для супастаўлення ўваходных дадзеных з выхаднымі. Афармленне праблемы, мадэль і канфігурацыя мадэлі - гэта некалькі прыкладаў агульных абмежаванняў.
14. Што азначае пераабсталяванне машыннага навучання і як гэта можна прадухіліць?
Калі машына спрабуе вучыцца на недастатковым наборы даных, адбываецца пераабсталяванне.
У выніку пераабсталяванне знаходзіцца ў зваротнай залежнасці ад аб'ёму даных. Падыход перакрыжаванай праверкі дазваляе пазбегнуць пераабсталявання невялікіх набораў даных. У гэтым метадзе набор даных разбіваецца на дзве часткі.
Набор дадзеных для тэставання і навучання будзе складацца з гэтых дзвюх частак. Навучальны набор даных выкарыстоўваецца для стварэння мадэлі, а тэставы набор даных выкарыстоўваецца для ацэнкі мадэлі з выкарыстаннем розных уводных дадзеных.
Гэта тое, як прадухіліць празмернасць.
15. Што такое наіўныя класіфікатары Байеса?
Розныя метады класіфікацыі складаюць наіўныя класіфікатары Байеса. Набор алгарытмаў, вядомых як гэтыя класіфікатары, усе працуюць на адну фундаментальную ідэю.
Здагадка, зробленая наіўнымі класіфікатарамі Байеса, заключаецца ў тым, што наяўнасць або адсутнасць адной прыкметы не мае ніякага дачынення да наяўнасці або адсутнасці іншай.
Іншымі словамі, гэта тое, што мы называем "наіўным", паколькі мяркуецца, што кожны атрыбут набору даных аднолькава значны і незалежны.
Класіфікацыя праводзіцца з выкарыстаннем наіўных класіфікатараў Байеса. Яны простыя ў выкарыстанні і даюць лепшыя вынікі, чым больш складаныя прадказальнікі, калі перадумова незалежнасці праўдзівая.
Яны выкарыстоўваюцца ў сістэмах аналізу тэксту, фільтрацыі спаму і рэкамендацый.
16. Што азначаюць функцыі выдаткаў і функцыі страт?
Фраза «функцыя страт» адносіцца да працэсу вылічэння страт, калі ўлічваецца толькі адна частка даных.
Наадварот, мы выкарыстоўваем функцыю кошту, каб вызначыць агульную колькасць памылак для шматлікіх даных. Істотнага адрознення няма.
Іншымі словамі, у той час як функцыі выдаткаў аб'ядноўваюць розніцу для ўсяго навучальнага набору даных, функцыі страт прызначаны для ўлоўлівання розніцы паміж фактычнымі і прагназуемымі значэннямі для аднаго запісу.
17. Што адрознівае генератыўную мадэль ад дыскрымінатыўнай?
Дыскрымінацыйная мадэль вывучае адрозненні паміж некалькімі катэгорыямі даных. Генератыўная мадэль падбірае розныя тыпы даных.
Па праблемах класіфікацыі дыскрымінацыйныя мадэлі часта пераўзыходзяць іншыя мадэлі.
18. Апішыце адрозненні памылак тыпу I і тыпу II.
Ілжывыя спрацоўванні падпадаюць пад катэгорыю памылак тыпу I, у той час як ілжывыя адмоўныя - да памылак тыпу II (сцвярджаючы, што нічога не адбылося, калі на самой справе адбылося).
19. Што такое методыка ансамблевага навучання ў машынным навучанні?
Тэхніка, званая ансамблевым навучаннем, спалучае мноства мадэляў машыннага навучання для стварэння больш магутных мадэляў.
Мадэль можа вар'іравацца па розных прычынах. Некалькі прычын:
- Розныя папуляцыі
- Розныя гіпотэзы
- Разнастайныя метады мадэлявання
Мы сутыкнемся з праблемай пры выкарыстанні дадзеных навучання і тэсціравання мадэлі. Зрушэнне, дысперсія і незмяншальная памылка - магчымыя тыпы гэтай памылкі.
Цяпер мы называем гэты баланс паміж зрушэннем і дысперсіяй у мадэлі кампрамісам зрушэння і дысперсіі, і ён павінен існаваць заўсёды. Гэты кампраміс дасягаецца за кошт выкарыстання ансамблевага навучання.
Нягледзячы на тое, што існуюць розныя падыходы да ансамбля, ёсць дзве агульныя стратэгіі для спалучэння многіх мадэляў:
- Уласны падыход, які называецца пакаванне, выкарыстоўвае навучальны набор для стварэння дадатковых навучальных набораў.
- Бустынг, больш складаная тэхніка: як і пакетаванне, бустынг выкарыстоўваецца для пошуку ідэальнай формулы ўзважвання для трэніровачнага комплексу.
20. Што такое параметрычныя мадэлі? Прывядзіце прыклад.
У параметрычных мадэлях ёсць абмежаваная колькасць параметраў. Каб прагназаваць даныя, усё, што вам трэба ведаць, гэта параметры мадэлі.
Наступныя тыповыя прыклады: лагістычная рэгрэсія, лінейная рэгрэсія і лінейныя SVM. Непараметрычныя мадэлі гнуткія, бо могуць утрымліваць неабмежаваную колькасць параметраў.
Параметры мадэлі і стан назіраных даных патрабуюцца для прагназавання даных. Вось некалькі тыповых прыкладаў: тэматычныя мадэлі, дрэвы рашэнняў і k-бліжэйшых суседзяў.
21. Апішыце сумесную фільтрацыю. А таксама фільтраванне на аснове кантэнту?
Правераны метад для стварэння індывідуальных прапаноў кантэнту - гэта сумесная фільтрацыя.
Форма сістэмы рэкамендацый, якая называецца сумеснай фільтрацыяй, прадказвае свежы матэрыял, ураўнаважваючы перавагі карыстальнікаў з агульнымі інтарэсамі.
Карыстальніцкія перавагі - гэта адзінае, што ўлічваюць сістэмы рэкамендацый на аснове кантэнту. У святле папярэдніх выбараў карыстальніка новыя рэкамендацыі прадастаўляюцца з адпаведных матэрыялаў.
22. Што менавіта вы маеце на ўвазе пад часовым шэрагам?
Часовы шэраг - гэта набор лікаў у парадку ўзрастання. На працягу загадзя вызначанага перыяду часу ён кантралюе рух выбраных кропак даных і перыядычна фіксуе кропкі даных.
Для часавых шэрагаў няма мінімальнага і максімальнага ўводу часу.
Часовыя шэрагі часта выкарыстоўваюцца аналітыкамі для аналізу даных у адпаведнасці са сваімі унікальнымі патрабаваннямі.
23. Апішыце адрозненні паміж алгарытмамі Gradient Boosting і Random Forest.
Выпадковы лес:
- Вялікая колькасць дрэў рашэнняў аб'ядноўваюцца разам у канцы і вядомыя як выпадковыя лясы.
- У той час як узмацненне градыенту стварае кожнае дрэва незалежна ад іншых, выпадковы лес будуе кожнае дрэва па адным.
- Мультыклас выяўленне аб'ектаў добра працуе са выпадковымі лясамі.
Узмацненне градыенту:
- У той час як выпадковыя лясы далучаюцца да дрэў рашэнняў у канцы працэсу, Gradient Boosting Machines аб'ядноўвае іх з самага пачатку.
- Калі параметры адрэгуляваны належным чынам, узмацненне градыенту пераўзыходзіць выпадковыя лясы з пункту гледжання вынікаў, але гэта неразумны выбар, калі ў наборы даных шмат выкідаў, анамалій або шуму, бо гэта можа прывесці да таго, што мадэль перастане працаваць.
- Пры наяўнасці незбалансаваных даных, як гэта адбываецца пры ацэнцы рызыкі ў рэжыме рэальнага часу, узмацненне градыенту працуе добра.
24. Навошта патрэбна матрыца блытаніны? Што гэта?
Табліца, вядомая як матрыца блытаніны, часам вядомая як матрыца памылак, шырока выкарыстоўваецца, каб паказаць, наколькі добра мадэль класіфікацыі або класіфікатар працуе на наборы тэставых даных, для якіх вядомыя рэальныя значэнні.
Гэта дазваляе нам убачыць, як працуе мадэль або алгарытм. Гэта дазваляе нам лёгка выяўляць непаразуменні паміж рознымі курсамі.
Гэта служыць спосабам ацэнкі таго, наколькі добра выконваецца мадэль або алгарытм.
Прагнозы мадэлі класіфікацыі складаюцца ў матрыцу блытаніны. Значэнні падліку кожнай меткі класа выкарыстоўваліся для разбіўкі агульнай колькасці правільных і няправільных прагнозаў.
Ён дае падрабязную інфармацыю аб памылках, дапушчаных класіфікатарам, а таксама аб розных відах памылак, выкліканых класіфікатарамі.
25. Што такое аналіз асноўных кампанентаў?
Зводзячы да мінімуму колькасць зменных, якія карэлююць адна з адной, мэта складаецца ў тым, каб мінімізаваць памернасць збору даных. Але важна захаваць як мага больш разнастайнасці.
Зменныя ператвараюцца ў зусім новы набор зменных, які называецца галоўнымі кампанентамі.
Гэтыя ПК з'яўляюцца артаганальнымі, паколькі з'яўляюцца ўласнымі вектарамі каварыяцыйнай матрыцы.
26. Чаму ратацыя кампанентаў так важная для PCA (аналіз галоўных кампанентаў)?
Кручэнне мае вырашальнае значэнне ў PCA, таму што яно аптымізуе падзел паміж дысперсіямі, атрыманымі кожным кампанентам, спрашчаючы інтэрпрэтацыю кампанентаў.
Нам патрэбны пашыраныя кампаненты, каб выказаць змяненне кампанентаў, калі кампаненты не паварочваюцца.
27. Як рэгулярізацыя і нармалізацыя адрозніваюцца адна ад адной?
Нармалізацыя:
Падчас нармалізацыі даныя змяняюцца. Вы павінны нармалізаваць дадзеныя, калі яны маюць маштабы, якія рэзка адрозніваюцца, асабліва ад нізкага да высокага. Адрэгулюйце кожны слупок так, каб асноўныя статыстычныя дадзеныя былі сумяшчальнымі.
Каб пераканацца, што няма страты дакладнасці, гэта можа быць карысна. Выяўленне сігналу пры ігнараванні шуму - адна з задач навучання мадэлі.
Існуе верагоднасць пераабсталявання, калі мадэль атрымае поўны кантроль, каб паменшыць памылку.
Рэгулярізацыя:
Пры рэгулярызацыі функцыя прагназавання мадыфікуецца. Гэта падлягае пэўнаму кантролю з дапамогай рэгулярызацыі, якая аддае перавагу больш простым падгонным функцыям перад складанымі.
28. Чым нармалізацыя і стандартызацыя адрозніваюцца адна ад адной?
Дзве найбольш шырока выкарыстоўваюцца методыкі маштабавання функцый - нармалізацыя і стандартызацыя.
Нармалізацыя:
- Змяненне маштабу даных у адпаведнасці з дыяпазонам [0,1] вядома як нармалізацыя.
- Калі ўсе параметры павінны мець аднолькавы станоўчы маштаб, нармалізацыя карысная, але выкіды набору даных губляюцца.
Рэгулярізацыя:
- У рамках працэсу стандартызацыі даныя змяняюцца, каб мець сярэдняе значэнне 0 і стандартнае адхіленне 1 (дысперсія адзінак)
29. Што менавіта азначае «каэфіцыент інфляцыі адхіленняў»?
Стаўленне дысперсіі мадэлі да дысперсіі мадэлі толькі з адной незалежнай зменнай вядома як каэфіцыент інфляцыі варыяцый (VIF).
VIF ацэньвае колькасць мультыкалінеарнасці, прысутнай у наборы некалькіх зменных рэгрэсіі.
Дысперсія мадэлі (VIF) Мадэль з адной незалежнай зменнай дысперсіяй
30. Як вы выбіраеце класіфікатар у залежнасці ад памеру навучальнага набору?
Мадэль з высокім зрушэннем і нізкай дысперсіяй працуе лепш для кароткай трэніровачнай серыі, паколькі верагоднасць пераабсталявання меншая. Наіўны Байес - адзін з прыкладаў.
Для прадстаўлення больш складаных узаемадзеянняў для вялікага навучальнага набору пераважней мадэль з нізкім зрушэннем і высокай дысперсіяй. Лагістычная рэгрэсія - добры прыклад.
31. Які алгарытм у машынным навучанні называюць «лянівым навучэнцам» і чаму?
KNN - гэта алгарытм машыннага навучання. Паколькі K-NN дынамічна разлічвае адлегласць кожны раз, калі хоча класіфікаваць, замест таго, каб вывучаць якія-небудзь значэнні або зменныя, атрыманыя машынным навучаннем, з даных навучання, ён запамінае набор даных навучання.
Гэта робіць K-NN лянівым вучнем.
32. Што такое крывая ROC і AUC?
Прадукцыйнасць мадэлі класіфікацыі пры ўсіх парогавых значэннях прадстаўлена графічна крывой ROC. Ён мае крытэрыі сапраўднага дадатнага стаўкі і ілжывага дадатнага стаўкі.
Прасцей кажучы, плошча пад крывой ROC вядомая як AUC (плошча пад крывой ROC). Вымяраецца двухмерная плошча крывой ROC ад (0,0) да AUC (1,1). Для ацэнкі двайковых мадэляў класіфікацыі ён выкарыстоўваецца ў якасці статыстыкі прадукцыйнасці.
33. Што такое гіперпараметры? Што робіць іх унікальнымі з мадэльных параметраў?
Унутраная зменная мадэлі вядомая як параметр мадэлі. Выкарыстоўваючы навучальныя даныя, значэнне параметра прыблізна.
Невядомы для мадэлі, гіперпараметр з'яўляецца зменнай. Значэнне не можа быць вызначана з даных, таму яны часта выкарыстоўваюцца для разліку параметраў мадэлі.
34. Што азначаюць адзнака F1, запамінанне і дакладнасць?
Мера блытаніны - гэта паказчык, які выкарыстоўваецца для ацэнкі эфектыўнасці мадэлі класіфікацыі. Для лепшага тлумачэння метрыкі блытаніны можна выкарыстоўваць наступныя фразы:
TP: Сапраўдныя пазітывы - гэта пазітыўныя значэнні, якія належным чынам чакаліся. Гэта сведчыць аб тым, што значэнні прагназуемага класа і фактычнага класа дадатныя.
TN: Сапраўдныя негатывы - гэта неспрыяльныя значэнні, якія былі дакладна прагназаваны. Гэта сведчыць аб тым, што як значэнне фактычнага класа, так і чаканага класа адмоўныя.
Гэтыя значэнні — ілжывыя спрацоўванні і ілжывыя адмоўныя — узнікаюць, калі ваш фактычны клас адрозніваецца ад чаканага.
Зараз,
Стаўленне сапраўднага станоўчага ўзроўню (TP) да ўсіх назіранняў, зробленых у рэальным класе, называецца запамінаннем, таксама вядомым як адчувальнасць.
Адкліканне - TP/(TP+FN).
Дакладнасць - гэта мера станоўчай прагназуючай каштоўнасці, якая параўноўвае колькасць станоўчых вынікаў, якія сапраўды прадказвае мадэль, з колькасцю правільных пазітыўных вынікаў, якія яна дакладна прадказвае.
Дакладнасць: TP/(TP + FP)
Самая простая для разумення метрыка прадукцыйнасці - гэта дакладнасць, якая ўяўляе сабой долю правільна прагназаваных назіранняў да ўсіх назіранняў.
Дакладнасць роўная (TP+TN)/(TP+FP+FN+TN).
Дакладнасць і запамінанне ўзважаныя і асераднёныя, каб атрымаць бал F1. У выніку гэты бал улічвае як ілжывададатныя, так і ілжываадмоўныя вынікі.
F1 часта больш каштоўная, чым дакладнасць, асабліва калі ў вас нераўнамернае размеркаванне класаў, нават калі інтуітыўна гэта не так проста зразумець, як дакладнасць.
Найлепшая дакладнасць дасягаецца, калі кошт ілжывых спрацоўванняў і ілжывых адмоў супастаўны. Пажадана ўключаць як Precision, так і Recall, калі выдаткі, звязаныя з ілжывымі спрацоўваннямі і ілжыва-адмоўнымі, значна адрозніваюцца.
35. Што такое крос-праверка?
Статыстычны падыход паўторнай выбаркі, які называецца перакрыжаванай праверкай у машынным навучанні, выкарыстоўвае некалькі паднабораў даных для навучання і ацэнкі алгарытму машыннага навучання ў шэрагу раундаў.
Новы пакет даных, які не выкарыстоўваўся для навучання мадэлі, тэстуецца з дапамогай перакрыжаванай праверкі, каб убачыць, наколькі добра мадэль прагназуе гэта. Празмернае абсталяванне даных прадухіляецца з дапамогай перакрыжаванай праверкі.
K-Fold Найбольш часта выкарыстоўваны метад паўторнай выбаркі разбівае ўвесь набор даных на K набораў аднолькавага памеру. Гэта называецца крос-праверкай.
36. Дапусцім, вы выявілі, што ваша мадэль мае значную дысперсію. Які алгарытм, на ваш погляд, найбольш прыдатны для вырашэння гэтай сітуацыі?
Кіраванне высокай зменлівасцю
Мы павінны выкарыстоўваць тэхніку пакетавання для праблем з вялікімі варыяцыямі.
Паўторная выбарка выпадковых даных будзе выкарыстоўвацца алгарытмам упакоўкі для падзелу даных на падгрупы. Пасля таго, як дадзеныя былі падзелены, мы можам выкарыстоўваць выпадковыя дадзеныя і пэўную працэдуру навучання для стварэння правілаў.
Пасля гэтага апытанне можа быць выкарыстана для аб'яднання прагнозаў мадэлі.
37. Што адрознівае рэгрэсію Рыджа ад рэгрэсіі Ласо?
Два шырока выкарыстоўваюцца метаду рэгулярызацыі - гэта рэгрэсія Ласо (таксама званы L1) і рэгрэсія Рыджа (часам званы L2). Яны выкарыстоўваюцца для прадухілення перападбору дадзеных.
Каб знайсці лепшае рашэнне і мінімізаваць складанасць, гэтыя метады выкарыстоўваюцца для пакарання каэфіцыентаў. Штрафуючы сумарныя абсалютныя значэнні каэфіцыентаў, працуе рэгрэсія Ласо.
Штрафная функцыя ў рэгрэсіі Рыджа або L2 атрымліваецца з сумы квадратаў каэфіцыентаў.
38. Што больш важна: прадукцыйнасць мадэлі або дакладнасць мадэлі? Які з іх і чаму вы аддасце перавагу?
Гэта зманлівае пытанне, таму спачатку трэба зразумець, што такое прадукцыйнасць мадэлі. Калі прадукцыйнасць вызначаецца як хуткасць, то яна залежыць ад тыпу прыкладання; любое прыкладанне, якое ўключае сітуацыю ў рэжыме рэальнага часу, патрабуе высокай хуткасці як найважнейшага кампанента.
Напрыклад, найлепшыя вынікі пошуку стануць менш каштоўнымі, калі вынікі запыту паступаюць занадта доўга.
Калі прадукцыйнасць выкарыстоўваецца ў якасці абгрунтавання таго, чаму дакладнасць і запамінанне павінны мець прыярытэт над дакладнасцю, то адзнака F1 будзе больш карыснай, чым дакладнасць, для дэманстрацыі бізнес-абгрунтавання любога незбалансаванага набору даных.
39. Як бы вы кіравалі наборам даных з няроўнасцямі?
Незбалансаваны набор даных можа выйграць ад метадаў выбаркі. Выбарка можа быць выканана як з недастатковай, так і з залішняй выбаркай.
Under Sampling дазваляе нам паменшыць памер большасці класа, каб ён адпавядаў класу меншасці, што спрыяе павелічэнню хуткасці захавання і выканання падчас выканання, але можа таксама прывесці да страты каштоўных даных.
Для таго, каб вырашыць праблему страты інфармацыі, выкліканую празмернай выбаркай, мы павялічваем выбарку класа меншасці; тым не менш, гэта прымушае нас сутыкнуцца з праблемамі пераабсталявання.
Дадатковыя стратэгіі ўключаюць:
- Выбарка на аснове кластара - асобнікі класаў меншасці і большасці асобна падвяргаюцца метаду кластарызацыі K-сярэдніх у гэтай сітуацыі. Гэта робіцца для пошуку кластараў набору даных. Затым у кожным кластары праводзіцца перавыбарка, каб усе класы мелі аднолькавы памер і ўсе кластары ў класце мелі аднолькавую колькасць асобнікаў.
- SMOTE: Тэхніка залішняй выбаркі сінтэтычных меншасцяў - у якасці прыкладу выкарыстоўваецца зрэз даных з класа меншасці, пасля чаго ствараюцца дадатковыя штучныя асобнікі, параўнальныя з ім, і дадаюцца да зыходнага набору даных. Гэты метад добра працуе з лічбавымі данымі.
40. Як можна адрозніць бустынг ад пакавання?
Ансамблевыя метады маюць версіі, вядомыя як пакетаванне і павышэнне.
пакаванне-
Для алгарытмаў з вялікай варыяцыяй пакетаванне - гэта метад, які выкарыстоўваецца для зніжэння дысперсіі. Адным з такіх сямействаў класіфікатараў, схільных да прадузятасці, з'яўляецца сямейства дрэва рашэнняў.
Тып даных, на якіх навучаюцца дрэвы рашэнняў, істотна ўплывае на іх прадукцыйнасць. З-за гэтага, нават з вельмі высокай тонкай наладай, абагульненне вынікаў часам значна складаней атрымаць у іх.
Калі навучальныя дадзеныя дрэў рашэнняў зменены, вынікі істотна адрозніваюцца.
Як следства, выкарыстоўваецца пакетаванне, у якім ствараецца мноства дрэў рашэнняў, кожнае з якіх навучаецца з выкарыстаннем выбаркі зыходных даных, а канчатковым вынікам з'яўляецца сярэдняе значэнне ўсіх гэтых розных мадэляў.
павышэнне:
Узмацненне - гэта метад стварэння прагнозаў з дапамогай n-слабой сістэмы класіфікатараў, у якой кожны слабы класіфікатар кампенсуе недахопы сваіх больш моцных класіфікатараў. Класіфікатар, які дрэнна працуе з дадзеным наборам даных, мы называем «слабым класіфікатарам».
Відавочна, што павышэнне - гэта працэс, а не алгарытм. Лагістычная рэгрэсія і неглыбокія дрэвы рашэнняў - звычайныя прыклады слабых класіфікатараў.
Adaboost, Gradient Boosting і XGBoost - два найбольш папулярныя алгарытмы павышэння, аднак іх значна больш.
41. Растлумачце адрозненні паміж індуктыўным і дэдуктыўным навучаннем.
Пры навучанні на прыкладзе з набору назіраных прыкладаў мадэль выкарыстоўвае індуктыўнае навучанне, каб прыйсці да абагульненай высновы. З іншага боку, пры дэдуктыўным навучанні мадэль выкарыстоўвае вынік перад фарміраваннем свайго.
Індуктыўнае навучанне - гэта працэс атрымання высноў з назіранняў.
Дэдуктыўнае навучанне - гэта працэс стварэння назіранняў на аснове высноў.
заключэнне
Віншую! Гэта 40 і вышэй пытанняў для інтэрв'ю для машыннага навучання, на якія вы ведаеце адказы. Навука аб дадзеных і штучны інтэлект прафесіі будуць працягваць карыстацца попытам па меры развіцця тэхналогій.
Кандыдаты, якія абнаўляюць свае веды аб гэтых перадавых тэхналогіях і ўдасканальваюць свае навыкі, могуць знайсці шырокі спектр магчымасцей працаўладкавання з канкурэнтаздольнай аплатай.
Вы можаце працягваць адказваць на інтэрв'ю цяпер, калі ў вас ёсць цвёрдае ўяўленне аб тым, як адказваць на некаторыя з шырока задаваных пытанняў машыннага навучання.
У залежнасці ад вашых мэтаў зрабіце наступны крок. Падрыхтуйцеся да інтэрв'ю, наведаўшы Hashdork's Серыял інтэрв'ю.
Пакінуць каментар