Содржина[Крие][Прикажи]
- 1. Што подразбираш под MLOps?
- 2. Како научниците за податоци, инженерите за податоци и инженерите за ML се разликуваат еден од друг?
- 3. Што ги разликува MLOps од ModelOps и AIOps?
- 4. Можете ли да ми кажете некои од придобивките на MLOps?
- 5. Можете ли да ми ги кажете компонентите на MLOps?
- 6. Кои ризици доаѓаат со користењето на науката за податоци?
- 7. Можете ли да објасните, што е модел дрифт?
- 8. На колку различни начини може да се применат MLOps, според вас?
- 9. Што го одделува статичкото од динамичкото распоредување?
- 10. За какви техники за тестирање на производство сте запознаени?
- 11. Што ја разликува процесната обработка од сериската обработка?
- 12. Што мислите под обуки за сервирање искривени?
- 13. Што подразбираш под Регистар на модели?
- 14. Можете ли да елаборирате за придобивките од Модел Регистар?
- 15. Можете ли да ги објасните работите на техниката Шампион-Челинџер?
- 16. Опишете ги апликациите на ниво на претпријатие на животниот циклус на MLOps?
- Заклучок
Компаниите почесто ги користат новите технологии како вештачката интелигенција (AI) и машинското учење (ML) за да ја зголемат пристапноста на јавноста до информации и услуги.
Овие технологии се повеќе се користат во различни сектори, вклучувајќи банкарство, финансии, малопродажба, производство, па дури и здравствена заштита.
Научниците за податоци, инженерите за машинско учење и инженерите за вештачка интелигенција се бараат од сè поголем број компании.
Знаејќи го можното машинско учење Прашањата за интервју за операција што би можеле да ви ги постават менаџерите за вработување и регрутерите се од суштинско значење ако сакате да работите во полињата за ML или MLOps.
Можете да научите како да одговорите на некои од прашањата за интервју за MLOps во овој напис додека работите кон добивање работа од соништата.
1. Што подразбираш под MLOps?
Темата за операционализирање на ML моделите е во фокусот на MLOps, исто така познати како Операции за машинско учење, поле во развој во поглавната арена AI/DS/ML.
Главната цел на пристапот и културата за софтверско инженерство познати како MLOps е да се интегрира создавањето модели за машинско учење/наука за податоци и нивна последователна операционализација (Ops).
Конвенционалните DevOps и MLOps споделуваат одредени сличности, меѓутоа, MLOps исто така се разликуваат многу од традиционалните DevOps.
MLOps додава нов слој на сложеност со фокусирање на податоци, додека DevOps првенствено се фокусира на операционализирање на кодот и софтверските изданија кои не можат да бидат статусни.
Комбинацијата на ML, Data и Ops е она што му дава заедничко име на MLOps (машинско учење, инженерство на податоци и DevOps).
2. Како научниците за податоци, инженерите за податоци и инженерите за ML се разликуваат еден од друг?
Тоа варира, според мене, во зависност од фирмата. Околината за транспорт и трансформација на податоците, како и нивното складирање, е изградена од инженери за податоци.
Научниците за податоци се експерти за користење на научни и статистички техники за анализирање на податоците и донесување заклучоци, вклучително и правење предвидувања за идното однесување врз основа на трендовите што се сега на место.
Софтверските инженери ги проучуваа операциите и управуваа со инфраструктурата за распоредување пред неколку години. Опс тимовите, од друга страна, го проучуваа развојот додека ја користеа инфраструктурата како код. Позицијата на DevOps беше произведена од овие два текови.
MLOps е во истата категорија како Податоци научник и инженер за податоци. Инженерите за податоци стекнуваат знаење за инфраструктурата потребна за поддршка на животниот циклус на моделите и создавање цевководи за постојана обука.
Научниците за податоци се обидуваат да ги развијат своите можности за распоредување на модели и бодување.
Продукциско ниво на податоци е изградено од инженери за ML користејќи ја инфраструктурата што ги трансформира необработените податоци во влез потребни за моделот на науката за податоци, го хостира и го извршува моделот и дава резултати од оценети податоци до системите надолу.
И инженерите за податоци и научниците за податоци се способни да станат инженери за ML.
3. Што ги разликува MLOps од ModelOps и AIOps?
При конструирање од крај до крај алгоритми за машинско учење, MLOps е апликација DevOps која вклучува собирање податоци, претходна обработка на податоци, создавање модел, распоредување на модел во производството, следење на моделот во производството и периодична надградба на моделот.
Употребата на DevOps во справувањето со целата имплементација на какви било алгоритми, како што се моделите базирани на правила, е позната како ModelOps.
AI Ops ги користи принципите на DevOps за да создаде апликации за вештачка интелигенција од нула.
4. Можете ли да ми кажете некои од придобивките на MLOps?
- Научниците за податоци и развивачите на MLOps можат брзо да ги повторуваат испитувањата за да се осигураат дека моделите се обучени и соодветно оценети бидејќи MLOps помага да се автоматизираат сите или повеќето од задачите/чекорите во MDLC (животен циклус на развој на модел). Дополнително дозволува верзии на податоци и модел.
- Спроведувањето на идеите за MLOps во пракса им овозможува на инженерите за податоци и на научниците за податоци да имаат неограничен пристап до култивирани и курирани сетови на податоци, што експоненцијално го забрзува развојот на моделите.
- Научниците за податоци ќе можат да се навратат на моделот што се покажал подобро ако тековната итерација не ги исполни очекувањата благодарение на можноста за верзии на моделите и збирките на податоци, што значително ќе ја подобри ревизорската патека на моделот.
- Бидејќи методите на MLOps силно се потпираат на DevOps, тие исто така инкорпорираат голем број CI/CD концепти, што го подобрува квалитетот и доверливоста на кодот.
5. Можете ли да ми ги кажете компонентите на MLOps?
дизајн: MLO-ите во голема мера го вклучуваат дизајнерското размислување. Почнувајќи од природата на проблемот, тестирање на хипотези, архитектура и распоредување
Модел зграда: Тестирањето и валидацијата на моделите се дел од овој чекор, заедно со цевководите за инженерство на податоци и експериментирањето за поставување на најдобрите системи за машинско учење.
операции: Моделот мора да се имплементира како дел од операциите и постојано да се проверува и оценува. Процесите на CI/CD потоа се следат и започнуваат со користење на оркестрациона алатка.
6. Кои ризици доаѓаат со користењето на науката за податоци?
- Тешко е да се прошири моделот низ компанијата.
- Без предупредување, моделот се исклучува и престанува да функционира.
- Најчесто, прецизноста на моделите се влошува со текот на времето.
- Моделот прави неточни предвидувања врз основа на специфично набљудување што не може дополнително да се испита.
- Научниците за податоци исто така треба да одржуваат модели, но тие се скапи.
- MLOps може да се користат за да се намалат овие ризици.
7. Можете ли да објасните, што е модел дрифт?
Кога перформансите на фазата на заклучување на моделот (со користење на податоци од реалниот свет) се влошуваат од перформансите на неговата фаза на обука, ова е познато како дрифт на моделот, исто така познато како движење на идеи (со користење на историски, означени податоци).
Перформансите на моделот се искривени во споредба со фазите на тренирање и сервирање, па оттука и името „коси тренирајте/сервирајте“.
Бројни фактори, вклучувајќи:
- Основниот начин на дистрибуција на податоците е променет.
- Обуката се фокусираше на мал број категории, меѓутоа, промената на животната средина што штотуку се случи додаде уште една област.
- Во тешкотиите со НЛП, податоците од реалниот свет имаат несразмерно поголема количина на бројни токени од податоците за обука.
- Неочекувани појави, како што се предвидува дека моделот изграден на податоци од пред СОВИД ќе има значително полошо работење на податоците собрани за време на епидемијата на СОВИД-19.
Постојано следење на перформансите на моделот секогаш е потребно за да се идентификува поместувањето на моделот.
Скоро секогаш се бара преквалификација на моделот како лек кога има постојан пад на перформансите на моделот; мора да се идентификува причината за опаѓањето и да се користат соодветни процедури за лекување.
8. На колку различни начини може да се применат MLOps, според вас?
Постојат три методи за спроведување на MLOs во пракса:
MLOps ниво 0 (Рачен процес): Во ова ниво, сите чекори — вклучувајќи подготовка на податоци, анализа и обука — се изведуваат рачно. Секоја фаза мора да се изврши рачно, како и преминот од една во друга.
Основната премиса е дека вашиот тим за наука за податоци управува само со мал број модели кои не се ажурираат често.
Како резултат на тоа, нема континуирана интеграција (CI) или континуирано распоредување (CD), а тестирањето на кодот обично е интегрирано во извршувањето на скрипта или извршувањето на тетратката, при што распоредувањето се одвива во микросервис со ОСТАНАТОТО API.
MLOps ниво 1 (автоматизација на гасоводот ML): Со автоматизирање на процесот на ML, целта е континуирано да се тренира моделот (CT). На овој начин можете да постигнете континуирана испорака на услуги за предвидување на моделот.
Нашето распоредување на цел гасовод за обука осигурува дека моделот е автоматски обучен за производство користејќи нови податоци засновани на активни предизвикувачи на гасоводот.
MLOps ниво 2 (автоматизација на цевководот CI/CD): Оди еден чекор над нивото на MLOps. Потребен е силен автоматизиран CI/CD систем ако сакате брзо и сигурно да ги ажурирате цевководите во производството:
- Вие креирате изворен код и извршувате бројни тестови низ фазата CI. Пакетите, извршните датотеки и артефактите се излезите на сцената, кои ќе бидат распоредени подоцна.
- Артефактите создадени од фазата CI се распоредуваат во целната средина за време на чекорот на ЦД. Распоредениот гасовод со ревидираната имплементација на моделот е резултатот на сцената.
- Пред цевководот да започне со ново повторување на експериментот, научниците за податоци сепак мора рачно да ја направат фазата на анализа на податоци и модел.
9. Што го одделува статичкото од динамичкото распоредување?
Моделот е обучен офлајн за Статичко распоредување. Со други зборови, ние го обучуваме моделот точно еднаш и потоа го користиме одредено време. Откако моделот ќе се обучи локално, тој се складира и се испраќа до серверот за да се користи за производство на предвидувања во реално време.
Моделот потоа се дистрибуира како апликативен софтвер што може да се инсталира. програма која овозможува сериско бодување на барањата, како илустрација.
Моделот е обучен онлајн за Динамично распоредување. Односно, нови податоци постојано се додаваат во системот, а моделот постојано се ажурира за да го земе предвид.
Како резултат на тоа, можете да правите предвидувања користејќи сервер на барање. После тоа, моделот се става во употреба со тоа што се обезбедува како крајна точка на API која реагира на корисничките барања, користејќи веб-рамка како Колба или FastAPI.
10. За какви техники за тестирање на производство сте запознаени?
Сериско тестирање: Со спроведување на тестирање во поставка различна од онаа на неговата средина за обука, тој го потврдува моделот. Користејќи метрика по избор, како што се точност, RMSE, итн., сериското тестирање се прави на група примероци на податоци за да се потврди заклучувањето на моделот.
Сериското тестирање може да се изврши на различни компјутерски платформи, како што се тест сервер, далечински сервер или облак. Вообичаено, моделот се обезбедува како серијализирана датотека, која се вчитува како објект и се заклучува од податоците од тестот.
А / Б тестирање: Често се користи за анализа на маркетинг кампањи, како и за дизајн на услуги (веб-страници, мобилни апликации итн.).
Врз основа на компанијата или операциите, се користат статистички пристапи за анализа на резултатите од A/B тестирањето за да се одлучи кој модел ќе има подобри резултати во производството. Обично, A/B тестирањето се прави на следниов начин:
- Податоците во живо или во реално време се поделени или сегментирани во две групи, множество А и множество Б.
- Податоците од множеството А се испраќаат до застарениот модел, додека податоците од множеството Б се испраќаат до ажурираниот модел.
- Во зависност од случајот или процесите на деловна употреба, може да се користат неколку статистички пристапи за да се оценат перформансите на моделот (на пример, точност, прецизност, итн.) за да се утврди дали новиот модел (модел Б) го надминува стариот модел (модел А).
- Потоа правиме тестирање на статистичка хипотеза: Нултата хипотеза вели дека новиот модел нема ефект врз просечната вредност на деловните показатели што се следат. Според алтернативната хипотеза, новиот модел ја зголемува просечната вредност на мониторинг деловните индикатори.
- Конечно, проценуваме дали новиот модел резултира со значително подобрување на одредени деловни KPI.
Тест во сенка или фаза: Моделот се оценува во дупликат од производствената средина пред да се користи во производството (околина за поставување на сцена).
Ова е клучно за одредување на перформансите на моделот со податоци во реално време и потврдување на еластичноста на моделот. се врши со заклучување на истите податоци како и производниот цевковод и доставување на развиената гранка или модел што треба да се тестира на сервер за поставување.
Единствениот недостаток е тоа што нема да се направат деловни избори на серверот за поставување или видливи за крајните корисници како резултат на развојната гранка.
Отпорноста и перформансите на моделот ќе бидат статистички оценети користејќи ги резултатите од опкружувањето на сцената користејќи ги соодветните метрики.
11. Што ја разликува процесната обработка од сериската обработка?
Можеме да манипулираме со карактеристиките што ги користиме за да ги произведеме нашите прогнози во реално време користејќи два методи на обработка: серија и пренос.
Сериски процес карактеристики од претходна временска точка за одреден објект, кој потоа се користи за генерирање на предвидувања во реално време.
- Овде, можеме да правиме интензивни пресметки на карактеристики офлајн и да ги подготвиме податоците за брзо заклучување.
- Карактеристики, сепак, возраст, бидејќи тие биле предодредени во минатото. Ова може да биде голем недостаток ако вашата прогноза се заснова на неодамнешни појави. (На пример, идентификување на лажни трансакции штом е изводливо.)
Со карактеристиките за стриминг речиси во реално време за одреден ентитет, заклучокот се изведува при обработка на стримови на даден сет на влезови.
- Овде, давајќи му на моделот карактеристики во реално време, стриминг, можеме да добиеме попрецизни предвидувања.
- Меѓутоа, потребна е дополнителна инфраструктура за обработка на стримови и за одржување на потоци на податоци (Кафка, Кинезис, итн.). (Apache Flink, Beam, итн.)
12. Што мислите под обуки за сервирање искривени?
Разликата помеѓу перформансите при сервирање и перформансите за време на тренингот е позната како искривување на сервирање на обука. Ова искривување може да биде предизвикано од следниве фактори:
- Разлика во начинот на кој ракувате со податоците помеѓу цевководите за сервисирање и обука.
- Преместување на податоците од вашата обука до вашата услуга.
- Канал за повратни информации помеѓу вашиот алгоритам и моделот.
13. Што подразбираш под Регистар на модели?
Регистарот на модели е централно складиште каде креаторите на модели можат да објавуваат модели кои се погодни за употреба во производството.
Програмерите можат да соработуваат со други тимови и засегнати страни за да управуваат со животниот век на сите модели во бизнисот користејќи го регистарот. Обучените модели може да се прикачат во регистарот на модели од страна на научник за податоци.
Моделите се подготвени за тестирање, валидација и распоредување во производство откако ќе бидат во регистарот. Дополнително, обучените модели се складираат во регистрите на модели за брз пристап од која било интегрирана апликација или услуга.
Со цел да се тестира, процени и распореди моделот во производство, развивачи на софтвер а рецензентите можат брзо да ја препознаат и да ја изберат само најдобрата верзија на обучените модели (врз основа на критериумите за оценување).
14. Можете ли да елаборирате за придобивките од Модел Регистар?
Следниве се неколку начини на кои регистарот на модели го рационализира управувањето со животниот циклус на моделот:
- За да го олесните распоредувањето, зачувајте ги барањата за време на траење и метаподатоците за вашите обучени модели.
- Вашите обучени, распоредени и пензионирани модели треба да се регистрираат, следат и верзираат во централизирано складиште што може да се пребарува.
- Создадете автоматизирани цевководи кои овозможуваат континуирана испорака, обука и интеграција на вашиот производствен модел.
- Споредете ги новообучените модели (или модели на предизвикувачи) во опкружувањето на сцената со моделите што моментално работат во производство (шампионски модели).
15. Можете ли да ги објасните работите на техниката Шампион-Челинџер?
Можно е да се тестираат различни оперативни одлуки во производството користејќи ја техниката Champion Challenger. Веројатно сте слушнале за A/B тестирање во контекст на маркетингот.
На пример, може да напишете две различни линии на тема и да ги дистрибуирате по случаен избор до вашата целна демографска слика со цел да ја максимизирате отворената стапка за кампања за е-пошта.
Системот ги евидентира перформансите на е-поштата (т.е. акција за отворена е-пошта) во однос на нејзината тема, што ви овозможува да ја споредите стапката на отвореност на секоја тема за да одредите која е најефективната.
Champion-Challenger е споредлив со A/B тестирањето во овој поглед. Можете да ја користите логиката на одлучување за да го оцените секој исход и да го изберете најефективниот додека експериментирате со различни методи за да дојдете до избор.
Најуспешниот модел е во корелација со шампионот. Првиот предизвикувач и соодветната листа на предизвикувачи сега се се што е присутно во првата фаза на извршување наместо шампионот.
Шампионот го избира системот за понатамошни чекори за работа.
Предизвикувачите се во контраст еден со друг. Новиот шампион потоа го одредува предизвикувачот кој дава најголеми резултати.
Задачите вклучени во процесот на споредување шампион-предизвикувач се наведени подолу подетално:
- Оценување на секој од ривалските модели.
- Оценување на конечните резултати.
- Споредување на резултатите од евалуацијата за да се утврди победничкиот предизвикувач.
- Додавање на свежиот шампион во архивата
16. Опишете ги апликациите на ниво на претпријатие на животниот циклус на MLOps?
Треба да престанеме да го разгледуваме машинското учење само како итеративен експеримент со цел моделите за машинско учење да влезат во производство. MLOps е сојуз на софтверско инженерство со машинско учење.
Готовиот резултат треба да се замисли како таков. Затоа, кодот за технолошки производ треба да биде тестиран, функционален и модуларен.
MLOps има животен век што е споредлив со конвенционален тек на машинско учење, со исклучок што моделот се задржува во процесот до производството.
Инженерите на MLOps потоа внимаваат на ова за да се уверат дека квалитетот на моделот во производството е она што е наменето.
Еве неколку случаи на употреба за неколку технологии MLOps:
- Регистри на модели: Тоа е она што изгледа дека е. Поголемите тимови складираат и одржуваат евиденција на моделите на верзии во регистрите на модели. Дури и враќањето на претходната верзија е опција.
- Продавница на функции: Кога се работи со поголеми збирки податоци, може да има различни верзии на аналитичките збирки на податоци и подмножества за одредени задачи. Продавницата за функции е најсовремен, вкусен начин да се користи работата за подготовка на податоци од претходните работи или од други тимови.
- Складирање на метаподатоци: од клучно значење е правилно да се следат метаподатоците во текот на производството, доколку неструктурираните податоци, како што се податоците за слика и текст, треба успешно да се користат.
Заклучок
Од клучно значење е да се има на ум дека, во повеќето случаи, интервјуерот бара систем, додека кандидатот бара решение.
Првиот се заснова на вашите технички вештини, додека вториот е за методот што го користите за да ја покажете вашата компетентност.
Постојат неколку процедури што треба да ги преземете кога одговарате на прашањата за интервју на MLOps за да му помогнете на интервјуерот подобро да разбере како имате намера да го процените и да го решите проблемот што е при рака.
Нивната концентрација е повеќе на неточната реакција отколку на вистинската. Решението кажува приказна, а вашиот систем е најдобрата илустрација за вашето знаење и капацитет за комуникација.
Оставете Одговор