Obsah[Skrýt][Ukázat]
- 1. Co myslíš tím MLOps?
- 2. Jak se liší datoví vědci, datoví inženýři a ML inženýři?
- 3. Co odlišuje MLOps od ModelOps a AIOps?
- 4. Můžete mi říci některé výhody MLOps?
- 5. Můžete mi říct součásti MLOps?
- 6. Jaká rizika přináší používání datové vědy?
- 7. Můžete vysvětlit, co je to model drift?
- 8. Kolika různými způsoby lze podle vašeho názoru použít MLO?
- 9. Co odlišuje statické nasazení od dynamického nasazení?
- 10. Jaké techniky produkčního testování znáte?
- 11. Co odlišuje proudové zpracování od dávkového zpracování?
- 12. Co myslíš tím Training Serving Skew?
- 13. Co rozumíte pod pojmem Registr modelů?
- 14. Můžete přiblížit výhody registru modelů?
- 15. Můžete vysvětlit, jak funguje technika Champion-Challenger?
- 16. Popište podnikové aplikace životního cyklu MLOps?
- Proč investovat do čističky vzduchu?
Společnosti častěji využívají nové technologie, jako je umělá inteligence (AI) a strojové učení (ML), aby zvýšily dostupnost informací a služeb pro veřejnost.
Tyto technologie se stále více používají v různých odvětvích, včetně bankovnictví, financí, maloobchodu, výroby a dokonce i zdravotnictví.
Datoví vědci, inženýři strojového učení a inženýři v oblasti umělé inteligence jsou žádáni stále větším počtem společností.
Poznání možného strojové učení Otázky provozního pohovoru, které by vám mohli položit náboroví manažeři a náboráři, jsou zásadní, pokud chcete pracovat v oblasti ML nebo MLOps.
V tomto příspěvku se můžete naučit, jak odpovědět na některé otázky na pohovoru MLOps, když pracujete na získání vysněné práce.
1. Co myslíš tím MLOps?
Téma operacionalizace modelů ML je středem zájmu MLOps, také známých jako Machine Learning Operations, což je rozvíjející se oblast v rámci významnější arény AI/DS/ML.
Hlavním cílem přístupu a kultury softwarového inženýrství známé jako MLOps je integrovat vytváření modelů strojového učení/data science a jejich následnou operacionalizaci (Ops).
Konvenční DevOps a MLOps sdílejí určité podobnosti, nicméně MLO se také značně liší od tradičních DevOps.
MLOps přidává novou vrstvu složitosti tím, že se zaměřuje na data, zatímco DevOps se primárně zaměřuje na operacionalizaci kódu a vydání softwaru, která nemohou být stavová.
Kombinace ML, Data a Ops je to, co dává MLOps jeho společný název (strojové učení, datové inženýrství a DevOps).
2. Jak se liší datoví vědci, datoví inženýři a ML inženýři?
Podle mě se to liší v závislosti na firmě. Prostředí pro přenos a transformaci dat, stejně jako jejich ukládání, vytvářejí datoví inženýři.
Datoví vědci jsou odborníci na využívání vědeckých a statistických technik k analýze dat a vyvozování závěrů, včetně předpovědí budoucího chování na základě trendů, které jsou nyní na místě.
Softwaroví inženýři před několika lety studovali provoz a spravovali infrastrukturu nasazení. Operační týmy na druhé straně studovaly vývoj a přitom využívaly infrastrukturu jako kód. Tyto dva streamy vytvořily pozici DevOps.
MLOps je ve stejné kategorii jako Datový vědec a datový inženýr. Datoví inženýři získávají znalosti o infrastruktuře potřebné k podpoře životních cyklů modelů a vytváření kanálů pro průběžná školení.
Datoví vědci se snaží vyvinout možnosti nasazení svých modelů a hodnocení.
Inženýři ML vytvářejí datový kanál na produkční úrovni, který využívá infrastrukturu, která transformuje nezpracovaná data na vstup potřebný pro model datové vědy, hostí a provozuje model a odesílá skórovanou datovou sadu do navazujících systémů.
Jak datoví inženýři, tak datoví vědci se mohou stát inženýry ML.
3. Co odlišuje MLOps od ModelOps a AIOps?
Při konstrukci end-to-end algoritmy strojového učení, MLOps je aplikace DevOps, která zahrnuje sběr dat, předběžné zpracování dat, tvorbu modelu, nasazení modelu ve výrobě, monitorování modelu ve výrobě a periodický upgrade modelu.
Použití DevOps při zpracování celé implementace jakýchkoli algoritmů, jako jsou modely založené na pravidlech, je známé jako ModelOps.
AI Ops využívá principy DevOps k vytváření aplikací AI od začátku.
4. Můžete mi říci některé výhody MLOps?
- Datoví vědci a vývojáři MLOps mohou rychle opakovat zkoušky, aby zajistili, že modely jsou řádně vyškoleny a hodnoceny, protože MLOps pomáhá automatizovat všechny nebo většinu úkolů/kroků v MDLC (životní cyklus vývoje modelu). Navíc povolení verzování dat a modelů.
- Uvedení nápadů MLOps do praxe umožňuje datovým inženýrům a datovým vědcům neomezený přístup ke kultivovaným a spravovaným datovým sadám, což exponenciálně urychluje vývoj modelů.
- Datoví vědci se budou moci opřít o model, který fungoval lépe, pokud současná iterace nesplní očekávání, díky možnosti mít modely a datové sady verzovány, což výrazně posílí auditní záznam modelu.
- Protože metody MLOps silně spoléhají na DevOps, zahrnují také řadu konceptů CI/CD, což zlepšuje kvalitu a spolehlivost kódu.
5. Můžete mi říct součásti MLOps?
Design: MLO do značné míry zahrnují designové myšlení. Počínaje povahou problému, testováním hypotéz, architekturou a nasazením
Vytváření modelu: Testování a ověřování modelů je součástí tohoto kroku, spolu s kanály datového inženýrství a experimentováním k nastavení nejlepších systémů strojového učení.
operace: Model musí být implementován jako součást operací a neustále kontrolován a vyhodnocován. Procesy CI/CD jsou poté monitorovány a spuštěny pomocí nástroje pro orchestraci.
6. Jaká rizika přináší používání datové vědy?
- Je obtížné škálovat model napříč společností.
- Bez varování se model vypne a přestane fungovat.
- Přesnost modelů se většinou časem zhoršuje.
- Model vytváří nepřesné předpovědi na základě konkrétního pozorování, které nelze dále zkoumat.
- Data vědci by také měli udržovat modely, ale jsou drahé.
- MLOps lze použít ke snížení těchto rizik.
7. Můžete vysvětlit, co je to model drift?
Když se výkon inferenční fáze modelu (pomocí reálných dat) zhorší oproti výkonu trénovací fáze, nazývá se to posun modelu, také známý jako posun nápadů (používá se historická, označená data).
Výkon modelu je zkreslený ve srovnání s tréninkovou a servírovací fází, odtud název „trénovat/servírovat skew“.
Řada faktorů, včetně:
- Základní způsob distribuce dat se změnil.
- Školení bylo zaměřeno na malý počet kategorií, nicméně právě nastalý ekologický posun přidal další oblast.
- V obtížích NLP mají reálná data neúměrně větší množství číselných žetonů než trénovací data.
- Neočekávané události, jako je model založený na datech před COVID, u kterých se předpokládá, že budou mít výrazně horší výsledky na datech shromážděných během epidemie COVID-19.
K identifikaci driftu modelu je vždy nutné neustále sledovat výkon modelu.
Rekvalifikace modelu je téměř vždy nutná jako náprava, když dochází k trvalému poklesu výkonnosti modelu; musí být zjištěn důvod poklesu a musí být použity vhodné léčebné postupy.
8. Kolika různými způsoby lze podle vašeho názoru použít MLO?
Existují tři způsoby, jak uvést MLO do praxe:
MLOps úroveň 0 (ruční proces): Na této úrovni se všechny kroky – včetně přípravy dat, analýzy a školení – provádějí ručně. Každá fáze musí být provedena ručně, stejně jako přechod z jedné do druhé.
Základním předpokladem je, že váš tým pro vědu o datech spravuje pouze malý počet modelů, které se často neaktualizují.
Výsledkem je, že neexistuje nepřetržitá integrace (CI) ani nepřetržité zavádění (CD) a testování kódu je obvykle integrováno do spouštění skriptů nebo notebooků, přičemž nasazení probíhá v mikroslužbě s REST API.
MLOps úroveň 1 (automatizace ML potrubí): Automatizací procesu ML je cílem neustále trénovat model (CT). Tímto způsobem můžete dosáhnout poskytování služby predikce kontinuálního modelu.
Naše nasazení celého tréninkového kanálu zajišťuje, že model je automaticky trénován ve výrobě s využitím nových dat na základě aktivních spouštěčů kanálu.
MLOps úroveň 2 (automatizace potrubí CI/CD): Jde o jeden krok nad úroveň MLOps. Pokud chcete rychle a spolehlivě aktualizovat potrubí ve výrobě, je vyžadován silný automatizovaný systém CI/CD:
- Vytvoříte zdrojový kód a provedete četné testy ve fázi CI. Balíčky, spustitelné soubory a artefakty jsou výstupy scény, které budou nasazeny později.
- Artefakty vytvořené fází CI jsou nasazeny do cílového prostředí během kroku CD. Výstupem etapy je nasazený kanál s revidovanou implementací modelu.
- Než potrubí zahájí novou iteraci experimentu, musí datoví vědci stále provést fázi analýzy dat a modelu ručně.
9. Co odlišuje statické nasazení od dynamického nasazení?
Model je trénován offline pro Statické nasazení. Jinými slovy, model trénujeme přesně jednou a poté jej nějakou dobu používáme. Poté, co byl model lokálně trénován, je uložen a odeslán na server, aby byl použit k vytváření předpovědí v reálném čase.
Model je poté distribuován jako instalovatelný aplikační software. program, který například umožňuje dávkové vyhodnocování požadavků.
Model je trénován online pro Dynamické nasazení. To znamená, že do systému jsou neustále přidávána nová data a model je průběžně aktualizován, aby s nimi zohlednil.
V důsledku toho můžete provádět předpovědi pomocí serveru na vyžádání. Poté je model uveden do provozu tím, že je dodáván jako koncový bod API, který reaguje na dotazy uživatelů pomocí webového rámce, jako je Baňka nebo FastAPI.
10. Jaké techniky produkčního testování znáte?
Dávkové testování: Provedením testování v jiném prostředí, než je jeho školicí prostředí, ověří model. Pomocí zvolených metrik, jako je přesnost, RMSE atd., se provádí dávkové testování na skupině vzorků dat, aby se ověřilo odvození modelu.
Dávkové testování lze provádět na různých počítačových platformách, jako je testovací server, vzdálený server nebo cloud. Typicky je model poskytován jako serializovaný soubor, který je načten jako objekt a odvozen z testovacích dat.
A / B testování: Často se používá pro analýzu marketingových kampaní i pro návrh služeb (webové stránky, mobilní aplikace atd.).
Na základě společnosti nebo operací se k analýze výsledků A/B testování používají statistické přístupy, aby se rozhodlo, který model bude fungovat lépe ve výrobě. Obvykle se A/B testování provádí následujícím způsobem:
- Živá data nebo data v reálném čase jsou rozdělena nebo segmentována do dvou sad, sady A a sady B.
- Data sady A jsou odesílána do zastaralého modelu, zatímco data sady B jsou odesílána do aktualizovaného modelu.
- V závislosti na případu obchodního použití nebo procesech lze použít několik statistických přístupů k vyhodnocení výkonnosti modelu (například přesnost, preciznost atd.), aby se zjistilo, zda nový model (model B) překonává starý model (model A).
- Následně provedeme testování statistických hypotéz: Nulová hypotéza říká, že nový model nemá žádný vliv na průměrnou hodnotu sledovaných obchodních ukazatelů. Podle alternativní hypotézy nový model zvyšuje průměrnou hodnotu monitorovacích podnikových ukazatelů.
- Nakonec posoudíme, zda nový model vede k významnému zlepšení určitých obchodních KPI.
Stínový nebo jevištní test: Model je před použitím v produkčním prostředí vyhodnocen v duplikátu produkčního prostředí (představovací prostředí).
To je zásadní pro určení výkonu modelu s daty v reálném čase a ověření odolnosti modelu. se provádí odvozením stejných dat jako produkční kanál a dodáním vyvinuté větve nebo modelu k testování na staging serveru.
Jedinou nevýhodou je, že v důsledku vývojové větve nebudou prováděny žádné obchodní volby na předváděcím serveru ani viditelné pro koncové uživatele.
Odolnost a výkonnost modelu bude posouzena statisticky pomocí výsledků pracovního prostředí pomocí vhodných metrik.
11. Co odlišuje proudové zpracování od dávkového zpracování?
Můžeme manipulovat s charakteristikami, které využíváme k vytváření našich předpovědí v reálném čase, pomocí dvou metod zpracování: dávkové a streamované.
Dávkový proces funkce z předchozího bodu v čase pro konkrétní objekt, který se pak využívá ke generování předpovědí v reálném čase.
- Zde jsme schopni provádět intenzivní výpočty funkcí offline a mít data připravená pro rychlé odvození.
- Funkce však věk, protože byly předurčeny v minulosti. To může být hlavní nevýhodou, pokud je vaše prognóza založena na nedávných událostech. (Například identifikace podvodných transakcí, jakmile to bude možné.)
Díky funkcím streamování v téměř reálném čase pro konkrétní entitu se usuzování provádí při zpracování toku na dané sadě vstupů.
- Tím, že modelu poskytneme funkce streamování v reálném čase, můžeme získat přesnější předpovědi.
- Pro zpracování datových proudů a údržbu datových proudů je však nutná další infrastruktura (Kafka, Kinesis atd.). (Apache Flink, Beam atd.)
12. Co myslíš tím Training Serving Skew?
Nepoměr mezi výkonem při podání a výkonem při tréninku je známý jako zkreslení při podávání. Toto zkreslení může být způsobeno následujícími faktory:
- Rozdíl v tom, jak nakládáte s daty mezi kanály pro poskytování a školení.
- Posun v datech z vašeho školení k vašim službám.
- Kanál zpětné vazby mezi vaším algoritmem a modelem.
13. Co rozumíte pod pojmem Registr modelů?
Registr modelů je centrální úložiště, kde mohou tvůrci modelů publikovat modely, které jsou vhodné pro použití ve výrobě.
Vývojáři mohou spolupracovat s dalšími týmy a zúčastněnými stranami na správě životnosti všech modelů v podniku pomocí registru. Vycvičené modely může datový vědec nahrát do registru modelů.
Jakmile jsou modely v registru, jsou připraveny k testování, ověřování a nasazení do výroby. Kromě toho jsou trénované modely uloženy v registrech modelů pro rychlý přístup z jakékoli integrované aplikace nebo služby.
Aby bylo možné otestovat, vyhodnotit a nasadit model do výroby, vývojáři softwaru a recenzenti mohou rychle rozpoznat a vybrat právě tu nejlepší verzi školených modelů (na základě hodnotících kritérií).
14. Můžete přiblížit výhody registru modelů?
Níže jsou uvedeny některé způsoby, jak modelový registr zjednodušuje správu životního cyklu modelu:
- Chcete-li nasazení usnadnit, uložte požadavky na běhové prostředí a metadata pro vaše trénované modely.
- Vaše vyškolené, nasazené a vyřazené modely by měly být registrovány, sledovány a verzovány v centralizovaném úložišti s možností vyhledávání.
- Vytvářejte automatizované kanály, které umožňují nepřetržité dodávání, školení a integraci vašeho produkčního modelu.
- Porovnejte nově trénované modely (nebo modely vyzyvatele) v pracovním prostředí s modely, které aktuálně fungují ve výrobě (šampionské modely).
15. Můžete vysvětlit, jak funguje technika Champion-Challenger?
Pomocí techniky Champion Challenger je možné testovat různá provozní rozhodnutí ve výrobě. Pravděpodobně jste slyšeli o A/B testování v kontextu marketingu.
Můžete například napsat dva různé řádky předmětu a náhodně je distribuovat do cílové skupiny, abyste maximalizovali míru otevření e-mailové kampaně.
Systém zaznamenává výkon e-mailu (tj. akci otevření e-mailu) ve vztahu k jeho předmětu, což vám umožňuje porovnat míru otevření každého řádku předmětu a určit, který z nich je nejúčinnější.
Champion-Challenger je v tomto ohledu srovnatelný s A/B testováním. Můžete použít rozhodovací logiku k vyhodnocení každého výsledku a vybrat ten nejúčinnější, když budete experimentovat s různými metodami, abyste došli k volbě.
Nejúspěšnější model koreluje s šampionem. První vyzyvatel a odpovídající seznam vyzyvatelů jsou nyní vše, co je přítomno v první fázi provádění namísto šampiona.
Šampion je vybrán systémem pro provedení dalších pracovních kroků.
Vyzyvatelé jsou navzájem kontrastováni. Nového šampiona pak určí vyzyvatel, který produkuje největší výsledky.
Úkoly zahrnuté v procesu srovnání šampiona a vyzývatele jsou podrobněji uvedeny níže:
- Hodnocení každého ze soupeřících modelů.
- Hodnocení konečných skóre.
- Porovnání výsledků hodnocení k určení vítězného vyzyvatele.
- Přidávání čerstvého šampiona do archivu
16. Popište podnikové aplikace životního cyklu MLOps?
Musíme přestat považovat strojové učení pouze za iterativní experiment, aby se modely strojového učení dostaly do výroby. MLOps je spojením softwarového inženýrství se strojovým učením.
Konečný výsledek je třeba si takto představit. Proto musí být kód technologického produktu otestován, funkční a modulární.
MLOps má životnost, která je srovnatelná s konvenčním tokem strojového učení, s tou výjimkou, že model je udržován v procesu až do výroby.
Inženýři MLOps pak na to dohlížejí, aby se ujistili, že kvalita modelu ve výrobě je taková, jaká je zamýšlena.
Zde jsou některé případy použití pro několik technologií MLOps:
- Registry modelů: Je to, co se zdá být. Větší týmy ukládají a udržují přehled o modelech verzí v registrech modelů. Možností je i návrat k předchozí verzi.
- Úložiště funkcí: Při práci s většími datovými sadami mohou existovat různé verze analytických datových sad a podmnožin pro konkrétní úkoly. Obchod funkcí je špičkový a vkusný způsob, jak využít práci s přípravou dat z dřívějších běhů nebo také z jiných týmů.
- Úložiště metadat: Mají-li se úspěšně používat nestrukturovaná data, jako jsou obrazová a textová data, je důležité správně sledovat metadata v průběhu výroby.
Proč investovat do čističky vzduchu?
Je důležité mít na paměti, že ve většině případů tazatel hledá systém, zatímco kandidát hledá řešení.
První je založen na vašich technických dovednostech, zatímco druhý je o metodě, kterou používáte k prokázání své schopnosti.
Existuje několik postupů, které byste měli použít, když odpovídáte na otázky pohovoru MLOps, abyste pomohli tazateli lépe porozumět tomu, jak hodláte posuzovat a řešit daný problém.
Jejich koncentrace je spíše na nesprávnou reakci než na správnou. Řešení vypráví příběh a váš systém je nejlepší ilustrací vašich znalostí a schopnosti komunikace.
Napsat komentář