Tartalomjegyzék[Elrejt][Előadás]
- 1. Mit értesz MLOps alatt?
- 2. Miben különböznek egymástól az adattudósok, adatmérnökök és ML mérnökök?
- 3. Mi különbözteti meg az MLOp-okat a ModelOps-tól és az AIOp-tól?
- 4. Mondana néhány előnyt az MLOps-ról?
- 5. Meg tudná mondani az MLOps összetevőit?
- 6. Milyen kockázatokkal jár az adattudomány használata?
- 7. Meg tudná magyarázni, mi az a modellsodródás?
- 8. Véleménye szerint hányféleképpen alkalmazhatók az MLOp-k?
- 9. Mi különbözteti meg a statikus telepítést a dinamikus telepítéstől?
- 10. Milyen gyártási tesztelési technikákat ismer?
- 11. Mi különbözteti meg az adatfolyam-feldolgozást a kötegelt feldolgozástól?
- 12. Mit értesz a ferdítés képzése alatt?
- 13. Mit értesz Model Registry alatt?
- 14. Kifejtené részletesebben a Model Registry előnyeit?
- 15. El tudod magyarázni a Champion-Challenger technika működését?
- 16. Ismertesse az MLOps életciklusának vállalati szintű alkalmazásait?
- Következtetés
A vállalatok gyakrabban használnak feltörekvő technológiákat, mint például a mesterséges intelligenciát (AI) és a gépi tanulást (ML), hogy növeljék a nyilvánosság hozzáférését az információkhoz és szolgáltatásokhoz.
Ezeket a technológiákat egyre gyakrabban használják számos ágazatban, beleértve a banki, pénzügyi, kiskereskedelmi, gyártási és még egészségügyi ágazatokat is.
Egyre több vállalat keresi az adattudósokat, a gépi tanulási mérnököket és a mesterséges intelligencia mérnökeit.
A lehetséges ismeretében gépi tanulás Az operatív interjú kérdései, amelyeket a menedzserek és a toborzók feltehetnek Önnek, elengedhetetlenek, ha ML vagy MLOps területen szeretne dolgozni.
Ebben a bejegyzésben megtudhatja, hogyan válaszoljon az MLOps interjú néhány kérdésére, miközben álmai állása megszerzésén dolgozik.
1. Mit értesz MLOps alatt?
Az ML-modellek operacionalizálásának témája az MLOp-k, más néven Machine Learning Operations (Gépi tanulási műveletek) középpontjában áll, amely egy fejlődő terület a nagyobb AI/DS/ML arénában.
Az MLOps néven ismert szoftvermérnöki megközelítés és kultúra fő célja a gépi tanulási/adattudományi modellek létrehozásának és azok későbbi operacionalizálásának (Ops) integrálása.
A hagyományos DevOp-ok és MLO-k bizonyos hasonlóságokat mutatnak, azonban az MLO-k is nagyban különböznek a hagyományos DevOp-októl.
Az MLOps új összetettségi réteget ad az adatokra összpontosítva, míg a DevOps elsősorban a kód- és szoftverkiadások operacionalizálására összpontosít, amelyek nem lehetnek állapottartók.
Az ML, Data és Ops kombinációja adja az MLOps közös nevét (gépi tanulás, adattervezés és DevOps).
2. Miben különböznek egymástól az adattudósok, adatmérnökök és ML mérnökök?
Véleményem szerint cégtől függően változik. Az adatok szállításának, átalakításának, valamint tárolásának környezetét adatmérnökök építik fel.
Az adattudósok szakértők a tudományos és statisztikai technikák alkalmazásában az adatok elemzésére és következtetések levonására, beleértve a jövőbeli viselkedésre vonatkozó előrejelzéseket a jelenlegi trendek alapján.
A szoftvermérnökök néhány évvel ezelőtt a műveleteket és a telepítési infrastruktúra kezelését tanulmányozták. Az operatív csapatok viszont a fejlesztést tanulmányozták, miközben az infrastruktúrát kódként használták. Ez a két adatfolyam egy DevOps pozíciót hozott létre.
Az MLOps ugyanabba a kategóriába tartozik, mint Adat tudós és adatmérnök. Az adatmérnökök ismereteket szereznek a modell-életciklusok támogatásához szükséges infrastruktúráról és a folyamatos képzéshez szükséges csővezetékek létrehozásáról.
Az adattudósok igyekeznek fejleszteni modellbevezetési és pontozási képességeiket.
A termelési szintű adatfolyamot az ML mérnökei építik fel az infrastruktúra felhasználásával, amely a nyers adatokat egy adattudományi modellhez szükséges bemenetté alakítja, tárolja és futtatja a modellt, és egy pontozott adatkészletet ad ki a downstream rendszereknek.
Mind az adatmérnökök, mind az adattudósok képesek ML mérnökökké válni.
3. Mi különbözteti meg az MLOp-okat a ModelOps-tól és az AIOp-tól?
Végpontok közötti építéskor gépi tanulási algoritmusok, Az MLOps egy DevOps-alkalmazás, amely magában foglalja az adatgyűjtést, az adatok előfeldolgozását, a modellkészítést, a modell üzembe helyezését az éles környezetben, a modellfigyelést az éles környezetben és a modell időszakos frissítését.
A DevOps használata bármely algoritmus, például szabályalapú modellek teljes megvalósításának kezelésére ModelOps néven ismert.
AIOps kihasználja a DevOps elveit, hogy mesterséges intelligencia alkalmazásokat készítsen a semmiből.
4. Mondana néhány előnyt az MLOps-ról?
- Az adattudósok és az MLOps-fejlesztők gyorsan újrafuttathatják a kísérleteket, hogy biztosítsák a modellek megfelelő képzését és értékelését, mivel az MLOps segít automatizálni az MDLC-ben (modellfejlesztési életciklus) az összes vagy legtöbb feladatot/lépést. Ezen felül engedélyek adatok és modell verziószámítás.
- Az MLOps ötletek gyakorlatba ültetése lehetővé teszi az adatmérnökök és adattudósok számára, hogy korlátlanul hozzáférjenek a művelt és összegyűjtött adatkészletekhez, ami exponenciálisan felgyorsítja a modellek fejlesztését.
- Ha a jelenlegi iteráció nem váltja be a hozzá fűzött reményeket, az adattudósok vissza tudnak dőlni a jobban teljesítő modellhez, köszönhetően a modellek és adatkészletek verziószámának, ami jelentősen javítja a modell ellenőrzési nyomvonalát.
- Mivel az MLOps módszerek erősen támaszkodnak a DevOps-ra, számos CI/CD koncepciót is tartalmaznak, ami javítja a a kód minősége és megbízhatósága.
5. Meg tudná mondani az MLOps összetevőit?
Design: Az MLO-k nagymértékben tartalmazzák a tervezési gondolkodást. Kezdve a probléma természetével, a hipotézisek tesztelésével, az architektúrával és a telepítéssel
Modellépület: Ennek a lépésnek a részét képezi a modelltesztelés és az érvényesítés, valamint az adatmérnöki folyamatok és a legjobb gépi tanulási rendszerek beállítására irányuló kísérletezés.
Művelet: A modellt a műveletek részeként kell megvalósítani, és folyamatosan ellenőrizni és értékelni kell. A CI/CD folyamatokat ezután figyelik, és egy hangszerelési eszköz segítségével elindítják.
6. Milyen kockázatokkal jár az adattudomány használata?
- Nehéz átméretezni a modellt a vállalaton belül.
- Figyelmeztetés nélkül a modell leáll és leáll.
- Leggyakrabban a modellek pontossága idővel romlik.
- A modell egy konkrét megfigyelés alapján pontatlan előrejelzéseket ad, amelyeket nem lehet tovább vizsgálni.
- Az adattudósoknak modelleket is fenn kellene tartaniuk, de ezek drágák.
- Az MLOp-ok felhasználhatók ezen kockázatok csökkentésére.
7. Meg tudná magyarázni, mi az a modellsodródás?
Amikor egy modell következtetési fázisának teljesítménye (valós adatok felhasználásával) leromlik a betanítási fázis teljesítményéhez képest, ezt modellsodródásnak, más néven ötletsodródásnak nevezik (előzményes, címkézett adatok felhasználásával).
A modell teljesítménye ferde a betanítási és kiszolgálási fázishoz képest, innen ered a „kiképzés/kiszolgálás ferde” elnevezése.
Számos tényező, többek között:
- Az adatok elosztásának alapvető módja megváltozott.
- A képzés kis számú kategóriára összpontosított, azonban egy most lezajlott környezeti változás újabb területet adott.
- Az NLP nehézségei esetén a valós adatok aránytalanul nagyobb számjegyekkel rendelkeznek, mint a betanítási adatok.
- Váratlan események, például a COVID előtti adatokra épülő modell, amely az előrejelzések szerint lényegesen rosszabbul teljesít a COVID-19 járvány során gyűjtött adatokon.
A modell teljesítményének folyamatos nyomon követése mindig szükséges a modelleltolódás azonosításához.
A modell-átképzés szinte mindig szükséges orvosságként, ha a modell teljesítménye tartósan csökken; azonosítani kell a visszaesés okát, és megfelelő kezelési eljárásokat kell alkalmazni.
8. Véleménye szerint hányféleképpen alkalmazhatók az MLOp-k?
Három módszer létezik az MLO-k gyakorlati megvalósítására:
MLOps 0. szint (kézi folyamat): Ezen a szinten minden lépés – beleértve az adat-előkészítést, az elemzést és a betanítást – manuálisan történik. Minden szakaszt kézzel kell végrehajtani, valamint az egyikről a másikra való átmenetet.
Az alapfeltevés az, hogy az adattudományi csoport csak kevés olyan modellt kezel, amelyeket nem frissítenek gyakran.
Ennek eredményeként nincs folyamatos integráció (CI) vagy folyamatos üzembe helyezés (CD), és a kód tesztelése jellemzően a szkript- vagy notebook-végrehajtásba integrálva történik, és a telepítés egy mikroszolgáltatásban történik REST API.
MLOps 1. szint (az ML folyamat automatizálása): Az ML folyamat automatizálásával a cél a modell (CT) folyamatos betanítása. Folyamatos modellelőrejelzési szolgáltatást valósíthat meg ilyen módon.
Egy teljes képzési folyamat bevezetése biztosítja, hogy a modell automatikusan betanításra kerüljön a termelésben az aktív folyamatindítókon alapuló új adatok felhasználásával.
MLOps 2. szint (a CI/CD folyamat automatizálása): Egy lépéssel az MLOps szintje fölé megy. Erős automatizált CI/CD rendszerre van szükség, ha gyorsan és megbízhatóan szeretné frissíteni a gyártási folyamatokat:
- Ön létrehozza a forráskódot, és számos tesztet hajt végre a CI szakasz során. A csomagok, végrehajtható fájlok és melléktermékek a színpad kimenetei, amelyek egy későbbi időpontban kerülnek telepítésre.
- A CI-szakasz által létrehozott melléktermékek a CD-lépés során kerülnek a célkörnyezetbe. Egy telepített folyamat a felülvizsgált modell megvalósításával a szakasz kimenete.
- Mielőtt a folyamat megkezdi a kísérlet új iterációját, az adattudósoknak továbbra is kézzel kell elvégezniük az adat- és modellelemzési fázist.
9. Mi különbözteti meg a statikus telepítést a dinamikus telepítéstől?
A modell offline módban van kiképezve Statikus telepítés. Vagyis egyszer pontosan betanítjuk a modellt, majd egy ideig hasznosítjuk. A modell helyi betanítása után eltárolja és elküldi a szervernek, hogy valós idejű előrejelzéseket készítsen.
A modell ezután telepíthető alkalmazásszoftverként kerül terjesztésre. egy program, amely lehetővé teszi a kérések kötegelt pontozását, illusztrációként.
A modellt online képezték ki Dinamikus telepítés. Azaz folyamatosan új adatok kerülnek a rendszerbe, és ennek figyelembevételével a modell folyamatosan frissül.
Ennek eredményeként előrejelzéseket készíthet egy szerver segítségével. Ezt követően a modell olyan API-végpontként kerül felhasználásra, amely reagál a felhasználói lekérdezésekre egy webes keretrendszer segítségével, mint pl. Lombik vagy FastAPI.
10. Milyen gyártási tesztelési technikákat ismer?
Kötegelt tesztelés: A tesztelést a képzési környezetétől eltérő környezetben végezve ellenőrzi a modellt. Választható mérőszámok, például pontosság, RMSE stb. használatával a kötegelt tesztelést adatminták csoportján végzik el a modellkövetkeztetés ellenőrzésére.
A kötegelt tesztelés számos számítási platformon elvégezhető, például tesztszerveren, távoli szerveren vagy felhőben. A modellt általában soros fájlként biztosítják, amely objektumként töltődik be, és a tesztadatokból következtet.
A / B tesztelés: Gyakran használják marketingkampányok elemzésére, valamint szolgáltatások tervezésére (weboldalak, mobilalkalmazások stb.).
A vállalat vagy a műveletek alapján statisztikai megközelítéseket alkalmaznak az A/B tesztelés eredményeinek elemzésére, hogy eldöntsék, melyik modell teljesít jobban a termelésben. Az A/B tesztelés általában a következő módon történik:
- Az élő vagy valós idejű adatok két halmazra vannak osztva vagy szegmentálva: A és B készletre.
- Az A készlet adatait az elavult modellre, míg a B készlet adatait a frissített modellre küldi a rendszer.
- Az üzleti felhasználási esettől vagy folyamatoktól függően számos statisztikai megközelítés használható a modell teljesítményének (például pontosság, precizitás stb.) értékelésére annak megállapítására, hogy az új modell (B modell) felülmúlja-e a régi modellt (A modell).
- Ezután statisztikai hipotézis tesztelést végzünk: A nullhipotézis azt mondja, hogy az új modellnek nincs hatása a megfigyelt üzleti mutatók átlagértékére. Az alternatív hipotézis szerint az új modell növeli a monitoring üzleti mutatók átlagértékét.
- Végül felmérjük, hogy az új modell jelentős javulást eredményez-e bizonyos üzleti KPI-kben.
Árnyék vagy színpadi teszt: A modell egy termelési környezet másodpéldányában kerül kiértékelésre, mielőtt az éles környezetben használná (staging környezet).
Ez döntő fontosságú a modell teljesítményének valós idejű adatokkal történő meghatározásához és a modell rugalmasságának érvényesítéséhez. a termelési folyamattal megegyező adatok kikövetkeztetésével és a kifejlesztett ág vagy egy tesztelendő modell állomásozó szerveren történő leszállításával történik.
Az egyetlen hátránya, hogy a fejlesztési ág eredményeként nem hoznak üzleti döntéseket az állomásozószerveren, és nem lesznek láthatók a végfelhasználók számára.
A modell ellenálló képességét és teljesítményét statisztikailag értékeljük az állomásozó környezet eredményeinek felhasználásával, a megfelelő mérőszámok segítségével.
11. Mi különbözteti meg az adatfolyam-feldolgozást a kötegelt feldolgozástól?
Két feldolgozási módszerrel manipulálhatjuk azokat a jellemzőket, amelyeket valós idejű előrejelzéseink elkészítéséhez használunk: kötegelt és adatfolyamként.
Kötegelt folyamat egy adott objektum egy korábbi időpontjából származó funkciókat, amelyeket aztán valós idejű előrejelzések generálására használnak fel.
- Itt képesek vagyunk intenzív jellemzőszámításokat végezni offline, és előkészíteni az adatokat a gyors következtetéshez.
- Jellemzők azonban egy kor, mivel a múltban előre meghatározottak voltak. Ez komoly hátrányt jelenthet, ha a prognózis a közelmúltbeli eseményeken alapul. (Például a csalárd tranzakciók mihamarabbi azonosítása.)
Egy adott entitás közel valós idejű, streaming funkcióival a következtetést az adatfolyam-feldolgozás során hajtják végre egy adott bemeneti készleten.
- Itt valós idejű, streaming funkciókat adva a modellnek pontosabb előrejelzéseket kaphatunk.
- Az adatfolyamok feldolgozásához és az adatfolyamok karbantartásához azonban további infrastruktúra szükséges (Kafka, Kinesis stb.). (Apache Flink, Beam stb.)
12. Mit értesz a ferdítés képzése alatt?
Az edzés közbeni teljesítmény és az edzés közbeni teljesítmény közötti különbséget edzés-kiszolgálás ferdeségnek nevezzük. Ezt a torzulást a következő tényezők idézhetik elő:
- Különbség az adatok kezelésében a kiszolgálási és a betanítási folyamatok között.
- Az adatok eltolódása a képzésről a szolgáltatásra.
- Visszacsatolási csatorna az algoritmus és a modell között.
13. Mit értesz Model Registry alatt?
A Model Registry egy központi adattár, ahol a modellalkotók olyan modelleket tehetnek közzé, amelyek alkalmasak az éles használatra.
A fejlesztők együttműködhetnek más csapatokkal és érdekelt felekkel, hogy a nyilvántartás használatával kezeljék a vállalkozáson belüli összes modell élettartamát. A betanított modelleket adattudós töltheti fel a modellnyilvántartásba.
A modellek fel vannak készítve tesztelésre, érvényesítésre és éles üzembe helyezésre, miután bekerültek a nyilvántartásba. Ezenkívül a betanított modelleket a modell-nyilvántartásokban tárolják, így bármely integrált alkalmazás vagy szolgáltatás gyorsan hozzáférhet.
A modell tesztelése, értékelése és üzembe helyezése érdekében szoftverfejlesztők a lektorok pedig gyorsan felismerhetik és kiválaszthatják a betanított modellek legjobb változatát (az értékelési szempontok alapján).
14. Kifejtené részletesebben a Model Registry előnyeit?
Az alábbiakban bemutatunk néhány módszert, amellyel a rendszerleíró adatbázis modellezése egyszerűsíti a modell életciklus-kezelését:
- A telepítés megkönnyítése érdekében mentse el a betanított modellek futásidejű követelményeit és metaadatait.
- A betanított, telepített és visszavont modelljeit egy központi, kereshető tárhelyen kell regisztrálni, nyomon követni és verziókat készíteni.
- Hozzon létre automatizált folyamatokat, amelyek lehetővé teszik a termelési modell folyamatos szállítását, képzését és integrációját.
- Hasonlítsa össze az újonnan betanított modelleket (vagy kihívó modelleket) a bemutató környezetben a jelenleg gyártásban lévő modellekkel (bajnok modellek).
15. El tudod magyarázni a Champion-Challenger technika működését?
Lehetőség van különféle működési döntések tesztelésére a gyártás során a Champion Challenger technikával. Bizonyára hallott már az A/B tesztelésről a marketing kontextusában.
Például írhat két külön tárgysort, és véletlenszerűen eloszthatja azokat a megcélzott demográfiai csoporthoz, hogy maximalizálja egy e-mail kampány megnyitási arányát.
A rendszer naplózza az e-mail teljesítményét (azaz az e-mail megnyitási műveletét) a tárgysorához képest, lehetővé téve az egyes tárgysorok megnyitási arányának összehasonlítását, hogy meghatározza, melyik a leghatékonyabb.
A Champion-Challenger ebben a tekintetben az A/B teszteléshez hasonlítható. A döntési logika segítségével értékelheti az egyes eredményeket, és kiválaszthatja a leghatékonyabbat, miközben különféle módszerekkel kísérletezik a választáshoz.
A legsikeresebb modell a bajnokhoz kapcsolódik. Az első kihívó és a kihívók megfelelő listája most már csak az első végrehajtási fázisban van jelen a bajnok helyett.
A bajnokot a rendszer választja ki a további munkalépések végrehajtására.
A kihívókat szembeállítják egymással. Az új bajnokot ezután az a kihívó határozza meg, aki a legjobb eredményeket produkálja.
A bajnok-kihívó összehasonlítás folyamatában szereplő feladatokat az alábbiakban részletesebben soroljuk fel:
- Az egyes rivális modellek értékelése.
- A végső pontszámok értékelése.
- Az értékelési eredmények összehasonlítása a győztes kihívó megállapításához.
- A friss bajnok hozzáadása az archívumhoz
16. Ismertesse az MLOps életciklusának vállalati szintű alkalmazásait?
Fel kell hagynunk azzal, hogy a gépi tanulást csak iteratív kísérletnek tekintsük, hogy a gépi tanulási modellek termelésbe kerüljenek. Az MLOps a szoftverfejlesztés és a gépi tanulás egyesítése.
A kész eredményt ilyennek kell elképzelni. Ezért a technológiai termék kódjának teszteltnek, működőképesnek és modulárisnak kell lennie.
Az MLOps élettartama a hagyományos gépi tanulási folyamathoz hasonlítható, azzal az eltéréssel, hogy a modellt a gyártásig a folyamatban tartják.
Az MLOps mérnökei ezután figyelik ezt, hogy megbizonyosodjanak arról, hogy a gyártás során a modell minősége megfelel a tervezettnek.
Íme néhány használati eset az MLOps technológiák közül:
- Modell-nyilvántartások: Az, aminek látszik. A nagyobb csapatok a modell-nyilvántartásokban tárolják és nyomon követik a verziómodelleket. Még egy korábbi verzióhoz való visszatérés is lehetséges.
- Feature Store: Ha nagyobb adatkészletekkel foglalkozik, az analitikai adatkészleteknek és részhalmazoknak külön verziói lehetnek bizonyos feladatokhoz. A funkciótár egy élvonalbeli, ízléses módszer a korábbi futtatások vagy más csapatok adat-előkészítési munkáinak felhasználására.
- Metaadatok tárolása: Alapvető fontosságú a metaadatok megfelelő figyelése a gyártás során, ha strukturálatlan adatokat, például kép- és szövegadatokat kívánunk sikeresen használni.
Következtetés
Alapvetően fontos szem előtt tartani, hogy az esetek többségében a kérdező a rendszert, míg a jelölt a megoldást keresi.
Az első a technikai készségeiden alapul, míg a második a kompetenciád bizonyítására alkalmazott módszerről szól.
Számos eljárást kell végrehajtania az MLOps interjú kérdéseinek megválaszolásakor, hogy segítsen a kérdezőnek jobban megérteni, hogyan kívánja értékelni és kezelni az adott problémát.
Koncentrációjuk inkább a helytelen reakción múlik, mint a helyesen. A megoldás történetet mesél el, és az Ön rendszere a legjobban illusztrálja tudását és kommunikációs képességét.
Hagy egy Válaszol