Innehållsförteckning[Dölj][Visa]
- 1. Vad menar du med MLOps?
- 2. Hur skiljer sig datavetare, dataingenjörer och ML-ingenjörer från varandra?
- 3. Vad skiljer MLOps från ModelOps och AIOps?
- 4. Kan du berätta några av fördelarna med MLOps?
- 5. Kan du berätta för mig komponenterna i MLOps?
- 6. Vilka risker följer med att använda datavetenskap?
- 7. Kan du förklara, vad är modelldrift?
- 8. Hur många olika sätt kan MLO:s tillämpas, tycker du?
- 9. Vad skiljer statisk driftsättning från dynamisk driftsättning?
- 10. Vilka produktionstestningstekniker känner du till?
- 11. Vad skiljer strömbearbetning från batchbearbetning?
- 12. Vad menar du med Träna Serving Skew?
- 13. Vad menar du med Model Registry?
- 14. Kan du utveckla fördelarna med Model Registry?
- 15. Kan du förklara hur Champion-Challenger-tekniken fungerar?
- 16. Beskriv tillämpningarna på företagsnivå för MLOps livscykel?
- Slutsats
Företag använder framväxande teknologier som artificiell intelligens (AI) och maskininlärning (ML) oftare för att öka allmänhetens tillgänglighet till information och tjänster.
Dessa tekniker används i allt större utsträckning inom en mängd olika sektorer, inklusive bank, finans, detaljhandel, tillverkning och till och med hälsovård.
Datavetare, maskininlärningsingenjörer och ingenjörer inom artificiell intelligens efterfrågas från ett ökande antal företag.
Att veta det möjliga maskininlärning operationsintervjufrågor som anställande chefer och rekryterare kan ställa till dig är viktiga om du vill arbeta inom ML- eller MLOps-fälten.
Du kan lära dig hur du svarar på några av MLOs-intervjufrågorna i det här inlägget när du arbetar för att få ditt drömjobb.
1. Vad menar du med MLOps?
Ämnet för operationalisering av ML-modeller är fokus för MLOps, även känd som Machine Learning Operations, ett växande område inom den mer stora AI/DS/ML-arenan.
Huvudmålet med den mjukvarutekniska metoden och kulturen känd som MLOps är att integrera skapandet av maskininlärning/datavetenskapliga modeller och deras efterföljande operationalisering (Ops).
Konventionella DevOps och MLOs delar vissa likheter, men MLOps skiljer sig också mycket från traditionella DevOps.
MLOps lägger till ett nytt lager av komplexitet genom att fokusera på data, medan DevOps främst fokuserar på att operationalisera kod och programvaruversioner som inte kan vara tillståndsfulla.
Kombinationen av ML, Data och Ops är det som ger MLOps dess gemensamma namn (maskininlärning, datateknik och DevOps).
2. Hur skiljer sig datavetare, dataingenjörer och ML-ingenjörer från varandra?
Det varierar, enligt min mening, beroende på företag. Miljön för transport och omvandling av data, såväl som dess lagring, byggs upp av dataingenjörer.
Dataforskare är experter på att använda vetenskapliga och statistiska tekniker för att analysera data och dra slutsatser, inklusive att göra förutsägelser om framtida beteende baserat på de trender som nu finns.
Programvaruingenjörer studerade drift och hanterade implementeringsinfrastruktur för några år sedan. Ops-team, å andra sidan, studerade utveckling medan de använde infrastruktur som en kod. En DevOps-position producerades av dessa två strömmar.
MLOps är i samma kategori som Datavetenskapare och dataingenjör. Dataingenjörer får kunskap om den infrastruktur som behövs för att stödja modelllivscykler och skapa pipelines för pågående utbildning.
Dataforskare försöker utveckla sin modellutbyggnad och poängkapacitet.
En datapipeline av produktionskvalitet byggs av ML-ingenjörer som använder infrastrukturen som omvandlar rådata till den indata som behövs av en datavetenskapsmodell, är värd för och kör modellen och matar ut en poängsatt datamängd till nedströmssystem.
Både dataingenjörer och datavetare är kapabla att bli ML-ingenjörer.
3. Vad skiljer MLOps från ModelOps och AIOps?
När man bygger ände till ände maskininlärningsalgoritmer, MLOps är en DevOps-applikation som inkluderar datainsamling, dataförbehandling, modellskapande, modelldistribution i produktion, modellövervakning i produktion och periodisk modelluppgradering.
Användningen av DevOps för att hantera hela implementeringen av alla algoritmer, såsom regelbaserade modeller, kallas ModelOps.
AI Ops använder DevOps-principerna för att skapa AI-appar från grunden.
4. Kan du berätta några av fördelarna med MLOps?
- Dataforskare och MLOps-utvecklare kan snabbt köra försök igen för att säkerställa att modellerna tränas och utvärderas på lämpligt sätt eftersom MLOps hjälper till att automatisera alla eller de flesta av uppgifterna/stegen i MDLC (modellutvecklingslivscykeln). Dessutom tillstånd data och modellversionering.
- Genom att omsätta MLOps-idéer i praktiken kan dataingenjörer och dataforskare ha obegränsad tillgång till odlade och kurerade datauppsättningar, vilket exponentiellt accelererar utvecklingen av modeller.
- Dataforskare kommer att kunna falla tillbaka på modellen som presterade bättre om den nuvarande iterationen inte lever upp till förväntningarna tack vare möjligheten att få modeller och datauppsättningar versionerade, vilket avsevärt kommer att förbättra modellens revisionsspår.
- Eftersom MLOps-metoder starkt förlitar sig på DevOps, innehåller de också ett antal CI/CD-koncept, vilket förbättrar kodens kvalitet och tillförlitlighet.
5. Kan du berätta för mig komponenterna i MLOps?
Designa: MLOps inkluderar i hög grad designtänkande. Börjar med problemets natur, testning av hypoteser, arkitektur och distribution
Modellbyggnad: Modelltestning och validering är en del av detta steg, tillsammans med pipelines för datateknik och experiment för att sätta upp de bästa maskininlärningssystemen.
Verksamhet: Modellen ska implementeras som en del av verksamheten och kontinuerligt kontrolleras och utvärderas. CI/CD-processerna övervakas sedan och startas med hjälp av ett orkestreringsverktyg.
6. Vilka risker följer med att använda datavetenskap?
- Det är svårt att skala modellen över hela företaget.
- Utan förvarning stängs modellen av och slutar fungera.
- För det mesta blir noggrannheten hos modellerna sämre med tiden.
- Modellen gör felaktiga förutsägelser baserade på en specifik observation som inte kan undersökas ytterligare.
- Dataforskare bör också underhålla modeller, men de är dyra.
- MLOps kan användas för att minska dessa risker.
7. Kan du förklara, vad är modelldrift?
När en modells inferensfasprestanda (med verkliga data) försämras från dess träningsfasprestanda kallas detta modelldrift, även känt som idédrift (med historiska, märkta data).
Modellens prestanda är skev i jämförelse med tränings- och serveringsfaserna, därav namnet "träna/servera skevt".
Många faktorer, inklusive:
- Det grundläggande sättet som data distribueras på har förändrats.
- Utbildningen fokuserade på ett litet antal kategorier, men ett miljöskifte som just ägde rum lade till ytterligare ett område.
- I NLP-svårigheter har den verkliga datan en oproportionerligt större mängd nummerpoletter än träningsdatan.
- Oväntade händelser, som att en modell byggd på data före COVID-19 förutspås prestera betydligt sämre på data som samlats in under covid-XNUMX-epidemin.
Kontinuerlig övervakning av modellens prestanda krävs alltid för att identifiera modelldrift.
Modellomskolning krävs nästan alltid som ett botemedel när det finns en ihållande nedgång i modellens prestanda; orsaken till nedgången måste identifieras och lämpliga behandlingsmetoder måste användas.
8. Hur många olika sätt kan MLO:s tillämpas, tycker du?
Det finns tre metoder för att omsätta MLOps i praktiken:
MLOps nivå 0 (manuell process): På den här nivån utförs alla steg – inklusive dataförberedelse, analys och utbildning – manuellt. Varje steg måste utföras manuellt, liksom övergången från en till nästa.
Den underliggande utgångspunkten är att ditt datavetenskapsteam bara hanterar ett litet antal modeller som inte uppdateras ofta.
Som ett resultat finns det inte kontinuerlig integration (CI) eller kontinuerlig distribution (CD), och testning av koden är vanligtvis integrerad i körning av skript eller körning av anteckningsbok, med utplacering som sker i en mikrotjänst med en REST API.
MLOps nivå 1 (automatisering av ML-pipeline): Genom att automatisera ML-processen är målet att kontinuerligt träna modellen (CT). Du kan åstadkomma kontinuerlig leverans av modellförutsägelser på detta sätt.
Vår implementering av en hel utbildningspipeline säkerställer att modellen automatiskt tränas i produktion med hjälp av ny data baserad på aktiva pipelinetriggare.
MLOps nivå 2 (automatisering av CI/CD pipeline): Det går ett steg över MLOps-nivån. Ett starkt automatiserat CI/CD-system krävs om du snabbt och pålitligt vill uppdatera pipelines i produktionen:
- Du skapar källkod och utför många tester under hela CI-stadiet. Paket, körbara filer och artefakter är scenens utdata, som kommer att distribueras vid ett senare tillfälle.
- Artefakterna som skapas av CI-steget distribueras till målmiljön under CD-steget. En utplacerad pipeline med den reviderade modellens implementering är scenens output.
- Innan pipelinen påbörjar en ny iteration av experimentet måste dataforskare fortfarande göra data- och modellanalysfasen manuellt.
9. Vad skiljer statisk driftsättning från dynamisk driftsättning?
Modellen är utbildad offline för Statisk distribution. Med andra ord tränar vi modellen exakt en gång och använder den sedan en tid. Efter att modellen har tränats lokalt lagras den och skickas till servern för att användas för att producera realtidsförutsägelser.
Modellen distribueras sedan som installerad applikationsprogramvara. ett program som möjliggör batchpoängning av förfrågningar, som en illustration.
Modellen är utbildad online för Dynamisk distribution. Det vill säga att nya data hela tiden läggs till i systemet, och modellen uppdateras kontinuerligt för att ta hänsyn till det.
Som ett resultat kan du göra förutsägelser med hjälp av en server på begäran. Därefter tas modellen i bruk genom att den levereras som en API-slutpunkt som reagerar på användarfrågor, med hjälp av ett webbramverk som t.ex. Kolv eller FastAPI.
10. Vilka produktionstestningstekniker känner du till?
Batchprovning: Genom att utföra tester i en miljö som skiljer sig från sin träningsmiljö, verifierar den modellen. Med hjälp av valbara mätvärden, såsom noggrannhet, RMSE, etc., görs batchtestning på en grupp dataprover för att verifiera modellinferens.
Batchtestning kan utföras på en mängd olika datorplattformar, såsom en testserver, en fjärrserver eller molnet. Vanligtvis tillhandahålls modellen som en serialiserad fil, som laddas som ett objekt och härleds från testdata.
A / B-testning: Det används ofta för att analysera marknadsföringskampanjer samt för design av tjänster (webbplatser, mobilapplikationer, etc.).
Baserat på företaget eller verksamheten används statistiska tillvägagångssätt för att analysera resultaten av A/B-tester för att avgöra vilken modell som kommer att prestera bättre i produktionen. Vanligtvis görs A/B-tester på följande sätt:
- Live- eller realtidsdata delas eller segmenteras i två uppsättningar, uppsättning A och uppsättning B.
- Uppsättning A-data skickas till den föråldrade modellen, medan data från set B skickas till den uppdaterade modellen.
- Beroende på affärsanvändningsfallet eller processerna kan flera statistiska tillvägagångssätt användas för att utvärdera modellens prestanda (till exempel noggrannhet, precision, etc.) för att avgöra om den nya modellen (modell B) överträffar den gamla modellen (modell A).
- Vi gör sedan statistisk hypotestestning: Nollhypotesen säger att den nya modellen inte har någon effekt på medelvärdet av de affärsindikatorer som övervakas. Enligt den alternativa hypotesen ökar den nya modellen det genomsnittliga värdet av de övervakande affärsindikatorerna.
- Slutligen bedömer vi om den nya modellen resulterar i en betydande förbättring av vissa affärs-KPI:er.
Ett skugg- eller scentest: En modell utvärderas i en duplikat av en produktionsmiljö innan den används i produktion (staging-miljö).
Detta är avgörande för att bestämma modellens prestanda med realtidsdata och validera modellens motståndskraft. utförs genom att härleda samma data som produktionspipeline och leverera den utvecklade grenen eller en modell som ska testas på en staging-server.
Den enda nackdelen är att inga affärsval kommer att göras på staging-servern eller synliga för slutanvändare som ett resultat av utvecklingsgrenen.
Modellens motståndskraft och prestanda kommer att bedömas statistiskt med hjälp av resultaten från iscensättningsmiljön med hjälp av lämpliga mått.
11. Vad skiljer strömbearbetning från batchbearbetning?
Vi kan manipulera de egenskaper som vi använder för att producera våra realtidsprognoser med två bearbetningsmetoder: batch och stream.
Batchprocess funktioner från en tidigare tidpunkt för ett specifikt objekt, som sedan används för att generera realtidsförutsägelser.
- Här kan vi göra intensiva funktionsberäkningar offline och ha data förberedda för snabb slutledning.
- Innehåller dock en ålder sedan de var förutbestämda i det förflutna. Detta kan vara en stor nackdel om din prognos är baserad på nyligen inträffade händelser. (Till exempel identifiera bedrägliga transaktioner så snart som möjligt.)
Med strömningsfunktioner i nästan realtid för en specifik enhet, utförs slutledningen i strömbearbetning på en given uppsättning ingångar.
- Här, genom att ge modellen streamingfunktioner i realtid, kan vi få mer exakta förutsägelser.
- Ytterligare infrastruktur krävs dock för strömbehandling och för att underhålla dataströmmar (Kafka, Kinesis, etc). (Apache Flink, Beam, etc.)
12. Vad menar du med Träna Serving Skew?
Skillnaden mellan prestation vid servering och prestation under träning är känd som träningsserveringsskevningen. Denna skevhet kan induceras av följande faktorer:
- En skillnad i hur du hanterar data mellan pipelines för servering och utbildning.
- En förändring av data från din träning till din tjänst.
- En feedbackkanal mellan din algoritm och modell.
13. Vad menar du med Model Registry?
Model Registry är ett centralt arkiv där modellskapare kan publicera modeller som är lämpliga för användning i produktionen.
Utvecklare kan samarbeta med andra team och intressenter för att hantera livslängden för alla modeller i verksamheten med hjälp av registret. De utbildade modellerna kan laddas upp till modellregistret av en datavetare.
Modellerna är förberedda för testning, validering och driftsättning till produktion när de väl finns i registret. Dessutom lagras utbildade modeller i modellregister för snabb åtkomst av alla integrerade applikationer eller tjänster.
För att testa, utvärdera och distribuera modellen till produktion, mjukvaruutvecklare och granskare kan snabbt känna igen och välja bara den bästa versionen av de utbildade modellerna (baserat på utvärderingskriterierna).
14. Kan du utveckla fördelarna med Model Registry?
Följande är några sätt som modellregistret effektiviserar modelllivscykelhantering:
- Spara körtidskraven och metadata för dina utbildade modeller för att göra implementeringen enklare.
- Dina utbildade, utplacerade och pensionerade modeller bör registreras, spåras och versioneras i ett centraliserat, sökbart arkiv.
- Skapa automatiserade pipelines som möjliggör kontinuerlig leverans, utbildning och integration av din produktionsmodell.
- Jämför nyutbildade modeller (eller utmanarmodeller) i iscensättningsmiljön med modeller som för närvarande är i produktion (champion-modeller).
15. Kan du förklara hur Champion-Challenger-tekniken fungerar?
Det är möjligt att testa olika operativa beslut i produktionen med hjälp av en Champion Challenger-teknik. Du har säkert hört talas om A/B-testning i marknadsföringssammanhang.
Du kan till exempel skriva två distinkta ämnesrader och distribuera dem slumpmässigt till din målgrupp för att maximera öppningsfrekvensen för en e-postkampanj.
Systemet loggar ett e-postmeddelandes prestanda (dvs. e-postöppning) i förhållande till dess ämnesrad, så att du kan jämföra varje ämnesrads öppningsfrekvens för att avgöra vilken som är mest effektiv.
Champion-Challenger är jämförbar med A/B-tester i detta avseende. Du kan använda beslutslogik för att utvärdera varje resultat och välja det mest effektiva när du experimenterar med olika metoder för att komma fram till ett val.
Den mest framgångsrika modellen korrelerar till mästaren. Den första utmanaren och den matchande listan med utmanare är nu allt som finns i den första exekveringsfasen istället för mästaren.
Mästaren utses av systemet för att utföra ytterligare jobbsteg.
Utmanarna står i kontrast till varandra. Den nya mästaren bestäms sedan av den utmanare som ger bäst resultat.
Uppgifterna som är involverade i jämförelseprocessen mellan mästare och utmanare listas mer i detalj nedan:
- Utvärdera var och en av de rivaliserande modellerna.
- Bedömer slutresultaten.
- Att jämföra utvärderingsresultaten för att fastställa den segrande utmanaren.
- Lägger till den färska mästaren i arkivet
16. Beskriv tillämpningarna på företagsnivå för MLOps livscykel?
Vi måste sluta betrakta maskininlärning som bara ett iterativt experiment för att maskininlärningsmodeller ska komma in i produktionen. MLOps är förbundet mellan mjukvaruteknik och maskininlärning.
Det färdiga resultatet bör föreställas som sådant. Därför måste koden för en teknisk produkt vara testad, funktionell och modulär.
MLOps har en livslängd som är jämförbar med ett konventionellt maskininlärningsflöde, med undantaget att modellen hålls i processen fram till produktion.
MLOps-ingenjörerna håller sedan ett öga på detta för att säkerställa att modellkvaliteten i produktionen är den avsedda.
Här är några användningsfall för flera av MLOps-teknikerna:
- Modellregister: Det är vad det ser ut att vara. Större team lagrar och håller koll på versionsmodeller i modellregister. Även att gå tillbaka till en tidigare version är ett alternativ.
- Feature Store: När det handlar om större datamängder kan det finnas distinkta versioner av analytiska datamängder och delmängder för specifika uppgifter. En funktionsbutik är ett banbrytande, smakfullt sätt att använda dataförberedande arbete från tidigare körningar eller också från andra team.
- Lagrar för metadata: Det är avgörande att övervaka metadata korrekt under hela produktionen om ostrukturerad data, såsom bild- och textdata, ska kunna användas framgångsrikt.
Slutsats
Det är viktigt att komma ihåg att intervjuaren i de flesta fall letar efter ett system, medan kandidaten söker en lösning.
Den första är baserad på dina tekniska färdigheter, medan den andra handlar om metoden du använder för att visa din kompetens.
Det finns flera procedurer du bör ta när du svarar på MLOs intervjufrågor för att hjälpa intervjuaren att bättre förstå hur du tänker bedöma och ta itu med problemet.
Deras koncentration är mer på den felaktiga reaktionen än den rätta. En lösning berättar en historia och ditt system är den bästa illustrationen av din kunskap och förmåga till kommunikation.
Kommentera uppropet