INHOUDSOPGAWE[Versteek][Wys]
- 1. Wat bedoel jy met MLOps?
- 2. Hoe verskil datawetenskaplikes, data-ingenieurs en ML-ingenieurs van mekaar?
- 3. Wat onderskei MLOps van ModelOps en AIOps?
- 4. Kan jy vir my van die voordele van MLOps vertel?
- 5. Kan jy vir my die komponente van MLOps vertel?
- 6. Watter risiko's kom met die gebruik van datawetenskap?
- 7. Kan jy verduidelik wat modeldrift is?
- 8. Hoeveel verskillende maniere kan MLO's na jou mening toegepas word?
- 9. Wat skei statiese ontplooiing van dinamiese ontplooiing?
- 10. Van watter produksietoetstegnieke is jy bewus?
- 11. Wat onderskei stroomverwerking van bondelverwerking?
- 12. Wat bedoel jy met Opleiding Diensskeef?
- 13. Wat bedoel jy met Model Registry?
- 14. Kan jy uitbrei oor die voordele van Model Registry?
- 15. Kan jy die Champion-Challenger tegniek verduidelik?
- 16. Beskryf die ondernemingsvlak toepassings van die MLOps lewensiklus?
- Gevolgtrekking
Maatskappye gebruik meer dikwels ontluikende tegnologieë soos kunsmatige intelligensie (KI) en masjienleer (ML) om die publiek se toeganklikheid tot inligting en dienste te verhoog.
Hierdie tegnologieë word toenemend in 'n verskeidenheid sektore gebruik, insluitend bankwese, finansies, kleinhandel, vervaardiging en selfs gesondheidsorg.
Datawetenskaplikes, masjienleer-ingenieurs en ingenieurs in kunsmatige intelligensie is in aanvraag van 'n toenemende aantal maatskappye.
Om die moontlike te ken machine learning bedryfsonderhoudvrae wat huurbestuurders en werwers aan jou kan stel, is noodsaaklik as jy in die ML- of MLOps-velde wil werk.
Jy kan leer hoe om te reageer op sommige van die MLOps-onderhoudvrae in hierdie pos terwyl jy werk om jou droomwerk te kry.
1. Wat bedoel jy met MLOps?
Die onderwerp van die operasionalisering van ML-modelle is die fokus van MLOps, ook bekend as Machine Learning Operations, 'n ontwikkelende veld binne die meer belangrike KI/DS/ML-arena.
Die hoofdoel van die sagteware-ingenieursbenadering en -kultuur bekend as MLOps is om die skepping van masjienleer/datawetenskapmodelle en die daaropvolgende operasionalisering (Ops) te integreer.
Konvensionele DevOps en MLOps deel sekere ooreenkomste, maar MLOps verskil ook baie van tradisionele DevOps.
MLOps voeg 'n nuwe laag van kompleksiteit by deur op data te fokus, terwyl DevOps hoofsaaklik fokus op die operasionalisering van kode en sagtewarevrystellings wat nie statief kan wees nie.
Die kombinasie van ML, Data en Ops is wat MLOps sy algemene naam gee (masjienleer, data-ingenieurswese en DevOps).
2. Hoe verskil datawetenskaplikes, data-ingenieurs en ML-ingenieurs van mekaar?
Dit verskil, na my mening, na gelang van die firma. Die omgewing vir die vervoer en transformasie van data, sowel as die berging daarvan, word deur data-ingenieurs opgebou.
Datawetenskaplikes is kundiges in die gebruik van wetenskaplike en statistiese tegnieke om data te ontleed en gevolgtrekkings te maak, insluitend die maak van voorspellings oor toekomstige gedrag gebaseer op die neigings wat nou in plek is.
Sagteware-ingenieurs het 'n paar jaar gelede bedrywighede bestudeer en ontplooiingsinfrastruktuur bestuur. Ops-spanne, aan die ander kant, het ontwikkeling bestudeer terwyl hulle infrastruktuur as 'n kode gebruik het. 'n DevOps-posisie is deur hierdie twee strome vervaardig.
MLOps is in dieselfde kategorie as Data Scientist en data-ingenieur. Data-ingenieurs verkry kennis oor die infrastruktuur wat nodig is om modellewensiklusse te ondersteun en pyplyne vir deurlopende opleiding te skep.
Datawetenskaplikes poog om hul modelontplooiing en tellingvermoëns te ontwikkel.
'n Produksiegraad-datapyplyn word gebou deur ML-ingenieurs wat die infrastruktuur gebruik wat rou data omskep in die insette wat deur 'n datawetenskapmodel benodig word, die model huisves en bestuur, en 'n gepunte datastel na stroomafstelsels uitstuur.
Beide data-ingenieurs en data-wetenskaplikes is in staat om ML-ingenieurs te word.
3. Wat onderskei MLOps van ModelOps en AIOps?
By die konstruksie van end-tot-end masjienleer-algoritmes, MLOps is 'n DevOps-toepassing wat data-insameling, data-voorverwerking, modelskepping, model-ontplooiing in produksie, modelmonitering in produksie en model periodieke opgradering insluit.
Die gebruik van DevOps in die hantering van die hele implementering van enige algoritmes, soos reël-gebaseerde modelle, staan bekend as ModelOps.
KI Ops gebruik DevOps-beginsels om KI-toepassings van nuuts af te skep.
4. Kan jy vir my van die voordele van MLOps vertel?
- Datawetenskaplikes en MLOps-ontwikkelaars kan proewe vinnig herhaal om te verseker dat modelle gepas opgelei en geassesseer word, aangesien MLOps help om al of die meeste van die take/stappe in die MDLC (modelontwikkelingslewensiklus) te outomatiseer. Bykomend permitte data- en modelweergawe.
- Deur MLOps-idees in die praktyk te bring, stel data-ingenieurs en datawetenskaplikes in staat om onbeperkte toegang tot gekultiveerde en saamgestelde datastelle te hê, wat die ontwikkeling van modelle eksponensieel versnel.
- Datawetenskaplikes sal kan terugval op die model wat beter gevaar het as die huidige iterasie nie aan die verwagtinge voldoen nie danksy die vermoë om modelle en datastelle te laat weergawe, wat die modelouditspoor aansienlik sal verbeter.
- Aangesien MLOps-metodes sterk op DevOps staatmaak, inkorporeer hulle ook 'n aantal CI/CD-konsepte, wat die kwaliteit en betroubaarheid van die kode.
5. Kan jy vir my die komponente van MLOps vertel?
ontwerp: MLO's sluit grootliks ontwerpdenke in. Begin met die aard van die probleem, toetsing van hipoteses, argitektuur en ontplooiing
Model gebou: Modeltoetsing en validering is deel van hierdie stap, saam met die data-ingenieurspyplyne en eksperimentering om die beste masjienleerstelsels op te stel.
bedrywighede: Die model moet as deel van die bedrywighede geïmplementeer word en voortdurend nagegaan en geëvalueer word. Die CI/CD-prosesse word dan gemonitor en begin met behulp van 'n orkestrasie-instrument.
6. Watter risiko's kom met die gebruik van datawetenskap?
- Dit is moeilik om die model oor die hele maatskappy te skaal.
- Sonder waarskuwing sluit die model af en hou op om te funksioneer.
- Meestal word die akkuraatheid van die modelle mettertyd erger.
- Die model maak onakkurate voorspellings gebaseer op 'n spesifieke waarneming wat nie verder ondersoek kan word nie.
- Datawetenskaplikes moet ook modelle onderhou, maar dit is duur.
- MLOps kan gebruik word om hierdie risiko's te verminder.
7. Kan jy verduidelik wat modeldrift is?
Wanneer 'n model se afleidingsfase-prestasie (met gebruik van werklike data) van sy opleidingsfase-prestasie verswak, staan dit bekend as modelverdryf, ook bekend as idee-verdryf (met gebruikmaking van historiese, benoemde data).
Die model se prestasie is skeef in vergelyking met die opleidings- en bedieningsfases, vandaar die naam "trein/bedien skeef."
Talle faktore, insluitend:
- Die fundamentele manier waarop data versprei word, het verander.
- Die opleiding het op 'n klein aantal kategorieë gefokus, maar 'n omgewingsverskuiwing wat pas plaasgevind het, het 'n ander area bygevoeg.
- In NLP-probleme het die werklike data 'n buitensporig groter hoeveelheid getaltekens as die opleidingsdata.
- Onverwagte voorvalle, soos 'n model wat op pre-COVID-data gebou is, wat voorspel word om aansienlik swakker te presteer op data wat tydens die COVID-19-epidemie ingesamel is.
Deurlopende monitering van die model se werkverrigting is altyd nodig om modelverdryf te identifiseer.
Modelheropleiding is byna altyd nodig as 'n middel wanneer daar 'n aanhoudende afname in modelprestasie is; die rede vir die afname moet geïdentifiseer word en toepaslike behandelingsprosedures moet gebruik word.
8. Hoeveel verskillende maniere kan MLO's na jou mening toegepas word?
Daar is drie metodes om MLO's in die praktyk toe te pas:
MLOps vlak 0 (handmatige proses): Op hierdie vlak word alle stappe—insluitend datavoorbereiding, ontleding en opleiding—handmatig uitgevoer. Elke stadium moet met die hand uitgevoer word, sowel as die oorgang van een na die volgende.
Die onderliggende uitgangspunt is dat jou datawetenskapspan slegs 'n klein aantal modelle bestuur wat nie gereeld opgedateer word nie.
Gevolglik is daar nie Deurlopende Integrasie (CI) of Deurlopende Ontplooiing (CD) nie, en die toets van die kode word tipies geïntegreer in skrifuitvoering of notaboekuitvoering, met ontplooiing wat in 'n mikrodiens plaasvind met 'n REST API.
MLOps vlak 1 (outomatisering van die ML pyplyn): Deur die ML-proses te outomatiseer, is die doelwit om die model (CT) voortdurend op te lei. U kan op hierdie manier deurlopende modelvoorspellingsdienslewering bewerkstellig.
Ons ontplooiing van 'n hele opleidingspyplyn verseker dat die model outomaties opgelei word in produksie deur nuwe data te gebruik gebaseer op aktiewe pyplyn-snellers.
MLOps vlak 2 (outomatisering van die CI/CD pyplyn): Dit gaan een stap bo MLOps-vlak. 'n Sterk outomatiese CI/CD-stelsel is nodig as jy vinnig en betroubaar pyplyne in produksie wil opdateer:
- Jy skep bronkode en voer talle toetse deur die CI-stadium uit. Pakkette, uitvoerbare items en artefakte is die verhoog se uitsette, wat op 'n later tydstip ontplooi sal word.
- Die artefakte wat deur die CI-stadium geskep word, word tydens die CD-stap na die teikenomgewing ontplooi. 'n Ontplooide pyplyn met die hersiene modelimplementering is die stadium se uitset.
- Voordat die pyplyn 'n nuwe herhaling van die eksperiment begin, moet datawetenskaplikes steeds die data- en modelontledingsfase handmatig doen.
9. Wat skei statiese ontplooiing van dinamiese ontplooiing?
Die model is vanlyn opgelei vir Statiese ontplooiing. Met ander woorde, ons oefen die model presies een keer op en gebruik dit dan vir 'n tyd. Nadat die model plaaslik opgelei is, word dit gestoor en na die bediener gestuur om gebruik te word om intydse voorspellings te produseer.
Die model word dan as installeerbare toepassingsagteware versprei. 'n program wat dit moontlik maak vir bondeltelling van versoeke, as 'n illustrasie.
Die model is aanlyn opgelei vir Dinamiese ontplooiing. Dit wil sê, nuwe data word voortdurend by die stelsel gevoeg, en die model word voortdurend opgedateer om daarvoor rekening te hou.
As gevolg hiervan kan u voorspellings maak met behulp van 'n bediener op aanvraag. Daarna word die model in gebruik geneem deur voorsien te word as 'n API-eindpunt wat reageer op gebruikersnavrae, met behulp van 'n webraamwerk soos Fles of FastAPI.
10. Van watter produksietoetstegnieke is jy bewus?
Partytoetsing: Deur toetsing uit te voer in 'n ander omgewing as dié van sy opleidingsomgewing, verifieer dit die model. Deur gebruik te maak van metrieke van keuse, soos akkuraatheid, RMSE, ens., word bondeltoetse op 'n groep datamonsters gedoen om modelafleiding te verifieer.
Bondeltoetsing kan op 'n verskeidenheid rekenaarplatforms uitgevoer word, soos 'n toetsbediener, 'n afgeleë bediener of die wolk. Tipies word die model verskaf as 'n geserialiseerde lêer, wat as 'n objek gelaai word en van toetsdata afgelei word.
A / B-toets: Dit word gereeld gebruik vir die ontleding van bemarkingsveldtogte sowel as vir die ontwerp van dienste (webwerwe, mobiele toepassings, ens.).
Gebaseer op die maatskappy of bedrywighede, word statistiese benaderings gebruik om die resultate van A/B-toetse te ontleed om te besluit watter model beter in produksie sal presteer. Gewoonlik word A/B-toetse op die volgende manier gedoen:
- Regstreekse of intydse data word in twee stelle verdeel of gesegmenteer, Stel A en Stel B.
- Stel A-data word na die verouderde model gestuur, terwyl Stel B-data na die opgedateerde model gestuur word.
- Afhangende van die besigheidsgebruiksgeval of prosesse, kan verskeie statistiese benaderings gebruik word om modelprestasie (byvoorbeeld akkuraatheid, presisie, ens.) te evalueer om te bepaal of die nuwe model (model B) beter as die ou model (model A) presteer.
- Ons doen dan statistiese hipotesetoetsing: Die nulhipotese sê dat die nuwe model geen effek het op die gemiddelde waarde van die besigheidsaanwysers wat gemonitor word nie. Volgens die alternatiewe hipotese verhoog die nuwe model die gemiddelde waarde van die monitering van besigheidsaanwysers.
- Laastens bepaal ons of die nuwe model 'n beduidende verbetering in sekere besigheids-KPI's tot gevolg het.
’n Skadu- of verhoogtoets: 'n Model word in 'n duplikaat van 'n produksie-omgewing geëvalueer voordat dit in produksie (vervoer-omgewing) gebruik word.
Dit is van kardinale belang vir die bepaling van die model se prestasie met intydse data en die validering van die model se veerkragtigheid. word uitgevoer deur dieselfde data as die produksiepyplyn af te lei en die ontwikkelde tak of 'n model te lewer wat op 'n staging-bediener getoets moet word.
Die enigste nadeel is dat geen besigheidskeuses op die opstelbediener of sigbaar vir eindgebruikers gemaak sal word as gevolg van die ontwikkelingstak nie.
Die veerkragtigheid en prestasie van die model sal statisties geassesseer word deur die resultate van die opstelomgewing te gebruik deur die toepaslike maatstawwe te gebruik.
11. Wat onderskei stroomverwerking van bondelverwerking?
Ons kan die eienskappe wat ons gebruik om ons intydse voorspellings te produseer, manipuleer deur twee verwerkingsmetodes te gebruik: bondel en stroom.
Batch proses kenmerke van 'n vorige tydstip vir 'n spesifieke voorwerp, wat dan gebruik word om intydse voorspellings te genereer.
- Hier kan ons intensiewe kenmerkberekeninge vanlyn doen en die data voorberei vir vinnige afleiding.
- Kenmerke egter 'n ouderdom sedert hulle in die verlede vooraf bepaal is. Dit kan 'n groot nadeel wees as jou prognose gebaseer is op onlangse gebeure. (Byvoorbeeld, identifiseer bedrieglike transaksies so gou as moontlik.)
Met byna intydse stromingskenmerke vir 'n spesifieke entiteit, word die afleiding uitgevoer in stroomverwerking op 'n gegewe stel insette.
- Hier kan ons meer akkurate voorspellings kry deur die model intydse stroomfunksies te gee.
- Bykomende infrastruktuur word egter benodig vir stroomverwerking en om datastrome in stand te hou (Kafka, Kinesis, ens.). (Apache Flink, Beam, ens.)
12. Wat bedoel jy met Opleiding Diensskeef?
Die verskil tussen prestasie tydens bediening en prestasie tydens oefening staan bekend as die opleiding-bediening skeef. Hierdie skeeftrekking kan deur die volgende faktore veroorsaak word:
- 'n Verskil in hoe jy data hanteer tussen die pyplyne vir bediening en opleiding.
- 'n Verskuiwing in die data van jou opleiding na jou diens.
- 'n Terugvoerkanaal tussen jou algoritme en model.
13. Wat bedoel jy met Model Registry?
Model Registry is 'n sentrale bewaarplek waar modelskeppers modelle kan publiseer wat geskik is vir gebruik in produksie.
Ontwikkelaars kan met ander spanne en belanghebbendes saamwerk om die lewensduur van alle modelle binne die besigheid te bestuur deur die register te gebruik. Die opgeleide modelle kan deur 'n datawetenskaplike na die modelregister opgelaai word.
Die modelle word voorberei vir toetsing, validering en ontplooiing na produksie sodra hulle in die register is. Boonop word opgeleide modelle in modelregisters gestoor vir vinnige toegang deur enige geïntegreerde toepassing of diens.
Om die model te toets, te evalueer en na produksie te ontplooi, sagteware ontwikkelaars en beoordelaars kan vinnig net die beste weergawe van die opgeleide modelle herken en kies (gebaseer op die evalueringskriteria).
14. Kan jy uitbrei oor die voordele van Model Registry?
Die volgende is 'n paar maniere waarop modelregister modellewensiklusbestuur stroomlyn:
- Om ontplooiing makliker te maak, stoor die looptydvereistes en metadata vir jou opgeleide modelle.
- Jou opgeleide, ontplooide en afgetrede modelle moet in 'n gesentraliseerde, soekbare bewaarplek geregistreer, nagespoor en weergegee word.
- Skep outomatiese pyplyne wat deurlopende aflewering, opleiding en integrasie van jou produksiemodel moontlik maak.
- Vergelyk nuut-opgeleide modelle (of uitdager-modelle) in die verhoog-omgewing met modelle wat tans in produksie werk (kampioen-modelle).
15. Kan jy die Champion-Challenger tegniek verduidelik?
Dit is moontlik om verskeie operasionele besluite in produksie te toets deur 'n Champion Challenger-tegniek te gebruik. Jy het waarskynlik gehoor van A/B-toetsing in die konteks van bemarking.
Byvoorbeeld, jy kan twee afsonderlike onderwerpreëls skryf en dit lukraak na jou teikendemografie versprei om die oop koers vir 'n e-posveldtog te maksimeer.
Die stelsel teken 'n e-pos se werkverrigting (dws e-pos oop aksie) in verhouding tot sy onderwerplyn aan, wat jou toelaat om elke onderwerpreël se oopkoers te vergelyk om te bepaal watter die doeltreffendste is.
Champion-Challenger is in hierdie verband vergelykbaar met A/B-toetse. Jy kan besluitlogika gebruik om elke uitkoms te evalueer en die mees doeltreffende een te kies terwyl jy met verskeie metodes eksperimenteer om tot 'n keuse te kom.
Die mees suksesvolle model korreleer met die kampioen. Die eerste uitdager en die bypassende lys van uitdagers is nou al wat in die eerste uitvoeringsfase aanwesig is in plaas van die kampioen.
Die kampioen word deur die stelsel gekies vir verdere werkstap-uitvoerings.
Die uitdagers word met mekaar gekontrasteer. Die nuwe kampioen word dan bepaal deur die uitdager wat die beste resultate lewer.
Die take betrokke by die kampioen-uitdager-vergelykingsproses word hieronder in meer besonderhede gelys:
- Evaluering van elk van die mededingende modelle.
- Evaluering van die finale tellings.
- Vergelyk die evaluasie-uitkomste om die oorwinnende uitdager te bepaal.
- Voeg die vars kampioen by die argief
16. Beskryf die ondernemingsvlak toepassings van die MLOps lewensiklus?
Ons moet ophou om masjienleer as slegs 'n iteratiewe eksperiment te beskou sodat masjienleermodelle produksie kan betree. MLOps is die unie van sagteware-ingenieurswese met masjienleer.
Die finale resultaat moet as sodanig voorgestel word. Daarom moet die kode vir 'n tegnologiese produk getoets, funksioneel en modulêr wees.
MLOps het 'n lewensduur wat vergelykbaar is met 'n konvensionele masjienleervloei, met die uitsondering dat die model in die proses gehou word tot produksie.
Die MLOps-ingenieurs hou dit dan dop om seker te maak die modelgehalte in produksie is wat beoog word.
Hier is 'n paar gebruiksgevalle vir verskeie van die MLOps-tegnologieë:
- Modelregisters: Dit is wat dit blyk te wees. Groter spanne stoor en hou rekord van weergawemodelle in modelregisters. Selfs om terug te gaan na 'n vorige weergawe is 'n opsie.
- Funksiewinkel: Wanneer daar met groter datastelle te doen is, kan daar verskillende weergawes van die analitiese datastelle en substelle vir spesifieke take wees. 'n Funksiewinkel is 'n voorpunt, smaakvolle manier om datavoorbereidingswerk van vroeëre lopies of ook van ander spanne te gebruik.
- Stores vir Metadata: Dit is van kardinale belang om metadata regdeur produksie te monitor as ongestruktureerde data, soos prent- en teksdata, suksesvol gebruik wil word.
Gevolgtrekking
Dit is van kardinale belang om in gedagte te hou dat die onderhoudvoerder in die meeste gevalle 'n stelsel soek, terwyl die kandidaat 'n oplossing soek.
Die eerste is gebaseer op jou tegniese vaardighede, terwyl die tweede alles gaan oor die metode wat jy gebruik om jou bevoegdheid te demonstreer.
Daar is verskeie prosedures wat jy moet volg wanneer jy op MLOps-onderhoudvrae reageer om die onderhoudvoerder te help om beter te verstaan hoe jy van plan is om die probleem op hande te assesseer en aan te spreek.
Hulle konsentrasie is meer op die verkeerde reaksie as die regte een. 'n Oplossing vertel 'n storie, en jou stelsel is die beste illustrasie van jou kennis en kapasiteit vir kommunikasie.
Lewer Kommentaar