Taula de continguts[Amaga][Espectacle]
- 1. Què entens per MLOps?
- 2. Com varien els científics de dades, els enginyers de dades i els enginyers de ML?
- 3. Què distingeix MLOps de ModelOps i AIOps?
- 4. Em pots explicar alguns dels avantatges dels MLOps?
- 5. Em pots dir els components de MLOps?
- 6. Quins riscos comporta l'ús de la ciència de dades?
- 7. Pots explicar què és la deriva del model?
- 8. De quantes maneres diferents es poden aplicar els MLOps, segons la teva opinió?
- 9. Què separa el desplegament estàtic del desplegament dinàmic?
- 10. De quines tècniques de prova de producció coneixeu?
- 11. Què distingeix el processament en flux del processament per lots?
- 12. Què vols dir amb Training Serving Skew?
- 13. Què entens per model de registre?
- 14. Pots detallar els avantatges del model de registre?
- 15. Pots explicar el funcionament de la tècnica Champion-Challenger?
- 16. Descriu les aplicacions a nivell empresarial del cicle de vida MLOps?
- Conclusió
Les empreses utilitzen més sovint tecnologies emergents com la intel·ligència artificial (IA) i l'aprenentatge automàtic (ML) per augmentar l'accessibilitat del públic a la informació i als serveis.
Aquestes tecnologies s'utilitzen cada cop més en diversos sectors, com ara la banca, les finances, el comerç al detall, la fabricació i fins i tot l'assistència sanitària.
Els científics de dades, els enginyers d'aprenentatge automàtic i els enginyers en intel·ligència artificial són demanats per un nombre creixent d'empreses.
Conèixer el possible màquina d'aprenentatge Les preguntes d'entrevista d'operacions que els gestors de contractació i els reclutadors us poden plantejar són essencials si voleu treballar en els camps ML o MLOps.
Podeu aprendre a respondre a algunes de les preguntes de l'entrevista MLOps en aquesta publicació mentre treballeu per aconseguir la feina dels vostres somnis.
1. Què entens per MLOps?
El tema de l'operació dels models ML és el focus de MLOps, també conegut com a Machine Learning Operations, un camp en desenvolupament dins de l'àmbit més important d'AI/DS/ML.
L'objectiu principal de l'enfocament i la cultura d'enginyeria de programari coneguda com MLOps és integrar la creació de models d'aprenentatge automàtic/ciència de dades i la seva posterior operacionalització (Ops).
Els DevOps convencionals i els MLOps comparteixen certes similituds, però, els MLOps també difereixen molt dels DevOps tradicionals.
MLOps afegeix una nova capa de complexitat centrant-se en les dades, mentre que DevOps se centra principalment a posar en funcionament les versions de codi i programari que no poden ser amb estat.
La combinació de ML, Data i Ops és el que dóna a MLOps el seu nom comú (aprenentatge automàtic, enginyeria de dades i DevOps).
2. Com varien els científics de dades, els enginyers de dades i els enginyers de ML?
Varia, al meu entendre, segons l'empresa. L'entorn per al transport i la transformació de dades, així com el seu emmagatzematge, està creat per enginyers de dades.
Els científics de dades són experts en l'ús de tècniques científiques i estadístiques per analitzar dades i extreure conclusions, inclosa la realització de prediccions sobre el comportament futur basant-se en les tendències que hi ha actualment.
Els enginyers de programari estaven estudiant les operacions i la gestió de la infraestructura de desplegament fa uns anys. Els equips d'operacions, d'altra banda, estaven estudiant el desenvolupament mentre utilitzaven la infraestructura com a codi. Aquests dos fluxos van generar una posició DevOps.
MLOps és a la mateixa categoria que Científic de Dades i Enginyer de Dades. Els enginyers de dades estan adquirint coneixements sobre la infraestructura necessària per donar suport als cicles de vida dels models i crear canalitzacions per a la formació contínua.
Els científics de dades busquen desenvolupar les seves capacitats de desplegament i puntuació de models.
Els enginyers de ML creen una canalització de dades de grau de producció que utilitzen la infraestructura que transforma les dades en brut en l'entrada necessària per un model de ciència de dades, allotja i executa el model i produeix un conjunt de dades puntuats als sistemes posteriors.
Tant els enginyers de dades com els científics de dades són capaços de convertir-se en enginyers de ML.
3. Què distingeix MLOps de ModelOps i AIOps?
Quan es construeix de punta a punta algorismes d'aprenentatge automàtic, MLOps és una aplicació DevOps que inclou la recollida de dades, el preprocessament de dades, la creació de models, el desplegament de models en producció, el seguiment del model en producció i l'actualització periòdica del model.
L'ús de DevOps per gestionar tota la implementació de qualsevol algoritme, com ara els models basats en regles, es coneix com a ModelOps.
AIOps està aprofitant els principis de DevOps per crear aplicacions d'IA des de zero.
4. Em pots explicar alguns dels avantatges dels MLOps?
- Els científics de dades i els desenvolupadors de MLOps poden tornar a executar les proves ràpidament per assegurar-se que els models estiguin entrenats i avaluats adequadament, ja que MLOps ajuda a automatitzar totes o la majoria de les tasques/passos del MDLC (cicle de vida de desenvolupament de models). Addicionalment permisos versions de dades i models.
- Posar en pràctica les idees de MLOps permet als enginyers de dades i als científics de dades tenir accés sense restriccions a conjunts de dades cultivats i curats, la qual cosa accelera exponencialment el desenvolupament de models.
- Els científics de dades podran recórrer al model que va funcionar millor si la iteració actual no compleix les expectatives gràcies a la capacitat de tenir models i conjunts de dades versionats, cosa que millorarà significativament la pista d'auditoria del model.
- Com que els mètodes MLOps depenen molt de DevOps, també incorporen una sèrie de conceptes CI/CD, la qual cosa millora la qualitat i fiabilitat del codi.
5. Em pots dir els components de MLOps?
disseny: Els MLOps inclouen en gran mesura el pensament de disseny. Començant per la naturalesa del problema, provant hipòtesis, arquitectura i desplegament
Edifici de maquetes: Les proves i validacions de models formen part d'aquest pas, juntament amb els pipelines d'enginyeria de dades i l'experimentació per configurar els millors sistemes d'aprenentatge automàtic.
operacions: El model s'ha d'implementar com a part de les operacions i verificat i avaluat contínuament. Els processos CI/CD es supervisen i s'inicien mitjançant una eina d'orquestració.
6. Quins riscos comporta l'ús de la ciència de dades?
- És difícil escalar el model a tota l'empresa.
- Sense avís previ, el model s'apaga i deixa de funcionar.
- Majoritàriament, la precisió dels models empitjora amb el temps.
- El model fa prediccions inexactes basant-se en una observació específica que no es pot examinar més.
- Els científics de dades també haurien de mantenir models, però són cars.
- Els MLOps es poden utilitzar per reduir aquests riscos.
7. Pots explicar què és la deriva del model?
Quan el rendiment de la fase d'inferència d'un model (utilitzant dades del món real) es deteriora pel seu rendiment de la fase d'entrenament, això es coneix com a deriva del model, també conegut com a deriva de la idea (utilitzant dades històriques etiquetades).
El rendiment del model està esbiaixat en comparació amb les fases d'entrenament i servei, d'aquí el nom "entrenar/servir desviació".
Nombrosos factors, entre ells:
- La forma fonamental de distribució de les dades ha canviat.
- La formació es va centrar en un nombre reduït de categories, però, un canvi ambiental que s'acaba de produir va afegir un altre àmbit.
- En les dificultats de PNL, les dades del món real tenen una quantitat desproporcionadament més gran de fitxes de nombre que les dades d'entrenament.
- Ocurrències inesperades, com ara un model basat en dades anteriors a la COVID-19 que es preveu que funcionarà molt pitjor amb les dades recollides durant l'epidèmia de la COVID-XNUMX.
Sempre es requereix un seguiment continu del rendiment del model per identificar la deriva del model.
El reciclatge del model gairebé sempre es requereix com a remei quan hi ha una disminució persistent del rendiment del model; s'ha d'identificar el motiu de la disminució i utilitzar els procediments de tractament adequats.
8. De quantes maneres diferents es poden aplicar els MLOps, segons la teva opinió?
Hi ha tres mètodes per posar en pràctica els MLOps:
MLOps nivell 0 (procés manual): En aquest nivell, tots els passos, inclosa la preparació de dades, l'anàlisi i la formació, es realitzen manualment. Cada etapa s'ha de realitzar manualment, així com la transició d'una a la següent.
La premissa subjacent és que el vostre equip de ciència de dades només gestiona un petit nombre de models que no s'actualitzen amb freqüència.
Com a resultat, no hi ha integració contínua (CI) ni desplegament continu (CD), i la prova del codi normalment s'integra en l'execució d'scripts o en l'execució del quadern, i el desplegament es realitza en un microservei amb un REST API.
MLOps nivell 1 (automatització de la canalització ML): Mitjançant l'automatització del procés ML, l'objectiu és entrenar contínuament el model (TC). D'aquesta manera, podeu realitzar un servei de predicció de models contínua.
El nostre desplegament d'una canalització de formació completa garanteix que el model s'entrena automàticament en producció utilitzant dades noves basades en activadors de canalització actius.
MLOps nivell 2 (automatització de la canalització CI/CD): va un pas per sobre del nivell MLOps. Es necessita un sistema CI/CD automatitzat fort si voleu actualitzar les canonades en producció de manera ràpida i fiable:
- Creeu codi font i executeu nombroses proves al llarg de l'etapa CI. Els paquets, els executables i els artefactes són les sortides de l'etapa, que es desplegaran més endavant.
- Els artefactes creats per l'etapa CI es despleguen a l'entorn objectiu durant el pas del CD. Un pipeline desplegat amb la implementació del model revisada és el resultat de l'etapa.
- Abans que el pipeline comenci una nova iteració de l'experiment, els científics de dades encara han de fer la fase d'anàlisi de dades i models manualment.
9. Què separa el desplegament estàtic del desplegament dinàmic?
El model està entrenat fora de línia per Desplegament estàtic. En altres paraules, entrenem el model precisament una vegada i després l'utilitzem durant un temps. Un cop el model s'ha entrenat localment, s'emmagatzema i s'envia al servidor per utilitzar-lo per produir prediccions en temps real.
A continuació, el model es distribueix com a programari d'aplicació instal·lable. un programa que permet la puntuació per lots de sol·licituds, com a il·lustració.
El model està entrenat en línia per Desplegament dinàmic. És a dir, contínuament s'afegeixen noves dades al sistema i el model s'actualitza contínuament per tenir en compte.
Com a resultat, podeu fer prediccions mitjançant un servidor sota demanda. Després d'això, el model s'utilitza com a punt final d'API que reacciona a les consultes dels usuaris, utilitzant un marc web com ara Flask o FastAPI.
10. De quines tècniques de prova de producció coneixeu?
Proves per lots: En realitzar proves en un entorn diferent al del seu entorn d'entrenament, verifica el model. Utilitzant mètriques escollides, com ara precisió, RMSE, etc., les proves per lots es fan en un grup de mostres de dades per verificar la inferència del model.
Les proves per lots es poden dur a terme en diverses plataformes informàtiques, com ara un servidor de prova, un servidor remot o el núvol. Normalment, el model es proporciona com un fitxer serialitzat, que es carrega com a objecte i es dedueix de les dades de prova.
Les proves A / B: S'utilitza freqüentment per a l'anàlisi de campanyes de màrqueting així com per al disseny de serveis (llocs web, aplicacions mòbils, etc.).
En funció de l'empresa o les operacions, s'utilitzen enfocaments estadístics per analitzar els resultats de les proves A/B per decidir quin model funcionarà millor a la producció. Normalment, les proves A/B es fan de la següent manera:
- Les dades en directe o en temps real es divideixen o segmenten en dos conjunts, el conjunt A i el conjunt B.
- Les dades del conjunt A s'envien al model obsolet, mentre que les dades del conjunt B s'envien al model actualitzat.
- Depenent del cas o dels processos d'ús empresarial, es poden utilitzar diversos enfocaments estadístics per avaluar el rendiment del model (per exemple, exactitud, precisió, etc.) per determinar si el nou model (model B) supera el model antic (model A).
- A continuació, fem proves d'hipòtesis estadístiques: la hipòtesi nul·la diu que el nou model no té cap efecte sobre el valor mitjà dels indicadors de negoci que s'estan monitoritzant. Segons la hipòtesi alternativa, el nou model augmenta el valor mitjà dels indicadors empresarials de seguiment.
- Finalment, avaluem si el nou model suposa una millora significativa en determinats KPIs empresarials.
Una prova d'ombra o escènica: un model s'avalua en un duplicat d'un entorn de producció abans de ser utilitzat en producció (entorn de fase).
Això és crucial per determinar el rendiment del model amb dades en temps real i validar la resistència del model. es duu a terme inferint les mateixes dades que el pipeline de producció i lliurant la branca desenvolupada o un model per ser provat en un servidor de prova.
L'únic inconvenient és que no es faran eleccions empresarials al servidor de prova ni seran visibles per als usuaris finals com a resultat de la branca de desenvolupament.
La resiliència i el rendiment del model s'avaluaran estadísticament utilitzant els resultats de l'entorn d'escenificació utilitzant les mètriques adequades.
11. Què distingeix el processament en flux del processament per lots?
Podem manipular les característiques que fem servir per produir les nostres previsions en temps real mitjançant dos mètodes de processament: per lots i flux.
Procés per lots característiques d'un punt anterior en el temps per a un objecte específic, que després s'utilitza per generar prediccions en temps real.
- Aquí, podem fer càlculs intensius de funcions fora de línia i tenir les dades preparades per a una inferència ràpida.
- Característiques, però, una edat des que estaven predeterminades en el passat. Això pot ser un inconvenient important si el vostre pronòstic es basa en fets recents. (Per exemple, identificar transaccions fraudulentes tan aviat com sigui possible).
Amb funcions de transmissió gairebé en temps real per a una entitat específica, la inferència es porta a terme en el processament de flux en un conjunt determinat d'entrades.
- Aquí, donant al model funcions de transmissió en temps real, podem obtenir prediccions més precises.
- Tanmateix, es requereix una infraestructura addicional per al processament de fluxos i per mantenir els fluxos de dades (Kafka, Kinesis, etc.). (Apache Flink, Beam, etc.)
12. Què vols dir amb Training Serving Skew?
La disparitat entre el rendiment en el servei i el rendiment durant l'entrenament es coneix com a inclinació entre el servei d'entrenament. Aquesta inclinació pot ser induïda pels factors següents:
- Una diferència en la manera com gestioneu les dades entre les canalitzacions de servei i formació.
- Un canvi en les dades de la vostra formació al vostre servei.
- Un canal de comentaris entre el vostre algorisme i el vostre model.
13. Què entens per model de registre?
Model Registry és un repositori central on els creadors de models poden publicar models adequats per al seu ús en producció.
Els desenvolupadors poden col·laborar amb altres equips i parts interessades per gestionar la vida útil de tots els models dins del negoci mitjançant el registre. Un científic de dades pot carregar els models entrenats al registre de models.
Els models es preparen per a la prova, la validació i el desplegament a producció un cop estiguin al registre. A més, els models entrenats s'emmagatzemen en registres de models per accedir ràpidament a qualsevol aplicació o servei integrat.
Per provar, avaluar i desplegar el model a producció, desenvolupadors de programari i els revisors poden reconèixer i triar ràpidament la millor versió dels models entrenats (segons els criteris d'avaluació).
14. Pots detallar els avantatges del model de registre?
A continuació es mostren algunes maneres en què el registre del model racionalitza la gestió del cicle de vida del model:
- Per facilitar el desplegament, deseu els requisits de temps d'execució i les metadades dels vostres models entrenats.
- Els vostres models entrenats, desplegats i retirats s'han de registrar, fer un seguiment i versionar-los en un repositori centralitzat i cercable.
- Creeu canalitzacions automatitzades que permetin el lliurament continu, la formació i la integració del vostre model de producció.
- Compareu els models recentment entrenats (o models desafiadors) a l'entorn d'escenificació amb els models que funcionen actualment en producció (models campions).
15. Pots explicar el funcionament de la tècnica Champion-Challenger?
És possible provar diverses decisions operatives en producció mitjançant una tècnica Champion Challenger. Probablement heu sentit parlar de les proves A/B en el context del màrqueting.
Per exemple, podeu escriure dues línies d'assumpte diferents i distribuir-les a l'atzar al grup demogràfic objectiu per tal de maximitzar la taxa d'obertura d'una campanya de correu electrònic.
El sistema registra el rendiment d'un correu electrònic (és a dir, l'acció d'obertura del correu electrònic) en relació amb la seva línia d'assumpte, la qual cosa us permet comparar la taxa d'obertura de cada línia d'assumpte per determinar quina és la més eficaç.
Champion-Challenger és comparable a les proves A/B en aquest sentit. Podeu utilitzar la lògica de decisió per avaluar cada resultat i seleccionar el més eficaç mentre experimenteu amb diversos mètodes per triar.
El model més reeixit es correlaciona amb el campió. El primer desafiador i la llista de rivals coincidents són ara tot el que està present a la primera fase d'execució en lloc del campió.
El sistema tria el campió per a més execucions de passos de treball.
Els desafiadors es contrasten entre ells. Aleshores, el nou campió el determina el desafiador que produeixi els millors resultats.
Les tasques implicades en el procés de comparació entre campió i desafiador s'enumeren a continuació amb més detall:
- Avaluació de cadascun dels models rivals.
- Avaluació de les puntuacions finals.
- Comparant els resultats de l'avaluació per establir el desafiador victoriós.
- Afegint el campió fresc a l'arxiu
16. Descriu les aplicacions a nivell empresarial del cicle de vida MLOps?
Hem de deixar de considerar l'aprenentatge automàtic només com un experiment iteratiu per tal que els models d'aprenentatge automàtic entrin en producció. MLOps és la unió de l'enginyeria de programari amb l'aprenentatge automàtic.
El resultat final s'ha d'imaginar com a tal. Per tant, el codi d'un producte tecnològic ha de ser provat, funcional i modular.
MLOps té una vida útil que és comparable a un flux d'aprenentatge automàtic convencional, amb l'excepció que el model es manté en el procés fins a la producció.
Aleshores, els enginyers de MLOps ho vigilen per assegurar-se que la qualitat del model en producció és la que es pretén.
Aquests són alguns casos d'ús de diverses de les tecnologies MLOps:
- Registres models: és el que sembla ser. Els equips més grans emmagatzemen i mantenen un seguiment dels models de versions als registres de models. Fins i tot tornar a una versió anterior és una opció.
- Botiga de característiques: quan es tracta de conjunts de dades més grans, podria haver-hi versions diferents dels conjunts de dades analítiques i subconjunts per a tasques específiques. Una botiga de funcions és una manera avantguardista i amb bon gust d'utilitzar el treball de preparació de dades d'execucions anteriors o també d'altres equips.
- Emmagatzematge de metadades: és crucial supervisar correctament les metadades durant la producció si les dades no estructurades, com ara les dades d'imatge i de text, s'han d'utilitzar amb èxit.
Conclusió
És fonamental tenir en compte que, en la majoria dels casos, l'entrevistador busca un sistema, mentre que el candidat busca una solució.
El primer es basa en les teves habilitats tècniques, mentre que el segon és tot sobre el mètode que utilitzes per demostrar la teva competència.
Hi ha diversos procediments que hauríeu de seguir quan responeu a les preguntes de l'entrevista MLOps per ajudar l'entrevistador a entendre millor com voleu avaluar i abordar el problema en qüestió.
La seva concentració està més en la reacció incorrecta que en la correcta. Una solució explica una història i el vostre sistema és la millor il·lustració del vostre coneixement i capacitat de comunicació.
Deixa un comentari