Máis de 15 preguntas e respostas de entrevistas MLOps principais

Índice analítico[Ocultar][Mostrar]

1. Que queres dicir con MLOps?
2. Como varían os científicos de datos, os enxeñeiros de datos e os enxeñeiros de ML?
3. Que distingue MLOps de ModelOps e AIOps?
4. Podes dicirme algúns dos beneficios dos MLOps?
5. Podes dicirme os compoñentes dos MLOps?
6. Que riscos leva ao uso da ciencia de datos?
7. Podes explicar, que é a deriva do modelo?
8. De cantas formas diferentes se poden aplicar os MLOps, na súa opinión?
9. Que separa o despregamento estático do despregamento dinámico?
10. Que técnicas de proba de produción coñeces?
11. Que distingue o procesamento de fluxos do procesamento por lotes?
12. A que te refires por Adestrar Serving Skew?
13. Que entendes por Modelo de Rexistro?
14. Podes ampliar os beneficios do Rexistro Modelo?
15. Podes explicar o traballo da técnica Champion-Challenger?
16. Describe as aplicacións de nivel empresarial do ciclo de vida MLOps?
Conclusión

As empresas están utilizando tecnoloxías emerxentes como a intelixencia artificial (IA) e a aprendizaxe automática (ML) con máis frecuencia para aumentar a accesibilidade do público á información e aos servizos.

Estas tecnoloxías utilízanse cada vez máis en diversos sectores, como a banca, as finanzas, o comercio polo miúdo, a fabricación e mesmo a saúde.

Científicos de datos, enxeñeiros de aprendizaxe automática e enxeñeiros en intelixencia artificial son demandados por un número crecente de empresas.

Coñecendo o posible aprendizaxe de máquina As preguntas de entrevista de operacións que os xestores de contratación e os recrutadores poderían facerche son esenciais se queres traballar nos campos de ML ou MLOps.

Podes aprender a responder a algunhas das preguntas da entrevista de MLOps nesta publicación mentres traballas para conseguir o traballo dos teus soños.

1. Que queres dicir con MLOps?

O tema da operatividade dos modelos de ML é o foco dos MLOps, tamén coñecidos como Machine Learning Operations, un campo en desenvolvemento dentro do ámbito máis importante de AI/DS/ML.

O obxectivo principal do enfoque e da cultura de enxeñaría de software coñecida como MLOps é integrar a creación de modelos de aprendizaxe automática/ciencia de datos e a súa posterior operacionalización (Ops).

Os DevOps convencionais e os MLOps comparten certas semellanzas, pero os MLOps tamén difieren moito dos DevOps tradicionais.

MLOps engade unha nova capa de complexidade centrándose nos datos, mentres que DevOps céntrase principalmente en operar as versións de código e software que non poden ser con estado.

A combinación de ML, Data e Ops é o que dá a MLOps o seu nome común (aprendizaxe automática, enxeñaría de datos e DevOps).

2. Como varían os científicos de datos, os enxeñeiros de datos e os enxeñeiros de ML?

Varía, na miña opinión, dependendo da firma. O ambiente para o transporte e transformación de datos, así como o seu almacenamento, está construído por enxeñeiros de datos.

Os científicos de datos son expertos en utilizar técnicas científicas e estatísticas para analizar datos e extraer conclusións, incluíndo facer predicións sobre o comportamento futuro en función das tendencias existentes.

Os enxeñeiros de software estudaban as operacións e xestionaban a infraestrutura de implantación hai uns anos. Os equipos de operacións, pola súa banda, estudaban o desenvolvemento mentres usaban a infraestrutura como código. Estes dous fluxos crearon unha posición DevOps.

MLOps está na mesma categoría que Científico de datos e Enxeñeiro de datos. Os enxeñeiros de datos están a adquirir coñecementos sobre a infraestrutura necesaria para soportar os ciclos de vida dos modelos e crear canalizacións para a formación continua.

Os científicos de datos buscan desenvolver as súas capacidades de implantación e puntuación de modelos.

Os enxeñeiros de ML constrúen unha canalización de datos de produción que utilizan a infraestrutura que transforma os datos brutos na entrada necesaria para un modelo de ciencia de datos, alberga e executa o modelo e envía un conxunto de datos puntuados aos sistemas posteriores.

Tanto os enxeñeiros de datos como os científicos de datos son capaces de converterse en enxeñeiros de ML.

3. Que distingue MLOps de ModelOps e AIOps?

Ao construír de extremo a extremo algoritmos de aprendizaxe automática, MLOps é unha aplicación DevOps que inclúe a recollida de datos, o procesamento previo de datos, a creación de modelos, a implantación de modelos en produción, o seguimento de modelos en produción e a actualización periódica do modelo.

O uso de DevOps para xestionar toda a implementación de calquera algoritmo, como os modelos baseados en regras, coñécese como ModelOps.

AI Ops está aproveitando os principios de DevOps para crear aplicacións de IA desde cero.

4. Podes dicirme algúns dos beneficios dos MLOps?

Os científicos de datos e os desenvolvedores de MLOps poden volver executar as probas rapidamente para asegurarse de que os modelos estean adestrados e avaliados adecuadamente xa que MLOps axuda a automatizar todas ou a maioría das tarefas/pasos do MDLC (ciclo de vida do desenvolvemento de modelos). Ademais permisos versión de datos e modelos.
A posta en práctica das ideas de MLOps permite que os enxeñeiros de datos e os científicos de datos teñan acceso sen restricións a conxuntos de datos cultivados e seleccionados, o que acelera exponencialmente o desenvolvemento de modelos.
Os científicos de datos poderán recorrer ao modelo que funcionou mellor se a iteración actual non cumpre coas expectativas grazas á capacidade de ter modelos e conxuntos de datos versionados, o que mellorará significativamente a pista de auditoría do modelo.
Como os métodos MLOps dependen moito de DevOps, tamén incorporan unha serie de conceptos CI/CD, o que mellora a calidade e fiabilidade do código.

5. Podes dicirme os compoñentes dos MLOps?

Proxecto: Os MLOps inclúen en gran medida o pensamento de deseño. Comezando pola natureza do problema, probando hipóteses, arquitectura e implantación

Edificio modelo: As probas e validacións de modelos forman parte deste paso, xunto coas canalizacións de enxeñaría de datos e a experimentación para configurar os mellores sistemas de aprendizaxe automática.

operacións: O modelo debe ser implementado como parte das operacións e continuamente comprobado e avaliado. A continuación, monitorízanse os procesos CI/CD e inícianse mediante unha ferramenta de orquestración.

6. Que riscos leva ao uso da ciencia de datos?

É difícil escalar o modelo en toda a empresa.
Sen previo aviso, o modelo apágase e deixa de funcionar.
Principalmente, a precisión dos modelos empeora co tempo.
O modelo fai predicións inexactas en base a unha observación específica que non se pode examinar máis.
Os científicos de datos tamén deberían manter modelos, pero son caros.
Os MLOps pódense utilizar para reducir estes riscos.

7. Podes explicar, que é a deriva do modelo?

Cando o rendemento da fase de inferencia dun modelo (usando datos do mundo real) se deteriora debido ao rendemento da súa fase de adestramento, isto coñécese como deriva do modelo, tamén coñecido como deriva da idea (usando datos históricos etiquetados).

O rendemento do modelo está sesgado en comparación coas fases de adestramento e servizo, de aí o nome de "formar/servir sesgo".

Numerosos factores, incluíndo:

A forma fundamental na que se distribúen os datos cambiou.
A formación centrouse nun número reducido de categorías, con todo, un cambio ambiental que acaba de producirse sumou outra área.
Nas dificultades de PNL, os datos do mundo real teñen unha cantidade desproporcionadamente maior de fichas de número que os datos de adestramento.
Ocurrencias inesperadas, como un modelo construído a partir de datos anteriores á COVID-19 que se prevé que terá un rendemento significativamente peor nos datos recollidos durante a epidemia de COVID-XNUMX.

Sempre é necesario supervisar continuamente o rendemento do modelo para identificar a deriva do modelo.

A reciclaxe do modelo é case sempre necesaria como remedio cando hai un descenso persistente no rendemento do modelo; debe identificarse o motivo do descenso e utilizar os procedementos de tratamento axeitados.

8. De cantas formas diferentes se poden aplicar os MLOps, na súa opinión?

Existen tres métodos para poñer en práctica MLOps:

MLOps nivel 0 (proceso manual): Neste nivel, todos os pasos, incluída a preparación, análise e adestramento de datos, realízanse manualmente. Cada etapa debe realizarse manualmente, así como a transición dunha a outra.

A premisa subxacente é que o teu equipo de ciencia de datos só xestiona un pequeno número de modelos que non se actualizan con frecuencia.

Como resultado, non hai Integración Continua (CI) nin Implementación Continua (CD) e a proba do código adoita estar integrada na execución de scripts ou na execución do notebook, e a implantación ten lugar nun microservizo cun API REST.

MLOps nivel 1 (automatización da canalización de ML): Ao automatizar o proceso de ML, o obxectivo é adestrar continuamente o modelo (CT). Deste xeito, pode realizar a prestación continua do servizo de predición de modelos.

A nosa implantación dunha canalización completa de adestramento garante que o modelo estea adestrado automaticamente na produción utilizando novos datos baseados nos disparadores activos da canalización.

MLOps nivel 2 (automatización da canalización CI/CD): Va un paso por riba do nivel MLOps. Requírese un sistema CI/CD automatizado potente se quere actualizar as conducións en produción de forma rápida e fiable:

Crea código fonte e executa numerosas probas ao longo da fase de CI. Os paquetes, executables e artefactos son as saídas do escenario, que se despregarán máis adiante.
Os artefactos creados pola fase de CI despréganse no ambiente de destino durante o paso do CD. Un oleoduto despregado coa implementación do modelo revisado é o resultado da etapa.
Antes de que a canalización comece unha nova iteración do experimento, os científicos de datos aínda deben facer a fase de análise de datos e modelos manualmente.

9. Que separa o despregamento estático do despregamento dinámico?

O modelo está adestrado fóra de liña para Implantación estática. Noutras palabras, adestramos o modelo precisamente unha vez e despois utilizámolo durante un tempo. Despois de que o modelo foi adestrado localmente, gárdase e envíase ao servidor para ser usado para producir predicións en tempo real.

O modelo distribúese entón como software de aplicación instalable. un programa que permite a puntuación por lotes de solicitudes, a modo de ilustración.

O modelo está adestrado en liña para Implementación dinámica. É dicir, engádense constantemente novos datos ao sistema e o modelo actualízase continuamente para ter en conta.

Como resultado, pode facer predicións usando un servidor baixo demanda. Despois diso, o modelo ponse en uso proporcionándose como un punto final da API que reacciona ás consultas dos usuarios, utilizando un marco web como Flask ou FastAPI.

10. Que técnicas de proba de produción coñeces?

Probas por lotes: Ao realizar probas nun entorno diferente ao do seu entorno de adestramento, verifica o modelo. Usando métricas de elección, como precisión, RMSE, etc., as probas por lotes realízanse nun grupo de mostras de datos para verificar a inferencia do modelo.

As probas por lotes pódense realizar nunha variedade de plataformas informáticas, como un servidor de proba, un servidor remoto ou a nube. Normalmente, o modelo ofrécese como un ficheiro serializado, que se carga como un obxecto e se deduce dos datos de proba.

A proba A / B: Utilízase con frecuencia para a análise de campañas de mercadotecnia así como para o deseño de servizos (páxinas web, aplicacións móbiles, etc.).

En función da empresa ou das operacións, utilízanse enfoques estatísticos para analizar os resultados das probas A/B para decidir que modelo funcionará mellor na produción. Normalmente, as probas A/B realízanse do seguinte xeito:

Os datos en directo ou en tempo real divídense ou segmentan en dous conxuntos, o conxunto A e o conxunto B.
Os datos do conxunto A envíanse ao modelo obsoleto, mentres que os datos do conxunto B se envían ao modelo actualizado.
Dependendo do caso ou dos procesos de uso empresarial, pódense utilizar varios enfoques estatísticos para avaliar o rendemento do modelo (por exemplo, a exactitude, a precisión, etc.) para determinar se o novo modelo (modelo B) supera ao antigo (modelo A).
Despois facemos probas de hipótese estatística: a hipótese nula di que o novo modelo non ten ningún efecto sobre o valor medio dos indicadores empresariais que se están supervisando. Segundo a hipótese alternativa, o novo modelo aumenta o valor medio dos indicadores empresariais de seguimento.
Por último, avaliamos se o novo modelo redunda nunha mellora significativa en determinados KPIs empresariais.

Unha proba de sombra ou escenario: un modelo avalíase nun duplicado dun ambiente de produción antes de ser usado na produción (entorno de posta en escena).

Isto é crucial para determinar o rendemento do modelo con datos en tempo real e validar a resistencia do modelo. realízase inferindo os mesmos datos que o pipeline de produción e entregando a rama desenvolvida ou un modelo para ser probado nun servidor de proba.

O único inconveniente é que non se farán opcións comerciais no servidor de preparación nin serán visibles para os usuarios finais como resultado da rama de desenvolvemento.

A resiliencia e o rendemento do modelo avaliaranse estatísticamente utilizando os resultados do entorno de posta en escena utilizando as métricas adecuadas.

11. Que distingue o procesamento de fluxos do procesamento por lotes?

Podemos manipular as características que utilizamos para producir as nosas previsións en tempo real mediante dous métodos de procesamento: por lotes e por fluxo.

Proceso por lotes características dun punto anterior no tempo para un obxecto específico, que despois se utiliza para xerar predicións en tempo real.

Aquí, podemos facer cálculos intensivos de funcións fóra de liña e ter os datos preparados para unha inferencia rápida.
Características, con todo, unha idade desde que foron predeterminadas no pasado. Este pode ser un gran inconveniente se o seu prognóstico se basea en ocorrencias recentes. (Por exemplo, identificando transaccións fraudulentas tan pronto como sexa posible).

Con funcións de streaming case en tempo real para unha entidade específica, a inferencia realízase no procesamento de fluxos nun conxunto de entradas determinado.

Aquí, ao ofrecer ao modelo funcións de transmisión en tempo real, podemos obter predicións máis precisas.
Non obstante, é necesaria unha infraestrutura adicional para o procesamento de fluxos e para manter fluxos de datos (Kafka, Kinesis, etc.). (Apache Flink, Beam, etc.)

12. A que te refires por Adestrar Serving Skew?

A disparidade entre o rendemento ao servir e o rendemento durante o adestramento coñécese como sesgo de servizo de adestramento. Este sesgo pode ser inducido polos seguintes factores:

Unha diferenza na forma en que manexas os datos entre as canalizacións de servizo e adestramento.
Un cambio nos datos do teu adestramento ao teu servizo.
Unha canle de comentarios entre o teu algoritmo e o modelo.

13. Que entendes por Modelo de Rexistro?

O Rexistro de modelos é un repositorio central onde os creadores de modelos poden publicar modelos axeitados para o seu uso na produción.

Os desenvolvedores poden colaborar con outros equipos e partes interesadas para xestionar a vida útil de todos os modelos dentro da empresa mediante o rexistro. Os modelos adestrados poden ser cargados no rexistro de modelos por un científico de datos.

Os modelos prepáranse para a proba, validación e implantación en produción unha vez que estean no rexistro. Ademais, os modelos adestrados gárdanse en rexistros de modelos para o acceso rápido de calquera aplicación ou servizo integrado.

Para probar, avaliar e implementar o modelo na produción, desenvolvedores de software e os revisores poden recoñecer e escoller rapidamente a mellor versión dos modelos adestrados (segundo os criterios de avaliación).

14. Podes ampliar os beneficios do Rexistro Modelo?

As seguintes son algunhas das formas en que o rexistro de modelos simplifica a xestión do ciclo de vida do modelo:

Para facilitar a implantación, garda os requisitos de tempo de execución e os metadatos dos teus modelos adestrados.
Os teus modelos adestrados, despregados e retirados deben rexistrarse, rastrexarse e versionarse nun repositorio centralizado e en que se pode buscar.
Cree canalizacións automatizadas que permitan a entrega, a formación e a integración continuas do seu modelo de produción.
Compare os modelos recén adestrados (ou modelos desafiantes) no ambiente de escenificación cos modelos que están a funcionar actualmente en produción (modelos campións).

15. Podes explicar o traballo da técnica Champion-Challenger?

É posible probar varias decisións operativas na produción usando a técnica Champion Challenger. Probablemente xa escoitou falar sobre as probas A/B no contexto do marketing.

Por exemplo, podes escribir dúas liñas de asunto distintas e distribuílas ao azar ao teu grupo demográfico obxectivo para maximizar a taxa de apertura dunha campaña de correo electrónico.

O sistema rexistra o rendemento dun correo electrónico (é dicir, unha acción aberta de correo electrónico) en relación coa súa liña de asunto, o que lle permite comparar a taxa de apertura de cada liña de asunto para determinar cal é o máis eficaz.

Champion-Challenger é comparable ás probas A/B neste sentido. Podes usar a lóxica de decisión para avaliar cada resultado e seleccionar o máis eficaz mentres experimentas con varios métodos para escoller.

O modelo máis exitoso correlaciona co campión. O primeiro retador e a lista de competidores son agora todo o que está presente na primeira fase de execución en lugar do campión.

O sistema elixe o campión para realizar máis execucións de pasos de traballo.

Os retadores son contrastados entre si. O novo campión é entón determinado polo retador que produce os mellores resultados.

As tarefas implicadas no proceso de comparación de campión-desafiador están listadas a continuación con máis detalle:

Avaliación de cada un dos modelos rivais.
Valoración das puntuacións finais.
Comparando os resultados da avaliación para establecer o retador vitorioso.
Engadindo o novo campión ao arquivo

16. Describe as aplicacións de nivel empresarial do ciclo de vida MLOps?

Debemos deixar de considerar a aprendizaxe automática como só un experimento iterativo para que os modelos de aprendizaxe automática entren en produción. MLOps é a unión da enxeñaría de software coa aprendizaxe automática.

O resultado final debe imaxinarse como tal. Polo tanto, o código dun produto tecnolóxico ten que ser probado, funcional e modular.

MLOps ten unha vida útil que é comparable a un fluxo de aprendizaxe automática convencional, coa excepción de que o modelo se mantén no proceso ata a súa produción.

Os enxeñeiros de MLOps vixian isto para asegurarse de que a calidade do modelo na produción sexa o que se pretende.

Aquí tes algúns casos de uso de varias das tecnoloxías MLOps:

Rexistros modelo: é o que parece ser. Os equipos máis grandes almacenan e manteñen un seguimento dos modelos de versión nos rexistros de modelos. Incluso volver a unha versión anterior é unha opción.
Tenda de funcións: ao tratar con conxuntos de datos máis grandes, podería haber versións distintas dos conxuntos de datos analíticos e subconxuntos para tarefas específicas. Unha tenda de funcións é unha forma innovadora e elegante de utilizar o traballo de preparación de datos de execucións anteriores ou doutros equipos.
Almacenamento de metadatos: é fundamental supervisar correctamente os metadatos durante a produción se se quere utilizar con éxito datos non estruturados, como imaxes e datos de texto.

Conclusión

É fundamental ter en conta que, na maioría dos casos, o entrevistador busca un sistema, mentres que o candidato busca unha solución.

O primeiro baséase nas túas habilidades técnicas, mentres que o segundo trata sobre o método que empregas para demostrar a túa competencia.

Hai varios procedementos que debes seguir cando respondes ás preguntas da entrevista MLOps para axudar ao entrevistador a comprender mellor como pretendes avaliar e abordar o problema en cuestión.

A súa concentración está máis na reacción incorrecta que na correcta. Unha solución conta unha historia e o teu sistema é a mellor ilustración do teu coñecemento e capacidade de comunicación.

Preguntas da entrevista MLOps para mirar

Máis de 15 preguntas e respostas das entrevistas MLOps

1. Que queres dicir con MLOps?

2. Como varían os científicos de datos, os enxeñeiros de datos e os enxeñeiros de ML?

3. Que distingue MLOps de ModelOps e AIOps?

4. Podes dicirme algúns dos beneficios dos MLOps?

5. Podes dicirme os compoñentes dos MLOps?

6. Que riscos leva ao uso da ciencia de datos?

7. Podes explicar, que é a deriva do modelo?

8. De cantas formas diferentes se poden aplicar os MLOps, na súa opinión?

9. Que separa o despregamento estático do despregamento dinámico?

10. Que técnicas de proba de produción coñeces?

11. Que distingue o procesamento de fluxos do procesamento por lotes?

12. A que te refires por Adestrar Serving Skew?

13. Que entendes por Modelo de Rexistro?

14. Podes ampliar os beneficios do Rexistro Modelo?

15. Podes explicar o traballo da técnica Champion-Challenger?

16. Describe as aplicacións de nivel empresarial do ciclo de vida MLOps?

Conclusión

sobre Gaio

Máis artigos sobre HashDork:

As 30+ preguntas rápidas da entrevista de enxeñaría

Aprendizaxe por reforzo: IA que aprende dos seus erros

As 40+ preguntas das entrevistas de Machine Learning

Máis de 25 preguntas de entrevista de AWS Lambda

Este boletín de novas tecnoloxías do futuro non é unha merda

Máis de 15 preguntas e respostas das entrevistas MLOps

1. Que queres dicir con MLOps?

2. Como varían os científicos de datos, os enxeñeiros de datos e os enxeñeiros de ML?

3. Que distingue MLOps de ModelOps e AIOps?

4. Podes dicirme algúns dos beneficios dos MLOps?

5. Podes dicirme os compoñentes dos MLOps?

6. Que riscos leva ao uso da ciencia de datos?

7. Podes explicar, que é a deriva do modelo?

8. De cantas formas diferentes se poden aplicar os MLOps, na súa opinión?

9. Que separa o despregamento estático do despregamento dinámico?

10. Que técnicas de proba de produción coñeces?

11. Que distingue o procesamento de fluxos do procesamento por lotes?

12. A que te refires por Adestrar Serving Skew?

13. Que entendes por Modelo de Rexistro?

14. Podes ampliar os beneficios do Rexistro Modelo?

15. Podes explicar o traballo da técnica Champion-Challenger?

16. Describe as aplicacións de nivel empresarial do ciclo de vida MLOps?

Conclusión

sobre Gaio

Máis artigos sobre HashDork:

As 30+ preguntas rápidas da entrevista de enxeñaría

Aprendizaxe por reforzo: IA que aprende dos seus erros

As 40+ preguntas das entrevistas de Machine Learning

Máis de 25 preguntas de entrevista de AWS Lambda

interaccións lector

Deixe unha resposta cancelar resposta

Este boletín de novas tecnoloxías do futuro non é unha merda