Saturs[Paslēpt][Rādīt]
- 1. Ko jūs domājat ar MLOps?
- 2. Kā datu zinātnieki, datu inženieri un ML inženieri atšķiras viens no otra?
- 3. Kas atšķir MLOps no ModelOps un AIOps?
- 4. Vai varat pastāstīt dažas no MLOps priekšrocībām?
- 5. Vai varat man pastāstīt MLOps sastāvdaļas?
- 6. Kādi riski var rasties, izmantojot datu zinātni?
- 7. Vai varat paskaidrot, kas ir modeļu dreifs?
- 8. Cik dažādos veidos, jūsuprāt, var izmantot MLOps?
- 9. Kas atšķir statisko izvietošanu no dinamiskās izvietošanas?
- 10. Kādas ražošanas testēšanas metodes jūs zināt?
- 11. Kas atšķir straumes apstrādi no pakešu apstrādes?
- 12. Ko jūs domājat ar Training Serving Skew?
- 13. Ko jūs domājat ar modeļu reģistru?
- 14. Vai varat sīkāk pastāstīt par modeļu reģistra priekšrocībām?
- 15. Vai varat izskaidrot Champion-Challenger tehnikas darbus?
- 16. Aprakstiet MLOps dzīves cikla uzņēmuma līmeņa lietojumprogrammas?
- Secinājumi
Uzņēmumi biežāk izmanto jaunas tehnoloģijas, piemēram, mākslīgo intelektu (AI) un mašīnmācīšanos (ML), lai palielinātu sabiedrības piekļuvi informācijai un pakalpojumiem.
Šīs tehnoloģijas arvien vairāk tiek izmantotas dažādās nozarēs, tostarp banku, finanšu, mazumtirdzniecības, ražošanas un pat veselības aprūpes jomā.
Datu zinātnieki, mašīnmācīšanās inženieri un mākslīgā intelekta inženieri ir pieprasīti arvien vairāk uzņēmumu.
Zinot iespējamo mašīna mācīšanās Ja vēlaties strādāt ML vai MLOps jomās, svarīgi ir jautājumi par operāciju interviju, ko jums varētu uzdot darbā pieņemšanas vadītāji un personāla atlases speciālisti.
Šajā ziņā varat uzzināt, kā atbildēt uz dažiem MLOps intervijas jautājumiem, strādājot pie sava sapņu darba iegūšanas.
1. Ko jūs domājat ar MLOps?
ML modeļu operacionalizēšanas tēma ir MLOps, kas pazīstams arī kā mašīnmācīšanās operācijas, joma, kas attīstās nozīmīgākajā AI/DS/ML arēnā.
Programmatūras inženierijas pieejas un kultūras, kas pazīstama kā MLOps, galvenais mērķis ir integrēt mašīnmācības/datu zinātnes modeļu izveidi un to turpmāko darbību (Ops).
Parastajiem DevOps un MLO ir zināmas līdzības, tomēr MLOps arī ļoti atšķiras no tradicionālajiem DevOps.
MLOps pievieno jaunu sarežģītības līmeni, koncentrējoties uz datiem, savukārt DevOps galvenokārt koncentrējas uz koda un programmatūras izlaidumu, kas nevar būt statusu, aktivizēšanu.
ML, Data un Ops kombinācija ir tas, kas piešķir MLOps tā vispārpieņemto nosaukumu (mašīnmācība, datu inženierija un DevOps).
2. Kā datu zinātnieki, datu inženieri un ML inženieri atšķiras viens no otra?
Tas, manuprāt, atšķiras atkarībā no uzņēmuma. Datu transportēšanas un pārveidošanas vidi, kā arī to glabāšanu veido datu inženieri.
Datu zinātnieki ir eksperti zinātnisko un statistikas metožu izmantošanā, lai analizētu datus un izdarītu secinājumus, tostarp veicot prognozes par turpmāko uzvedību, pamatojoties uz pašreizējām tendencēm.
Programmatūras inženieri pirms dažiem gadiem pētīja darbības un pārvaldīja izvietošanas infrastruktūru. No otras puses, Ops komandas pētīja attīstību, vienlaikus izmantojot infrastruktūru kā kodu. Šīs divas straumes izveidoja DevOps pozīciju.
MLOps ir tajā pašā kategorijā kā Datu zinātnieks un datu inženieris. Datu inženieri iegūst zināšanas par infrastruktūru, kas nepieciešama, lai atbalstītu modeļu dzīves ciklus un izveidotu cauruļvadus pastāvīgai apmācībai.
Datu zinātnieki cenšas attīstīt savu modeļu izvietošanas un vērtēšanas iespējas.
Ražošanas līmeņa datu cauruļvadu ir izveidojuši ML inženieri, izmantojot infrastruktūru, kas pārveido neapstrādātus datus par ievadi, kas nepieciešama datu zinātnes modelim, mitina un palaiž modeli, kā arī izvada novērtēto datu kopu pakārtotajām sistēmām.
Gan datu inženieri, gan datu zinātnieki var kļūt par ML inženieriem.
3. Kas atšķir MLOps no ModelOps un AIOps?
Būvējot no gala līdz galam mašīnmācīšanās algoritmi, MLOps ir DevOps lietojumprogramma, kas ietver datu vākšanu, datu pirmapstrādi, modeļa izveidi, modeļa izvietošanu ražošanā, modeļa uzraudzību ražošanā un modeļa periodisko jaunināšanu.
DevOps izmantošana, lai apstrādātu visu algoritmu, piemēram, uz kārtulu balstītu modeļu, ieviešanu, ir pazīstama kā ModelOps.
AI Ops izmanto DevOps principus, lai radītu AI lietotnes no nulles.
4. Vai varat pastāstīt dažas no MLOps priekšrocībām?
- Datu zinātnieki un MLOps izstrādātāji var ātri atkārtot izmēģinājumus, lai nodrošinātu, ka modeļi tiek apmācīti un atbilstoši novērtēti, jo MLOps palīdz automatizēt visus vai lielāko daļu uzdevumu/soļu MDLC (modeļa izstrādes dzīves ciklā). Papildus atļaujas datu un modeļa versiju noteikšana.
- MLOps ideju ieviešana praksē ļauj datu inženieriem un datu zinātniekiem neierobežoti piekļūt kultivētām un atlasītām datu kopām, kas eksponenciāli paātrina modeļu izstrādi.
- Datu zinātnieki varēs atgriezties pie modeļa, kas darbojās labāk, ja pašreizējā iterācija neattaisnos cerības, pateicoties iespējai veikt modeļu un datu kopu versijas, kas ievērojami uzlabos modeļa audita izsekojamību.
- Tā kā MLOps metodes lielā mērā balstās uz DevOps, tās ietver arī vairākas CI/CD koncepcijas, kas uzlabo koda kvalitāte un uzticamība.
5. Vai varat man pastāstīt MLOps sastāvdaļas?
Dizains: MLOps lielā mērā ietver dizaina domāšanu. Sākot ar problēmas būtību, pārbaudot hipotēzes, arhitektūru un izvietošanu
Modeļu veidošana: Modeļu testēšana un validācija ir daļa no šī soļa, kā arī datu inženierijas cauruļvadi un eksperimenti, lai iestatītu labākās mašīnmācīšanās sistēmas.
Darbības: modelis ir jāievieš kā daļa no operācijām un pastāvīgi jāpārbauda un jānovērtē. Pēc tam CI/CD procesi tiek uzraudzīti un sākti, izmantojot orķestrēšanas rīku.
6. Kādi riski var rasties, izmantojot datu zinātni?
- Ir grūti mērogot modeli visā uzņēmumā.
- Bez brīdinājuma modelis izslēdzas un pārstāj darboties.
- Lielākoties modeļu precizitāte ar laiku pasliktinās.
- Modelis sniedz neprecīzas prognozes, pamatojoties uz konkrētu novērojumu, ko nevar tālāk pārbaudīt.
- Datu zinātniekiem vajadzētu arī uzturēt modeļus, taču tie ir dārgi.
- MLOps var izmantot, lai samazinātu šos riskus.
7. Vai varat paskaidrot, kas ir modeļu dreifs?
Ja modeļa secinājumu fāzes veiktspēja (izmantojot reālās pasaules datus) pasliktinās salīdzinājumā ar tā apmācības fāzes veiktspēju, to sauc par modeļa novirzi, kas pazīstama arī kā idejas novirze (izmantojot vēsturiskos, marķētos datus).
Modeļa veiktspēja ir šķība salīdzinājumā ar apmācības un apkalpošanas fāzēm, tāpēc nosaukums “apmācīt/apkalpot šķībs”.
Daudzi faktori, tostarp:
- Datu izplatīšanas pamatveids ir mainījies.
- Apmācība koncentrējās uz nelielu skaitu kategoriju, tomēr tikko notikušās vides pārmaiņas pievienoja vēl vienu jomu.
- NLP grūtībās reālajiem datiem ir nesamērīgi lielāks skaitļu marķieru daudzums nekā apmācības datiem.
- Negaidīti notikumi, piemēram, modelim, kas izveidots, pamatojoties uz datiem pirms Covid, tiek prognozēts, ka tā veiktspēja ievērojami sliktāka, salīdzinot ar datiem, kas savākti COVID-19 epidēmijas laikā.
Lai noteiktu modeļa novirzi, vienmēr ir nepieciešama nepārtraukta modeļa veiktspējas uzraudzība.
Modeļu pārkvalifikācija gandrīz vienmēr ir nepieciešama kā līdzeklis, ja pastāv pastāvīgs modeļa veiktspējas kritums; jānoskaidro samazinājuma iemesls un jāizmanto atbilstošas ārstēšanas procedūras.
8. Cik dažādos veidos, jūsuprāt, var izmantot MLOps?
Ir trīs metodes MLOs ieviešanai praksē:
MLOps 0. līmenis (manuāls process): šajā līmenī visas darbības, tostarp datu sagatavošana, analīze un apmācība, tiek veiktas manuāli. Katrs posms ir jāveic manuāli, kā arī pāreja no viena uz nākamo.
Pamatnoteikums ir tāds, ka jūsu datu zinātnes komanda pārvalda tikai nelielu skaitu modeļu, kas netiek bieži atjaunināti.
Rezultātā nav nepārtrauktas integrācijas (CI) vai nepārtrauktas izvietošanas (CD), un koda testēšana parasti tiek integrēta skripta izpildē vai piezīmjdatora izpildē, un izvietošana notiek mikropakalpojumā ar REST API.
MLOps 1. līmenis (ML konveijera automatizācija): automatizējot ML procesu, mērķis ir nepārtraukti apmācīt modeli (CT). Šādā veidā varat nodrošināt nepārtrauktu modeļa prognozēšanas pakalpojumu.
Mūsu visa apmācības cauruļvada izvietošana nodrošina, ka modelis tiek automātiski apmācīts ražošanā, izmantojot jaunus datus, kuru pamatā ir aktīvie konveijera aktivizētāji.
MLOps 2. līmenis (CI/CD konveijera automatizācija): tas ir vienu soli virs MLOps līmeņa. Ja vēlaties ātri un uzticami atjaunināt ražošanas cauruļvadus, ir nepieciešama spēcīga automatizēta CI/CD sistēma:
- Jūs izveidojat pirmkodu un izpildāt daudzus testus visā CI posmā. Paketes, izpildāmie faili un artefakti ir posma izvadi, kas tiks izvietoti vēlāk.
- CI posmā izveidotie artefakti tiek izvietoti mērķa vidē kompaktdiska darbības laikā. Izvietots konveijers ar pārskatītā modeļa ieviešanu ir posma izvade.
- Pirms konveijera sāk jaunu eksperimenta iterāciju, datu zinātniekiem joprojām ir manuāli jāveic datu un modeļa analīzes fāze.
9. Kas atšķir statisko izvietošanu no dinamiskās izvietošanas?
Modelis ir apmācīts bezsaistē Statiskā izvietošana. Citiem vārdiem sakot, mēs precīzi apmācām modeli vienu reizi un pēc tam izmantojam to kādu laiku. Pēc tam, kad modelis ir apmācīts lokāli, tas tiek saglabāts un nosūtīts uz serveri, lai to izmantotu reāllaika prognožu sagatavošanai.
Pēc tam modelis tiek izplatīts kā instalējama lietojumprogrammatūra. programma, kas kā ilustrācija ļauj veikt pieprasījumu partiju vērtēšanu.
Modelis ir apmācīts tiešsaistē Dinamiskā izvietošana. Tas nozīmē, ka sistēmai pastāvīgi tiek pievienoti jauni dati, un modelis tiek pastāvīgi atjaunināts, lai tos ņemtu vērā.
Rezultātā varat veikt prognozes, izmantojot serveri pēc pieprasījuma. Pēc tam modelis tiek nodots lietošanā, nodrošinot to kā API galapunktu, kas reaģē uz lietotāju vaicājumiem, izmantojot tīmekļa ietvaru, piemēram, Kolba vai FastAPI.
10. Kādas ražošanas testēšanas metodes jūs zināt?
Partiju pārbaude: veicot testēšanu iestatījumos, kas atšķiras no apmācības vides, tas pārbauda modeli. Izmantojot izvēlētās metrikas, piemēram, precizitāti, RMSE utt., datu paraugu grupai tiek veikta partijas testēšana, lai pārbaudītu modeļa secinājumus.
Pakešu testēšanu var veikt dažādās skaitļošanas platformās, piemēram, testa serverī, attālajā serverī vai mākonī. Parasti modelis tiek nodrošināts kā serializēts fails, kas tiek ielādēts kā objekts un tiek secināts no testa datiem.
A / B pārbaude: To bieži izmanto mārketinga kampaņu analīzei, kā arī pakalpojumu (vietņu, mobilo aplikāciju utt.) noformēšanai.
Pamatojoties uz uzņēmumu vai darbībām, tiek izmantotas statistikas pieejas, lai analizētu A/B testēšanas rezultātus, lai izlemtu, kurš modelis darbosies labāk. Parasti A/B testēšanu veic šādi:
- Tiešraides vai reāllaika dati ir sadalīti vai segmentēti divās kopās — A komplektā un B komplektā.
- A kopas dati tiek nosūtīti uz novecojušu modeli, savukārt kopas B dati tiek nosūtīti uz atjaunināto modeli.
- Atkarībā no biznesa lietošanas gadījuma vai procesiem, lai novērtētu modeļa veiktspēju (piemēram, precizitāti, precizitāti utt.), var izmantot vairākas statistikas pieejas, lai noteiktu, vai jaunais modelis (modelis B) pārspēj veco modeli (modelis A).
- Pēc tam veicam statistisko hipotēžu pārbaudi: nulles hipotēze saka, ka jaunais modelis neietekmē uzraugāmo biznesa rādītāju vidējo vērtību. Saskaņā ar alternatīvo hipotēzi jaunais modelis palielina monitoringa biznesa rādītāju vidējo vērtību.
- Visbeidzot, mēs novērtējam, vai jaunais modelis būtiski uzlabo noteiktus uzņēmējdarbības KPI.
Ēnu vai skatuves pārbaudījums: modelis tiek novērtēts ražošanas vides dublikātā pirms izmantošanas ražošanā (iestudēšanas vide).
Tas ir ļoti svarīgi, lai noteiktu modeļa veiktspēju ar reāllaika datiem un apstiprinātu modeļa noturību. tiek veikta, izsecinot tos pašus datus kā ražošanas konveijeram un piegādājot izstrādāto atzaru vai modeli testēšanai uz inscenēšanas servera.
Vienīgais trūkums ir tāds, ka izstrādes darbības rezultātā netiks veiktas nekādas biznesa izvēles uz iestudējuma servera vai tie nebūs redzami gala lietotājiem.
Modeļa noturība un veiktspēja tiks statistiski novērtēta, izmantojot inscenēšanas vides rezultātus, izmantojot atbilstošus rādītājus.
11. Kas atšķir straumes apstrādi no pakešu apstrādes?
Mēs varam manipulēt ar īpašībām, ko izmantojam, lai sagatavotu reāllaika prognozes, izmantojot divas apstrādes metodes: pakešu un straumi.
Partijas process funkcijas no iepriekšēja laika konkrētam objektam, kas pēc tam tiek izmantotas reāllaika prognožu ģenerēšanai.
- Šeit mēs varam veikt intensīvus funkciju aprēķinus bezsaistē un sagatavot datus ātrai secinājumu veikšanai.
- Tomēr iezīmes ir vecums, jo tās bija iepriekš noteiktas pagātnē. Tas varētu būt nopietns trūkums, ja jūsu prognozes pamatā ir nesenie notikumi. (Piemēram, krāpniecisku darījumu identificēšana, cik drīz vien iespējams.)
Izmantojot gandrīz reāllaika straumēšanas funkcijas konkrētai entītijai, secinājumi tiek veikti straumes apstrādē noteiktai ievades kopai.
- Šeit, piešķirot modelim reāllaika straumēšanas funkcijas, mēs varam iegūt precīzākas prognozes.
- Tomēr straumju apstrādei un datu straumju uzturēšanai ir nepieciešama papildu infrastruktūra (Kafka, Kinesis utt.). (Apache Flink, Beam utt.)
12. Ko jūs domājat ar Training Serving Skew?
Atšķirība starp sniegumu servēšanas laikā un sniegumu treniņa laikā ir pazīstama kā treniņu servēšanas novirze. Šo novirzi var izraisīt šādi faktori:
- Atšķirība datu apstrādē starp apkalpošanas un apmācības konveijeriem.
- Datu maiņa no apmācības uz jūsu pakalpojumu.
- Atsauksmes kanāls starp jūsu algoritmu un modeli.
13. Ko jūs domājat ar modeļu reģistru?
Modeļu reģistrs ir centrālā repozitorija, kurā modeļu veidotāji var publicēt modeļus, kas ir piemēroti izmantošanai ražošanā.
Izstrādātāji var sadarboties ar citām komandām un ieinteresētajām personām, lai pārvaldītu visu uzņēmuma modeļu kalpošanas laiku, izmantojot reģistru. Apmācītos modeļus datu zinātnieks var augšupielādēt modeļu reģistrā.
Modeļi ir sagatavoti testēšanai, validācijai un izvietošanai ražošanā, tiklīdz tie ir iekļauti reģistrā. Turklāt apmācīti modeļi tiek glabāti modeļu reģistros, lai ātri piekļūtu jebkurai integrētai lietojumprogrammai vai pakalpojumam.
Lai pārbaudītu, novērtētu un ieviestu modeli ražošanā, programmatūras izstrādātāji un recenzenti var ātri atpazīt un izvēlēties tikai labāko apmācīto modeļu versiju (pamatojoties uz vērtēšanas kritērijiem).
14. Vai varat sīkāk pastāstīt par modeļu reģistra priekšrocībām?
Tālāk ir norādīti daži veidi, kā reģistra modelēšana racionalizē modeļa dzīves cikla pārvaldību.
- Lai atvieglotu izvietošanu, saglabājiet apmācīto modeļu izpildlaika prasības un metadatus.
- Jūsu apmācītie, izvietotie un pārtrauktie modeļi ir jāreģistrē, jāseko un jāvertē centralizētā, meklējamā repozitorijā.
- Izveidojiet automatizētus cauruļvadus, kas nodrošina nepārtrauktu jūsu ražošanas modeļa piegādi, apmācību un integrāciju.
- Salīdziniet tikko apmācītus modeļus (vai izaicinājumu modeļus) inscenēšanas vidē ar modeļiem, kas pašlaik darbojas ražošanā (čempionu modeļi).
15. Vai varat izskaidrot Champion-Challenger tehnikas darbus?
Ražošanā iespējams pārbaudīt dažādus operatīvos lēmumus, izmantojot Champion Challenger tehniku. Droši vien esat dzirdējuši par A/B testēšanu mārketinga kontekstā.
Piemēram, varat uzrakstīt divas atšķirīgas tēmas rindiņas un pēc nejaušības principa tās izplatīt jūsu mērķa demogrāfiskajai grupai, lai maksimāli palielinātu e-pasta kampaņas atvēršanas līmeni.
Sistēma reģistrē e-pasta veiktspēju (ti, e-pasta atvēršanas darbību) saistībā ar tā temata rindiņu, ļaujot salīdzināt katras tēmas rindiņas atvēršanas biežumu, lai noteiktu, kura ir visefektīvākā.
Champion-Challenger šajā ziņā ir salīdzināms ar A/B testēšanu. Varat izmantot lēmumu loģiku, lai novērtētu katru rezultātu un izvēlētos visefektīvāko, eksperimentējot ar dažādām metodēm, lai nonāktu pie izvēles.
Veiksmīgākais modelis korelē ar čempionu. Pirmais izaicinātājs un atbilstošo izaicinātāju saraksts tagad ir viss, kas atrodas pirmajā izpildes fāzē čempiona vietā.
Čempionu sistēma izvēlas turpmākajām darba soļu izpildēm.
Izaicinātāji tiek pretstatīti viens otram. Pēc tam jauno čempionu nosaka izaicinātājs, kurš uzrāda vislielākos rezultātus.
Tālāk ir sīkāk uzskaitīti uzdevumi, kas saistīti ar čempionu un izaicinātāju salīdzināšanas procesu:
- Novērtējot katru no konkurentiem modeļiem.
- Galīgo rezultātu vērtēšana.
- Vērtēšanas rezultātu salīdzināšana, lai noteiktu uzvarētāju.
- Svaigā čempiona pievienošana arhīvam
16. Aprakstiet MLOps dzīves cikla uzņēmuma līmeņa lietojumprogrammas?
Mums ir jāpārtrauc uzskatīt mašīnmācīšanos tikai par iteratīvu eksperimentu, lai mašīnmācības modeļi nonāktu ražošanā. MLOps ir programmatūras inženierijas un mašīnmācības savienība.
Gatavais rezultāts ir jāiztēlojas kā tāds. Tāpēc tehnoloģiskā produkta kodam ir jābūt pārbaudītam, funkcionālam un modulāram.
MLOps kalpošanas laiks ir salīdzināms ar parasto mašīnmācīšanās plūsmu, izņemot to, ka modelis tiek turēts procesā līdz ražošanai.
Pēc tam MLOps inženieri tam seko līdzi, lai pārliecinātos, ka modeļa kvalitāte ražošanā ir tāda, kāda ir paredzēta.
Šeit ir daži lietošanas gadījumi vairākām MLOps tehnoloģijām:
- Modeļu reģistri: tas ir tāds, kāds tas izskatās. Lielākas komandas uzglabā un uztur versiju modeļu izsekošanu modeļu reģistros. Ir iespēja pat atgriezties pie iepriekšējās versijas.
- Līdzekļu veikals: strādājot ar lielākām datu kopām, konkrētiem uzdevumiem var būt atšķirīgas analītisko datu kopu un apakškopu versijas. Funkciju veikals ir moderns, gaumīgs veids, kā izmantot datu sagatavošanas darbus no agrākiem palaijumiem vai arī no citām komandām.
- Metadatu krātuves: lai veiksmīgi izmantotu nestrukturētus datus, piemēram, attēlu un teksta datus, ražošanas laikā ir ļoti svarīgi pareizi uzraudzīt metadatus.
Secinājumi
Ir ļoti svarīgi paturēt prātā, ka vairumā gadījumu intervētājs meklē sistēmu, bet kandidāts meklē risinājumu.
Pirmā ir balstīta uz jūsu tehniskajām prasmēm, bet otrā ir par metodi, ko izmantojat, lai parādītu savu kompetenci.
Ir vairākas procedūras, kas jums jāveic, atbildot uz MLOps intervijas jautājumiem, lai palīdzētu intervētājam labāk saprast, kā jūs plānojat novērtēt un risināt konkrēto problēmu.
Viņu koncentrēšanās vairāk ir saistīta ar nepareizu reakciju, nevis pareizo. Risinājums stāsta par stāstu, un jūsu sistēma vislabāk parāda jūsu zināšanas un komunikācijas spējas.
Atstāj atbildi