Kazalo[Skrij][Pokaži]
- 1. Kaj mislite z MLOps?
- 2. Kako se podatkovni znanstveniki, podatkovni inženirji in inženirji ML razlikujejo med seboj?
- 3. Kaj razlikuje MLOps od ModelOps in AIOps?
- 4. Mi lahko poveste nekaj prednosti MLOps?
- 5. Ali mi lahko poveste komponente MLOps?
- 6. Kakšna tveganja so povezana z uporabo znanosti o podatkih?
- 7. Ali lahko pojasnite, kaj je model drift?
- 8. Na koliko različnih načinov je mogoče uporabiti MLO po vašem mnenju?
- 9. Kaj loči statično uvajanje od dinamičnega uvajanja?
- 10. Katere tehnike testiranja proizvodnje poznate?
- 11. Kaj razlikuje pretočno obdelavo od paketne obdelave?
- 12. Kaj mislite z izrazom Training Serving Skew?
- 13. Kaj mislite z vzorčnim registrom?
- 14. Ali lahko podrobneje opišete prednosti modelnega registra?
- 15. Ali lahko pojasnite, kako deluje tehnika Champion-Challenger?
- 16. Opišite aplikacije na ravni podjetja življenjskega cikla MLOps?
- zaključek
Podjetja vse pogosteje uporabljajo nastajajoče tehnologije, kot sta umetna inteligenca (AI) in strojno učenje (ML), da povečajo dostopnost javnosti do informacij in storitev.
Te tehnologije se vedno bolj uporabljajo v različnih sektorjih, vključno z bančništvom, financami, maloprodajo, proizvodnjo in celo zdravstvenim varstvom.
Vse več podjetij povprašuje po podatkovnih znanstvenikih, inženirjih strojnega učenja in inženirjih umetne inteligence.
Poznavanje možnega strojno učenje vprašanja o operativnem razgovoru, ki vam jih lahko zastavijo vodje zaposlovanja in kadrovniki, so bistvena, če želite delati na področjih ML ali MLOps.
V tej objavi se lahko naučite, kako odgovoriti na nekatera vprašanja za intervju MLOps, ko si prizadevate za svojo sanjsko službo.
1. Kaj mislite z MLOps?
Tema operacionalizacije modelov ML je v središču MLOps, znanih tudi kot operacije strojnega učenja, razvijajočega se področja v večji areni AI/DS/ML.
Glavni cilj pristopa in kulture programskega inženiringa, znane kot MLOps, je integracija ustvarjanja modelov strojnega učenja/podatkovne znanosti in njihove kasnejše operacionalizacije (Ops).
Običajni DevOps in MLOps imajo določene podobnosti, vendar se MLOps tudi močno razlikujejo od tradicionalnih DevOps.
MLOps dodaja novo plast kompleksnosti z osredotočanjem na podatke, medtem ko se DevOps osredotoča predvsem na operacionalizacijo kode in izdaj programske opreme, ki ne morejo imeti statusa.
Kombinacija ML, Data in Ops je tisto, zaradi česar je MLOps splošno ime (strojno učenje, podatkovni inženiring in DevOps).
2. Kako se podatkovni znanstveniki, podatkovni inženirji in inženirji ML razlikujejo med seboj?
Po mojem mnenju se razlikuje glede na podjetje. Okolje za prenos in transformacijo podatkov ter njihovo shranjevanje gradijo podatkovni inženirji.
Podatkovni znanstveniki so strokovnjaki za uporabo znanstvenih in statističnih tehnik za analizo podatkov in sklepanje, vključno z napovedovanjem prihodnjega vedenja na podlagi trenutnih trendov.
Programski inženirji so pred nekaj leti preučevali delovanje in upravljanje infrastrukture za uvajanje. Po drugi strani pa so operativne ekipe preučevale razvoj, medtem ko so infrastrukturo uporabljale kot kodo. Ta dva toka sta ustvarila položaj DevOps.
MLOps je v isti kategoriji kot Data Scientist in podatkovni inženir. Podatkovni inženirji pridobivajo znanje o infrastrukturi, ki je potrebna za podporo življenjskih ciklov modelov in ustvarjanje cevovodov za stalno usposabljanje.
Podatkovni znanstveniki si prizadevajo razviti svoje zmogljivosti uvajanja modelov in točkovanja.
Podatkovni cevovod proizvodnega razreda zgradijo inženirji ML z uporabo infrastrukture, ki pretvarja neobdelane podatke v vhodne podatke, ki jih potrebuje podatkovni znanstveni model, gosti in izvaja model ter oddaja ocenjeni nabor podatkov nadaljnjim sistemom.
Tako podatkovni inženirji kot podatkovni znanstveniki lahko postanejo inženirji ML.
3. Kaj razlikuje MLOps od ModelOps in AIOps?
Pri gradnji od konca do konca algoritmi strojnega učenja, MLOps je aplikacija DevOps, ki vključuje zbiranje podatkov, predhodno obdelavo podatkov, ustvarjanje modela, uvajanje modela v produkcijo, spremljanje modela v produkciji in redno nadgrajevanje modela.
Uporaba DevOps pri obravnavi celotne implementacije kakršnih koli algoritmov, kot so modeli na podlagi pravil, je znana kot ModelOps.
AIOps izkorišča načela DevOps za ustvarjanje aplikacij AI iz nič.
4. Mi lahko poveste nekaj prednosti MLOps?
- Podatkovni znanstveniki in razvijalci MLOps lahko hitro znova zaženejo preskuse, da zagotovijo, da so modeli usposobljeni in ustrezno ocenjeni, saj MLOps pomaga avtomatizirati vse ali večino nalog/korakov v MDLC (življenjski cikel razvoja modela). Dodatno dovoljenja različic podatkov in modelov.
- Uvajanje idej MLOps v prakso omogoča podatkovnim inženirjem in podatkovnim znanstvenikom neomejen dostop do kultiviranih in kuriranih naborov podatkov, kar eksponentno pospešuje razvoj modelov.
- Podatkovni znanstveniki se bodo lahko vrnili k modelu, ki je deloval bolje, če trenutna ponovitev ne bo izpolnila pričakovanj, zahvaljujoč zmožnosti, da imajo modeli in nabori podatkov različice, kar bo znatno izboljšalo revizijsko sled modela.
- Ker so metode MLOps močno odvisne od DevOps, vključujejo tudi številne koncepte CI/CD, kar izboljšuje kakovost in zanesljivost kode.
5. Ali mi lahko poveste komponente MLOps?
Oblikovanje: MLO močno vključuje oblikovalsko razmišljanje. Začenši z naravo težave, preizkušanjem hipotez, arhitekturo in uvedbo
Izdelava makete: Testiranje in validacija modela sta del tega koraka, skupaj s cevovodi podatkovnega inženiringa in eksperimentiranjem za postavitev najboljših sistemov strojnega učenja.
operacije: Model je treba implementirati kot del operacij in ga nenehno preverjati in vrednotiti. Procesi CI/CD se nato spremljajo in zaženejo z orodjem za orkestracijo.
6. Kakšna tveganja so povezana z uporabo znanosti o podatkih?
- Model je težko razširiti po celotnem podjetju.
- Brez opozorila se model izklopi in preneha delovati.
- Večinoma se natančnost modelov sčasoma poslabša.
- Model naredi netočne napovedi na podlagi specifičnega opazovanja, ki ga ni mogoče nadalje preučiti.
- Podatkovni znanstveniki bi morali vzdrževati tudi modele, vendar so dragi.
- MLO se lahko uporabljajo za zmanjšanje teh tveganj.
7. Ali lahko pojasnite, kaj je model drift?
Ko se uspešnost faze sklepanja modela (z uporabo podatkov iz resničnega sveta) poslabša glede na uspešnost faze usposabljanja, je to znano kot zamik modela, znan tudi kot zamik ideje (z uporabo zgodovinskih, označenih podatkov).
Zmogljivost modela je izkrivljena v primerjavi s fazama usposabljanja in strežbe, zato tudi ime »usklajenost usposabljanja/serviranja«.
Številni dejavniki, vključno z:
- Temeljni način distribucije podatkov se je spremenil.
- Usposabljanje je bilo osredotočeno na majhno število kategorij, vendar je okoljski premik, ki se je pravkar zgodil, dodal še eno področje.
- Pri težavah NLP imajo podatki iz resničnega sveta nesorazmerno večjo količino številskih žetonov kot podatki o usposabljanju.
- Nepričakovani dogodki, na primer model, zgrajen na podatkih iz obdobja pred COVID-19, za katerega se predvideva, da bo bistveno slabše deloval pri podatkih, zbranih med epidemijo COVID-XNUMX.
Za prepoznavanje premika modela je vedno potrebno stalno spremljanje delovanja modela.
Preusposabljanje modela je skoraj vedno potrebno kot rešitev, kadar se uspešnost modela vztrajno zmanjšuje; ugotoviti je treba vzrok za upad in uporabiti ustrezne postopke zdravljenja.
8. Na koliko različnih načinov je mogoče uporabiti MLO po vašem mnenju?
Obstajajo trije načini za uporabo MLO v praksi:
MLOps raven 0 (ročni postopek): Na tej ravni se vsi koraki – vključno s pripravo podatkov, analizo in usposabljanjem – izvajajo ročno. Vsako stopnjo je treba izvesti ročno, prav tako prehod iz ene v drugo.
Temeljna predpostavka je, da vaša skupina za podatkovno znanost upravlja le majhno število modelov, ki se ne posodabljajo pogosto.
Posledično ni neprekinjene integracije (CI) ali neprekinjenega uvajanja (CD), testiranje kode pa je običajno integrirano v izvajanje skripta ali prenosnika, pri čemer uvajanje poteka v mikrostoritvi z REST API.
MLOps raven 1 (avtomatizacija cevovoda ML): Z avtomatizacijo procesa ML je cilj nenehno usposobiti model (CT). Na ta način lahko dosežete neprekinjeno zagotavljanje storitev napovedovanja modela.
Naša uvedba celotnega cevovoda usposabljanja zagotavlja, da se model samodejno usposobi v proizvodnji z uporabo novih podatkov na podlagi aktivnih sprožilcev cevovoda.
MLOps raven 2 (avtomatizacija cevovoda CI/CD): Gre za eno stopnjo nad nivojem MLOps. Če želite hitro in zanesljivo posodobiti cevovode v proizvodnji, potrebujete močan avtomatiziran sistem CI/CD:
- Ustvarjate izvorno kodo in izvajate številne teste skozi celotno stopnjo CI. Paketi, izvršljive datoteke in artefakti so rezultati stopnje, ki bodo uvedeni pozneje.
- Artefakti, ki jih ustvari stopnja CI, se med korakom CD razporedijo v ciljno okolje. Razporejen cevovod z revidirano implementacijo modela je rezultat stopnje.
- Preden cevovod začne novo ponovitev eksperimenta, morajo podatkovni znanstveniki fazo analize podatkov in modela še vedno opraviti ročno.
9. Kaj loči statično uvajanje od dinamičnega uvajanja?
Model je usposobljen brez povezave za Statična namestitev. Z drugimi besedami, model usposobimo natančno enkrat in ga nato nekaj časa uporabljamo. Ko se model lokalno usposobi, se shrani in pošlje na strežnik, da se uporabi za izdelavo napovedi v realnem času.
Model se nato distribuira kot programska oprema, ki jo je mogoče namestiti. program, ki omogoča paketno točkovanje zahtev, kot ponazoritev.
Model se usposablja prek spleta za Dinamično uvajanje. To pomeni, da se v sistem nenehno dodajajo novi podatki, model pa se nenehno posodablja, da jih upošteva.
Posledično lahko na zahtevo naredite napovedi z uporabo strežnika. Po tem se model začne uporabljati tako, da se ponudi kot končna točka API-ja, ki se odziva na uporabniške poizvedbe z uporabo spletnega ogrodja, kot je Flask ali FastAPI.
10. Katere tehnike testiranja proizvodnje poznate?
Serijsko testiranje: Z izvajanjem testiranja v okolju, ki se razlikuje od okolja za usposabljanje, preveri model. Z uporabo izbranih metrik, kot je natančnost, RMSE itd., se izvede paketno testiranje na skupini vzorcev podatkov, da se preveri sklepanje modela.
Paketno testiranje je mogoče izvesti na različnih računalniških platformah, kot so testni strežnik, oddaljeni strežnik ali oblak. Običajno je model na voljo kot serializirana datoteka, ki se naloži kot objekt in izpelje iz testnih podatkov.
A / B testiranje: Pogosto se uporablja za analizo trženjskih kampanj kot tudi za oblikovanje storitev (spletne strani, mobilne aplikacije itd.).
Na podlagi podjetja ali dejavnosti se statistični pristopi uporabljajo za analizo rezultatov testiranja A/B, da se odločijo, kateri model bo boljši v proizvodnji. Običajno A/B testiranje poteka na naslednji način:
- Podatki v živo ali v realnem času so razdeljeni ali segmentirani v dva niza, niz A in niz B.
- Podatki niza A se pošljejo v zastareli model, medtem ko se podatki niza B pošljejo posodobljenemu modelu.
- Odvisno od primera poslovne uporabe ali procesov je mogoče uporabiti več statističnih pristopov za ovrednotenje delovanja modela (na primer točnost, natančnost itd.), da se ugotovi, ali novi model (model B) prekaša stari model (model A).
- Nato opravimo statistično testiranje hipotez: Ničelna hipoteza pravi, da novi model nima vpliva na povprečno vrednost poslovnih kazalnikov, ki jih spremljamo. Po alternativni hipotezi novi model poveča povprečno vrednost spremljanih kazalnikov poslovanja.
- Nazadnje ocenimo, ali novi model povzroči znatno izboljšanje nekaterih poslovnih KPI-jev.
Senčni ali odrski preizkus: Model je ovrednoten v dvojniku produkcijskega okolja, preden se uporabi v produkciji (uprizoritveno okolje).
To je ključnega pomena za določanje zmogljivosti modela s podatki v realnem času in preverjanje odpornosti modela. se izvaja s sklepanjem o istih podatkih kot proizvodni cevovod in dostavo razvite veje ali modela za testiranje na uprizoritvenem strežniku.
Edina pomanjkljivost je, da zaradi razvojne veje na uprizoritvenem strežniku ne bodo sprejete poslovne izbire ali vidne končnim uporabnikom.
Odpornost in zmogljivost modela bosta statistično ocenjeni z uporabo rezultatov uprizoritvenega okolja z uporabo ustreznih meritev.
11. Kaj razlikuje pretočno obdelavo od paketne obdelave?
Z dvema metodama obdelave: serijsko in pretočno lahko manipuliramo z značilnostmi, ki jih uporabljamo za izdelavo naših napovedi v realnem času.
Serijski postopek funkcije iz predhodne časovne točke za določen predmet, ki se nato uporabi za ustvarjanje napovedi v realnem času.
- Tukaj lahko izvajamo intenzivne izračune funkcij brez povezave in imamo podatke pripravljene za hitro sklepanje.
- Značilnosti pa so starost, saj so bile vnaprej določene v preteklosti. To je lahko velika pomanjkljivost, če vaša napoved temelji na nedavnih dogodkih. (Na primer prepoznavanje goljufivih transakcij takoj, ko je to izvedljivo.)
S funkcijami pretakanja v skoraj realnem času za določeno entiteto se sklepanje izvede v obdelavi toka na danem nizu vhodov.
- Tu lahko s pretočnimi funkcijami modela v realnem času dobimo natančnejše napovedi.
- Vendar pa je potrebna dodatna infrastruktura za obdelavo tokov in vzdrževanje podatkovnih tokov (Kafka, Kinesis itd.). (Apache Flink, Beam itd.)
12. Kaj mislite z izrazom Training Serving Skew?
Razlika med zmogljivostjo pri serviranju in uspešnostjo med treningom je znana kot izkrivljenost med treningom in servisiranjem. To izkrivljenost lahko povzročijo naslednji dejavniki:
- Razlika v tem, kako ravnate s podatki med cevovodi za streženje in usposabljanje.
- Premik podatkov iz vašega usposabljanja v vašo storitev.
- Povratni kanal med vašim algoritmom in modelom.
13. Kaj mislite z vzorčnim registrom?
Register modelov je osrednji repozitorij, kjer lahko ustvarjalci modelov objavijo modele, ki so primerni za uporabo v proizvodnji.
Razvijalci lahko sodelujejo z drugimi skupinami in zainteresiranimi stranmi za upravljanje življenjske dobe vseh modelov znotraj podjetja z uporabo registra. Usposobljene modele lahko podatkovni znanstvenik naloži v register modelov.
Modeli so pripravljeni za testiranje, validacijo in uvajanje v proizvodnjo, ko so v registru. Poleg tega so usposobljeni modeli shranjeni v registrih modelov za hiter dostop katere koli integrirane aplikacije ali storitve.
Da bi preizkusili, ocenili in uvedli model v proizvodnjo, razvijalci programske opreme recenzenti pa lahko hitro prepoznajo in izberejo le najboljšo različico usposobljenih modelov (na podlagi kriterijev ocenjevanja).
14. Ali lahko podrobneje opišete prednosti modelnega registra?
Sledi nekaj načinov, kako register modela poenostavi upravljanje življenjskega cikla modela:
- Za lažjo uvedbo shranite zahteve za čas izvajanja in metapodatke za svoje usposobljene modele.
- Vaše usposobljene, nameščene in upokojene modele je treba registrirati, jim slediti in imeti različice v centraliziranem repozitoriju, po katerem je mogoče iskati.
- Ustvarite avtomatizirane cevovode, ki omogočajo neprekinjeno dostavo, usposabljanje in integracijo vašega proizvodnega modela.
- Primerjajte na novo usposobljene modele (ali modele izzivalcev) v uprizoritvenem okolju z modeli, ki trenutno delujejo v proizvodnji (modeli prvakov).
15. Ali lahko pojasnite, kako deluje tehnika Champion-Challenger?
S tehniko Champion Challenger je mogoče testirati različne operativne odločitve v proizvodnji. Verjetno ste že slišali za A/B testiranje v kontekstu trženja.
Na primer, lahko napišete dve različni zadevi in ju naključno razdelite ciljni demografski skupini, da povečate stopnjo odprtosti za e-poštno kampanjo.
Sistem beleži uspešnost e-pošte (tj. dejanje odpiranja e-pošte) glede na njeno zadevo, kar vam omogoča primerjavo stopnje odprtosti vsake zadeve, da ugotovite, katera je najbolj učinkovita.
Champion-Challenger je v tem pogledu primerljiv z A/B testiranjem. Z logiko odločanja lahko ocenite vsak rezultat in izberete najučinkovitejšega, medtem ko eksperimentirate z različnimi metodami, da pridete do izbire.
Najuspešnejši model je povezan s prvakom. Prvi izzivalec in ujemajoči se seznam izzivalcev sta zdaj vse, kar je prisotno v prvi izvedbeni fazi namesto prvaka.
Prvaka izbere sistem za nadaljnje izvedbe delovnih korakov.
Izzivalci so nasprotni drug drugemu. Novega prvaka nato določi izzivalec, ki dosega najboljše rezultate.
Naloge, vključene v postopek primerjave prvaka in izzivalca, so podrobneje navedene spodaj:
- Ocenjevanje vsakega izmed konkurenčnih modelov.
- Ocenjevanje končnih točk.
- Primerjava rezultatov ocenjevanja za določitev zmagovitega izzivalca.
- Dodajanje svežega prvaka v arhiv
16. Opišite aplikacije na ravni podjetja življenjskega cikla MLOps?
Strojno učenje moramo prenehati obravnavati le kot iterativni eksperiment, da bi modeli strojnega učenja vstopili v proizvodnjo. MLOps je zveza programskega inženiringa s strojnim učenjem.
Končni rezultat si je treba predstavljati kot takega. Zato mora biti koda za tehnološki izdelek preizkušena, funkcionalna in modularna.
MLOps ima življenjsko dobo, ki je primerljiva z običajnim tokom strojnega učenja, z izjemo tega, da se model hrani v procesu do proizvodnje.
Inženirji MLOps nato spremljajo to, da zagotovijo, da je kakovost modela v proizvodnji takšna, kot je predvidena.
Tukaj je nekaj primerov uporabe za več tehnologij MLOps:
- Vzorčni registri: Tako je, kot se zdi. Večje skupine shranjujejo in vzdržujejo sled modelov različic v registrih modelov. Tudi vrnitev na prejšnjo različico je možnost.
- Shramba funkcij: pri delu z večjimi nabori podatkov lahko obstajajo različne različice naborov analitičnih podatkov in podnaborov za določene naloge. Shramba funkcij je vrhunski in okusen način za uporabo priprave podatkov iz prejšnjih izvajanj ali tudi drugih skupin.
- Shramba za metapodatke: Če želite uspešno uporabiti nestrukturirane podatke, kot so slikovni in besedilni podatki, je ključnega pomena pravilno spremljanje metapodatkov v celotni proizvodnji.
zaključek
Pomembno je vedeti, da spraševalec v večini primerov išče sistem, kandidat pa rešitev.
Prvi temelji na vaših tehničnih veščinah, medtem ko se drugi nanaša na metodo, ki jo uporabljate za dokazovanje svoje usposobljenosti.
Obstaja več postopkov, ki bi jih morali upoštevati, ko odgovarjate na vprašanja intervjuja MLOps, da bi anketarju pomagali bolje razumeti, kako nameravate oceniti in obravnavati zadevno težavo.
Njihova koncentracija je bolj usmerjena na nepravilno reakcijo kot na pravo. Rešitev pripoveduje zgodbo, vaš sistem pa je najboljši prikaz vašega znanja in sposobnosti komunikacije.
Pustite Odgovori