Enhavtabelo[Kaŝi][Montri]
- 1. Kion vi volas diri per MLOps?
- 2. Kiel datumsciencistoj, datumaj inĝenieroj kaj ML-inĝenieroj varias unu de la alia?
- 3. Kio distingas MLOps de ModelOps kaj AIOps?
- 4. Ĉu vi povas diri al mi kelkajn el la avantaĝoj de MLOps?
- 5. Ĉu vi povas diri al mi la komponantojn de MLOps?
- 6. Kiuj riskoj venas kun uzado de datumscienco?
- 7. Ĉu vi povas klarigi, kio estas modela drivo?
- 8. Kiom da malsamaj manieroj MLOps povas esti aplikataj, laŭ via opinio?
- 9. Kio apartigas statikan deplojon de dinamika deplojo?
- 10. Pri kiuj teknikoj de testado de produktado vi konscias?
- 11. Kio distingas fluo-prilaboradon de bata prilaborado?
- 12. Kion vi volas diri per Trejnado Servanta Skew?
- 13. Kion vi celas per Modela Registro?
- 14. Ĉu vi povas pliprofundigi la avantaĝojn de Modela Registro?
- 15. Ĉu vi povas klarigi la funkciojn de la tekniko Champion-Challenger?
- 16. Priskribu la entrepren-nivelajn aplikojn de la MLOps-vivciklo?
- konkludo
Firmaoj uzas emerĝantajn teknologiojn kiel artefarita inteligenteco (AI) kaj maŝinlernado (ML) pli ofte por pliigi la alireblecon de publiko al informoj kaj servoj.
Ĉi tiuj teknologioj estas ĉiam pli uzataj en diversaj sektoroj, inkluzive de bankado, financo, podetala komerco, fabrikado kaj eĉ kuracado.
Datumsciencistoj, maŝinlernado-inĝenieroj kaj inĝenieroj pri artefarita inteligenteco estas postulataj de kreskanta nombro da kompanioj.
Sciante la ebla maŝinlernado operaciaj intervjuaj demandoj, kiujn dungi manaĝeroj kaj rekrutistoj povus prezenti al vi, estas esencaj se vi volas labori en la kampoj ML aŭ MLOps.
Vi povas lerni kiel respondi kelkajn el la MLOps-intervjudemandoj en ĉi tiu afiŝo dum vi laboras por akiri vian revan laboron.
1. Kion vi volas diri per MLOps?
La temo de funkciigado de ML-modeloj estas la fokuso de MLOps, ankaŭ konata kiel Machine Learning Operations, evoluiga kampo ene de la pli grava AI/DS/ML-areno.
La ĉefcelo de la softvarinĝenieristiko kaj kulturo konata kiel MLOps devas integri la kreadon de maŝinlernado/datumsciencomodeloj kaj ilian postan funkciigon (Ops).
Konvenciaj DevOps kaj MLOps dividas certajn similecojn, tamen, MLOps ankaŭ tre diferencas de tradiciaj DevOps.
MLOps aldonas novan tavolon de komplekseco per fokuso sur datumoj, dum DevOps ĉefe temigas funkciigado de kodo kaj programaro eldonoj kiuj ne povas esti ŝtataj.
La kombinaĵo de ML, Datumoj kaj Ops estas kio donas al MLOps sian komunan nomon (maŝinlernado, datuma inĝenierado kaj DevOps).
2. Kiel datumsciencistoj, datumaj inĝenieroj kaj ML-inĝenieroj varias unu de la alia?
Ĝi varias, laŭ mi, depende de la firmao. La medio por transportado kaj transformo de datumoj, same kiel ĝia stokado, estas konstruita de datumaj inĝenieroj.
Datensciencistoj estas fakuloj pri utiligado de sciencaj kaj statistikaj teknikoj por analizi datumojn kaj tiri konkludojn, inkluzive de antaŭdiroj pri estonta konduto surbaze de la tendencoj kiuj nun estas modloko.
Programaj inĝenieroj studis operaciojn kaj administris deplojan infrastrukturon antaŭ kelkaj jaroj. Ops-teamoj, aliflanke, studis evoluon uzante infrastrukturon kiel kodon. DevOps-pozicio estis produktita de ĉi tiuj du riveretoj.
MLOps estas en la sama kategorio kiel Data Scientist kaj Datuma Inĝeniero. Datumaj inĝenieroj akiras scion pri la infrastrukturo necesa por subteni modelajn vivociklojn kaj krei duktojn por daŭra trejnado.
Datensciencistoj serĉas evoluigi siajn modeldeplojon kaj poentadkapablojn.
Produktad-nivela datumdukto estas konstruita fare de ML-inĝenieroj utiligantaj la infrastrukturon kiu transformas krudajn datumojn en la enigaĵon bezonatan de datuma scienca modelo, gastigas kaj prizorgas la modelon, kaj eligas gajnitan datumaron al kontraŭfluaj sistemoj.
Kaj datumaj inĝenieroj kaj datumsciencistoj kapablas fariĝi ML-inĝenieroj.
3. Kio distingas MLOps de ModelOps kaj AIOps?
Dum konstruo de fino-al-fino maŝinlernaj algoritmoj, MLOps estas DevOps-aplikaĵo kiu inkludas datumkolektadon, datumpretigon, modelkreadon, modeldeplojon en produktado, modelmonitoradon en produktado, kaj modelan periodan ĝisdatigon.
La uzo de DevOps en pritraktado de la tuta efektivigo de iuj algoritmoj, kiel ekzemple Regul-Bazitaj Modeloj, estas konata kiel ModelOps.
AI Ops utiligas DevOps-principojn por krei AI-apojn de nulo.
4. Ĉu vi povas diri al mi kelkajn el la avantaĝoj de MLOps?
- Datensciencistoj kaj MLOps-programistoj povas rapide refari provojn por certigi ke modeloj estas trejnitaj kaj taksitaj taŭge ĉar MLOps helpas aŭtomatigi ĉiujn aŭ la plej multajn el la taskoj/ŝtupoj en la MDLC (modela evolua vivociklo). Aldone permesas datumo kaj modelversiado.
- Enmeti MLOps-ideojn en praktikon ebligas Datumajn Inĝenierojn kaj Datumajn Sciencistojn havi senliman aliron al kultivitaj kaj vikariitaj datumaroj, kio eksponente akcelas la evoluon de modeloj.
- Datumsciencistoj povos repreni la modelon, kiu rezultis pli bone, se la nuna ripeto ne plenumas atendojn danke al la kapablo havi modelojn kaj datumajn arojn versionitaj, kio signife plibonigos la modelan reviziovojon.
- Ĉar MLOps-metodoj forte dependas de DevOps, ili ankaŭ inkluzivas kelkajn CI/KD-konceptojn, kiuj plibonigas la kvalito kaj fidindeco de la kodo.
5. Ĉu vi povas diri al mi la komponantojn de MLOps?
dezajno: MLOps forte inkluzivas dezajnpensadon. Komencante kun la naturo de la afero, testado de hipotezoj, arkitekturo kaj deplojo
Modelkonstruaĵo: Modela testado kaj validigo estas parto de ĉi tiu paŝo, kune kun la datuma inĝenierado-duktoj kaj eksperimentado por starigi la plej bonajn maŝinlernajn sistemojn.
operacioj: La modelo devas esti efektivigita kiel parto de la operacioj kaj kontinue kontrolita kaj taksita. La CI/KD-procezoj tiam estas monitoritaj kaj komencitaj uzante instrumentan ilon.
6. Kiuj riskoj venas kun uzado de datumscienco?
- Estas malfacile skali la modelon tra la kompanio.
- Sen averto, la modelo malŝaltas kaj ĉesas funkcii.
- Plejparte, la precizeco de la modeloj plimalboniĝas kun la tempo.
- La modelo faras malprecizajn prognozojn bazitajn sur specifa observado kiu ne povas esti plue ekzamenita.
- Datumsciencistoj ankaŭ devus konservi modelojn, sed ili estas multekostaj.
- MLOps povas esti uzata por redukti ĉi tiujn riskojn.
7. Ĉu vi povas klarigi, kio estas modela drivo?
Kiam la inferenca faza efikeco de modelo (uzante realmondajn datenojn) plimalboniĝas de sia trejnadfaza efikeco, tio estas konata kiel modeldrivo, ankaŭ konata kiel ideodrivo (uzante historiajn, etikeditajn datenojn).
La agado de la modelo estas distordita kompare al la trejnaj kaj servadofazoj, tial la nomo "trejno/servi dekliniĝo."
Multaj faktoroj, inkluzive de:
- La fundamenta maniero kiel datumoj estas distribuitaj ŝanĝiĝis.
- La trejnado temigis malgrandan nombron da kategorioj, tamen, media ŝanĝo kiu ĵus okazis aldonis alian areon.
- En NLP-malfacilaĵoj, la real-mondaj datumoj havas misproporcie pli grandan kvanton da nombro-ĵetonoj ol la trejnaj datumoj.
- Neatenditaj okazoj, kiel modelo konstruita sur antaŭ-COVID-datumoj antaŭviditaj, ke ĝi agados signife pli malbona sur datumoj kolektitaj dum la COVID-19-epidemio.
Daŭre monitori la efikecon de la modelo ĉiam estas postulata por identigi modeldrivon.
Modelretrejnado estas preskaŭ ĉiam postulata kiel rimedo kiam ekzistas persista malkresko en modelefikeco; la kialo de la malkresko devas esti identigita kaj taŭgaj kuracaj proceduroj devas esti uzataj.
8. Kiom da malsamaj manieroj MLOps povas esti aplikataj, laŭ via opinio?
Ekzistas tri metodoj por meti MLOps en praktikon:
MLOps-nivelo 0 (Manlibro): En ĉi tiu nivelo, ĉiuj paŝoj—inkluzive de datumpreparo, analizo kaj trejnado—estas faritaj permane. Ĉiu etapo devas esti efektivigita permane, same kiel la transiro de unu al la sekva.
La subesta premiso estas, ke via datuma scienca teamo administras nur malgrandan nombron da modeloj, kiuj ne estas ofte ĝisdatigitaj.
Kiel rezulto, ne ekzistas Kontinua Integriĝo (CI) aŭ Kontinua Deplojo (KD), kaj testado de la kodo estas tipe integrita en manuskripto-ekzekuton aŭ notlibro-ekzekuton, kun deplojo okazanta en mikroservo kun REST-API.
MLOps-nivelo 1 (aŭtomatigo de la ML-dukto): Aŭtomatigante la ML-procezon, la celo estas kontinue trejni la modelon (CT). Vi povas plenumi kontinuan modelan prognozan servoliveron tiamaniere.
Nia deplojo de tuta trejna dukto certigas, ke la modelo estas aŭtomate trejnita en produktado utiligante novajn datumojn bazitajn sur aktivaj dukto-eksiloj.
MLOps-nivelo 2 (aŭtomatigo de la CI/CD-dukto): Ĝi iras unu paŝon super MLOps-nivelo. Forta aŭtomatigita CI/KD-sistemo estas bezonata se vi volas ĝisdatigi duktoj en produktado rapide kaj fidinde:
- Vi kreas fontkodon kaj efektivigas multajn provojn tra la CI-etapo. Pakoj, ruleblaj kaj artefaktoj estas la eliroj de la scenejo, kiuj estos deplojitaj poste.
- La artefaktoj kreitaj per la CI-stadio estas deplojitaj al la celmedio dum la KD-paŝo. Deplojita dukto kun la reviziita modelefektivigo estas la produktaĵo de la scenejo.
- Antaŭ ol la dukto komencas novan ripeton de la eksperimento, datumsciencistoj ankoraŭ devas fari la datumojn kaj modelan analizfazon permane.
9. Kio apartigas statikan deplojon de dinamika deplojo?
La modelo estas trejnita eksterrete por Statika Deplojo. Alivorte, ni trejnas la modelon precize unufoje kaj poste uzas ĝin dum kelka tempo. Post kiam la modelo estis trejnita loke, ĝi estas stokita kaj sendita al la servilo por esti uzita por produkti realtempajn prognozojn.
La modelo tiam estas distribuita kiel instalebla aplikaĵo. programo kiu permesas grupan poentadon de petoj, kiel ilustraĵo.
La modelo estas trejnita rete por Dinamika Deplojo. Tio estas, novaj datumoj estas konstante aldonitaj al la sistemo, kaj la modelo estas daŭre ĝisdatigita por respondeci pri ĝi.
Kiel rezulto, vi povas fari antaŭdirojn uzante servilon laŭpeto. Post tio, la modelo estas metita en uzo estante liverita kiel API-finpunkto, kiu reagas al uzantdemandoj, uzante retan kadron kiel Flasko aŭ FastAPI.
10. Pri kiuj teknikoj de testado de produktado vi konscias?
Bata testado: Farante testadon en medio malsama ol tiu de ĝia trejna medio, ĝi kontrolas la modelon. Uzante elekteblajn metrikojn, kiel precizecon, RMSE, ktp., battestado estas farita sur grupo de datenprovaĵoj por kontroli modelinferencon.
Bata testado povas esti farita sur diversaj komputilaj platformoj, kiel testservilo, fora servilo aŭ la nubo. Tipe, la modelo estas disponigita kiel seriigita dosiero, kiu estas ŝarĝita kiel objekto kaj konkludita el testdatenoj.
A / B testado: Ĝi estas ofte uzata por analizi merkatajn kampanjojn kaj ankaŭ por la dezajno de servoj (retejoj, moveblaj aplikoj, ktp.).
Surbaze de la firmao aŭ operacioj, statistikaj aliroj estas uzataj por analizi la rezultojn de A/B-testado por decidi, kiu modelo funkcios pli bone en produktado. Kutime, A/B-testado estas farita laŭ la sekva maniero:
- Vivaj aŭ realtempaj datumoj estas dividitaj aŭ segmentitaj en du arojn, Aro A kaj Aro B.
- Aro A-datenoj estas senditaj al la malmoderna modelo, dum Aro B-datenoj estas senditaj al la ĝisdatigita modelo.
- Depende de la komerca uzokazo aŭ procezoj, pluraj statistikaj aliroj povas esti uzitaj por analizi modelefikecon (ekzemple, precizeco, precizeco, ktp.) por determini ĉu la nova modelo (modelo B) superas la malnovan modelon (modelo A).
- Ni tiam faras statistikan hipoteztestadon: La nula hipotezo diras ke la nova modelo havas neniun efikon al la averaĝa valoro de la komercaj indikiloj estantaj monitorita. Laŭ la alternativa hipotezo, la nova modelo pliigas la averaĝan valoron de la monitoraj komercaj indikiloj.
- Fine, ni taksas ĉu la nova modelo rezultigas gravan plibonigon en iuj komercaj KPIoj.
Ombro aŭ sceneja provo: modelo estas taksita en duplikato de produktadmedio antaŭ ol esti uzata en produktado (sceniga medio).
Ĉi tio estas decida por determini la efikecon de la modelo kun realtempaj datumoj kaj validigi la rezistecon de la modelo. estas efektivigita konkludante la samajn datenojn kiel la produktaddukto kaj liverante la evoluintan branĉon aŭ modelon por esti testita sur ensceniga servilo.
La sola malavantaĝo estas, ke neniuj komercaj elektoj estos faritaj sur la sursceniga servilo aŭ videblaj por finaj uzantoj kiel rezulto de la evolubranĉo.
La fortikeco kaj rendimento de la modelo estos taksitaj statistike uzante la rezultojn de la ensceniga medio uzante la taŭgajn metrikojn.
11. Kio distingas fluo-prilaboradon de bata prilaborado?
Ni povas manipuli la karakterizaĵojn, kiujn ni uzas por produkti niajn realtempajn prognozojn uzante du pretigmetodojn: batch kaj rivereto.
Batprocezo ecoj de antaŭa punkto en tempo por specifa objekto, kiu tiam estas utiligita por generi realtempajn prognozojn.
- Ĉi tie, ni povas fari intensajn funkciojn kalkulojn eksterrete kaj havi la datumojn preparitaj por rapida inferenco.
- Karakterizaĵoj, tamen, aĝo ĉar ili estis antaŭdestinitaj en la pasinteco. Ĉi tio povus esti grava malavantaĝo se via prognozo baziĝas sur lastatempaj okazoj. (Ekzemple, identigi fraŭdajn transakciojn kiel eble plej baldaŭ.)
Kun preskaŭ realtempaj, fluantaj funkcioj por specifa unuo, la inferenco estas farita en fluo-prilaborado sur antaŭfiksita aro de enigaĵoj.
- Ĉi tie, donante al la modelo realtempajn, fluajn funkciojn, ni povas ricevi pli precizajn antaŭdirojn.
- Tamen, kroma infrastrukturo estas postulata por fluo-prilaborado kaj por konservi datumfluojn (Kafka, Kinesis, ktp). (Apache Flink, Beam, ktp.)
12. Kion vi volas diri per Trejnado Servanta Skew?
La malegaleco inter agado dum servado kaj agado dum trejnado estas konata kiel la trejn-servanta dekliniĝo. Ĉi tiu distordo povas esti induktita de la sekvaj faktoroj:
- Diferenco en kiel vi pritraktas datumojn inter la duktoj por servado kaj trejnado.
- Ŝanĝo en la datumoj de via trejnado al via servo.
- Sugesta kanalo inter via algoritmo kaj modelo.
13. Kion vi celas per Modela Registro?
Model Registry estas centra deponejo kie modelkreintoj povas publikigi modelojn kiuj estas taŭgaj por uzo en produktado.
Programistoj povas kunlabori kun aliaj teamoj kaj koncernatoj por administri la vivdaŭron de ĉiuj modeloj ene de la komerco uzante la registron. La trejnitaj modeloj povas esti alŝutitaj al la modelregistro fare de datumsciencisto.
La modeloj estas pretaj por testado, validumado kaj deplojo al produktado post kiam ili estas en la registro. Plie, trejnitaj modeloj estas stokitaj en modelregistroj por rapida aliro per iu integra aplikaĵo aŭ servo.
Por testi, taksi kaj deploji la modelon al produktado, programistoj kaj recenzistoj povas rapide rekoni kaj elekti nur la plej bonan version de la trejnitaj modeloj (surbaze de la taksadkriterioj).
14. Ĉu vi povas pliprofundigi la avantaĝojn de Modela Registro?
La jenaj estas kelkaj manieroj, ke modelregistro fluliniigas modelan vivciklan administradon:
- Por plifaciligi disfaldigon, konservu la rultempajn postulojn kaj metadatumojn por viaj trejnitaj modeloj.
- Viaj trejnitaj, deplojitaj kaj emeritaj modeloj devas esti registritaj, spuritaj kaj versionitaj en centralizita, serĉebla deponejo.
- Kreu aŭtomatigitajn duktojn, kiuj ebligas kontinuan liveron, trejnadon kaj integriĝon de via produktmodelo.
- Komparu lastatempe trejnitajn modelojn (aŭ kontestantajn modelojn) en la sursceniga medio al modeloj, kiuj nuntempe funkcias en produktado (ĉampionaj modeloj).
15. Ĉu vi povas klarigi la funkciojn de la tekniko Champion-Challenger?
Eblas testi diversajn funkciajn decidojn en produktado uzante teknikon Champion Challenger. Vi verŝajne aŭdis pri A/B-testado en la kunteksto de merkatado.
Ekzemple, vi povus skribi du apartajn temliniojn kaj distribui ilin hazarde al via cela demografia por maksimumigi la malferman indicon por retpoŝta kampanjo.
La sistemo registras la agadon de retpoŝto (t.e., retpoŝta malferma ago) rilate al ĝia temolinio, permesante al vi kompari la malferman indicon de ĉiu temolinio por determini kiu estas la plej efika.
Champion-Challenger estas komparebla al A/B-testado ĉi-rilate. Vi povas uzi decidlogikon por taksi ĉiun rezulton kaj elekti la plej efikan dum vi eksperimentas per diversaj metodoj por veni al elekto.
La plej sukcesa modelo korelacias al la ĉampiono. La unua defianto kaj la kongrua listo de defiantoj nun estas ĉio, kio ĉeestas en la unua ekzekutfazo anstataŭe de la ĉampiono.
La ĉampiono estas elektita de la sistemo por pliaj laborpaŝaj ekzekutoj.
La kontestantoj estas komparitaj unu kun la alia. La nova ĉampiono tiam estas determinita fare de la defianto kiu produktas la plej grandajn rezultojn.
La taskoj implikitaj en la kompara procezo de ĉampiono-defianto estas listigitaj malsupre pli detale:
- Taksante ĉiun el la rivalaj modeloj.
- Taksi la finajn poentarojn.
- Komparante la taksadrezultojn por establi la venkan defianton.
- Aldonante la freŝan ĉampionon al la arkivo
16. Priskribu la entrepren-nivelajn aplikojn de la MLOps-vivciklo?
Ni devas ĉesi konsideri maŝinlernadon kiel nur ripetan eksperimenton por ke maŝinlernado-modeloj eniru produktadon. MLOps estas la unio de programaro-inĝenierado kun maŝinlernado.
La finita rezulto devus esti imagita kiel tia. Tial, la kodo por teknologia produkto devas esti provita, funkcia kaj modula.
MLOps havas vivdaŭron kiu estas komparebla al konvencia maŝinlernadfluo, kun la escepto ke la modelo estas konservita en la procezo ĝis produktado.
La MLOps-Inĝenieroj tiam atentu ĉi tion por certigi, ke la modelkvalito en produktado estas kio estas celita.
Jen kelkaj uzkazoj por pluraj el la MLOps-teknologioj:
- Modelaj Registroj: Ĝi estas kio ŝajnas esti. Pli grandaj teamoj konservas kaj konservas trakon de versio-modeloj en modelregistroj. Eĉ reiri al antaŭa versio estas eblo.
- Karakterizaĵa Vendejo: Kiam vi traktas pli grandajn datumajn arojn, povus ekzisti apartaj versioj de la analizaj datumaroj kaj subaroj por specifaj taskoj. Funkcia vendejo estas avangarda, bongusta maniero uzi datumpretigan laboron de pli fruaj kuroj aŭ ankaŭ de aliaj teamoj.
- Stores for Metadates: Estas grave kontroli metadatenojn ĝuste dum produktado se nestrukturitaj datumoj, kiel bildoj kaj tekstaj datumoj, estas sukcese uzataj.
konkludo
Estas grave memori, ke, en la plimulto de kazoj, la intervjuanto serĉas sistemon, dum la kandidato serĉas solvon.
La unua baziĝas sur viaj teknikaj kapabloj, dum la dua temas pri la metodo, kiun vi uzas por pruvi vian kompetentecon.
Estas pluraj proceduroj, kiujn vi devas preni kiam vi respondas al MLOps-intervjudemandoj por helpi la intervjuanton pli bone kompreni kiel vi intencas taksi kaj trakti la problemon.
Ilia koncentriĝo estas pli sur la malĝusta reago ol la ĝusta. Solvo rakontas historion, kaj via sistemo estas la plej bona ilustraĵo de via scio kaj kapablo por komunikado.
Lasi Respondon