Efnisyfirlit[Fela][Sýna]
- 1. Hvað meinarðu með MLOps?
- 2. Hvernig eru gagnafræðingar, gagnaverkfræðingar og ML verkfræðingar ólíkir hver öðrum?
- 3. Hvað aðgreinir MLOps frá ModelOps og AIOps?
- 4. Geturðu sagt mér nokkra kosti MLOps?
- 5. Geturðu sagt mér íhluti MLOps?
- 6. Hvaða áhætta fylgir notkun gagnafræðinnar?
- 7. Geturðu útskýrt, hvað er módelflug?
- 8. Hversu margar mismunandi leiðir er hægt að beita MLOps, að þínu mati?
- 9. Hvað skilur kyrrstæða uppsetningu frá kraftmikilli uppsetningu?
- 10. Hvaða framleiðsluprófunaraðferðir ertu meðvitaður um?
- 11. Hvað aðgreinir straumvinnslu frá lotuvinnslu?
- 12. Hvað meinarðu með Training Serving Skew?
- 13. Hvað meinarðu með Model Registry?
- 14. Getur þú útskýrt ávinninginn af Model Registry?
- 15. Geturðu útskýrt hvernig Champion-Challenger tæknin virkar?
- 16. Lýstu forritum á fyrirtækisstigi MLOps líftímans?
- Niðurstaða
Fyrirtæki nota oftar nýja tækni eins og gervigreind (AI) og vélanám (ML) til að auka aðgengi almennings að upplýsingum og þjónustu.
Þessi tækni er í auknum mæli notuð í ýmsum geirum, þar á meðal banka, fjármálum, smásölu, framleiðslu og jafnvel heilbrigðisþjónustu.
Gagnafræðingar, vélanámsverkfræðingar og verkfræðingar í gervigreind eru eftirsóttir frá auknum fjölda fyrirtækja.
Að þekkja hið mögulega vél nám rekstrarviðtalsspurningar sem ráðningarstjórar og ráðningaraðilar gætu lagt fyrir þig eru nauðsynlegar ef þú vilt vinna á ML eða MLOps sviðinu.
Þú getur lært hvernig á að bregðast við nokkrum af MLOps viðtalsspurningunum í þessari færslu þegar þú vinnur að því að fá draumastarfið þitt.
1. Hvað meinarðu með MLOps?
Viðfangsefni rekstrarvæðingar ML módela er í brennidepli MLOps, einnig þekkt sem Machine Learning Operations, þróunarsviðs á stærri AI/DS/ML vettvangi.
Meginmarkmið hugbúnaðarverkfræðinálgunar og menningar sem kallast MLOps er að samþætta gerð vélanáms/gagnavísindalíkana og síðari rekstrarvirkni þeirra (Ops).
Hefðbundin DevOps og MLOps deila ákveðnum líkindum, en MLOps eru líka mjög frábrugðin hefðbundnum DevOps.
MLOps bætir við nýju flækjustigi með því að einbeita sér að gögnum, en DevOps einbeitir sér fyrst og fremst að því að hagnýta kóða og hugbúnaðarútgáfur sem geta ekki verið staðbundnar.
Samsetning ML, Data og Ops er það sem gefur MLOps almenna nafnið sitt (vélanám, gagnaverkfræði og DevOps).
2. Hvernig eru gagnafræðingar, gagnaverkfræðingar og ML verkfræðingar ólíkir hver öðrum?
Það er misjafnt, að mínu mati, eftir fyrirtækjum. Umhverfið fyrir flutning og umbreytingu gagna, sem og geymslu þeirra, er byggt upp af gagnaverkfræðingum.
Gagnafræðingar eru sérfræðingar í að nýta vísinda- og tölfræðitækni til að greina gögn og draga ályktanir, þar á meðal að spá fyrir um framtíðarhegðun út frá þeirri þróun sem nú er til staðar.
Hugbúnaðarverkfræðingar voru að læra rekstur og stjórna uppsetningu innviða fyrir nokkrum árum. Ops teymi voru aftur á móti að læra þróun á meðan þeir notuðu innviði sem kóða. DevOps staða var framleidd af þessum tveimur straumum.
MLOps er í sama flokki og Gögn vísindamaður og gagnaverkfræðingur. Gagnaverkfræðingar eru að afla sér þekkingar á þeim innviðum sem þarf til að styðja við líftíma líkans og búa til leiðslur fyrir áframhaldandi þjálfun.
Gagnafræðingar leitast við að þróa módeldreifingu og stigahæfileika sína.
Gagnaleiðsla í framleiðsluflokki er byggð af ML verkfræðingum sem nýta innviðina sem umbreytir hráum gögnum í inntak sem gagnavísindalíkan þarfnast, hýsir og keyrir líkanið og gefur út gagnasett sem er skorað í eftirkerfi.
Bæði gagnaverkfræðingar og gagnafræðingar eru færir um að verða ML verkfræðingar.
3. Hvað aðgreinir MLOps frá ModelOps og AIOps?
Við smíði frá lokum til enda vélfræðinám reiknirit, MLOps er DevOps forrit sem felur í sér gagnasöfnun, forvinnslu gagna, gerð líkana, dreifingu líkana í framleiðslu, líkanaeftirlit í framleiðslu og reglubundna uppfærslu líkana.
Notkun DevOps til að meðhöndla alla innleiðingu hvers kyns reiknirit, eins og reglubundin módel, er þekkt sem ModelOps.
AI Ops er að nýta DevOps meginreglur til að búa til gervigreind forrit frá grunni.
4. Geturðu sagt mér nokkra kosti MLOps?
- Gagnafræðingar og MLOps forritarar geta fljótt endurtekið tilraunir til að tryggja að líkön séu þjálfuð og metin á viðeigandi hátt þar sem MLOps hjálpar til við að gera öll eða flest verkefni/skref í MDLC (líkanþróunarlífsferli) sjálfvirkan. Að auki leyfi gagna- og líkanaútgáfu.
- Með því að koma MLOps hugmyndum í framkvæmd gerir gagnaverkfræðingum og gagnafræðingum kleift að hafa ótakmarkaðan aðgang að ræktuðum og söfnuðum gagnasöfnum, sem flýtir fyrir þróun líkana.
- Gagnafræðingar munu geta fallið aftur á líkanið sem skilaði betri árangri ef núverandi endurtekning stenst ekki væntingar þökk sé hæfileikanum til að hafa líkön og gagnasöfn útgáfa, sem mun auka verulega endurskoðunarferil líkansins.
- Þar sem MLOps aðferðir reiða sig mjög á DevOps, innihalda þær einnig fjölda CI/CD hugtaka, sem eykur gæði og áreiðanleika kóðans.
5. Geturðu sagt mér íhluti MLOps?
hönnun: MLOps innihalda mikið hönnunarhugsun. Byrjað er á eðli málsins, prófa tilgátur, arkitektúr og uppsetningu
Fyrirmyndarbygging: Líkanprófun og löggilding eru hluti af þessu skrefi, ásamt gagnaverkfræðileiðslum og tilraunum til að setja upp bestu vélanámskerfin.
aðgerðir: Líkanið þarf að vera innleitt sem hluta af starfseminni og stöðugt athugað og metið. Síðan er fylgst með CI/CD ferlunum og byrjað að nota hljómsveitarverkfæri.
6. Hvaða áhætta fylgir notkun gagnafræðinnar?
- Það er erfitt að skala líkanið yfir fyrirtækið.
- Án viðvörunar slekkur líkanið á sér og hættir að virka.
- Að mestu leyti versnar nákvæmni líkananna með tímanum.
- Líkanið gerir ónákvæmar spár byggðar á tiltekinni athugun sem ekki er hægt að skoða frekar.
- Gagnafræðingar ættu líka að viðhalda líkönum, en þau eru dýr.
- Hægt er að nota MLOps til að draga úr þessari áhættu.
7. Geturðu útskýrt, hvað er módelflug?
Þegar ályktunarfasaframmistaða líkans (með því að nota raunveruleg gögn) versnar frá frammistöðu þjálfunarfasa, er þetta þekkt sem líkanafrek, einnig þekkt sem hugmyndafrek (með því að nota söguleg, merkt gögn).
Frammistaða líkansins er skekkt í samanburði við þjálfunar- og framreiðslufasa, þess vegna er nafnið „þjálfa/veita skekkt“.
Fjölmargir þættir, þar á meðal:
- Grundvallarleiðin sem gögnum er dreift hefur breyst.
- Þjálfunin beindist að litlum flokkum, en umhverfisbreyting sem átti sér stað bætti við öðru svæði.
- Í NLP erfiðleikum hafa raunveruleg gögn óhóflega meira magn af tölutáknum en þjálfunargögnin.
- Óvænt uppákoma, eins og líkan sem byggt er á gögnum fyrir COVID-19, sem spáð er að muni standa sig verulega verr á gögnum sem safnað var í COVID-XNUMX faraldri.
Stöðugt eftirlit með frammistöðu líkansins er alltaf nauðsynlegt til að bera kennsl á reki líkansins.
Nánast alltaf er þörf á endurmenntun líkana sem úrræði þegar það er viðvarandi samdráttur í frammistöðu líkans; Tilgreina þarf ástæðuna fyrir hnignuninni og nota viðeigandi meðferðaraðferðir.
8. Hversu margar mismunandi leiðir er hægt að beita MLOps, að þínu mati?
Það eru þrjár aðferðir til að koma MLOps í framkvæmd:
MLOps stig 0 (handvirkt ferli): Á þessu stigi eru öll skref – þar á meðal gagnaundirbúningur, greining og þjálfun – framkvæmd handvirkt. Hver áfangi verður að fara fram handvirkt, sem og umskipti frá einu til annars.
Undirliggjandi forsenda er að gagnavísindateymi þitt stjórnar aðeins fáum gerðum sem eru ekki uppfærðar oft.
Þar af leiðandi er ekki til stöðug samþætting (CI) eða stöðug dreifing (CD), og prófun á kóðanum er venjulega samþætt í framkvæmd handrita eða keyrslu minnisbókar, þar sem uppsetning fer fram í örþjónustu með REST API.
MLOps stig 1 (sjálfvirkni ML leiðslunnar): Með því að gera ML ferlið sjálfvirkt er markmiðið að þjálfa líkanið (CT) stöðugt. Þú getur framkvæmt samfellda afhendingu líkanaspáþjónustu á þennan hátt.
Uppsetning okkar á heilli þjálfunarleiðslu tryggir að líkanið sé sjálfkrafa þjálfað í framleiðslu með því að nýta ný gögn sem byggjast á virkum leiðslukveikjum.
MLOps stig 2 (sjálfvirkni CI/CD leiðslunnar): Það fer einu skrefi yfir MLOps stigi. Sterkt sjálfvirkt CI/CD kerfi er nauðsynlegt ef þú vilt uppfæra leiðslur í framleiðslu á fljótlegan og áreiðanlegan hátt:
- Þú býrð til frumkóða og framkvæmir fjölda prófana á öllu CI stiginu. Pakkar, executables og artifacts eru úttak sviðsins, sem verður sett á síðari tíma.
- Munirnir sem búnir eru til með CI-stiginu eru settir í markumhverfið meðan á geisladrifinu stendur. Útfærð leiðsla með endurskoðaðri útfærslu líkansins er framleiðsla stigsins.
- Áður en leiðslan byrjar nýja endurtekningu á tilrauninni verða gagnafræðingar samt að gera gagna- og líkanagreiningarstigið handvirkt.
9. Hvað skilur kyrrstæða uppsetningu frá kraftmikilli uppsetningu?
Líkanið er þjálfað án nettengingar fyrir Static dreifing. Með öðrum orðum, við þjálfum líkanið nákvæmlega einu sinni og notum það síðan um tíma. Eftir að líkanið hefur verið þjálfað á staðnum er það geymt og sent á netþjóninn til að nota til að búa til rauntímaspár.
Líkaninu er síðan dreift sem uppsetningarhugbúnaði. forrit sem gerir ráð fyrir lotuskorun á beiðnum, sem dæmi.
Líkanið er þjálfað á netinu fyrir Kvik dreifing. Það er að segja að ný gögn eru stöðugt að bætast við kerfið og líkanið er uppfært stöðugt til að gera grein fyrir þeim.
Fyrir vikið geturðu gert spár með því að nota netþjón á eftirspurn. Eftir það er líkanið tekið í notkun með því að vera útvegað sem API endapunktur sem bregst við fyrirspurnum notenda með því að nota veframma eins og Flaska eða FastAPI.
10. Hvaða framleiðsluprófunaraðferðir ertu meðvitaður um?
Hópprófun: Með því að framkvæma prófanir í öðru umhverfi en þjálfunarumhverfi þess, sannreynir það líkanið. Með því að nota mælikvarða að eigin vali, eins og nákvæmni, RMSE, osfrv., eru lotuprófanir gerðar á hópi gagnasýna til að sannreyna ályktun líkana.
Hópprófun er hægt að framkvæma á ýmsum tölvukerfum, svo sem prófunarþjóni, ytri netþjóni eða skýinu. Venjulega er líkanið veitt sem raðbundin skrá, sem er hlaðin sem hlutur og ályktað af prófunargögnum.
A / B próf: Það er oft notað til að greina markaðsherferðir sem og til að hanna þjónustu (vefsíður, farsímaforrit osfrv.).
Byggt á fyrirtækinu eða rekstrinum eru tölfræðilegar aðferðir notaðar til að greina niðurstöður A/B prófana til að ákveða hvaða líkan mun standa sig betur í framleiðslu. Venjulega eru A/B próf gerð á eftirfarandi hátt:
- Lifandi eða rauntíma gögnum er skipt eða skipt í tvö sett, Set A og Set B.
- Set A gögn eru send til úrelta líkansins, en Set B gögn eru send í uppfærða líkanið.
- Það fer eftir tilviki eða ferlum fyrirtækjanotkunar, hægt er að nota nokkrar tölfræðilegar aðferðir til að meta frammistöðu líkans (til dæmis nákvæmni, nákvæmni osfrv.) til að ákvarða hvort nýja líkanið (líkan B) standi sig betur en gamla líkanið (líkan A).
- Við gerum svo tölfræðilega tilgátuprófun: Núlltilgátan segir að nýja líkanið hafi engin áhrif á meðalgildi þeirra viðskiptavísa sem verið er að fylgjast með. Samkvæmt valtilgátunni eykur nýja líkanið meðalgildi vöktunarviðskiptavísanna.
- Að lokum metum við hvort nýja líkanið leiði til umtalsverðrar endurbóta á tilteknum KPI viðskipta.
Skugga- eða sviðspróf: Líkan er metið í afriti af framleiðsluumhverfi áður en það er notað í framleiðslu (sviðsetningarumhverfi).
Þetta er mikilvægt til að ákvarða frammistöðu líkansins með rauntímagögnum og sannprófa seiglu líkansins. er framkvæmt með því að álykta um sömu gögn og framleiðsluleiðslan og afhenda þróaða greinina eða líkanið sem á að prófa á sviðsmiðlara.
Eini gallinn er sá að engin viðskiptaval verður tekin á sviðsetningarþjóninum eða sýnileg notendum vegna þróunargreinarinnar.
Seiglu og frammistaða líkansins verður metin tölfræðilega með því að nota niðurstöður sviðsetningarumhverfisins með því að nota viðeigandi mælikvarða.
11. Hvað aðgreinir straumvinnslu frá lotuvinnslu?
Við getum stjórnað þeim eiginleikum sem við notum til að búa til rauntímaspár okkar með því að nota tvær vinnsluaðferðir: lotu og straum.
Lotuferli eiginleikar frá fyrri tímapunkti fyrir tiltekinn hlut, sem síðan er notaður til að búa til rauntímaspár.
- Hér erum við fær um að gera ákafa útreikninga á eiginleikum án nettengingar og hafa gögnin undirbúin fyrir skjóta ályktun.
- Lögun hins vegar aldur síðan þeir voru fyrirfram ákveðnir í fortíðinni. Þetta gæti verið mikill galli ef horfur þínar eru byggðar á nýlegum atburðum. (Til dæmis að bera kennsl á sviksamleg viðskipti eins fljótt og auðið er.)
Með næstum rauntíma, streymiseiginleikum fyrir tiltekna aðila, fer ályktunin fram í straumvinnslu á tilteknu setti inntaks.
- Hér, með því að gefa líkaninu rauntíma, streymiseiginleika, getum við fengið nákvæmari spár.
- Hins vegar þarf viðbótarinnviði fyrir straumvinnslu og til að viðhalda gagnastraumum (Kafka, Kinesis, osfrv.). (Apache Flink, Beam, osfrv.)
12. Hvað meinarðu með Training Serving Skew?
Mismunurinn á milli frammistöðu við framreiðslu og frammistöðu á æfingu er þekktur sem þjálfunarveitingaskekkjan. Þessi skekkju getur stafað af eftirfarandi þáttum:
- Munur á því hvernig þú meðhöndlar gögn á milli leiðslna fyrir afgreiðslu og þjálfun.
- Breyting á gögnum frá þjálfun þinni yfir í þjónustu þína.
- Viðbragðsrás milli reikniritsins þíns og líkans.
13. Hvað meinarðu með Model Registry?
Model Registry er miðlæg geymsla þar sem líkanahöfundar geta birt líkön sem henta til notkunar í framleiðslu.
Hönnuðir geta unnið með öðrum teymum og hagsmunaaðilum til að stjórna líftíma allra gerða innan fyrirtækisins með því að nota skrána. Þjálfuðu líkönin geta hlaðið upp í líkanaskrána af gagnafræðingi.
Líkönin eru tilbúin til prófunar, löggildingar og dreifingar í framleiðslu þegar þau eru komin í skrána. Að auki eru þjálfaðar gerðir geymdar í módelskrám til að fá skjótan aðgang með hvaða samþættu forriti eða þjónustu sem er.
Til að prófa, meta og dreifa líkaninu til framleiðslu, hugbúnaðaraðilar og gagnrýnendur geta fljótt viðurkennt og valið bara bestu útgáfuna af þjálfuðu módelunum (byggt á matsviðmiðunum).
14. Getur þú útskýrt ávinninginn af Model Registry?
Eftirfarandi eru nokkrar leiðir til að líkanaskráning hagræðir lífsferilsstjórnun líkana:
- Til að gera uppsetningu auðveldari skaltu vista keyrslutímakröfur og lýsigögn fyrir þjálfaðar gerðir þínar.
- Þjálfuð, útfærð og eftirlaun módel þín ættu að vera skráð, rakin og útfærð í miðlægri, leitarhæfri geymslu.
- Búðu til sjálfvirkar leiðslur sem gera stöðuga afhendingu, þjálfun og samþættingu framleiðslulíkans þíns kleift.
- Berðu saman nýþjálfaðar gerðir (eða áskorunarlíkön) í sviðsetningarumhverfinu við gerðir sem eru í framleiðslu núna (meistaralíkön).
15. Geturðu útskýrt hvernig Champion-Challenger tæknin virkar?
Það er hægt að prófa ýmsar rekstrarákvarðanir í framleiðslu með Champion Challenger tækni. Þú hefur líklega heyrt um A/B próf í tengslum við markaðssetningu.
Til dæmis gætirðu skrifað tvær aðskildar efnislínur og dreift þeim af handahófi til lýðfræðimarkmiðsins til að hámarka opna hlutfallið fyrir tölvupóstherferð.
Kerfið skráir frammistöðu tölvupósts (þ.e. opnunaraðgerð í tölvupósti) í tengslum við efnislínu hans, sem gerir þér kleift að bera saman opnunartíðni hverrar efnislínu til að ákvarða hver er áhrifaríkust.
Champion-Challenger er sambærilegt við A/B próf í þessu sambandi. Þú getur notað ákvörðunarrökfræði til að meta hverja niðurstöðu og velja þá árangursríkustu þegar þú gerir tilraunir með ýmsar aðferðir til að komast að vali.
Farsælasta líkanið tengist meistaranum. Fyrsti áskorandi og samsvarandi listi yfir áskorendur eru nú allt sem er til staðar í fyrsta framkvæmdarfasa í stað meistarans.
Meistarinn er valinn af kerfinu fyrir frekari framkvæmdir á verkskrefum.
Keppendurnir eru andstæðar hver öðrum. Nýi meistarinn ræðst síðan af þeim áskoranda sem skilar bestum árangri.
Verkefnin sem taka þátt í samanburðarferli meistara-áskorenda eru talin upp nánar hér að neðan:
- Að meta hvert af keppinautum líkananna.
- Að meta lokaeinkunn.
- Samanburður á niðurstöðum matsins til að staðfesta sigurvegara.
- Bætir ferska meistaranum í skjalasafnið
16. Lýstu forritum á fyrirtækisstigi MLOps líftímans?
Við þurfum að hætta að líta á vélanám sem aðeins endurtekna tilraun til þess að vélanámslíkön komist inn í framleiðslu. MLOps er samband hugbúnaðarverkfræði við vélanám.
Ímynda ætti fullunna niðurstöðu sem slíka. Þess vegna þarf kóðann fyrir tæknivöru að vera prófaður, hagnýtur og mát.
MLOps hefur líftíma sem er sambærilegur við hefðbundið vélnámsflæði, að því undanskildu að líkaninu er haldið í ferli fram að framleiðslu.
MLOps verkfræðingarnir fylgjast síðan með þessu til að ganga úr skugga um að gæði líkansins í framleiðslu séu þau sem ætluð eru.
Hér eru nokkur notkunartilvik fyrir nokkrar af MLOps tækninni:
- Módelskrár: Það er það sem það virðist vera. Stærri teymi geyma og halda utan um útgáfulíkön í líkanaskrám. Jafnvel að fara aftur í fyrri útgáfu er möguleiki.
- Eiginleikaverslun: Þegar fjallað er um stærri gagnasöfn gætu verið sérstakar útgáfur af greiningargagnasöfnunum og undirmengi fyrir tiltekin verkefni. Eiginleikaverslun er háþróuð, smekkleg leið til að nota gagnaundirbúningsvinnu frá fyrri keyrslum eða frá öðrum teymum líka.
- Geymslur fyrir lýsigögn: Mikilvægt er að fylgjast rétt með lýsigögnum í gegnum framleiðslu ef nota á óskipulögð gögn, eins og mynd- og textagögn, með góðum árangri.
Niðurstaða
Það er mikilvægt að hafa í huga að í flestum tilfellum er spyrillinn að leita að kerfi en umsækjandinn er að leita lausnar.
Hið fyrra byggist á tæknikunnáttu þinni, en hið síðara snýst allt um aðferðina sem þú notar til að sýna fram á hæfni þína.
Það eru nokkrar aðferðir sem þú ættir að taka þegar þú svarar MLOps viðtalsspurningum til að hjálpa viðmælandanum að skilja betur hvernig þú ætlar að meta og takast á við vandamálið.
Einbeiting þeirra snýst meira um röng viðbrögð en réttu. Lausn segir sína sögu og kerfið þitt er besta dæmið um þekkingu þína og getu til samskipta.
Skildu eftir skilaboð