Sisukord[Peida][Näita]
- 1. Mida sa MLO-de all mõtled?
- 2. Kuidas erinevad andmeteadlased, andmeinsenerid ja ML-insenerid üksteisest?
- 3. Mis eristab MLO-sid ModelOpsist ja AIOpsist?
- 4. Kas saate mulle öelda mõnda MLOps-i eelist?
- 5. Kas saate mulle öelda MLOps-i komponendid?
- 6. Millised riskid kaasnevad andmeteaduse kasutamisega?
- 7. Kas saate selgitada, mis on mudelitriiv?
- 8. Kui mitmel erineval viisil saab MLO-sid teie arvates rakendada?
- 9. Mis eristab staatilist juurutamist dünaamilisest juurutusest?
- 10. Millistest tootmistestimise tehnikatest olete teadlik?
- 11. Mis eristab vootöötlust partiitöötlusest?
- 12. Mida sa mõtled serveerimise koolituse all?
- 13. Mida sa mudeliregistri all mõtled?
- 14. Kas saate kirjeldada mudeliregistri eeliseid?
- 15. Kas saate selgitada Champion-Challengeri tehnika toimimist?
- 16. Kirjeldage MLOps elutsükli ettevõtte tasemel rakendusi?
- Järeldus
Ettevõtted kasutavad sagedamini uusi tehnoloogiaid, nagu tehisintellekt (AI) ja masinõpe (ML), et suurendada avalikkuse juurdepääsu teabele ja teenustele.
Neid tehnoloogiaid kasutatakse üha enam erinevates sektorites, sealhulgas panganduses, rahanduses, jaemüügis, tootmises ja isegi tervishoius.
Andmeteadlaste, masinõppeinseneride ja tehisintellekti inseneride järele on nõudlust järjest rohkemates ettevõtetes.
Teades võimalikku masinõpe Operatsiooniintervjuu küsimused, mida juhtide ja värbajate palkamine teile esitada võivad, on hädavajalikud, kui soovite töötada ML või MLOps valdkonnas.
Sellest postitusest saate teada, kuidas vastata mõnele MLOpsi intervjuu küsimusele, kui töötate oma unistuste töökoha saamise nimel.
1. Mida sa MLO-de all mõtled?
ML-mudelite kasutuselevõtu teema on MLO-de (tuntud ka kui masinõppe operatsioonide) fookuses, mis on arenev valdkond suuremal AI/DS/ML areenil.
MLOps-ina tuntud tarkvaratehnilise lähenemise ja kultuuri põhieesmärk on integreerida masinõppe/andmeteaduse mudelite loomine ja nende hilisem kasutuselevõtt (Ops).
Tavalistel DevOppidel ja MLO-idel on teatud sarnasused, kuid MLO-d erinevad suuresti ka traditsioonilistest DevOpsidest.
MLOps lisab uue keerukuse kihi, keskendudes andmetele, samas kui DevOps keskendub peamiselt koodi ja tarkvara väljalasete kasutuselevõtule, mis ei saa olla olekupõhised.
ML-i, andmete ja operatsioonide kombinatsioon annab MLOpsile selle üldnimetuse (masinõpe, andmetöötlus ja DevOps).
2. Kuidas erinevad andmeteadlased, andmeinsenerid ja ML-insenerid üksteisest?
See on minu arvates erinev, olenevalt ettevõttest. Andmete transportimise ja teisendamise ning nende salvestamise keskkonna loovad andmeinsenerid.
Andmeteadlased on eksperdid, kes kasutavad teaduslikke ja statistilisi meetodeid andmete analüüsimiseks ja järelduste tegemiseks, sealhulgas ennustuste tegemiseks tulevase käitumise kohta praegu kehtivate suundumuste põhjal.
Tarkvarainsenerid õppisid paar aastat tagasi operatsioone ja haldasid juurutamise infrastruktuuri. Opsi meeskonnad aga uurisid arendust, kasutades koodina infrastruktuuri. Need kaks voogu tekitasid DevOpsi positsiooni.
MLOps on samas kategoorias kui Andmete teadlane ja andmeinsener. Andmeinsenerid omandavad teadmisi taristu kohta, mis on vajalik mudeli elutsüklite toetamiseks ja pideva koolituse jaoks torujuhtmete loomiseks.
Andmeteadlased püüavad arendada oma mudeli juurutamise ja hindamisvõimalusi.
Tootmistasemel andmekonveieri loovad ML-i insenerid, kasutades infrastruktuuri, mis teisendab toorandmed andmeteaduse mudeli jaoks vajalikuks sisendiks, majutab ja käitab mudelit ning väljastab punktidega andmestiku allavoolusüsteemidesse.
Nii andmeinseneridest kui ka andmeteadlastest võivad saada ML-insenerid.
3. Mis eristab MLO-sid ModelOpsist ja AIOpsist?
Otsast lõpuni ehitamisel masinõppe algoritmid, MLOps on DevOpsi rakendus, mis sisaldab andmete kogumist, andmete eeltöötlust, mudeli loomist, mudeli juurutamist tootmises, mudeli jälgimist tootmises ja mudeli perioodilist uuendamist.
DevOpsi kasutamist mis tahes algoritmide, näiteks reeglipõhiste mudelite, kogu juurutamise haldamisel nimetatakse ModelOpsiks.
AI Ops kasutab DevOpsi põhimõtteid, et luua AI-rakendusi nullist.
4. Kas saate mulle öelda mõnda MLOps-i eelist?
- Andmeteadlased ja MLOps-i arendajad saavad katseid kiiresti uuesti läbi viia, et tagada mudelite õige väljaõpe ja hindamine, kuna MLOps aitab automatiseerida kõiki või enamikku MDLC (mudeliarenduse elutsükli) ülesandeid/etappe. Lisaks load andmete ja mudelite versioonide loomine.
- MLOpsi ideede elluviimine võimaldab andmeinseneridel ja andmeteadlastel piiramatu juurdepääsu kultiveeritud ja kureeritud andmekogumitele, mis kiirendab plahvatuslikult mudelite väljatöötamist.
- Andmeteadlased saavad paremini toiminud mudeli juurde tagasi pöörduda, kui praegune iteratsioon ei vasta ootustele tänu võimalusele lasta mudelitel ja andmekogumitel versioonida, mis parandab oluliselt mudeli kontrolljälge.
- Kuna MLOps-meetodid tuginevad tugevalt DevOpsile, sisaldavad need ka mitmeid CI/CD kontseptsioone, mis täiustab koodi kvaliteet ja töökindlus.
5. Kas saate mulle öelda MLOps-i komponendid?
Disain: MLO-d hõlmavad suuresti disainimõtlemist. Alustades probleemi olemusest, hüpoteeside testimisest, arhitektuurist ja juurutusest
Mudeli ehitamine: mudeli testimine ja valideerimine on osa sellest etapist koos andmetöötluse torujuhtmete ja katsetamisega parimate masinõppesüsteemide seadistamiseks.
Operations: Mudelit tuleb rakendada operatsioonide osana ning seda pidevalt kontrollida ja hinnata. Seejärel jälgitakse CI/CD protsesse ja käivitatakse orkestreerimistööriista abil.
6. Millised riskid kaasnevad andmeteaduse kasutamisega?
- Mudelit on keeruline kogu ettevõtte ulatuses skaleerida.
- Ilma hoiatuseta lülitub mudel välja ja lakkab töötamast.
- Enamasti muutub mudelite täpsus aja jooksul halvemaks.
- Mudel teeb konkreetse vaatluse põhjal ebatäpseid ennustusi, mida ei saa edasi uurida.
- Andmeteadlased peaksid ka mudeleid hooldama, kuid need on kallid.
- Nende riskide vähendamiseks saab kasutada MLO-sid.
7. Kas saate selgitada, mis on mudelitriiv?
Kui mudeli järeldusfaasi jõudlus (kasutades reaalmaailma andmeid) halveneb treeningfaasi jõudlusest, nimetatakse seda mudeli triiviks, mida tuntakse ka ideede triivina (kasutades ajaloolisi, märgistatud andmeid).
Mudeli jõudlus on treening- ja serveerimisfaasiga võrreldes viltu, sellest ka nimi "treeni/teeninduse viltu".
Paljud tegurid, sealhulgas:
- Andmete levitamise põhiviis on muutunud.
- Koolitus keskendus väikesele arvule kategooriatele, kuid äsja toimunud keskkonnamuutus lisas veel ühe valdkonna.
- NLP raskuste korral on reaalmaailma andmetel ebaproportsionaalselt suurem hulk numbrimärke kui koolitusandmetel.
- Ootamatud sündmused, näiteks COVID-i-eelsetel andmetel põhineva mudeli toimimine COVID-19 epideemia ajal kogutud andmetega võrreldes oluliselt halvemini.
Mudeli triivi tuvastamiseks on alati vaja mudeli jõudlust pidevalt jälgida.
Modelli ümberõpe on peaaegu alati vajalik abinõuna, kui mudeli jõudlus on pidevalt langenud; tuleb välja selgitada languse põhjus ja kasutada sobivaid raviprotseduure.
8. Kui mitmel erineval viisil saab MLO-sid teie arvates rakendada?
MLO-de praktikas rakendamiseks on kolm meetodit:
MLOps tase 0 (käsitsi protsess): sellel tasemel tehakse kõik etapid, sealhulgas andmete ettevalmistamine, analüüs ja koolitus, käsitsi. Iga etapp tuleb läbi viia käsitsi, samuti üleminek ühelt teisele.
Selle aluseks on eeldus, et teie andmeteaduse meeskond haldab vaid väikest hulka mudeleid, mida sageli ei värskendata.
Seetõttu pole pidevat integreerimist (CI) ega pidevat juurutamist (CD) ning koodi testimine on tavaliselt integreeritud skripti või sülearvuti käivitamisse, kusjuures juurutamine toimub mikroteenuses koos REST API.
MLOps 1. tase (ML-konveieri automatiseerimine): ML-protsessi automatiseerimisega on eesmärk mudelit (CT) pidevalt koolitada. Sel viisil saate pidevat mudeliennustusteenust pakkuda.
Kogu koolituskonveieri juurutamine tagab mudeli automaatse tootmise koolituse, kasutades aktiivsetel konveieritel põhinevaid uusi andmeid.
MLOps 2. tase (CI/CD konveieri automatiseerimine): see ületab ühe sammu MLOps tasemest. Tugevat automatiseeritud CI/CD süsteemi on vaja, kui soovite tootmises olevaid torujuhtmeid kiiresti ja usaldusväärselt värskendada:
- Loote lähtekoodi ja teostate arvukalt teste kogu CI etapis. Paketid, käivitatavad failid ja artefaktid on etapi väljundid, mis võetakse kasutusele hiljem.
- CI etapis loodud artefaktid juurutatakse CD-etapi ajal sihtkeskkonda. Ülevaadatud mudeli juurutusega juurutatud konveier on etapi väljund.
- Enne kui konveier alustab katse uut iteratsiooni, peavad andmeteadlased andmete ja mudeli analüüsi etapi käsitsi tegema.
9. Mis eristab staatilist juurutamist dünaamilisest juurutusest?
Mudelit koolitatakse võrguühenduseta Staatiline juurutamine. Teisisõnu treenime mudelit täpselt ühe korra ja seejärel kasutame seda mõnda aega. Pärast seda, kui mudel on kohapeal välja õpetatud, salvestatakse see ja saadetakse serverisse, et seda saaks kasutada reaalajas prognooside koostamiseks.
Seejärel levitatakse mudelit installitava rakendustarkvarana. programm, mis võimaldab näiteks taotluste partiide hindamist.
Modell on koolitatud Internetis Dünaamiline juurutamine. See tähendab, et süsteemi lisatakse pidevalt uusi andmeid ja mudelit uuendatakse selle arvessevõtmiseks pidevalt.
Selle tulemusel saate nõudmisel serveri abil ennustusi teha. Pärast seda võetakse mudel kasutusele, esitades seda API lõpp-punktina, mis reageerib kasutaja päringutele, kasutades veebiraamistikku nagu Kolb või FastAPI.
10. Millistest tootmistestimise tehnikatest olete teadlik?
Partii testimine: testimise läbiviimisel koolituskeskkonnast erinevas keskkonnas, kontrollib see mudelit. Kasutades valitud mõõdikuid, nagu täpsus, RMSE jne, tehakse partii testimine andmenäidiste rühmaga, et kontrollida mudeli järeldust.
Partiitestimist saab läbi viia erinevatel andmetöötlusplatvormidel, näiteks testserveris, kaugserveris või pilves. Tavaliselt esitatakse mudel jadafailina, mis laaditakse objektina ja tuletatakse testandmetest.
A / B testimise: Seda kasutatakse sageli nii turunduskampaaniate analüüsimiseks kui ka teenuste kujundamiseks (veebisaidid, mobiilirakendused jne).
A/B testimise tulemuste analüüsimiseks kasutatakse ettevõttest või tegevustest lähtuvalt statistilisi lähenemisviise, et otsustada, milline mudel toimib tootmises paremini. Tavaliselt tehakse A/B testimine järgmiselt:
- Reaalajas või reaalajas andmed on jagatud või segmenteeritud kaheks komplektiks, komplektiks A ja komplektiks B.
- Komplekti A andmed saadetakse aegunud mudelile, komplekti B andmed aga värskendatud mudelile.
- Olenevalt ärikasutusjuhtumist või -protsessidest saab mudeli toimivuse (näiteks täpsuse, täpsuse jne) hindamiseks kasutada mitmeid statistilisi lähenemisviise, et teha kindlaks, kas uus mudel (mudel B) ületab vana mudeli (mudel A).
- Seejärel teeme statistilise hüpoteesi testimise: nullhüpotees ütleb, et uus mudel ei mõjuta jälgitavate ärinäitajate keskmist väärtust. Alternatiivse hüpoteesi kohaselt tõstab uus mudel seire ärinäitajate keskmist väärtust.
- Lõpuks hindame, kas uue mudeli tulemuseks on teatud äritegevuse KPI-de oluline paranemine.
Varju- või lavakatse: mudelit hinnatakse tootmiskeskkonna duplikaadis enne selle kasutamist tootmises (lavastuskeskkond).
See on ülioluline mudeli jõudluse määramiseks reaalajas andmetega ja mudeli vastupidavuse kinnitamiseks. tehakse tootmiskonveieriga samade andmete järeldamisel ja arendatud haru või mudeli tarnimisel, mida testitakse etapiserveris.
Ainsaks puuduseks on see, et arendusharu tulemusena ei tehta lavastusserveris ega lõppkasutajatele nähtavaid ärivalikuid.
Mudeli vastupidavust ja toimivust hinnatakse statistiliselt, kasutades lavastuskeskkonna tulemusi, kasutades sobivaid mõõdikuid.
11. Mis eristab vootöötlust partiitöötlusest?
Saame manipuleerida omadustega, mida kasutame oma reaalajas prognooside koostamiseks, kasutades kahte töötlemismeetodit: partii ja voog.
Partiiprotsess funktsioonid konkreetse objekti varasemast ajahetkest, mida seejärel kasutatakse reaalajas prognooside loomiseks.
- Siin saame teha intensiivseid funktsiooniarvutusi võrguühenduseta ja lasta andmed kiireks järeldusteks ette valmistada.
- Omadused on aga vanus, kuna need olid minevikus ette määratud. See võib olla suur puudus, kui teie prognoos põhineb hiljutistel sündmustel. (Näiteks petturlike tehingute tuvastamine niipea kui võimalik.)
Konkreetse olemi peaaegu reaalajas voogedastusfunktsioonide korral tehakse järeldus antud sisendite komplekti voo töötlemisel.
- Siin, andes mudelile reaalajas voogesituse funktsioone, saame täpsemaid prognoose.
- Voo töötlemiseks ja andmevoogude haldamiseks (Kafka, Kinesis jne) on aga vaja täiendavat infrastruktuuri. (Apache Flink, Beam jne)
12. Mida sa mõtled serveerimise koolituse all?
Serveerimisel ja treeningu ajal sooritatava soorituse vahelist erinevust nimetatakse treeningu serveerimise kaldudeks. Selle kõrvalekalde võivad põhjustada järgmised tegurid:
- Erinevused selles, kuidas te teenindamis- ja koolituskanalite vahel andmeid käsitlete.
- Andmete nihe koolituselt teie teenusesse.
- Tagasiside kanal teie algoritmi ja mudeli vahel.
13. Mida sa mudeliregistri all mõtled?
Mudeliregister on keskne hoidla, kus mudelite loojad saavad avaldada tootmises kasutamiseks sobivaid mudeleid.
Arendajad saavad teha koostööd teiste meeskondade ja sidusrühmadega, et hallata registri abil ettevõtte kõigi mudelite eluiga. Andmeteadlane saab koolitatud mudeleid mudeliregistrisse üles laadida.
Mudelid valmistatakse ette testimiseks, valideerimiseks ja tootmisse juurutamiseks, kui need on registris. Lisaks salvestatakse koolitatud mudelid mudeliregistritesse, et mis tahes integreeritud rakendus või teenus saaks neile kiirelt juurde pääseda.
Mudeli testimiseks, hindamiseks ja tootmises juurutamiseks tarkvaraarendajad ja arvustajad saavad kiiresti ära tunda ja valida koolitatud mudelite parima versiooni (hindamiskriteeriumide alusel).
14. Kas saate kirjeldada mudeliregistri eeliseid?
Järgmised on mõned viisid, kuidas registri modelleerimine lihtsustab mudeli elutsükli haldamist.
- Juurutamise hõlbustamiseks salvestage oma koolitatud mudelite käitusaja nõuded ja metaandmed.
- Teie koolitatud, juurutatud ja kasutuselt kõrvaldatud mudelid tuleks registreerida, jälgida ja versioonida tsentraliseeritud otsitavas hoidlas.
- Looge automatiseeritud torujuhtmeid, mis võimaldavad teie tootmismudeli pidevat tarnimist, koolitust ja integreerimist.
- Võrrelge lavastuskeskkonnas värskelt koolitatud mudeleid (või väljakutsuja mudeleid) praegu tootmises töötavate mudelitega (tšempionmudelid).
15. Kas saate selgitada Champion-Challengeri tehnika toimimist?
Tootmises on võimalik testida erinevaid operatiivseid otsuseid kasutades Champion Challengeri tehnikat. Olete ilmselt kuulnud A/B testimisest turunduse kontekstis.
Näiteks võite kirjutada kaks erinevat teemarida ja jagada need juhuslikult oma sihtdemograafilisele rühmale, et maksimeerida e-posti kampaania avamise määra.
Süsteem logib meili toimivust (st meili avamise toimingut) selle teemarea suhtes, võimaldades teil võrrelda iga teemarea avamise määra, et teha kindlaks, milline on kõige tõhusam.
Champion-Challenger on selles osas võrreldav A/B testimisega. Saate kasutada otsustusloogikat, et hinnata iga tulemust ja valida kõige tõhusam, kui katsetate erinevaid meetodeid valikuni jõudmiseks.
Kõige edukam mudel korreleerub meistriga. Esimene väljakutsuja ja väljakutsujate loend on nüüd kõik, mis on esimeses täitmisfaasis tšempioni asemel kohal.
Tšempioni valib süsteem edasisteks tööetappide teostamiseks.
Väljakutsujad vastandatakse üksteisele. Seejärel määrab uue tšempioni väljakutsuja, kes toodab suurimaid tulemusi.
Tšempionide ja väljakutsujate võrdlusprotsessiga seotud ülesanded on allpool loetletud üksikasjalikumalt:
- Iga konkureeriva mudeli hindamine.
- Lõplike punktisummade hindamine.
- Hindamistulemuste võrdlemine võitja väljakutsuja väljaselgitamiseks.
- Värske tšempioni lisamine arhiivi
16. Kirjeldage MLOps elutsükli ettevõtte tasemel rakendusi?
Peame lõpetama masinõppe käsitlemise ainult iteratiivse katsena, et masinõppemudelid saaksid tootmisse siseneda. MLOps on tarkvaratehnika ja masinõppe liit.
Lõpptulemust tuleks sellisena ette kujutada. Seetõttu peab tehnoloogilise toote kood olema testitud, funktsionaalne ja modulaarne.
MLOpsi eluiga on võrreldav tavapärase masinõppevooga, välja arvatud see, et mudelit hoitakse protsessis kuni tootmiseni.
Seejärel hoiavad MLOpsi insenerid sellel silma peal, et veenduda, et mudeli kvaliteet on tootmises see, mis on ette nähtud.
Siin on mõned mitme MLOps-tehnoloogia kasutusjuhud:
- Mudeliregistrid: see on see, mis näib olevat. Suuremad meeskonnad salvestavad ja hoiavad mudeliregistrites versioonimudelite jälgimist. Isegi eelmise versiooni juurde naasmine on võimalus.
- Funktsioonide pood: suuremate andmekogumite käsitlemisel võivad konkreetsete ülesannete jaoks olla analüütiliste andmekogumite ja alamhulkade erinevad versioonid. Funktsioonide pood on tipptasemel ja maitsekas viis varasemate käituste või ka teiste meeskondade andmete ettevalmistamise töö kasutamiseks.
- Metaandmete salvestamine: struktureerimata andmete (nt pildi- ja tekstiandmete) edukaks kasutamiseks on oluline jälgida metaandmeid õigesti kogu tootmise ajal.
Järeldus
Oluline on meeles pidada, et enamikul juhtudel otsib intervjueerija süsteemi, kandidaat aga lahendust.
Esimene põhineb teie tehnilistel oskustel, teine aga meetodil, mida kasutate oma pädevuse demonstreerimiseks.
MLOpsi intervjuu küsimustele vastamisel peaksite järgima mitmeid protseduure, et aidata intervjueerijal paremini mõista, kuidas kavatsete käsitletavat probleemi hinnata ja sellega tegeleda.
Nende kontsentratsioon keskendub rohkem valele kui õigele reaktsioonile. Lahendus räägib loo ja teie süsteem on parim näide teie teadmistest ja suhtlusvõimest.
Jäta vastus