Sisällysluettelo[Piilottaa][Näytä]
- 1. Mitä tarkoitat MLOpsilla?
- 2. Miten datatieteilijät, tietosuunnittelijat ja ML-insinöörit eroavat toisistaan?
- 3. Mikä erottaa MLOps:t ModelOpsista ja AIOpsista?
- 4. Voitko kertoa minulle MLOpsin eduista?
- 5. Voitko kertoa minulle MLOpsin komponentit?
- 6. Mitä riskejä datatieteen käyttöön liittyy?
- 7. Voitko selittää, mikä on mallin ajautuminen?
- 8. Kuinka monella eri tavalla MLO:ta voidaan mielestäsi soveltaa?
- 9. Mikä erottaa staattisen käyttöönoton dynaamisesta käyttöönotosta?
- 10. Mistä tuotannon testaustekniikoista olet tietoinen?
- 11. Mikä erottaa stream-käsittelyn eräkäsittelystä?
- 12. Mitä tarkoitat koulutuksen vinossa?
- 13. Mitä tarkoitat mallirekisterillä?
- 14. Voitko kertoa mallirekisterin eduista?
- 15. Voitko selittää Champion-Challenger-tekniikan toimivuuden?
- 16. Kuvaile MLOpsin elinkaaren yritystason sovelluksia?
- Yhteenveto
Yritykset käyttävät yhä useammin uusia teknologioita, kuten tekoälyä (AI) ja koneoppimista (ML), lisätäkseen yleisön tiedon ja palvelujen saatavuutta.
Näitä tekniikoita käytetään yhä enemmän useilla aloilla, mukaan lukien pankki-, rahoitus-, vähittäis-, valmistus- ja jopa terveydenhuolto.
Tietotieteilijöille, koneoppimisinsinööreille ja tekoälyinsinööreille on kysyntää yhä useammalta yritykseltä.
Tietäen mahdollisen koneoppiminen Operaatiohaastattelun kysymykset, joita johtajat ja rekrytoijat voivat esittää sinulle, ovat välttämättömiä, jos haluat työskennellä ML- tai MLOps-aloilla.
Voit oppia vastaamaan joihinkin MLOps-haastattelukysymyksiin tässä viestissä, kun pyrit saamaan unelmatyösi.
1. Mitä tarkoitat MLOpsilla?
ML-mallien operativoinnin aiheena on MLOps, joka tunnetaan myös nimellä Machine Learning Operations, joka on kehittyvä ala merkittävämmällä AI/DS/ML-areenalla.
MLOps-nimellä tunnetun ohjelmistotekniikan lähestymistavan ja kulttuurin päätavoite on integroida koneoppimis-/tietotieteiden mallien luominen ja niiden myöhempi operaatio (Ops).
Perinteisillä DevOpsilla ja MLO:illa on tiettyjä yhtäläisyyksiä, mutta MLO:t eroavat myös suuresti perinteisistä DevOpseista.
MLOps lisää uuden kerroksen monimutkaisuutta keskittymällä tietoihin, kun taas DevOps keskittyy ensisijaisesti sellaisten koodien ja ohjelmistojulkaisujen operatiiviseen käyttöön, jotka eivät voi olla tilallisia.
ML:n, Datan ja Opsin yhdistelmä antaa MLOpsille sen yleisen nimen (koneoppiminen, tietotekniikka ja DevOps).
2. Miten datatieteilijät, tietosuunnittelijat ja ML-insinöörit eroavat toisistaan?
Se vaihtelee mielestäni firmasta riippuen. Tietojen kuljetuksen ja muuntamisen sekä sen varastoinnin ympäristön rakentavat tietosuunnittelijat.
Datatieteilijät ovat asiantuntijoita, jotka käyttävät tieteellisiä ja tilastollisia tekniikoita tietojen analysointiin ja johtopäätösten tekemiseen, mukaan lukien ennusteiden tekemiseen tulevasta käyttäytymisestä nykyisten trendien perusteella.
Ohjelmistoinsinöörit opiskelevat toimintaa ja hallinsivat käyttöönottoinfrastruktuuria muutama vuosi sitten. Ops-tiimit sen sijaan tutkivat kehitystä käyttämällä infrastruktuuria koodina. Nämä kaksi striimiä tuottivat DevOps-aseman.
MLOps on samassa kategoriassa kuin Tiedon tutkija ja tietoinsinööri. Tietosuunnittelijat hankkivat tietoa infrastruktuurista, jota tarvitaan mallien elinkaarien tukemiseen ja jatkuvan koulutuksen putkien luomiseen.
Datatieteilijät pyrkivät kehittämään mallin käyttöönotto- ja pisteytyskykyään.
ML-insinöörit rakentavat tuotantotason dataputken hyödyntäen infrastruktuuria, joka muuntaa raakadatan datatieteen mallin tarvitsemaksi syötteeksi, isännöi ja käyttää mallia sekä tulostaa pisteytetyn tietojoukon alavirran järjestelmiin.
Sekä datainsinöörit että datatieteilijät voivat tulla ML-insinööreiksi.
3. Mikä erottaa MLOps:t ModelOpsista ja AIOpsista?
Kun rakennetaan päästä päähän koneoppimisalgoritmit, MLOps on DevOps-sovellus, joka sisältää tiedonkeruun, tietojen esikäsittelyn, mallin luomisen, mallin käyttöönoton tuotannossa, mallin seurannan tuotannossa ja mallin säännöllisen päivityksen.
DevOpsin käyttö kaikkien algoritmien, kuten sääntöpohjaisten mallien, toteutuksen käsittelyssä tunnetaan nimellä ModelOps.
AI Ops hyödyntää DevOps-periaatteita luodakseen tekoälysovelluksia tyhjästä.
4. Voitko kertoa minulle MLOpsin eduista?
- Tietotieteilijät ja MLOps-kehittäjät voivat suorittaa kokeita nopeasti uudelleen varmistaakseen, että mallit koulutetaan ja arvioidaan asianmukaisesti, koska MLOps auttaa automatisoimaan kaikki tai useimmat tehtävät/vaiheet MDLC:ssä (mallikehityksen elinkaari). Lisäksi luvat tietojen ja mallien versiointi.
- MLOps-ideoiden toteuttaminen käytännössä mahdollistaa sen, että tietosuunnittelijoille ja tietotieteilijöille on rajoittamaton pääsy viljeltyihin ja kuratoituihin tietokokonaisuuksiin, mikä nopeuttaa mallien kehitystä eksponentiaalisesti.
- Tietotutkijat voivat palata malliin, joka toimi paremmin, jos nykyinen iteraatio ei täytä odotuksia, koska mallit ja tietojoukot voidaan versioida, mikä parantaa merkittävästi mallin kirjausketjua.
- Koska MLOps-menetelmät perustuvat vahvasti DevOpsiin, ne sisältävät myös useita CI/CD-konsepteja, mikä parantaa koodin laatu ja luotettavuus.
5. Voitko kertoa minulle MLOpsin komponentit?
Malli: MLO:t sisältävät vahvasti suunnitteluajattelun. Aloitetaan ongelman luonteesta, hypoteesien, arkkitehtuurin ja käyttöönoton testaamisesta
Mallirakennus: Mallin testaus ja validointi ovat osa tätä vaihetta sekä tietotekniikan putkilinjat ja kokeilu parhaiden koneoppimisjärjestelmien luomiseksi.
Operations: Malli on otettava käyttöön osana toimintaa ja jatkuvasti tarkistettava ja arvioitava. Tämän jälkeen CI/CD-prosesseja valvotaan ja käynnistetään orkestrointityökalulla.
6. Mitä riskejä datatieteen käyttöön liittyy?
- Mallia on vaikea skaalata koko yrityksessä.
- Ilman varoitusta malli sammuu ja lakkaa toimimasta.
- Useimmiten mallien tarkkuus huononee ajan myötä.
- Malli tekee epätarkkoja ennusteita tiettyyn havaintoon perustuen, jota ei voida tutkia enempää.
- Datatieteilijöiden pitäisi myös ylläpitää malleja, mutta ne ovat kalliita.
- MLO:ita voidaan käyttää näiden riskien vähentämiseen.
7. Voitko selittää, mikä on mallin ajautuminen?
Kun mallin päättelyvaiheen suorituskyky (käyttämällä todellista dataa) heikkenee sen harjoitteluvaiheen suorituskyvystä, tämä tunnetaan mallin ajautumana, joka tunnetaan myös nimellä idean ajautuminen (käyttämällä historiallista, merkittyä dataa).
Mallin suorituskyky on vinossa koulutus- ja palveluvaiheisiin verrattuna, mistä johtuu nimi "juna/palvele vino".
Lukuisia tekijöitä, mukaan lukien:
- Tietojen jakamisen perustavanlaatuinen tapa on muuttunut.
- Koulutus keskittyi muutamaan kategoriaan, mutta juuri tapahtunut ympäristömuutos lisäsi uuden alueen.
- NLP-vaikeuksissa todellisessa datassa on suhteettoman paljon lukumerkkejä kuin harjoitusdatassa.
- Odottamattomia tapahtumia, kuten ennen COVID-dataan perustuvan mallin ennustetaan toimivan huomattavasti huonommin COVID-19-epidemian aikana kerätyillä tiedoilla.
Mallin suorituskyvyn jatkuva seuranta on aina tarpeen mallin ajautumisen tunnistamiseksi.
Mallin uudelleenkoulutus on lähes aina tarpeen, kun mallin suorituskyky heikkenee jatkuvasti; laskun syy on tunnistettava ja asianmukaisia hoitomenetelmiä on käytettävä.
8. Kuinka monella eri tavalla MLO:ta voidaan mielestäsi soveltaa?
On kolme tapaa toteuttaa MLO:t käytännössä:
MLOps-taso 0 (manuaalinen prosessi): Tällä tasolla kaikki vaiheet – mukaan lukien tietojen valmistelu, analysointi ja koulutus – suoritetaan manuaalisesti. Jokainen vaihe on suoritettava manuaalisesti, samoin kuin siirtyminen yhdestä seuraavaan.
Perusoletus on, että datatieteen tiimisi hallitsee vain pientä määrää malleja, joita ei päivitetä usein.
Tämän seurauksena jatkuvaa integrointia (CI) tai jatkuvaa käyttöönottoa (CD) ei ole olemassa, ja koodin testaus on yleensä integroitu komentosarjan suorittamiseen tai muistikirjan suorittamiseen, ja käyttöönotto tapahtuu mikropalvelussa, jossa on REST API.
MLOps taso 1 (ML-liukuhihnan automatisointi): ML-prosessin automatisoinnilla pyritään jatkuvasti kouluttamaan mallia (CT). Voit suorittaa jatkuvan malliennustuspalvelun tällä tavalla.
Koko koulutusputkiston käyttöönotto varmistaa, että malli koulutetaan automaattisesti tuotantoon hyödyntäen uutta dataa, joka perustuu aktiivisiin putkilinjojen triggereihin.
MLOps taso 2 (CI/CD-liukuhihnan automatisointi): Se menee askeleen MLOps-tason yläpuolelle. Vahva automaattinen CI/CD-järjestelmä tarvitaan, jos haluat päivittää tuotannossa olevat putkistot nopeasti ja luotettavasti:
- Luot lähdekoodia ja suoritat lukuisia testejä CI-vaiheen aikana. Paketit, suoritettavat tiedostot ja artefaktit ovat vaiheen tuotoksia, jotka otetaan käyttöön myöhemmin.
- CI-vaiheen luomat artefaktit otetaan käyttöön kohdeympäristöön CD-vaiheen aikana. Käyttöön otettu liukuhihna, jossa on tarkistettu mallin toteutus, on vaiheen tulos.
- Ennen kuin putkilinja aloittaa kokeen uuden iteroinnin, datatieteilijöiden on silti suoritettava data- ja mallianalyysivaihe manuaalisesti.
9. Mikä erottaa staattisen käyttöönoton dynaamisesta käyttöönotosta?
Malli on koulutettu offline-tilassa Staattinen käyttöönotto. Toisin sanoen koulutamme mallin tarkasti kerran ja hyödynnämme sitä sitten jonkin aikaa. Kun malli on koulutettu paikallisesti, se tallennetaan ja lähetetään palvelimelle reaaliaikaisten ennusteiden tuottamiseen.
Malli jaetaan sitten asennettavana sovellusohjelmistona. ohjelma, joka mahdollistaa pyyntöjen eräpisteytyksen, esimerkkinä.
Malli on koulutettu verkossa Dynaaminen käyttöönotto. Eli järjestelmään lisätään jatkuvasti uutta tietoa ja mallia päivitetään jatkuvasti sen huomioon ottamiseksi.
Tämän seurauksena voit tehdä ennusteita palvelimella pyynnöstä. Tämän jälkeen malli otetaan käyttöön toimittamalla se API-päätepisteenä, joka reagoi käyttäjien kyselyihin käyttämällä verkkokehystä, kuten Pullo tai FastAPI.
10. Mistä tuotannon testaustekniikoista olet tietoinen?
Erätestaus: Suorittamalla testauksen eri ympäristössä kuin koulutusympäristönsä, se varmistaa mallin. Käyttäen valittuja mittareita, kuten tarkkuutta, RMSE:tä jne., erätestaus suoritetaan datanäyteryhmälle mallipäätelmän tarkistamiseksi.
Erätestaus voidaan suorittaa useilla eri laskenta-alustoilla, kuten testipalvelimella, etäpalvelimella tai pilvessä. Tyypillisesti malli toimitetaan sarjamuotoisena tiedostona, joka ladataan objektina ja päätellään testitiedoista.
/ B-testaus: Sitä käytetään usein markkinointikampanjoiden analysointiin sekä palveluiden suunnitteluun (verkkosivustot, mobiilisovellukset jne.).
Yrityksen tai toiminnan perusteella tilastollisilla lähestymistavoilla analysoidaan A/B-testauksen tuloksia, jotta päätetään, mikä malli toimii paremmin tuotannossa. Yleensä A/B-testaus tehdään seuraavalla tavalla:
- Reaaliaikainen tai reaaliaikainen data on jaettu tai segmentoitu kahteen ryhmään, joukkoon A ja joukkoon B.
- Sarjan A tiedot lähetetään vanhentuneeseen malliin, kun taas sarjan B tiedot lähetetään päivitettyyn malliin.
- Liiketoiminnan käyttötapauksesta tai prosesseista riippuen voidaan käyttää useita tilastollisia lähestymistapoja mallin suorituskyvyn (esimerkiksi tarkkuus, tarkkuus jne.) arvioimiseen sen määrittämiseksi, onko uusi malli (malli B) parempi kuin vanha malli (malli A).
- Sitten tehdään tilastollinen hypoteesitestaus: Nollahypoteesi sanoo, että uudella mallilla ei ole vaikutusta seurattavien liiketoimintaindikaattoreiden keskiarvoon. Vaihtoehtoisen hypoteesin mukaan uusi malli nostaa seurantaliiketoiminnan tunnuslukujen keskiarvoa.
- Lopuksi arvioimme, parantaako uusi malli merkittävästi tiettyjä liiketoiminnan KPI:itä.
Varjo- tai lavatesti: Malli arvioidaan tuotantoympäristön kopiossa ennen kuin sitä käytetään tuotannossa (vaiheympäristö).
Tämä on ratkaisevan tärkeää mallin suorituskyvyn määrittämiseksi reaaliaikaisten tietojen avulla ja mallin kestävyyden validoimiseksi. suoritetaan päättelemällä samat tiedot kuin tuotantoputkistossa ja toimittamalla kehitetty haara tai malli testattavaksi staging-palvelimella.
Ainoa haittapuoli on, että kehityshaaran tuloksena ei tehdä liiketoimia koskevia valintoja staging-palvelimella tai nähdä loppukäyttäjille.
Mallin kestävyyttä ja suorituskykyä arvioidaan tilastollisesti käyttäen lavastusympäristön tuloksia sopivia mittareita käyttäen.
11. Mikä erottaa stream-käsittelyn eräkäsittelystä?
Voimme manipuloida ominaisuuksia, joita käytämme reaaliaikaisten ennusteidemme tuottamiseen kahdella käsittelymenetelmällä: erä ja stream.
Eräprosessi ominaisuuksia aikaisemmasta ajankohdasta tietylle objektille, jota sitten käytetään reaaliaikaisten ennusteiden luomiseen.
- Täällä voimme tehdä intensiivisiä ominaisuuslaskelmia offline-tilassa ja valmistella tiedot nopeaa päättelyä varten.
- Ominaisuudet kuitenkin ikä, koska ne olivat ennalta määrättyjä menneisyydessä. Tämä voi olla suuri haitta, jos ennuste perustuu viimeaikaisiin tapahtumiin. (Esimerkiksi vilpillisten tapahtumien tunnistaminen niin pian kuin mahdollista.)
Tietyn entiteetin lähes reaaliaikaisten suoratoistoominaisuuksien avulla päättely suoritetaan virrankäsittelyssä tietyllä tulojoukolla.
- Tässä, antamalla mallille reaaliaikaisia suoratoistoominaisuuksia, voimme saada tarkempia ennusteita.
- Lisäinfrastruktuuria tarvitaan kuitenkin virrankäsittelyyn ja tietovirtojen ylläpitämiseen (Kafka, Kinesis jne.). (Apache Flink, Beam jne.)
12. Mitä tarkoitat koulutuksen vinossa?
Ero suorituskyvyn välillä tarjoilussa ja suorituskyvyn välillä harjoittelun aikana tunnetaan harjoittelun ja tarjoilun vinoutumisena. Tämä vinouma voi johtua seuraavista tekijöistä:
- Ero siinä, miten käsittelet tietoja palvelu- ja koulutusputkien välillä.
- Tietojen siirtyminen harjoittelustasi palveluusi.
- Palautekanava algoritmisi ja mallisi välillä.
13. Mitä tarkoitat mallirekisterillä?
Mallirekisteri on keskusvarasto, jossa mallintekijät voivat julkaista tuotantokäyttöön soveltuvia malleja.
Kehittäjät voivat tehdä yhteistyötä muiden tiimien ja sidosryhmien kanssa hallitakseen kaikkien yrityksen sisällä olevien mallien elinikää rekisterin avulla. Tietotutkija voi ladata koulutetut mallit mallirekisteriin.
Mallit valmistetaan testausta, validointia ja tuotantoon ottamista varten, kun ne ovat rekisterissä. Lisäksi koulutetut mallit tallennetaan mallirekistereihin minkä tahansa integroidun sovelluksen tai palvelun nopeaa käyttöä varten.
Jotta mallia voidaan testata, arvioida ja ottaa tuotantoon käyttöön, ohjelmistokehittäjiä ja arvioijat voivat nopeasti tunnistaa ja valita juuri parhaan version koulutetuista malleista (arviointikriteerien perusteella).
14. Voitko kertoa mallirekisterin eduista?
Seuraavassa on joitakin tapoja, joilla mallirekisteri virtaviivaistaa mallin elinkaaren hallintaa:
- Voit helpottaa käyttöönottoa tallentamalla koulutettujen malliesi ajonaikaiset vaatimukset ja metatiedot.
- Koulutetut, käyttöön otetut ja käytöstä poistetut mallisi tulee rekisteröidä, seurata ja versioida keskitetyssä, haettavissa olevassa arkistossa.
- Luo automatisoituja putkia, jotka mahdollistavat tuotantomallisi jatkuvan toimituksen, koulutuksen ja integroinnin.
- Vertaa vasta koulutettuja malleja (tai haastajamalleja) lavastusympäristössä tällä hetkellä tuotannossa oleviin malleihin (mestarimallit).
15. Voitko selittää Champion-Challenger-tekniikan toimivuuden?
Tuotannossa on mahdollista testata erilaisia toiminnallisia päätöksiä Champion Challenger -tekniikalla. Olet luultavasti kuullut A/B-testauksesta markkinoinnin yhteydessä.
Voit esimerkiksi kirjoittaa kaksi erillistä aiheriviä ja jakaa ne satunnaisesti kohdedemografillesi maksimoidaksesi sähköpostikampanjan aukiolosuhteen.
Järjestelmä kirjaa sähköpostin suorituskyvyn (eli sähköpostin avaustoiminnon) sen aiheriviin nähden, jolloin voit verrata kunkin aiherivin avautumisastetta ja määrittää, mikä on tehokkain.
Champion-Challenger on verrattavissa A/B-testaukseen tässä suhteessa. Voit käyttää päätöslogiikkaa arvioidaksesi jokaista tulosta ja valitaksesi tehokkaimman, kun kokeilet erilaisia menetelmiä tehdäksesi valinnan.
Menestynein malli korreloi mestarin kanssa. Ensimmäinen haastaja ja haastajalista ovat nyt kaikki, jotka ovat läsnä ensimmäisessä suoritusvaiheessa mestarin sijaan.
Järjestelmä valitsee mestarin tulevia työvaiheita varten.
Haastajat asettuvat vastakkain. Uuden mestarin määrittää sitten haastaja, joka tuottaa parhaat tulokset.
Mestari-haastaja -vertailuprosessiin liittyvät tehtävät on lueteltu alla tarkemmin:
- Arvioi jokainen kilpaileva malli.
- Lopullisten tulosten arvioiminen.
- Arvioinnin tulosten vertailu voittajan selvittämiseksi.
- Tuoreen mestarin lisääminen arkistoon
16. Kuvaile MLOpsin elinkaaren yritystason sovelluksia?
Meidän on lakattava pitämästä koneoppimista vain iteratiivisena kokeiluna, jotta koneoppimismallit pääsisivät tuotantoon. MLOps on ohjelmistotekniikan ja koneoppimisen liitto.
Lopputulos tulee kuvitella sellaisena. Siksi teknologisen tuotteen koodin on oltava testattu, toimiva ja modulaarinen.
MLOpsin käyttöikä on verrattavissa tavanomaiseen koneoppimisvirtaan, paitsi että mallia pidetään prosessissa tuotantoon asti.
MLOps-insinöörit pitävät tätä silmällä varmistaakseen, että mallin laatu tuotannossa on sitä, mitä on tarkoitettu.
Tässä on joitain käyttötapauksia useille MLOps-tekniikoille:
- Mallirekisterit: Sitä se näyttää olevan. Suuremmat tiimit tallentavat ja ylläpitävät versiomallien seurantaa mallirekistereissä. Jopa paluu edelliseen versioon on vaihtoehto.
- Ominaisuusvarasto: Kun käsitellään suurempia tietojoukkoja, analyyttisistä tietojoukoista ja osajoukoista voi olla eri versioita tiettyjä tehtäviä varten. Ominaisuuskauppa on huippuluokan, tyylikäs tapa käyttää aiempien ajojen tai myös muiden tiimien tietojen valmistelutyötä.
- Tallentaa metadataa: On erittäin tärkeää seurata metatietoja oikein koko tuotannon ajan, jos jäsentämätöntä dataa, kuten kuva- ja tekstidataa, käytetään onnistuneesti.
Yhteenveto
On tärkeää pitää mielessä, että useimmissa tapauksissa haastattelija etsii järjestelmää, kun taas ehdokas etsii ratkaisua.
Ensimmäinen perustuu teknisiin taitoihin, kun taas toinen koskee menetelmää, jota käytät pätevyyden osoittamiseen.
On olemassa useita toimenpiteitä, joita sinun tulee noudattaa vastattaessa MLOps-haastattelukysymyksiin, jotta haastattelija ymmärtää paremmin, kuinka aiot arvioida ja käsitellä käsillä olevaa ongelmaa.
Niiden keskittyminen liittyy enemmän väärään reaktioon kuin oikeaan. Ratkaisu kertoo tarinan, ja järjestelmäsi on paras esimerkki tietämyksestäsi ja kommunikaatiokyvystäsi.
Jätä vastaus