Jadual Kandungan[Sembunyi][Tunjukkan]
- 1. Apakah yang anda maksudkan dengan MLOps?
- 2. Bagaimanakah saintis data, jurutera data dan jurutera ML berbeza antara satu sama lain?
- 3. Apakah yang membezakan MLOps daripada ModelOps dan AIOps?
- 4. Bolehkah anda memberitahu saya beberapa faedah MLOps?
- 5. Bolehkah anda memberitahu saya komponen MLOps?
- 6. Apakah risiko yang datang dengan menggunakan sains data?
- 7. Bolehkah anda jelaskan, apakah model drift?
- 8. Berapa banyak cara berbeza boleh digunakan MLOp, pada pendapat anda?
- 9. Apakah yang membezakan penggunaan statik daripada penggunaan dinamik?
- 10. Apakah teknik ujian pengeluaran yang anda ketahui?
- 11. Apakah yang membezakan pemprosesan aliran daripada pemprosesan kelompok?
- 12. Apakah yang anda maksudkan dengan Latihan Servis Skew?
- 13. Apakah yang anda maksudkan dengan Pendaftaran Model?
- 14. Bolehkah anda menghuraikan faedah Pendaftaran Model?
- 15. Bolehkah anda menerangkan kerja-kerja teknik Champion-Challenger?
- 16. Terangkan aplikasi peringkat perusahaan bagi kitaran hayat MLOps?
- Kesimpulan
Syarikat menggunakan teknologi baru muncul seperti kecerdasan buatan (AI) dan pembelajaran mesin (ML) dengan lebih kerap untuk meningkatkan kebolehcapaian orang ramai kepada maklumat dan perkhidmatan.
Teknologi ini semakin digunakan dalam pelbagai sektor, termasuk perbankan, kewangan, runcit, pembuatan, dan juga penjagaan kesihatan.
Saintis data, jurutera pembelajaran mesin dan jurutera dalam kecerdasan buatan mendapat permintaan daripada semakin banyak syarikat.
Mengetahui kemungkinan pembelajaran mesin soalan temu duga operasi yang boleh dikemukakan oleh pengurus dan perekrut kepada anda adalah penting jika anda ingin bekerja dalam bidang ML atau MLOps.
Anda boleh belajar cara menjawab beberapa soalan temu duga MLOps dalam siaran ini sambil anda berusaha untuk mendapatkan pekerjaan impian anda.
1. Apakah yang anda maksudkan dengan MLOps?
Topik pengoperasian model ML ialah fokus MLOps, juga dikenali sebagai Operasi Pembelajaran Mesin, bidang yang sedang berkembang dalam arena AI/DS/ML yang lebih utama.
Matlamat utama pendekatan dan budaya kejuruteraan perisian yang dikenali sebagai MLOps adalah untuk menyepadukan penciptaan model pembelajaran mesin/sains data dan operasi (Ops) seterusnya.
DevOps konvensional dan MLOps berkongsi persamaan tertentu, walau bagaimanapun, MLOps juga sangat berbeza daripada DevOps tradisional.
MLOps menambah lapisan kerumitan baharu dengan memfokuskan pada data, manakala DevOps memfokus terutamanya pada pengoperasian keluaran kod dan perisian yang tidak boleh dinyatakan.
Gabungan ML, Data dan Ops inilah yang memberikan MLOps nama biasanya (pembelajaran mesin, kejuruteraan data dan DevOps).
2. Bagaimanakah saintis data, jurutera data dan jurutera ML berbeza antara satu sama lain?
Ia berbeza-beza, pada pendapat saya, bergantung kepada firma. Persekitaran untuk pengangkutan dan transformasi data, serta penyimpanannya, dibina oleh jurutera data.
Saintis data adalah pakar dalam menggunakan teknik saintifik dan statistik untuk menganalisis data dan membuat kesimpulan, termasuk membuat ramalan tentang tingkah laku masa hadapan berdasarkan arah aliran yang ada sekarang.
Jurutera perisian sedang mengkaji operasi dan menguruskan infrastruktur penggunaan beberapa tahun lalu. Pasukan Ops, sebaliknya, sedang mengkaji pembangunan sambil menggunakan infrastruktur sebagai kod. Kedudukan DevOps dihasilkan oleh kedua-dua aliran ini.
MLOps adalah dalam kategori yang sama seperti Data Scientist dan Jurutera Data. Jurutera data mendapat pengetahuan tentang infrastruktur yang diperlukan untuk menyokong kitaran hayat model dan membuat saluran paip untuk latihan berterusan.
Saintis data berusaha untuk membangunkan penggunaan model dan keupayaan pemarkahan mereka.
Saluran data gred pengeluaran dibina oleh jurutera ML menggunakan infrastruktur yang mengubah data mentah kepada input yang diperlukan oleh model sains data, mengehos dan menjalankan model serta mengeluarkan set data terskor kepada sistem hiliran.
Kedua-dua jurutera data dan saintis data mampu menjadi jurutera ML.
3. Apakah yang membezakan MLOps daripada ModelOps dan AIOps?
Apabila membina hujung ke hujung algoritma pembelajaran mesin, MLOps ialah aplikasi DevOps yang merangkumi pengumpulan data, pra-pemprosesan data, penciptaan model, penggunaan model dalam pengeluaran, pemantauan model dalam pengeluaran dan peningkatan berkala model.
Penggunaan DevOps dalam mengendalikan keseluruhan pelaksanaan mana-mana algoritma, seperti Model Berasaskan Peraturan, dikenali sebagai ModelOps.
AIOps sedang memanfaatkan prinsip DevOps untuk mencipta aplikasi AI dari awal.
4. Bolehkah anda memberitahu saya beberapa faedah MLOps?
- Saintis data dan pembangun MLOps boleh menjalankan semula percubaan dengan pantas untuk memastikan model dilatih dan dinilai dengan sewajarnya memandangkan MLOps membantu mengautomasikan semua atau kebanyakan tugas/langkah dalam MDLC (kitaran hayat pembangunan model). Di samping itu membenarkan data dan versi model.
- Mempraktikkan idea MLOps membolehkan Jurutera Data dan Saintis Data mempunyai akses tanpa had kepada set data yang ditanam dan dipilih susun, yang mempercepatkan pembangunan model secara eksponen.
- Saintis data akan dapat mengambil semula model yang berprestasi lebih baik jika lelaran semasa tidak memenuhi jangkaan berkat keupayaan untuk mempunyai model dan set data versi, yang akan meningkatkan dengan ketara jejak audit model.
- Oleh kerana kaedah MLOps sangat bergantung pada DevOps, mereka juga menggabungkan beberapa konsep CI/CD, yang meningkatkan kualiti dan kebolehpercayaan kod.
5. Bolehkah anda memberitahu saya komponen MLOps?
reka bentuk: MLOps banyak merangkumi pemikiran reka bentuk. Bermula dengan sifat isu, menguji hipotesis, seni bina dan penggunaan
Bangunan model: Ujian dan pengesahan model adalah sebahagian daripada langkah ini, bersama-sama saluran paip kejuruteraan data dan percubaan untuk menyediakan sistem pembelajaran mesin yang terbaik.
operasi: Model mesti dilaksanakan sebagai sebahagian daripada operasi dan sentiasa diperiksa dan dinilai. Proses CI/CD kemudiannya dipantau dan mula menggunakan alat orkestrasi.
6. Apakah risiko yang datang dengan menggunakan sains data?
- Sukar untuk menskalakan model di seluruh syarikat.
- Tanpa amaran, model dimatikan dan berhenti berfungsi.
- Selalunya, ketepatan model menjadi lebih teruk dengan masa.
- Model ini membuat ramalan yang tidak tepat berdasarkan pemerhatian khusus yang tidak dapat diteliti lebih lanjut.
- Saintis data juga harus mengekalkan model, tetapi ia mahal.
- MLOps boleh digunakan untuk mengurangkan risiko ini.
7. Bolehkah anda jelaskan, apakah model drift?
Apabila prestasi fasa inferens model (menggunakan data dunia sebenar) merosot daripada prestasi fasa latihannya, ini dikenali sebagai hanyut model, juga dikenali sebagai hanyut idea (menggunakan data berlabel sejarah).
Prestasi model terpesong berbanding dengan fasa latihan dan servis, maka dinamakan "kereta api/servis condong."
Banyak faktor, termasuk:
- Cara asas data diedarkan telah berubah.
- Latihan itu memberi tumpuan kepada sebilangan kecil kategori, namun, anjakan alam sekitar yang baru berlaku menambah kawasan lain.
- Dalam kesukaran NLP, data dunia sebenar mempunyai jumlah token nombor yang tidak seimbang berbanding data latihan.
- Kejadian yang tidak dijangka, seperti model yang dibina berdasarkan data pra-COVID yang diramalkan akan menunjukkan prestasi yang lebih teruk pada data yang dikumpul semasa wabak COVID-19.
Memantau prestasi model secara berterusan sentiasa diperlukan untuk mengenal pasti hanyut model.
Latihan semula model hampir selalu diperlukan sebagai remedi apabila terdapat penurunan berterusan dalam prestasi model; sebab penurunan mesti dikenal pasti dan prosedur rawatan yang sesuai mesti digunakan.
8. Berapa banyak cara berbeza boleh digunakan MLOp, pada pendapat anda?
Terdapat tiga kaedah untuk mempraktikkan MLOp:
MLOps tahap 0 (Proses Manual): Dalam tahap ini, semua langkah—termasuk penyediaan data, analisis dan latihan—dilakukan secara manual. Setiap peringkat mesti dijalankan secara manual, serta peralihan dari satu ke seterusnya.
Premis asas ialah pasukan sains data anda hanya mengurus sebilangan kecil model yang tidak dikemas kini dengan kerap.
Akibatnya, tiada Integrasi Berterusan (CI) atau Penerapan Berterusan (CD), dan ujian kod biasanya disepadukan ke dalam pelaksanaan skrip atau pelaksanaan buku nota, dengan penggunaan berlaku dalam perkhidmatan mikro dengan REST API.
MLOps tahap 1 (automasi saluran paip ML): Dengan mengautomasikan proses ML, objektifnya adalah untuk melatih model (CT) secara berterusan. Anda boleh mencapai penyampaian perkhidmatan ramalan model berterusan dengan cara ini.
Penggunaan keseluruhan saluran paip latihan kami memastikan model dilatih secara automatik dalam pengeluaran menggunakan data baharu berdasarkan pencetus saluran paip aktif.
MLOps tahap 2 (automasi saluran paip CI/CD): Ia berjalan satu langkah di atas tahap MLOps. Sistem CI/CD automatik yang kukuh diperlukan jika anda ingin mengemas kini saluran paip dalam pengeluaran dengan cepat dan boleh dipercayai:
- Anda mencipta kod sumber dan melaksanakan banyak ujian sepanjang peringkat CI. Pakej, boleh laku dan artifak ialah keluaran peringkat, yang akan digunakan pada masa akan datang.
- Artifak yang dicipta oleh peringkat CI digunakan ke persekitaran sasaran semasa langkah CD. Saluran paip yang digunakan dengan pelaksanaan model yang disemak ialah output peringkat.
- Sebelum saluran paip memulakan lelaran baharu percubaan, saintis data masih mesti melakukan fasa analisis data dan model secara manual.
9. Apakah yang membezakan penggunaan statik daripada penggunaan dinamik?
Model ini dilatih di luar talian untuk Penggunaan Statik. Dalam erti kata lain, kami melatih model dengan tepat sekali dan kemudian menggunakannya untuk seketika. Selepas model dilatih secara tempatan, ia disimpan dan dihantar ke pelayan untuk digunakan untuk menghasilkan ramalan masa nyata.
Model tersebut kemudiannya diedarkan sebagai perisian aplikasi yang boleh dipasang. program yang membolehkan pemarkahan kelompok permintaan, sebagai ilustrasi.
Model ini dilatih dalam talian untuk Penggunaan Dinamik. Iaitu, data baharu sentiasa ditambah pada sistem, dan model dikemas kini secara berterusan untuk mengambil kiranya.
Hasilnya, anda boleh membuat ramalan menggunakan pelayan atas permintaan. Selepas itu, model digunakan dengan dibekalkan sebagai titik akhir API yang bertindak balas kepada pertanyaan pengguna, menggunakan rangka kerja web seperti Flask atau FastAPI.
10. Apakah teknik ujian pengeluaran yang anda ketahui?
Ujian kumpulan: Dengan menjalankan ujian dalam persekitaran yang berbeza daripada persekitaran latihannya, ia mengesahkan model. Menggunakan metrik pilihan, seperti ketepatan, RMSE, dsb., ujian kelompok dilakukan pada sekumpulan sampel data untuk mengesahkan inferens model.
Ujian kelompok boleh dijalankan pada pelbagai platform pengkomputeran, seperti pelayan ujian, pelayan jauh atau awan. Biasanya, model disediakan sebagai fail bersiri, yang dimuatkan sebagai objek dan disimpulkan daripada data ujian.
Pengujian A / B: Ia kerap digunakan untuk menganalisis kempen pemasaran serta untuk reka bentuk perkhidmatan (laman web, aplikasi mudah alih, dll.).
Berdasarkan syarikat atau operasi, pendekatan statistik digunakan untuk menganalisis keputusan ujian A/B untuk menentukan model mana yang akan berprestasi lebih baik dalam pengeluaran. Biasanya, ujian A/B dilakukan dengan cara berikut:
- Data langsung atau masa nyata dibahagikan atau dibahagikan kepada dua set, Set A dan Set B.
- Data Set A dihantar kepada model yang sudah lapuk, manakala data Set B dihantar kepada model yang dikemas kini.
- Bergantung pada kes atau proses penggunaan perniagaan, beberapa pendekatan statistik boleh digunakan untuk menilai prestasi model (contohnya, ketepatan, ketepatan, dll.) untuk menentukan sama ada model baharu (model B) mengatasi prestasi model lama (model A).
- Kami kemudian melakukan ujian hipotesis statistik: Hipotesis nol mengatakan bahawa model baharu tidak mempunyai kesan ke atas nilai purata penunjuk perniagaan yang dipantau. Menurut hipotesis alternatif, model baharu itu meningkatkan nilai purata penunjuk perniagaan pemantauan.
- Akhir sekali, kami menilai sama ada model baharu menghasilkan peningkatan yang ketara dalam KPI perniagaan tertentu.
Ujian bayangan atau peringkat: Model dinilai dalam pendua persekitaran pengeluaran sebelum digunakan dalam pengeluaran (persekitaran pementasan).
Ini penting untuk menentukan prestasi model dengan data masa nyata dan mengesahkan daya tahan model. dijalankan dengan membuat kesimpulan data yang sama seperti saluran paip pengeluaran dan menghantar cawangan yang dibangunkan atau model untuk diuji pada pelayan pementasan.
Satu-satunya kelemahan ialah tiada pilihan perniagaan akan dibuat pada pelayan pementasan atau kelihatan kepada pengguna akhir hasil daripada cabang pembangunan.
Ketahanan dan prestasi model akan dinilai secara statistik menggunakan keputusan persekitaran pementasan menggunakan metrik yang sesuai.
11. Apakah yang membezakan pemprosesan aliran daripada pemprosesan kelompok?
Kami boleh memanipulasi ciri yang kami gunakan untuk menghasilkan ramalan masa nyata kami menggunakan dua kaedah pemprosesan: kelompok dan aliran.
Proses batch ciri dari titik masa sebelumnya untuk objek tertentu, yang kemudiannya digunakan untuk menjana ramalan masa nyata.
- Di sini, kami dapat melakukan pengiraan ciri intensif di luar talian dan menyediakan data untuk inferens pantas.
- Ciri-ciri, bagaimanapun, umur sejak ia telah ditetapkan pada masa lalu. Ini mungkin menjadi kelemahan utama jika prognosis anda berdasarkan kejadian baru-baru ini. (Sebagai contoh, mengenal pasti transaksi penipuan secepat mungkin.)
Dengan ciri penstriman hampir masa nyata untuk entiti tertentu, inferens dijalankan dalam pemprosesan strim pada set input tertentu.
- Di sini, dengan memberikan model masa nyata, ciri penstriman, kami boleh mendapatkan ramalan yang lebih tepat.
- Walau bagaimanapun, infrastruktur tambahan diperlukan untuk pemprosesan strim dan untuk mengekalkan aliran data (Kafka, Kinesis, dll). (Apache Flink, Beam, dll.)
12. Apakah yang anda maksudkan dengan Latihan Servis Skew?
Perbezaan antara prestasi semasa membuat servis dan prestasi semasa latihan dikenali sebagai pencongan servis latihan. Kecondongan ini boleh disebabkan oleh faktor-faktor berikut:
- Perbezaan dalam cara anda mengendalikan data antara saluran paip untuk penyajian dan latihan.
- Peralihan dalam data daripada latihan anda kepada perkhidmatan anda.
- Saluran maklum balas antara algoritma dan model anda.
13. Apakah yang anda maksudkan dengan Pendaftaran Model?
Pendaftaran Model ialah repositori pusat di mana pencipta model boleh menerbitkan model yang sesuai untuk digunakan dalam pengeluaran.
Pembangun boleh bekerjasama dengan pasukan dan pihak berkepentingan lain untuk mengurus jangka hayat semua model dalam perniagaan menggunakan pendaftaran. Model terlatih boleh dimuat naik ke daftar model oleh saintis data.
Model disediakan untuk ujian, pengesahan dan penggunaan kepada pengeluaran sebaik sahaja ia berada dalam daftar. Selain itu, model terlatih disimpan dalam daftar model untuk akses pantas oleh mana-mana aplikasi atau perkhidmatan bersepadu.
Untuk menguji, menilai dan menggunakan model kepada pengeluaran, pembangun perisian dan penyemak boleh dengan cepat mengenali dan memilih hanya versi terbaik model terlatih (berdasarkan kriteria penilaian).
14. Bolehkah anda menghuraikan faedah Pendaftaran Model?
Berikut ialah beberapa cara pendaftaran model memperkemas pengurusan kitaran hayat model:
- Untuk memudahkan penggunaan, simpan keperluan masa jalan dan metadata untuk model terlatih anda.
- Model terlatih, digunakan dan bersara anda hendaklah didaftarkan, dijejaki dan versi dalam repositori terpusat yang boleh dicari.
- Buat saluran paip automatik yang membolehkan penghantaran berterusan, latihan dan penyepaduan model pengeluaran anda.
- Bandingkan model yang baru dilatih (atau model pencabar) dalam persekitaran pementasan dengan model yang sedang beroperasi dalam pengeluaran (model juara).
15. Bolehkah anda menerangkan kerja-kerja teknik Champion-Challenger?
Ia adalah mungkin untuk menguji pelbagai keputusan operasi dalam pengeluaran menggunakan teknik Champion Challenger. Anda mungkin pernah mendengar tentang ujian A/B dalam konteks pemasaran.
Sebagai contoh, anda mungkin menulis dua baris subjek yang berbeza dan mengedarkannya secara rawak kepada demografi sasaran anda untuk memaksimumkan kadar terbuka untuk kempen e-mel.
Sistem ini merekodkan prestasi e-mel (iaitu, tindakan terbuka e-mel) berhubung dengan baris subjeknya, membolehkan anda membandingkan kadar buka setiap baris subjek untuk menentukan yang paling berkesan.
Champion-Challenger adalah setanding dengan ujian A/B dalam hal ini. Anda boleh menggunakan logik keputusan untuk menilai setiap hasil dan memilih yang paling berkesan semasa anda bereksperimen dengan pelbagai kaedah untuk membuat pilihan.
Model yang paling berjaya dikaitkan dengan juara. Pencabar pertama dan senarai pencabar yang sepadan kini semua yang hadir dalam fasa pelaksanaan pertama dan bukannya juara.
Juara dipilih oleh sistem untuk pelaksanaan langkah kerja selanjutnya.
Pencabar berbeza antara satu sama lain. Juara baru kemudiannya ditentukan oleh pencabar yang menghasilkan keputusan terbaik.
Tugas-tugas yang terlibat dalam proses perbandingan juara-cabar disenaraikan di bawah dengan lebih terperinci:
- Menilai setiap model saingan.
- Menilai markah akhir.
- Membandingkan hasil penilaian untuk menubuhkan pencabar yang menang.
- Menambah juara baru pada arkib
16. Terangkan aplikasi peringkat perusahaan bagi kitaran hayat MLOps?
Kita perlu berhenti menganggap pembelajaran mesin sebagai hanya percubaan berulang agar model pembelajaran mesin memasuki pengeluaran. MLOps ialah gabungan kejuruteraan perisian dengan pembelajaran mesin.
Hasil siap harus dibayangkan seperti itu. Oleh itu, kod untuk produk teknologi perlu diuji, berfungsi dan modular.
MLOps mempunyai jangka hayat yang setanding dengan aliran pembelajaran mesin konvensional, dengan pengecualian model itu disimpan dalam proses sehingga pengeluaran.
Jurutera MLOps kemudian memerhatikan perkara ini untuk memastikan kualiti model dalam pengeluaran adalah seperti yang dimaksudkan.
Berikut ialah beberapa kes penggunaan untuk beberapa teknologi MLOps:
- Pendaftaran Model: Ia adalah apa yang kelihatan. Pasukan yang lebih besar menyimpan dan mengekalkan jejak model versi dalam daftar model. Malah kembali ke versi sebelumnya adalah pilihan.
- Kedai Ciri: Apabila berurusan dengan set data yang lebih besar, mungkin terdapat versi yang berbeza bagi set data analitik dan subset untuk tugasan tertentu. Kedai ciri ialah cara yang canggih dan menarik untuk menggunakan kerja penyediaan data daripada larian terdahulu atau daripada pasukan lain juga.
- Simpanan untuk Metadata: Adalah penting untuk memantau metadata dengan betul sepanjang pengeluaran jika data tidak berstruktur, seperti data gambar dan teks, hendak digunakan dengan jayanya.
Kesimpulan
Adalah penting untuk diingat bahawa, dalam kebanyakan kes, penemuduga sedang mencari sistem, manakala calon sedang mencari penyelesaian.
Yang pertama adalah berdasarkan kemahiran teknikal anda, manakala yang kedua adalah mengenai kaedah yang anda gunakan untuk menunjukkan kecekapan anda.
Terdapat beberapa prosedur yang perlu anda ambil semasa menjawab soalan temuduga MLOps untuk membantu penemuduga lebih memahami cara anda berhasrat untuk menilai dan menangani masalah yang dihadapi.
Kepekatan mereka lebih kepada tindak balas yang salah daripada yang betul. Penyelesaian menceritakan kisah, dan sistem anda ialah ilustrasi terbaik pengetahuan dan kapasiti anda untuk komunikasi.
Sila tinggalkan balasan anda