สารบัญ[ซ่อน][แสดง]
- 1. คุณหมายถึงอะไรโดย MLOps?
- 2. นักวิทยาศาสตร์ข้อมูล วิศวกรข้อมูล และวิศวกร ML แตกต่างกันอย่างไร
- 3. MLOps แตกต่างจาก ModelOps และ AIOps อย่างไร
- 4. คุณช่วยบอกฉันถึงประโยชน์บางอย่างของ MLOps ได้ไหม
- 5. คุณสามารถบอกส่วนประกอบของ MLOps ได้หรือไม่?
- 6. การใช้วิทยาศาสตร์ข้อมูลมีความเสี่ยงอะไรบ้าง?
- 7. คุณช่วยอธิบายได้ไหมว่า model drift คืออะไร?
- 8. คุณใช้ MLO ได้หลายวิธีในความคิดของคุณ?
- 9. อะไรแยกการปรับใช้แบบคงที่จากการปรับใช้แบบไดนามิก?
- 10. คุณรู้จักเทคนิคการทดสอบการผลิตอะไรบ้าง?
- 11. อะไรที่ทำให้การประมวลผลสตรีมแตกต่างจากการประมวลผลแบบกลุ่ม?
- 12. Training Serving Skew หมายความว่าอย่างไร
- 13. คุณหมายถึงอะไรโดย Model Registry?
- 14. คุณช่วยอธิบายประโยชน์ของ Model Registry ให้ละเอียดหน่อยได้ไหม?
- 15. คุณสามารถอธิบายการทำงานของเทคนิค Champion-Challenger ได้หรือไม่?
- 16. อธิบายการใช้งานระดับองค์กรของวงจรชีวิต MLOps?
- สรุป
บริษัทต่างๆ กำลังใช้เทคโนโลยีที่เกิดขึ้นใหม่ เช่น ปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิง (ML) บ่อยขึ้นเพื่อเพิ่มการเข้าถึงข้อมูลและบริการของประชาชน
เทคโนโลยีเหล่านี้ถูกนำไปใช้ในภาคส่วนต่างๆ มากขึ้น รวมถึงการธนาคาร การเงิน การค้าปลีก การผลิต และแม้กระทั่งการดูแลสุขภาพ
นักวิทยาศาสตร์ข้อมูล วิศวกรแมชชีนเลิร์นนิง และวิศวกรด้านปัญญาประดิษฐ์เป็นที่ต้องการของบริษัทจำนวนมากขึ้นเรื่อยๆ
รู้ความเป็นไป เรียนรู้เครื่อง คำถามสัมภาษณ์การปฏิบัติงานที่ผู้จัดการการว่าจ้างและนายหน้าอาจก่อให้เกิดกับคุณเป็นสิ่งสำคัญหากคุณต้องการทำงานในสาขา ML หรือ MLOps
คุณสามารถเรียนรู้วิธีตอบคำถามสัมภาษณ์ MLOps บางส่วนในโพสต์นี้ในขณะที่คุณพยายามหางานในฝันของคุณ
1. คุณหมายถึงอะไรโดย MLOps?
หัวข้อของการดำเนินการโมเดล ML นั้นเป็นจุดสนใจของ MLOps หรือที่เรียกว่า Machine Learning Operations ซึ่งเป็นสาขาที่กำลังพัฒนาภายในขอบเขต AI/DS/ML ที่สำคัญกว่า
เป้าหมายหลักของแนวทางและวัฒนธรรมทางวิศวกรรมซอฟต์แวร์ที่เรียกว่า MLOps คือการบูรณาการการสร้างแบบจำลองการเรียนรู้ของเครื่อง/วิทยาศาสตร์ข้อมูลและการดำเนินการ (Ops) ที่ตามมา
DevOps ทั่วไปและ MLOps มีความคล้ายคลึงกันบางอย่าง อย่างไรก็ตาม MLOps ยังแตกต่างจาก DevOps แบบดั้งเดิมอย่างมาก
MLOps เพิ่มชั้นความซับซ้อนใหม่โดยเน้นที่ข้อมูล ในขณะที่ DevOps มุ่งเน้นไปที่การดำเนินการโค้ดและการเปิดตัวซอฟต์แวร์เป็นหลักที่ไม่สามารถเก็บสถานะได้
การรวมกันของ ML, Data และ Ops ทำให้ MLOps มีชื่อสามัญ (การเรียนรู้ของเครื่อง วิศวกรรมข้อมูล และ DevOps)
2. นักวิทยาศาสตร์ข้อมูล วิศวกรข้อมูล และวิศวกร ML แตกต่างกันอย่างไร
ในความคิดของฉันมันแตกต่างกันไปขึ้นอยู่กับบริษัท สภาพแวดล้อมสำหรับการขนส่งและการแปลงข้อมูล รวมถึงการจัดเก็บข้อมูล สร้างขึ้นโดยวิศวกรข้อมูล
นักวิทยาศาสตร์ข้อมูลเป็นผู้เชี่ยวชาญในการใช้เทคนิคทางวิทยาศาสตร์และสถิติเพื่อวิเคราะห์ข้อมูลและสรุปผล รวมถึงการคาดการณ์เกี่ยวกับพฤติกรรมในอนาคตตามแนวโน้มที่มีอยู่ในขณะนี้
วิศวกรซอฟต์แวร์กำลังศึกษาการดำเนินงานและจัดการโครงสร้างพื้นฐานการปรับใช้เมื่อไม่กี่ปีที่ผ่านมา ในทางกลับกัน ทีมปฏิบัติการกำลังศึกษาการพัฒนาในขณะที่ใช้โครงสร้างพื้นฐานเป็นโค้ด ตำแหน่ง DevOps เกิดจากสตรีมทั้งสองนี้
MLOps อยู่ในหมวดเดียวกับ Data Scientist และวิศวกรข้อมูล วิศวกรข้อมูลกำลังได้รับความรู้เกี่ยวกับโครงสร้างพื้นฐานที่จำเป็นในการสนับสนุนวงจรชีวิตของแบบจำลอง และสร้างท่อสำหรับการฝึกอบรมอย่างต่อเนื่อง
นักวิทยาศาสตร์ข้อมูลพยายามพัฒนาการปรับใช้โมเดลและความสามารถในการให้คะแนน
ไปป์ไลน์ข้อมูลระดับการผลิตถูกสร้างขึ้นโดยวิศวกร ML โดยใช้โครงสร้างพื้นฐานที่แปลงข้อมูลดิบเป็นอินพุตที่จำเป็นสำหรับโมเดลวิทยาศาสตร์ข้อมูล โฮสต์และรันโมเดล และส่งออกชุดข้อมูลที่มีคะแนนไปยังระบบดาวน์สตรีม
ทั้งวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูลสามารถเป็นวิศวกร ML ได้
3. MLOps แตกต่างจาก ModelOps และ AIOps อย่างไร
เมื่อสร้างแบบ end-to-end อัลกอริทึมการเรียนรู้ของเครื่อง, MLOps เป็นแอปพลิเคชัน DevOps ที่รวมการรวบรวมข้อมูล การประมวลผลข้อมูลล่วงหน้า การสร้างแบบจำลอง การปรับใช้แบบจำลองในการผลิต การตรวจสอบแบบจำลองในการผลิต และการอัปเกรดรุ่นเป็นระยะๆ
การใช้ DevOps ในการจัดการการใช้งานอัลกอริธึมทั้งหมด เช่น โมเดลตามกฎ เรียกว่า ModelOps
AIOps กำลังใช้ประโยชน์จากหลักการ DevOps เพื่อสร้างแอป AI ตั้งแต่เริ่มต้น
4. คุณช่วยบอกฉันถึงประโยชน์บางอย่างของ MLOps ได้ไหม
- นักวิทยาศาสตร์ข้อมูลและนักพัฒนา MLOps สามารถเรียกใช้การทดลองใช้ซ้ำได้อย่างรวดเร็ว เพื่อให้แน่ใจว่าโมเดลได้รับการฝึกอบรมและประเมินอย่างเหมาะสม เนื่องจาก MLOps ช่วยให้งาน/ขั้นตอนทั้งหมดหรือเกือบทั้งหมดใน MDLC (วงจรการพัฒนาแบบจำลอง) เป็นไปโดยอัตโนมัติ อนุญาตเพิ่มเติม ข้อมูลและการกำหนดเวอร์ชันของโมเดล.
- การนำแนวคิด MLOps ไปปฏิบัติช่วยให้ Data Engineer และ Data Scientists สามารถเข้าถึงชุดข้อมูลที่ได้รับการฝึกฝนและดูแลจัดการได้อย่างไม่จำกัด ซึ่งจะช่วยเร่งการพัฒนาแบบจำลองให้เร็วขึ้นแบบทวีคูณ
- นักวิทยาศาสตร์ด้านข้อมูลจะสามารถถอยกลับไปใช้แบบจำลองที่ทำงานได้ดีกว่า หากการทำซ้ำในปัจจุบันไม่เป็นไปตามที่คาดหวัง ต้องขอบคุณความสามารถในการกำหนดเวอร์ชันของแบบจำลองและชุดข้อมูล ซึ่งจะช่วยปรับปรุงเส้นทางการตรวจสอบแบบจำลองได้อย่างมาก
- เนื่องจากเมธอด MLOps พึ่งพา DevOps เป็นอย่างมาก พวกเขาจึงรวมเอาแนวคิด CI/CD จำนวนหนึ่งเข้าด้วยกัน ซึ่งช่วยเพิ่ม คุณภาพและความน่าเชื่อถือของรหัส.
5. คุณสามารถบอกส่วนประกอบของ MLOps ได้หรือไม่?
ออกแบบ: MLOps รวมถึงการคิดเชิงออกแบบเป็นอย่างมาก เริ่มต้นด้วยลักษณะของปัญหา การทดสอบสมมติฐาน สถาปัตยกรรม และการปรับใช้
การสร้างแบบจำลอง: การทดสอบแบบจำลองและการตรวจสอบความถูกต้องเป็นส่วนหนึ่งของขั้นตอนนี้ พร้อมกับไปป์ไลน์วิศวกรรมข้อมูลและการทดลองเพื่อตั้งค่าระบบการเรียนรู้ของเครื่องที่ดีที่สุด
การดำเนินการ: โมเดลต้องถูกนำไปใช้เป็นส่วนหนึ่งของการดำเนินงานและตรวจสอบและประเมินผลอย่างต่อเนื่อง จากนั้น กระบวนการ CI/CD จะได้รับการตรวจสอบและเริ่มโดยใช้เครื่องมือประสาน
6. การใช้วิทยาศาสตร์ข้อมูลมีความเสี่ยงอะไรบ้าง?
- เป็นการยากที่จะขยายโมเดลทั่วทั้งบริษัท
- โมเดลจะปิดตัวลงและหยุดทำงานโดยไม่มีการเตือนล่วงหน้า
- โดยส่วนใหญ่ ความแม่นยำของแบบจำลองจะแย่ลงเมื่อเวลาผ่านไป
- ตัวแบบทำให้การคาดคะเนที่ไม่ถูกต้องตามการสังเกตที่เฉพาะเจาะจงซึ่งไม่สามารถตรวจสอบเพิ่มเติมได้
- นักวิทยาศาสตร์ด้านข้อมูลควรรักษาแบบจำลองไว้ด้วย แต่ก็มีราคาแพง
- สามารถใช้ MLO เพื่อลดความเสี่ยงเหล่านี้ได้
7. คุณช่วยอธิบายได้ไหมว่า model drift คืออะไร?
เมื่อประสิทธิภาพของเฟสการอนุมานของโมเดล (โดยใช้ข้อมูลในโลกแห่งความเป็นจริง) ลดลงจากประสิทธิภาพของเฟสการฝึก การดำเนินการนี้เรียกว่าการเลื่อนลอยของโมเดล หรือเรียกอีกอย่างว่าดริฟท์แนวคิด
ประสิทธิภาพของโมเดลนั้นเบ้เมื่อเปรียบเทียบกับระยะการฝึกและการเสิร์ฟ จึงเป็นที่มาของชื่อ “เทรน/เสิร์ฟเอียง”
ปัจจัยหลายประการ ได้แก่ :
- วิธีการพื้นฐานในการกระจายข้อมูลได้เปลี่ยนแปลงไป
- การฝึกอบรมมุ่งเน้นไปที่หมวดหมู่เล็ก ๆ แต่การเปลี่ยนแปลงด้านสิ่งแวดล้อมที่เพิ่งเกิดขึ้นได้เพิ่มพื้นที่อื่น
- ในปัญหา NLP ข้อมูลในโลกแห่งความเป็นจริงมีจำนวนโทเค็นจำนวนมากกว่าข้อมูลการฝึกอบรมอย่างไม่สมส่วน
- เหตุการณ์ที่ไม่คาดคิด เช่น แบบจำลองที่สร้างขึ้นจากข้อมูลก่อนเกิดโควิด-19 ซึ่งคาดการณ์ว่าจะดำเนินการแย่ลงอย่างมีนัยสำคัญกับข้อมูลที่รวบรวมระหว่างการระบาดของโควิด-XNUMX
จำเป็นต้องมีการตรวจสอบประสิทธิภาพของแบบจำลองอย่างต่อเนื่องเพื่อระบุความเบี่ยงเบนของแบบจำลอง
การฝึกแบบจำลองใหม่มักจำเป็นสำหรับการแก้ไขเมื่อประสิทธิภาพของแบบจำลองลดลงอย่างต่อเนื่อง ต้องระบุสาเหตุของการปฏิเสธและต้องใช้ขั้นตอนการรักษาที่เหมาะสม
8. คุณใช้ MLO ได้หลายวิธีในความคิดของคุณ?
มีสามวิธีในการนำ MLOps ไปปฏิบัติ:
MLOps ระดับ 0 (กระบวนการด้วยตนเอง): ในระดับนี้ ขั้นตอนทั้งหมด—รวมถึงการจัดเตรียมข้อมูล การวิเคราะห์ และการฝึกอบรม—จะดำเนินการด้วยตนเอง แต่ละขั้นตอนจะต้องดำเนินการด้วยตนเอง เช่นเดียวกับการเปลี่ยนจากขั้นตอนหนึ่งไปเป็นขั้นตอนถัดไป
หลักฐานพื้นฐานคือทีมวิทยาศาสตร์ข้อมูลของคุณจัดการเฉพาะแบบจำลองจำนวนน้อยที่ไม่ได้รับการอัปเดตบ่อยครั้ง
ด้วยเหตุนี้ จึงไม่มี Continuous Integration (CI) หรือ Continuous Deployment (CD) และการทดสอบโค้ดโดยทั่วไปจะถูกรวมเข้ากับการเรียกใช้สคริปต์หรือการดำเนินการกับโน้ตบุ๊ก โดยการปรับใช้เกิดขึ้นในไมโครเซอร์วิสที่มี REST API.
MLOps ระดับ 1 (ระบบอัตโนมัติของไปป์ไลน์ ML): การทำให้กระบวนการ ML เป็นแบบอัตโนมัติ มีวัตถุประสงค์เพื่อฝึกโมเดล (CT) อย่างต่อเนื่อง คุณสามารถทำการส่งมอบบริการการทำนายแบบจำลองอย่างต่อเนื่องได้สำเร็จด้วยวิธีนี้
การปรับใช้ไปป์ไลน์การฝึกอบรมทั้งหมดของเราช่วยให้มั่นใจว่าโมเดลได้รับการฝึกอบรมโดยอัตโนมัติในการผลิตโดยใช้ข้อมูลใหม่โดยอิงตามทริกเกอร์ไปป์ไลน์ที่ใช้งานอยู่
MLOps ระดับ 2 (ระบบอัตโนมัติของไปป์ไลน์ CI/CD): สูงกว่าระดับ MLOps หนึ่งขั้น จำเป็นต้องมีระบบ CI/CD อัตโนมัติที่แข็งแกร่ง หากคุณต้องการอัปเดตไปป์ไลน์ในการผลิตอย่างรวดเร็วและเชื่อถือได้:
- คุณสร้างซอร์สโค้ดและดำเนินการทดสอบจำนวนมากตลอดระยะ CI แพ็กเกจ โปรแกรมเรียกทำงาน และสิ่งประดิษฐ์คือเอาต์พุตของสเตจ ซึ่งจะนำไปใช้ในภายหลัง
- สิ่งประดิษฐ์ที่สร้างโดยสเตจ CI ถูกปรับใช้กับสภาพแวดล้อมเป้าหมายระหว่างขั้นตอนซีดี ไปป์ไลน์ที่ปรับใช้กับการใช้งานโมเดลที่แก้ไขแล้วคือเอาต์พุตของสเตจ
- ก่อนที่ไปป์ไลน์จะเริ่มการทดลองซ้ำ นักวิทยาศาสตร์ด้านข้อมูลยังคงต้องทำขั้นตอนการวิเคราะห์ข้อมูลและแบบจำลองด้วยตนเอง
9. อะไรแยกการปรับใช้แบบคงที่จากการปรับใช้แบบไดนามิก?
โมเดลได้รับการฝึกอบรมแบบออฟไลน์สำหรับ การปรับใช้แบบคงที่. กล่าวอีกนัยหนึ่ง เราฝึกแบบจำลองอย่างแม่นยำหนึ่งครั้งแล้วนำไปใช้ชั่วขณะหนึ่ง หลังจากที่โมเดลได้รับการฝึกอบรมในพื้นที่แล้ว โมเดลนั้นจะถูกจัดเก็บและส่งไปยังเซิร์ฟเวอร์เพื่อใช้ในการสร้างการคาดการณ์แบบเรียลไทม์
จากนั้นโมเดลจะแจกจ่ายเป็นซอฟต์แวร์แอปพลิเคชันที่ติดตั้งได้ โปรแกรมที่อนุญาตให้ให้คะแนนคำขอเป็นชุดเป็นภาพประกอบ
โมเดลได้รับการฝึกอบรมออนไลน์สำหรับ การปรับใช้แบบไดนามิก. กล่าวคือมีการเพิ่มข้อมูลใหม่ในระบบอย่างต่อเนื่องและแบบจำลองจะได้รับการอัปเดตอย่างต่อเนื่องเพื่อพิจารณา
ด้วยเหตุนี้ คุณจึงสามารถคาดการณ์โดยใช้เซิร์ฟเวอร์ตามต้องการ หลังจากนั้นโมเดลจะถูกนำไปใช้โดยจัดหาเป็นจุดสิ้นสุด API ที่ตอบสนองต่อการสืบค้นของผู้ใช้ โดยใช้เฟรมเวิร์กของเว็บ เช่น กระติกน้ำหรือ FastAPI.
10. คุณรู้จักเทคนิคการทดสอบการผลิตอะไรบ้าง?
การทดสอบแบบแบตช์: โดยทำการทดสอบในสภาพแวดล้อมที่แตกต่างจากสภาพแวดล้อมการฝึกอบรม จะเป็นการยืนยันแบบจำลอง การใช้เมตริกที่เลือกได้ เช่น ความแม่นยำ RMSE เป็นต้น การทดสอบแบบกลุ่มจะดำเนินการกับกลุ่มตัวอย่างข้อมูลเพื่อตรวจสอบการอนุมานแบบจำลอง
การทดสอบแบบกลุ่มสามารถทำได้บนแพลตฟอร์มการคำนวณที่หลากหลาย เช่น เซิร์ฟเวอร์ทดสอบ เซิร์ฟเวอร์ระยะไกล หรือระบบคลาวด์ โดยทั่วไป โมเดลจะจัดเตรียมเป็นไฟล์ซีเรียลไลซ์ ซึ่งโหลดเป็นอ็อบเจ็กต์และอนุมานจากข้อมูลการทดสอบ
ทดสอบ A / B: มักใช้ในการวิเคราะห์แคมเปญการตลาดตลอดจนการออกแบบบริการ (เว็บไซต์ แอปพลิเคชันมือถือ ฯลฯ)
ตามบริษัทหรือการดำเนินงาน จะใช้วิธีการทางสถิติในการวิเคราะห์ผลลัพธ์ของการทดสอบ A/B เพื่อตัดสินใจว่ารุ่นใดจะทำงานได้ดีกว่าในการผลิต โดยปกติ การทดสอบ A/B จะทำด้วยวิธีต่อไปนี้:
- ข้อมูลสดหรือข้อมูลตามเวลาจริงถูกแบ่งหรือแบ่งออกเป็นสองชุด คือ ชุด A และชุด B
- ข้อมูลชุด A จะถูกส่งไปยังโมเดลที่ล้าสมัย ในขณะที่ข้อมูลชุด B จะถูกส่งไปยังโมเดลที่อัปเดต
- ขึ้นอยู่กับกรณีการใช้งานทางธุรกิจหรือกระบวนการ สามารถใช้วิธีการทางสถิติหลายวิธีในการประเมินประสิทธิภาพของแบบจำลอง (เช่น ความแม่นยำ ความแม่นยำ ฯลฯ) เพื่อพิจารณาว่าแบบจำลองใหม่ (แบบจำลอง B) มีประสิทธิภาพดีกว่าแบบจำลองเก่า (รุ่น A) หรือไม่
- จากนั้นเราจะทำการทดสอบสมมติฐานทางสถิติ: สมมติฐานว่างกล่าวว่ารูปแบบใหม่นี้ไม่มีผลกระทบต่อค่าเฉลี่ยของตัวบ่งชี้ทางธุรกิจที่กำลังถูกติดตาม ตามสมมติฐานทางเลือก รูปแบบใหม่จะเพิ่มค่าเฉลี่ยของตัวบ่งชี้ธุรกิจที่ติดตาม
- สุดท้าย เราประเมินว่ารูปแบบใหม่ส่งผลให้ KPI ของธุรกิจดีขึ้นอย่างมีนัยสำคัญหรือไม่
การทดสอบเงาหรือเวที: โมเดลได้รับการประเมินในสภาพแวดล้อมการผลิตที่ซ้ำกันก่อนที่จะใช้ในการผลิต (สภาวะแวดล้อมการจัดเตรียม)
นี่เป็นสิ่งสำคัญสำหรับการกำหนดประสิทธิภาพของแบบจำลองด้วยข้อมูลแบบเรียลไทม์และการตรวจสอบความยืดหยุ่นของแบบจำลอง ดำเนินการโดยอนุมานข้อมูลเดียวกันกับไปป์ไลน์การผลิตและส่งมอบสาขาที่พัฒนาแล้วหรือแบบจำลองเพื่อทดสอบบนเซิร์ฟเวอร์การจัดเตรียม
ข้อเสียเปรียบเพียงอย่างเดียวคือไม่มีตัวเลือกทางธุรกิจที่จะทำบนเซิร์ฟเวอร์การแสดงละครหรือผู้ใช้ปลายทางมองเห็นได้อันเป็นผลมาจากสาขาการพัฒนา
ความยืดหยุ่นและประสิทธิภาพของแบบจำลองจะได้รับการประเมินทางสถิติโดยใช้ผลลัพธ์ของสภาพแวดล้อมการแสดงละครโดยใช้ตัวชี้วัดที่เหมาะสม
11. อะไรที่ทำให้การประมวลผลสตรีมแตกต่างจากการประมวลผลแบบกลุ่ม?
เราสามารถจัดการลักษณะเฉพาะที่เราใช้เพื่อสร้างการคาดการณ์ตามเวลาจริงโดยใช้วิธีการประมวลผลสองวิธี: แบทช์และสตรีม
กระบวนการแบทช์ ฟีเจอร์จากจุดก่อนหน้าของวัตถุเฉพาะ ซึ่งจะใช้เพื่อสร้างการคาดคะเนแบบเรียลไทม์
- ที่นี่ เราสามารถทำการคำนวณคุณลักษณะแบบเข้มข้นแบบออฟไลน์ และเตรียมข้อมูลที่เตรียมไว้สำหรับการอนุมานอย่างรวดเร็ว
- ลักษณะเด่น อย่างไรก็ตาม อายุตั้งแต่กำหนดไว้แล้วในอดีต นี่อาจเป็นข้อเสียเปรียบที่สำคัญหากการพยากรณ์โรคของคุณขึ้นอยู่กับเหตุการณ์ที่เกิดขึ้นล่าสุด (ตัวอย่างเช่น การระบุธุรกรรมที่เป็นการฉ้อโกงโดยเร็วที่สุดเท่าที่เป็นไปได้)
ด้วยคุณสมบัติการสตรีมแบบเกือบเรียลไทม์สำหรับเอนทิตีเฉพาะ การอนุมานจะดำเนินการในการประมวลผลสตรีมบนชุดอินพุตที่กำหนด
- โดยการให้คุณสมบัติการสตรีมแบบเรียลไทม์ของโมเดล เราสามารถคาดการณ์ได้แม่นยำยิ่งขึ้น
- อย่างไรก็ตาม จำเป็นต้องมีโครงสร้างพื้นฐานเพิ่มเติมสำหรับการประมวลผลสตรีมและเพื่อรักษาสตรีมข้อมูล (Kafka, Kinesis ฯลฯ) (Apache Flink, Beam เป็นต้น)
12. Training Serving Skew หมายความว่าอย่างไร
ความเหลื่อมล้ำระหว่างการแสดงเมื่อเสิร์ฟและการแสดงระหว่างการฝึกเรียกว่าความเบ้ในการฝึก ความเบ้นี้สามารถเกิดขึ้นได้จากปัจจัยต่อไปนี้:
- ความแตกต่างในวิธีจัดการข้อมูลระหว่างไปป์ไลน์สำหรับการให้บริการและการฝึกอบรม
- การเปลี่ยนข้อมูลจากการฝึกอบรมเป็นบริการของคุณ
- ช่องทางความคิดเห็นระหว่างอัลกอริทึมและโมเดลของคุณ
13. คุณหมายถึงอะไรโดย Model Registry?
Model Registry เป็นที่เก็บส่วนกลางที่ผู้สร้างโมเดลสามารถเผยแพร่โมเดลที่เหมาะสมกับการใช้งานจริง
นักพัฒนาสามารถทำงานร่วมกับทีมอื่นๆ และผู้มีส่วนได้ส่วนเสียเพื่อจัดการอายุการใช้งานของโมเดลทั้งหมดภายในธุรกิจโดยใช้รีจิสทรี โมเดลที่ผ่านการฝึกอบรมสามารถอัปโหลดไปยังการลงทะเบียนแบบจำลองโดยนักวิทยาศาสตร์ข้อมูล
โมเดลต่างๆ ได้รับการจัดเตรียมสำหรับการทดสอบ ตรวจสอบ และปรับใช้กับการผลิตเมื่ออยู่ในรีจิสเตอร์ นอกจากนี้ โมเดลที่ได้รับการฝึกอบรมจะถูกเก็บไว้ในรีจิสตรีของโมเดลเพื่อการเข้าถึงที่รวดเร็วโดยแอพพลิเคชั่นหรือบริการที่ผสานรวมเข้าด้วยกัน
เพื่อทดสอบ ประเมิน และปรับใช้แบบจำลองกับการผลิต พัฒนาซอฟต์แวร์ และผู้ตรวจสอบสามารถจดจำและเลือกเฉพาะรุ่นที่ดีที่สุดของแบบจำลองที่ผ่านการฝึกอบรมได้อย่างรวดเร็ว (ตามเกณฑ์การประเมิน)
14. คุณช่วยอธิบายประโยชน์ของ Model Registry ให้ละเอียดหน่อยได้ไหม?
ต่อไปนี้คือบางวิธีที่โมเดลรีจิสทรีช่วยเพิ่มความคล่องตัวในการจัดการวงจรชีวิตของแบบจำลอง:
- เพื่อให้การปรับใช้ง่ายขึ้น ให้บันทึกข้อกำหนดรันไทม์และข้อมูลเมตาสำหรับโมเดลที่ผ่านการฝึกอบรมของคุณ
- โมเดลที่ได้รับการฝึกอบรม ทำให้ใช้งานได้ และเลิกใช้แล้วควรได้รับการลงทะเบียน ติดตาม และกำหนดเวอร์ชันในที่เก็บแบบรวมศูนย์ที่ค้นหาได้
- สร้างไปป์ไลน์อัตโนมัติที่ช่วยให้สามารถจัดส่ง ฝึกอบรม และผสานรวมโมเดลการผลิตของคุณได้อย่างต่อเนื่อง
- เปรียบเทียบโมเดลที่ได้รับการฝึกอบรมใหม่ (หรือโมเดลผู้ท้าชิง) ในสภาพแวดล้อมการแสดงละครกับโมเดลที่กำลังดำเนินการอยู่ในขั้นตอนการผลิต (โมเดลระดับแชมป์เปี้ยน)
15. คุณสามารถอธิบายการทำงานของเทคนิค Champion-Challenger ได้หรือไม่?
เป็นไปได้ที่จะทดสอบการตัดสินใจด้านการปฏิบัติงานต่างๆ ในการผลิตโดยใช้เทคนิค Champion Challenger คุณคงเคยได้ยินเกี่ยวกับการทดสอบ A/B ในบริบทของการตลาด
ตัวอย่างเช่น คุณอาจเขียนหัวเรื่องที่แตกต่างกันสองบรรทัดและแจกจ่ายแบบสุ่มไปยังกลุ่มประชากรเป้าหมายของคุณ เพื่อเพิ่มอัตราการเปิดแคมเปญอีเมลให้สูงสุด
ระบบจะบันทึกประสิทธิภาพของอีเมล (เช่น การดำเนินการเปิดอีเมล) ที่สัมพันธ์กับหัวเรื่อง ช่วยให้คุณสามารถเปรียบเทียบอัตราการเปิดของแต่ละหัวเรื่องเพื่อพิจารณาว่าวิธีใดมีประสิทธิภาพมากที่สุด
Champion-Challenger เปรียบได้กับการทดสอบ A/B ในเรื่องนี้ คุณสามารถใช้ตรรกะในการตัดสินใจเพื่อประเมินผลลัพธ์แต่ละผลลัพธ์ และเลือกผลลัพธ์ที่มีประสิทธิภาพที่สุดในขณะที่คุณทดลองด้วยวิธีการต่างๆ เพื่อเลือก
โมเดลที่ประสบความสำเร็จมากที่สุดสัมพันธ์กับแชมป์เปี้ยน ผู้ท้าชิงคนแรกและรายชื่อผู้ท้าชิงที่ตรงกันตอนนี้ล้วนอยู่ในระยะการดำเนินการครั้งแรกแทนที่จะเป็นแชมป์
ระบบเลือกแชมป์เปี้ยนสำหรับการดำเนินการขั้นตอนงานต่อไป
ผู้ท้าชิงจะตรงกันข้ามกับอีกคนหนึ่ง แชมป์เปี้ยนใหม่จะถูกกำหนดโดยผู้ท้าชิงที่สร้างผลงานที่ยิ่งใหญ่ที่สุด
งานที่เกี่ยวข้องในกระบวนการเปรียบเทียบแชมป์กับผู้ท้าชิงมีรายละเอียดเพิ่มเติมด้านล่าง:
- การประเมินแต่ละรุ่นของคู่แข่ง
- การประเมินคะแนนสุดท้าย
- เปรียบเทียบผลการประเมินเพื่อสร้างผู้ท้าชิงชัยชนะ
- การเพิ่มแชมป์สดลงในไฟล์เก็บถาวร
16. อธิบายการใช้งานระดับองค์กรของวงจรชีวิต MLOps?
เราต้องหยุดพิจารณาแมชชีนเลิร์นนิงเป็นเพียงการทดลองซ้ำๆ เพื่อให้โมเดลแมชชีนเลิร์นนิงเข้าสู่การผลิต MLOps เป็นการรวมตัวของวิศวกรรมซอฟต์แวร์กับการเรียนรู้ของเครื่อง
ผลลัพธ์ที่ได้ควรจินตนาการเช่นนี้ ดังนั้น รหัสสำหรับผลิตภัณฑ์เทคโนโลยีจะต้องได้รับการทดสอบ ใช้งานได้จริง และเป็นแบบแยกส่วน
MLOps มีอายุการใช้งานที่เทียบได้กับโฟลว์แมชชีนเลิร์นนิงทั่วไป ยกเว้นว่าโมเดลจะถูกเก็บไว้ในกระบวนการจนถึงการผลิต
วิศวกร MLOps จับตาดูสิ่งนี้เพื่อให้แน่ใจว่าคุณภาพของแบบจำลองในการผลิตเป็นไปตามที่ตั้งใจไว้
ต่อไปนี้คือกรณีการใช้งานสำหรับเทคโนโลยี MLOps หลายประการ:
- Model Registries: เป็นสิ่งที่ดูเหมือน ทีมที่ใหญ่ขึ้นจะจัดเก็บและดูแลติดตามรุ่นของรุ่นในการลงทะเบียนแบบจำลอง แม้แต่การย้อนกลับไปยังเวอร์ชันก่อนหน้าก็เป็นทางเลือกหนึ่ง
- ที่เก็บคุณลักษณะ: เมื่อต้องจัดการกับชุดข้อมูลที่ใหญ่กว่า อาจมีชุดข้อมูลวิเคราะห์และชุดย่อยรุ่นที่แตกต่างกันสำหรับงานเฉพาะ ที่เก็บฟีเจอร์เป็นวิธีที่ล้ำสมัยและมีรสนิยมในการใช้งานการเตรียมข้อมูลตั้งแต่ช่วงก่อนหน้าหรือจากทีมอื่นๆ เช่นกัน
- ที่จัดเก็บสำหรับข้อมูลเมตา: เป็นสิ่งสำคัญที่จะต้องตรวจสอบข้อมูลเมตาอย่างถูกต้องตลอดการผลิต หากจะใช้ข้อมูลที่ไม่มีโครงสร้าง เช่น ข้อมูลรูปภาพและข้อความได้สำเร็จ
สรุป
สิ่งสำคัญคือต้องจำไว้ว่า ในกรณีส่วนใหญ่ ผู้สัมภาษณ์กำลังมองหาระบบ ในขณะที่ผู้สมัครกำลังมองหาวิธีแก้ไข
ข้อแรกขึ้นอยู่กับทักษะทางเทคนิคของคุณ ในขณะที่ข้อที่สองคือวิธีการที่คุณใช้เพื่อแสดงความสามารถของคุณ
มีหลายขั้นตอนที่คุณควรทำเมื่อตอบคำถามสัมภาษณ์ MLOps เพื่อช่วยให้ผู้สัมภาษณ์เข้าใจวิธีที่คุณตั้งใจจะประเมินและแก้ไขปัญหาในมือได้ดีขึ้น
ความเข้มข้นของพวกเขาอยู่ที่ปฏิกิริยาที่ไม่ถูกต้องมากกว่าปฏิกิริยาที่ถูกต้อง โซลูชันบอกเล่าเรื่องราว และระบบของคุณคือภาพประกอบที่ดีที่สุดสำหรับความรู้และความสามารถในการสื่อสารของคุณ
เขียนความเห็น