תוכן העניינים[להתחבא][הופעה]
- 1. למה אתה מתכוון ב-MLOps?
- 2. כיצד מדעני נתונים, מהנדסי נתונים ומהנדסי ML שונים זה מזה?
- 3. מה מבדיל MLOps מ ModelOps ו- AIOps?
- 4. האם תוכל לספר לי כמה מהיתרונות של MLOps?
- 5. אתה יכול להגיד לי את הרכיבים של MLOps?
- 6. אילו סיכונים מגיעים עם שימוש ב-Data Science?
- 7. אתה יכול להסביר, מהו סחף מודל?
- 8. כמה דרכים שונות אפשר ליישם MLOps, לדעתך?
- 9. מה מפריד בין פריסה סטטית לפריסה דינמית?
- 10. לאילו טכניקות בדיקת ייצור אתה מודע?
- 11. מה מבדיל עיבוד זרם מעיבוד אצווה?
- 12. למה אתה מתכוון באימון הטיית הגשה?
- 13. למה אתה מתכוון ב- Model Registry?
- 14. האם תוכל לפרט על היתרונות של Model Registry?
- 15. האם אתה יכול להסביר את עובדת הטכניקה של אלוף-אתגר?
- 16. תאר את היישומים ברמת הארגון של מחזור החיים של MLOps?
- סיכום
חברות משתמשות בטכנולוגיות מתפתחות כמו בינה מלאכותית (AI) ולמידת מכונה (ML) לעתים קרובות יותר כדי להגביר את הנגישות של הציבור למידע ולשירותים.
טכנולוגיות אלו נמצאות יותר ויותר בשימוש במגוון מגזרים, כולל בנקאות, פיננסים, קמעונאות, ייצור ואפילו שירותי בריאות.
מדעני נתונים, מהנדסי למידת מכונה ומהנדסים בבינה מלאכותית מבוקשים ממספר הולך וגדל של חברות.
לדעת את האפשרי למידת מכונה שאלות ראיון תפעול שמנהלים מגייסים ומגייסים יכולים להציב בפניך הן חיוניות אם ברצונך לעבוד בתחומי ML או MLOps.
אתה יכול ללמוד כיצד להגיב לכמה משאלות הראיונות של MLOps בפוסט זה כשאתה פועל לקראת קבלת עבודת החלומות שלך.
1. למה אתה מתכוון ב-MLOps?
הנושא של הפעלת מודלים של ML הוא המוקד של MLOps, הידוע גם בשם Machine Learning Operations, תחום מתפתח בזירת ה-AI/DS/ML הגדולה יותר.
המטרה העיקרית של הגישה והתרבות של הנדסת תוכנה הידועה בשם MLOps היא לשלב את היצירה של מודלים של למידת מכונה/מדע נתונים והפעלתם לאחר מכן (Ops).
DevOps ו-MLOps קונבנציונליים חולקים קווי דמיון מסוימים, עם זאת, MLOps גם שונים מאוד מ-DevOps המסורתיים.
MLOps מוסיף שכבה חדשה של מורכבות על ידי התמקדות בנתונים, בעוד DevOps מתמקדת בעיקר בהפעלת קוד וגרסאות תוכנה שאינן יכולות להיות מצביות.
השילוב של ML, Data ו-Ops הוא מה שנותן ל-MLOps את השם הנפוץ שלה (למידת מכונה, הנדסת נתונים ו-DevOps).
2. כיצד מדעני נתונים, מהנדסי נתונים ומהנדסי ML שונים זה מזה?
זה משתנה, לדעתי, בהתאם למשרד. הסביבה להובלה והמרה של נתונים, כמו גם אחסונם, נבנית על ידי מהנדסי נתונים.
מדעני נתונים הם מומחים בשימוש בטכניקות מדעיות וסטטיסטיות כדי לנתח נתונים ולהסיק מסקנות, כולל ביצוע תחזיות לגבי התנהגות עתידית בהתבסס על המגמות הקיימות כעת.
מהנדסי תוכנה למדו תפעול וניהול תשתית פריסה לפני כמה שנים. צוותי Ops, לעומת זאת, למדו פיתוח תוך שימוש בתשתית כקוד. עמדת DevOps הופקה על ידי שני הזרמים הללו.
MLOps נמצאת באותה קטגוריה כמו מדען נתונים ומהנדס נתונים. מהנדסי נתונים צוברים ידע על התשתית הדרושה כדי לתמוך במחזורי חיים של מודל וליצור צינורות להדרכה שוטפת.
מדעני נתונים מבקשים לפתח את יכולות פריסת המודלים והניקוד שלהם.
צינור נתונים בדרגת ייצור נבנה על ידי מהנדסי ML תוך שימוש בתשתית ההופכת נתונים גולמיים לקלט הדרוש למודל מדעי נתונים, מארח ומפעיל את המודל, ומוציא מערך נתונים עם ניקוד למערכות במורד הזרם.
גם מהנדסי נתונים וגם מדעני נתונים מסוגלים להפוך למהנדסי ML.
3. מה מבדיל MLOps מ ModelOps ו- AIOps?
כאשר בונים מקצה לקצה אלגוריתמים למידת מכונה, MLOps הוא יישום DevOps הכולל איסוף נתונים, עיבוד מוקדם של נתונים, יצירת מודלים, פריסת מודלים בייצור, ניטור מודלים בייצור ושדרוג תקופתי של מודל.
השימוש ב-DevOps בטיפול בכל היישום של אלגוריתמים כלשהם, כגון מודלים מבוססי כללים, ידוע בשם ModelOps.
AI Ops ממנפת את עקרונות DevOps ליצירת אפליקציות בינה מלאכותית מאפס.
4. האם תוכל לספר לי כמה מהיתרונות של MLOps?
- מדעני נתונים ומפתחי MLOps יכולים להריץ מחדש במהירות ניסויים כדי להבטיח שהמודלים מאומנים ומוערכים כראוי, שכן MLOps עוזר לבצע אוטומציה של כל או רוב המשימות/שלבים ב-MDLC (מחזור החיים של פיתוח מודל). בנוסף אישורים גירסאות נתונים ומודלים.
- יישום רעיונות MLOps לפועל מאפשר למהנדסי נתונים ולמדעני נתונים לקבל גישה בלתי מוגבלת למערכי נתונים מעובדים ואצורים, מה שמאיץ באופן אקספוננציאלי את פיתוח המודלים.
- מדעני נתונים יוכלו ליפול לאחור על המודל שהצליח טוב יותר אם האיטרציה הנוכחית לא תעמוד בציפיות הודות ליכולת לגרסת מודלים ומערכי נתונים, מה שישפר משמעותית את נתיב הביקורת של המודל.
- מכיוון ששיטות MLOps מסתמכות מאוד על DevOps, הן משלבות גם מספר מושגי CI/CD, מה שמשפר את איכות ואמינות הקוד.
5. אתה יכול להגיד לי את הרכיבים של MLOps?
עיצוב: MLOps כוללים במידה רבה חשיבה עיצובית. החל מאופי הנושא, בדיקת השערות, ארכיטקטורה ופריסה
בניית דגם: בדיקות ותיקוף מודלים הם חלק מהשלב הזה, יחד עם צינורות הנדסת נתונים וניסויים להקמת מערכות למידת מכונה הטובות ביותר.
תפעול: יש ליישם את המודל כחלק מהפעולות ולבדוק ולהעריך באופן מתמיד. לאחר מכן מנוטרים תהליכי ה-CI/CD ומתחילים באמצעות כלי תזמור.
6. אילו סיכונים מגיעים עם שימוש ב-Data Science?
- קשה להרחיב את המודל על פני החברה.
- ללא אזהרה, הדגם נכבה ומפסיק לתפקד.
- לרוב, הדיוק של הדגמים הולך ומחמיר עם הזמן.
- המודל עושה תחזיות לא מדויקות על סמך תצפית ספציפית שלא ניתן לבחון אותה עוד יותר.
- גם מדעני נתונים צריכים לתחזק מודלים, אבל הם יקרים.
- ניתן להשתמש ב-MLOps כדי להפחית סיכונים אלה.
7. אתה יכול להסביר, מהו סחף מודל?
כאשר ביצועי שלב ההסקה של מודל (באמצעות נתונים מהעולם האמיתי) מתדרדרים מביצועי שלב האימון שלו, הדבר מכונה סחיפה של מודל, הידוע גם בשם סחיפה של רעיון (באמצעות נתונים היסטוריים מתויגים).
ביצועי הדגם מוטים בהשוואה לשלבי האימון וההגשה, ומכאן השם "הטיית הרכבה/הגשה".
גורמים רבים, כולל:
- האופן הבסיסי שבו נתונים מופצים השתנה.
- ההדרכה התמקדה במספר קטן של קטגוריות, עם זאת, שינוי סביבתי שהתרחש זה עתה הוסיף תחום נוסף.
- בקשיי NLP, לנתוני העולם האמיתי יש כמות גדולה יותר באופן לא פרופורציונלי של אסימוני מספרים מאשר נתוני האימון.
- התרחשויות בלתי צפויות, כמו מודל שנבנה על נתוני טרום-COVID שצפוי לתפקד גרוע משמעותית בנתונים שנאספו במהלך מגיפת ה-COVID-19.
מעקב רציף אחר ביצועי המודל נדרש תמיד כדי לזהות סחיפה של המודל.
הכשרת מודל מחדש נדרשת כמעט תמיד כתרופה כאשר יש ירידה מתמשכת בביצועי הדגם; יש לזהות את הסיבה לירידה ולהיעזר בהליכי טיפול מתאימים.
8. כמה דרכים שונות אפשר ליישם MLOps, לדעתך?
ישנן שלוש שיטות ליישם MLOps בפועל:
MLOps רמה 0 (תהליך ידני): ברמה זו, כל השלבים - כולל הכנת נתונים, ניתוח והדרכה - מבוצעים באופן ידני. כל שלב חייב להתבצע באופן ידני, כמו גם את המעבר מאחד למשנהו.
הנחת היסוד היא שצוות מדעי הנתונים שלך מנהל רק מספר קטן של מודלים שאינם מתעדכנים לעתים קרובות.
כתוצאה מכך, אין אינטגרציה מתמשכת (CI) או פריסה מתמשכת (CD), ובדיקת הקוד משולבת בדרך כלל בביצוע סקריפט או בביצוע מחברת, כאשר הפריסה מתבצעת בשירות מיקרו עם REST API.
MLOps רמה 1 (אוטומציה של צינור ה-ML): על ידי אוטומציה של תהליך ה-ML, המטרה היא לאמן באופן רציף את המודל (CT). אתה יכול להשיג שירות חיזוי מודל רציף בדרך זו.
הפריסה שלנו של צינור הדרכה שלם מבטיחה שהמודל מאומן אוטומטית בייצור תוך שימוש בנתונים חדשים המבוססים על טריגרים פעילים של צינור.
MLOps רמה 2 (אוטומציה של צינור ה-CI/CD): זה הולך שלב אחד מעל רמת MLOps. נדרשת מערכת CI/CD אוטומטית חזקה אם ברצונך לעדכן צינורות בייצור במהירות ובאמינות:
- אתה יוצר קוד מקור ומבצע בדיקות רבות לאורך שלב ה-CI. חבילות, קובצי הפעלה וחפצים הם הפלטים של השלב, שייפרסו במועד מאוחר יותר.
- החפצים שנוצרו על ידי שלב ה-CI נפרסים בסביבת היעד במהלך שלב התקליטור. צינור פרוס עם יישום המודל המתוקן הוא הפלט של השלב.
- לפני שהצינור מתחיל איטרציה חדשה של הניסוי, מדעני נתונים עדיין חייבים לבצע את שלב ניתוח הנתונים והמודלים באופן ידני.
9. מה מפריד בין פריסה סטטית לפריסה דינמית?
המודל מאומן במצב לא מקוון פריסה סטטית. במילים אחרות, אנו מאמנים את המודל במדויק פעם אחת ואז מנצלים אותו לזמן מה. לאחר שהמודל עבר הכשרה מקומית, הוא מאוחסן ונשלח לשרת כדי לשמש להפקת תחזיות בזמן אמת.
לאחר מכן המודל מופץ כתוכנת יישום הניתנת להתקנה. תוכנית המאפשרת ניקוד אצווה של בקשות, כהמחשה.
המודל מאומן באינטרנט עבור פריסה דינמית. כלומר, כל הזמן מתווספים למערכת נתונים חדשים, והמודל מתעדכן באופן רציף כדי לתת את הדעת על כך.
כתוצאה מכך, אתה יכול לבצע תחזיות באמצעות שרת לפי דרישה. לאחר מכן, המודל נכנס לשימוש על ידי כך שהוא מסופק כנקודת קצה API המגיבה לשאילתות משתמשים, באמצעות מסגרת אינטרנט כמו בקבוק או FastAPI.
10. לאילו טכניקות בדיקת ייצור אתה מודע?
בדיקת אצווה: על ידי עריכת בדיקות בסביבה שונה מזו של סביבת האימון שלה, היא מאמתת את המודל. באמצעות מדדים לפי בחירה, כגון דיוק, RMSE וכו', בדיקות אצווה נעשות על קבוצה של דגימות נתונים כדי לאמת מסקנות מודל.
ניתן לבצע בדיקות אצווה במגוון פלטפורמות מחשוב, כגון שרת בדיקה, שרת מרוחק או ענן. בדרך כלל, המודל מסופק כקובץ סידורי, הנטען כאובייקט ומסיק מנתוני הבדיקה.
בדיקת A / B: הוא משמש לעתים קרובות לניתוח קמפיינים שיווקיים וכן לעיצוב שירותים (אתרים, אפליקציות סלולריות וכו').
בהתבסס על החברה או הפעילות, נעשה שימוש בגישות סטטיסטיות כדי לנתח את התוצאות של בדיקות A/B כדי להחליט איזה מודל ישיג ביצועים טובים יותר בייצור. בדרך כלל, בדיקת A/B נעשית בצורה הבאה:
- נתונים חיים או בזמן אמת מחולקים או מפולחים לשתי קבוצות, סט A ו-B.
- נתוני סט A נשלחים למודל המיושן, בעוד שנתוני סט B נשלחים למודל המעודכן.
- בהתאם למקרה השימוש העסקי או לתהליכים, ניתן להשתמש במספר גישות סטטיסטיות כדי להעריך את ביצועי המודל (לדוגמה, דיוק, דיוק וכו') כדי לקבוע אם המודל החדש (מודל B) עולה על המודל הישן (מודל A).
- לאחר מכן אנו עושים בדיקת השערות סטטיסטיות: השערת האפס אומרת שלמודל החדש אין השפעה על הערך הממוצע של האינדיקטורים העסקיים המנוטרים. על פי ההשערה החלופית, המודל החדש מעלה את הערך הממוצע של המדדים העסקיים הניטור.
- לבסוף, אנו מעריכים אם המודל החדש מביא לשיפור משמעותי במדדים עסקיים מסוימים.
מבחן צל או שלב: מודל מוערך בשכפול של סביבת ייצור לפני השימוש בייצור (סביבת הבמה).
זה חיוני לקביעת ביצועי המודל עם נתונים בזמן אמת ואימות חוסנו של המודל. מתבצעת על ידי הסקת נתונים זהים לצינור הייצור ומסירת הענף שפותח או מודל לבדיקה על שרת סטייג'ינג.
החיסרון היחיד הוא שלא יבוצעו בחירות עסקיות בשרת ה-Staging או יהיו גלויות למשתמשי הקצה כתוצאה מסניף הפיתוח.
החוסן והביצועים של המודל יוערכו סטטיסטית תוך שימוש בתוצאות של סביבת הבמה תוך שימוש במדדים המתאימים.
11. מה מבדיל עיבוד זרם מעיבוד אצווה?
אנו יכולים לתפעל את המאפיינים שאנו משתמשים בהם כדי לייצר את התחזיות שלנו בזמן אמת באמצעות שתי שיטות עיבוד: אצווה וזרימה.
תהליך אצווה תכונות מנקודת זמן קודמת עבור אובייקט ספציפי, אשר מנוצל לאחר מכן ליצירת תחזיות בזמן אמת.
- כאן, אנו מסוגלים לבצע חישובי תכונות אינטנסיביים במצב לא מקוון ולהכין את הנתונים להסקת מסקנות מהירה.
- עם זאת, מאפיינים גיל מאז שהם נקבעו מראש בעבר. זה עשוי להיות חיסרון גדול אם הפרוגנוזה שלך מבוססת על התרחשויות אחרונות. (לדוגמה, זיהוי עסקאות הונאה בהקדם האפשרי.)
עם תכונות סטרימינג כמעט בזמן אמת עבור ישות ספציפית, ההסקה מתבצעת בעיבוד זרם על סט נתון של תשומות.
- כאן, על ידי מתן תכונות סטרימינג בזמן אמת לדגם, נוכל לקבל תחזיות מדויקות יותר.
- עם זאת, נדרשת תשתית נוספת לעיבוד זרם ולשמירה על זרמי נתונים (קפקא, קינסיס וכו'). (Apache Flink, Beam וכו')
12. למה אתה מתכוון באימון הטיית הגשה?
הפער בין ביצועים בהגשה לביצועים במהלך האימון ידוע בתור הטיית ההגשה של האימון. הטיה זו יכולה להיגרם על ידי הגורמים הבאים:
- הבדל באופן הטיפול בנתונים בין צינורות ההגשה וההדרכה.
- שינוי בנתונים מההדרכה שלך לשירות שלך.
- ערוץ משוב בין האלגוריתם והמודל שלך.
13. למה אתה מתכוון ב- Model Registry?
Model Registry הוא מאגר מרכזי שבו יוצרי מודלים יכולים לפרסם מודלים המתאימים לשימוש בייצור.
מפתחים יכולים לשתף פעולה עם צוותים ובעלי עניין אחרים כדי לנהל את תוחלת החיים של כל המודלים בתוך העסק באמצעות הרישום. ניתן להעלות את המודלים המאומנים למרשם המודלים על ידי מדען נתונים.
המודלים מוכנים לבדיקה, אימות ופריסה לייצור ברגע שהם נמצאים ברישום. בנוסף, מודלים מאומנים מאוחסנים ברישום מודלים לגישה מהירה על ידי כל יישום או שירות משולבים.
על מנת לבדוק, להעריך ולפרוס את המודל לייצור, מפתחי תוכנה והסוקרים יכולים לזהות ולבחור במהירות רק את הגרסה הטובה ביותר של המודלים המאומנים (בהתבסס על קריטריוני ההערכה).
14. האם תוכל לפרט על היתרונות של Model Registry?
להלן כמה דרכים שבהן רישום המודל מייעל את ניהול מחזור החיים של המודל:
- כדי להקל על הפריסה, שמור את דרישות זמן הריצה והמטא נתונים עבור הדגמים המאומנים שלך.
- יש לרשום, לעקוב ולבצע גירסה של הדגמים המאומנים, הפרוסים והפרוש במאגר מרכזי שניתן לחיפוש.
- צור צינורות אוטומטיים המאפשרים אספקה רציפה, הדרכה ושילוב של מודל הייצור שלך.
- השווה בין דגמים שאומנו לאחרונה (או דגמי מאתגרים) בסביבת הבמה לדגמים שפועלים כעת בייצור (דגמי אלוף).
15. האם אתה יכול להסביר את עובדת הטכניקה של אלוף-אתגר?
ניתן לבחון החלטות תפעוליות שונות בייצור באמצעות טכניקת Champion Challenger. בטח שמעתם על בדיקות A/B בהקשר של שיווק.
לדוגמה, תוכל לכתוב שתי שורות נושא נפרדות ולהפיץ אותן באופן אקראי לדמוגרפי היעד שלך כדי למקסם את שיעור הפתיחה של מסע פרסום בדוא"ל.
המערכת רושמת את ביצועי האימייל (כלומר, פעולת פתיחת האימייל) ביחס לשורת הנושא שלו, ומאפשרת לך להשוות את שיעור הפתיחה של כל שורת נושא כדי לקבוע מה הוא היעיל ביותר.
Champion-Challenger דומה לבדיקת A/B בהקשר זה. אתה יכול להשתמש בלוגיקת החלטה כדי להעריך כל תוצאה ולבחור את התוצאה היעילה ביותר כשאתה מתנסה בשיטות שונות כדי להגיע לבחירה.
המודל המצליח ביותר מתאם לאלוף. המתמודד הראשון ורשימת המתמודדים התואמת הם כעת כל מה שקיים בשלב הביצוע הראשון במקום האלוף.
האלוף נבחר על ידי המערכת לביצוע שלבי עבודה נוספים.
המתמודדים מנוגדים זה לזה. האלוף החדש נקבע לאחר מכן על ידי המתמודד שמפיק את התוצאות הגדולות ביותר.
המשימות הכרוכות בתהליך השוואת אלוף-אתגר מפורטות להלן ביתר פירוט:
- הערכת כל אחד מהדגמים היריבים.
- הערכת הציונים הסופיים.
- השוואת תוצאות ההערכה כדי לבסס את המתמודד המנצח.
- הוספת האלוף הטרי לארכיון
16. תאר את היישומים ברמת הארגון של מחזור החיים של MLOps?
עלינו להפסיק להתייחס למידת מכונה כניסוי איטרטיבי בלבד כדי שמודלים של למידת מכונה ייכנסו לייצור. MLOps הוא האיחוד של הנדסת תוכנה עם למידת מכונה.
יש לדמיין את התוצאה המוגמרת ככזו. לכן, הקוד של מוצר טכנולוגי צריך להיות נבדק, פונקציונלי ומודולרי.
ל-MLOps תוחלת חיים דומה לזרימת למידת מכונה קונבנציונלית, למעט העובדה שהמודל נשמר בתהליך עד לייצור.
מהנדסי MLOps פוקחים עין על זה כדי לוודא שאיכות הדגם בייצור היא מה שמיועד.
להלן כמה מקרי שימוש עבור כמה מטכנולוגיות MLOps:
- רישומי דגמים: זה מה שזה נראה. צוותים גדולים יותר מאחסנים ומתחזקים מעקב אחר דגמי גרסאות ברישום של מודלים. אפילו חזרה לגרסה קודמת היא אפשרות.
- מאגר תכונות: כאשר עוסקים במערכות נתונים גדולות יותר, יכולות להיות גרסאות נפרדות של מערכי הנתונים האנליטיים ותתי-ערכות עבור משימות ספציפיות. חנות תכונות היא דרך מתקדמת וטובת טעם להשתמש בעבודת הכנת נתונים מהרצות קודמות או גם מצוותים אחרים.
- מאגרים למטא נתונים: חיוני לנטר מטא נתונים בצורה נכונה לאורך הייצור אם יש להשתמש בהצלחה בנתונים לא מובנים, כגון נתוני תמונה וטקסט.
סיכום
חשוב לזכור שברוב המקרים, המראיין מחפש מערכת, בעוד המועמד מחפש פתרון.
הראשון מבוסס על הכישורים הטכניים שלך, בעוד שהשני עוסק בשיטה שבה אתה משתמש כדי להפגין את יכולתך.
ישנם מספר נהלים שעליך לנקוט בעת תשובה לשאלות ראיון MLOps כדי לעזור למראיין להבין טוב יותר כיצד אתה מתכוון להעריך ולטפל בבעיה שעל הפרק.
הריכוז שלהם הוא יותר בתגובה השגויה מאשר בתגובה הנכונה. פתרון מספר סיפור, והמערכת שלך היא ההמחשה הטובה ביותר לידע וליכולת שלך לתקשורת.
השאירו תגובה