מדעני נתונים ואנשי מקצוע למידת מכונה עוסקים במספר לא מבוטל של נתונים מסוגים שונים בפרויקט טיפוסי של מדעי נתונים. פותחו דגמים רבים עם תצורות ותכונות שונות, כמו גם איטרציות מרובות של כוונון פרמטרים כדי לקבל את הביצועים האופטימליים.
בתרחיש כזה, יש לנטר ולמדוד את כל שינויי הנתונים וההתאמות של תהליך בניית המודל על מנת לקבוע מה עבד ומה לא. זה גם חיוני להיות מסוגל לחזור למהדורה קודמת ולבחון את התוצאות הקודמות.
בקרת גרסאות נתונים (DVC), המסייעת בניהול הנתונים, המודל הבסיסי והפעלת תוצאות הניתנות לשחזור, היא טכנולוגיה כזו המאפשרת לנו לנטר את כל זה.
בפוסט זה, נבחן מקרוב את בקרת גרסאות הנתונים ואת הכלים הטובים ביותר לשימוש. בואו נתחיל.
מהי בקרת גרסאות נתונים?
נדרשת גירסאות עבור כל מערכות הייצור. נקודת גישה אחת לנתונים המעודכנים ביותר. כל משאב שמשונה לעתים קרובות, במיוחד על ידי מספר משתמשים בו-זמנית, זקוק ליצירת נתיב ביקורת כדי לעקוב אחר כל השינויים.
מערכת בקרת הגרסאות אחראית לוודא שכולם בצוות נמצאים באותו עמוד. זה מבטיח שכולם בצוות עובדים על הגרסה העדכנית ביותר של הקובץ, וחשוב מכך, שכולם משתפים פעולה באותו פרויקט בכל פעם.
אם יש לך את הציוד המתאים, אתה יכול להשיג זאת במינימום מאמץ!
יהיו לך מערכי נתונים עקביים וארכיון יסודי של כל המחקר שלך אם תשתמש באסטרטגיית ניהול גרסאות נתונים מהימנה. כלי גירסאות נתונים הם קריטיים עבור זרימת העבודה שלך אם אכפת לך משחזור, עקיבות והיסטוריית מודל ML.
הם עוזרים לך לרכוש גרסה של פריט, כמו hash של מערך נתונים או מודל, שבו תוכל להשתמש כדי לזהות ולהשוות. גרסת נתונים זו מוזנת לעתים קרובות לפתרון ניהול המטא נתונים שלך כדי להבטיח שהדרכת המודל שלך מנוסחת וניתנת לחזרה.
כלי בקרת גרסאות נתונים הטובים ביותר
עכשיו הגיע הזמן להסתכל על פתרונות בקרת גרסאות הנתונים הטובים ביותר הזמינים, שבהם אתה יכול להשתמש כדי לעקוב אחר כל חלק בקוד שלך.
1. GFS LFS
פרויקט Git LFS ניתן לשימוש בחינם. בתוך Git, קבצים גדולים כמו דגימות אודיו, סרטונים, מסדי נתונים ותמונות מוחלפים במצביעי טקסט, ותוכן הקובץ נשמר בשרת מרוחק כמו GitHub.com או GitHub Enterprise.
זה מאפשר לך להשתמש ב-Git כדי לגרסאות קבצים עצומים - בגודל של כמה ג'יגה-בייט - לארח יותר במאגרי Git שלך תוך שימוש באחסון חיצוני, ולשכפל ולאחזר מאגרי קבצים גדולים מהר יותר. כשזה מגיע לניהול נתונים, זהו פתרון קליל למדי. כדי לעבוד עם Git, אינך זקוק לשום פקודה נוספת, מערכות אחסון או ערכות כלים.
זה מגביל את כמות המידע שאתה מוריד. זה מרמז ששיבוט ואחזור קבצים גדולים ממאגרים יהיו מהירים יותר. המצביעים עשויים מחומר קל יותר ומצביעים על ה-LFS.
כתוצאה מכך, כאשר אתה דוחף את המאגר שלך למאגר הראשי, הוא מתעדכן במהירות ותופס פחות מקום.
Pros
- משתלב בקלות בתהליכי הפיתוח של רוב העסקים.
- אין צורך לטפל בזכויות נוספות מכיוון שהוא משתמש באותן הרשאות כמו מאגר Git.
חסרונות
- Git LFS מחייבת שימוש בשרתים ייעודיים לאחסון הנתונים שלך. כתוצאה מכך, צוותי מדעי הנתונים שלך יהיו נעולים, ועומס העבודה ההנדסי שלך יעלה.
- מאוד מיוחד, ועשוי לחייב שימוש במגוון כלים שונים עבור השלבים הבאים בזרימת העבודה של מדעי הנתונים.
מחיר כרטיס
זה בחינם לשימוש לכולם.
2. LakeFS
LakeFS הוא פתרון גירסאות נתונים בקוד פתוח המאחסן נתונים ב-S3 או GCS ויש לו פרדיגמת הסתעפות ומתחייבת דמוית Git שמתרחבת לפטאבייטים.
אסטרטגיית הסתעפות זו הופכת את אגם הנתונים שלך ל-ACID תואם בכך שהיא מאפשרת לשינויים להתרחש בענפים שונים שניתן לבנות, למזג ולהחזיר אותם באופן אטומי ומידי.
LakeFS מאפשר לצוותים ליצור פעילויות אגם נתונים שניתן לחזור עליהן, אטומיות ובעלות גרסאות. זה חדש בסצנה, אבל זה כוח שצריך להתחשב בו.
הוא משתמש בגישת הסתעפות ובקרת גרסאות דמוית Git כדי ליצור אינטראקציה עם שלך אגם נתונים, ניתן להרחבה עד ל-Petabytes של נתונים. בקנה מידה של Exabyte, אתה יכול לבדוק בקרת גרסאות.
Pros
- פעולות דמויות Git כוללות הסתעפות, התחייבות, מיזוג והחזרה.
- ווים מראש של התחייבות/מיזוג משמשים לבדיקות CI/CD נתונים.
- מספק תכונות מורכבות כמו עסקאות ACID לאחסון פשוט בענן כמו S3 ו-GCS, וכל זאת תוך שמירה על פורמט ניטרלי.
- החזר שינויים בנתונים בזמן אמת.
- קנה מידה קל, ומאפשר לו להכיל אגמי נתונים עצומים מאוד. ניתן לספק בקרת גרסה הן עבור הגדרות הפיתוח והן עבור הגדרות הייצור.
חסרונות
- LakeFS הוא מוצר חדש, ולכן הפונקציונליות והתיעוד עשויים להשתנות מהר יותר מאשר בפתרונות קודמים.
- מכיוון שהוא מתמקד בגירסאות נתונים, תצטרך להשתמש במגוון כלים נוספים עבור חלקים שונים של זרימת העבודה של מדעי הנתונים.
מחיר כרטיס
זה בחינם לשימוש לכולם.
3. DVC
בקרת גרסאות נתונים הוא פתרון חינמי לניהול גרסאות נתונים המיועד ליישומי מדעי נתונים ולמידת מכונה. זוהי תוכנית המאפשרת לך להגדיר את הצינור שלך בכל שפה.
על ידי ניהול קבצים גדולים, מערכי נתונים, מודלים של למידת מכונה, קוד וכן הלאה, הכלי הופך מודלים של למידת מכונה לניתנים לשיתוף ושחזור. התוכנית עוקבת אחר ההובלה של Git במתן שורת פקודה פשוטה שניתן להגדיר בכמה שלבים בלבד.
כפי ששמו מרמז, DVC עוסק לא רק בניהול גרסאות נתונים. זה גם מקל על ניהול צינורות ומודלים של למידת מכונה עבור צוותים.
לבסוף, DVC יסייע בשיפור העקביות של המודלים של הצוות שלך והחזרות שלהם. במקום להשתמש בסיומת קבצים והערות מסובכות בקוד, נצל את היתרון ענפי Git לנסות רעיונות חדשים. כדי לנסוע, השתמש במעקב מטרי אוטומטי במקום נייר ועיפרון.
כדי להעביר חבילות עקביות של למידת מכונה מודלים, נתונים וקוד לייצור, מחשבים רחוקים או שולחן העבודה של עמית, אתה יכול להשתמש בפקודות דחיפה/משיכה במקום סקריפטים אד-הוק.
Pros
- זה קל משקל, קוד פתוח ועובד עם כל פלטפורמות הענן הגדולות וסוגי האחסון.
- גמיש, אגנוסטי של פורמט ומסגרת ופשוט ליישום.
- ניתן לאתר את כל האבולוציה של כל מודל ML אל קוד המקור והנתונים שלו.
חסרונות
- ניהול צינורות ובקרת גרסאות DVC קשורות קשר בל יינתק. תהיה יתירות אם הצוות שלך כבר משתמש במוצר אחר של צינור נתונים.
- מכיוון ש-DVC הוא קל משקל, ייתכן שהצוות שלך יצטרך לעצב תכונות נוספות באופן ידני כדי להפוך אותו לידידותי יותר למשתמש.
מחיר כרטיס
זה בחינם לשימוש לכולם.
4. דלתא לייק
DeltaLake היא שכבת אחסון בקוד פתוח שמגבירה את אמינות אגם הנתונים. Delta Lake תומך בעסקאות ACID וניהול מטא נתונים ניתן להרחבה בנוסף להזרמה ועיבוד נתונים אצווה.
זה עובד עם ממשקי API של Apache Spark ויושב על אגם הנתונים הקיים שלך. Delta Sharing הוא הפרוטוקול הפתוח הראשון בעולם לשיתוף מידע בטוח בעסק, מה שמקל על החלפת נתונים עם עסקים אחרים ללא תלות במערכות המחשב שלהם.
דלתא לייקס מסוגלים להתמודד בקלות עם פטה-בייט של נתונים. מטא נתונים מאוחסנים באותו אופן כמו נתונים, ומשתמשים יכולים לקבל אותם באמצעות שיטת Describe Detail. ל-Delta Lakes יש ארכיטקטורה אחת שיכולה לקרוא גם נתוני זרם וגם נתוני אצווה.
עליות קלות לביצוע באמצעות דלתא. העליות או מיזוגים אלה לטבלת הדלתא דומות למיזוג SQL. אתה יכול להשתמש בו כדי לשלב נתונים ממסגרת נתונים אחרת בטבלה שלך ולבצע עדכונים, הוספות ומחיקות.
Pros
- יכולות רבות, כמו עסקאות ACID וניהול מטא נתונים חזק, יכולות להיות זמינות בפתרון אחסון הנתונים הנוכחי שלך.
- Delta Lake יכולה כעת לנהל ללא מאמץ טבלאות עם מיליארדי מחיצות וקבצים בקנה מידה פטה-בייט.
- מפחית את הצורך בבקרת גרסאות נתונים ידנית ודאגות אחרות לנתונים, מה שמאפשר למפתחים להתרכז בפיתוח מוצרים על גבי אגמי הנתונים שלהם.
חסרונות
- מכיוון שהוא תוכנן לעבוד עם Spark ונתונים עצומים, Delta Lake בדרך כלל מוגזם ברוב המשימות.
- זה מחייב שימוש בפורמט נתונים ייעודי, שמגביל את הגמישות שלו והופך אותו לבלתי תואם עם הטפסים הנוכחיים שלך.
מחיר כרטיס
זה בחינם לשימוש לכולם.
5. דולט
Dolt הוא מסד נתונים של SQL שעושה חישול, שיבוט, הסתעפות, מיזוג, דחיפה ומשיכה באותו אופן כמו שמאגר git עושה. כדי לשפר את חווית המשתמש של מסד נתונים של בקרת גרסאות, Dolt מאפשר לנתונים ולמבנה להשתנות בסנכרון.
זהו כלי מצוין עבורך ועבור חבריך לעבודה לשתף פעולה. אתה יכול להתחבר ל-Dolt באותו אופן שהיית עושה לכל מסד נתונים אחר של MySQL ולהריץ שאילתות או לבצע שינויים בנתונים באמצעות פקודות SQL.
כשזה מגיע לגרסאות נתונים, Dolt הוא יחיד במינו. Dolt הוא מסד נתונים, בניגוד לחלק מהפתרונות האחרים שרק נתוני גרסאות. בעוד שהתוכנה נמצאת בשלבים הראשונים שלה, יש תקוות להפוך אותה לתואמת מלאה עם Git ו-MySQL בעתיד הקרוב.
כל הפקודות שאתה מכיר עם Git יעבדו גם עם Dolt. קבצי גירסאות Git, טבלאות גרסאות Dolt באמצעות ממשק שורת הפקודה, ייבא קבצי CSV, בצע את השינויים שלך, פרסם אותם בשלט, ומיזג את השינויים של חברך לצוות.
Pros
- קל משקל ו קוד פתוח בחלק.
- בהשוואה לאפשרויות לא ברורות יותר, יש לו ממשק SQL, מה שהופך אותו לנגיש יותר למנתחי נתונים.
חסרונות
- בהשוואה לחלופות אחרות של גירסת מסד נתונים, Dolt הוא עדיין מוצר מתפתח.
- מכיוון ש-Delt הוא מסד נתונים, עליך להעביר אליו את הנתונים שלך כדי לקבל את היתרונות.
מחיר כרטיס
כולם מוזמנים להשתמש במפגש הקהילה. הפלטפורמה אינה מספקת תמחור פרימיום; במקום זאת, עליך ליצור קשר עם הספק.
6. פאצ'יידרם
Pachyderm היא מערכת בקרת גרסאות של מדעי הנתונים בחינם עם הרבה תכונות. Pachyderm Enterprise היא פלטפורמת מדעי נתונים רבת עוצמה המיועדת לשיתוף פעולה בקנה מידה גדול בסביבות מאובטחות במיוחד.
Pachyderm היא אחת מפלטפורמות מדעי הנתונים הבודדות ברשימה. המטרה של Pachyderm היא לספק פלטפורמה שמנהלת את מחזור הנתונים המלא ומקלה על שכפול הממצאים של מודלים של למידת מכונה. Pachyderm ידוע בתור "המעגן של הנתונים" בהקשר זה. Pachyderm אורזת את סביבת הביצוע שלך באמצעות מכולות Docker. זה מקל על שכפול אותן תוצאות.
מדעני נתונים וצוותי DevOps יכולים לפרוס מודלים בביטחון הודות לשילוב של נתונים מגרסה עם Docker. הודות למערכת אחסון יעילה, ניתן לשמור על פטה-בייט של נתונים מובנים ובלתי מובנים תוך שמירה על עלויות האחסון למינימום.
לאורך שלבי הצינור, ניהול גרסאות מבוסס קבצים מספק רישום ביקורת יסודי עבור כל הנתונים והחפצים, כולל פלטי ביניים. רבות מהיכולות של הכלי מונעות מעמודי התווך הללו, שעוזרים לצוותים להפיק ממנו את המרב.
Pros
- בהתבסס על קונטיינרים, סביבות הנתונים שלך יהיו ניידות וקלות להעברה בין ספקי ענן.
- חזק, עם יכולת קנה מידה ממערכות קטנות לגדולות במיוחד.
חסרונות
- מכיוון שיש כל כך הרבה אלמנטים נעים, כגון שרת Kubernetes הנחוצים לטיפול במהדורה החינמית של Pachyderm, יש עקומת למידה תלולה יותר.
- Pachyderm עשוי להיות מאתגר לשילוב בתשתית הקיימת של החברה בגלל המרכיבים הטכנולוגיים הרבים שלה.
מחיר כרטיס
אתה יכול להתחיל להשתמש בפלטפורמה עם סשן הקהילה ולמהדורת הארגונית, עליך ליצור קשר עם הספק.
7. נפטון
מטא נתונים לבניית מודלים מנוהלים על ידי מאגר המטא נתונים של ML, שהוא היבט חשוב של מחסנית ה-MLOps. עבור כל זרימת עבודה של MLOps, נפטון משמש כאחסון מטא נתונים מרכזי.
אתה יכול לעקוב אחר, להמחיש ולהשוות אלפי מודלים של למידת מכונה במקום אחד. הוא כולל תכונות כגון מעקב אחר ניסויים, רישום מודלים וניטור מודלים, כמו גם ממשק שיתופי. הוא כולל למעלה מ-25 כלים וספריות שונות משולבות, כולל מספר כלי אימון מודלים וכלי כוונון היפרפרמטרים.
אתה יכול להצטרף ל-Neptune מבלי להשתמש בכרטיס האשראי שלך. חשבון ג'ימייל יספיק במקומו.
Pros
- האינטגרציה עם כל צינור, זרימה, בסיס קוד או מסגרת היא פשוטה.
- ההדמיות בזמן אמת, ה-API הקל והתמיכה המהירה
- עם Neptune, אתה יכול לעשות "גיבוי" של כל נתוני הניסויים שלך במיקום אחד, שאותו תוכל לשחזר מאוחר יותר.
חסרונות
- למרות שלא לגמרי קוד פתוח, יש להניח שגרסה בודדת תספיק לשימוש פרטי, אם כי גישה כזו מוגבלת לחודש אחד.
- יש כמה פגמים עיצוביים קטנים שאפשר למצוא.
מחיר כרטיס
אתה יכול להתחיל להשתמש בפלטפורמה עם התוכנית הפרטנית שהיא חופשית לשימוש לכולם. סעיף התמחור מתחיל מ-$150 לחודש.
סיכום
בפוסט זה, דנו בכלים הטובים ביותר לגירסת נתונים. לכל כלי, כפי שראינו, יש סט תכונות משלו. חלקם היו בחינם, בעוד שאחרים דרשו תשלום. חלקם מתאימים היטב למודל העסקי הקטן, בעוד שאחרים מתאימים יותר למודל העסקי הגדול.
כתוצאה מכך, עליך לבחור את התוכנה המשובחת ביותר למטרותיך לאחר שקלול היתרונות והחסרונות. אנו ממליצים לבדוק את גרסת הניסיון בחינם לפני רכישת מוצר פרימיום.
השאירו תגובה