علماء البيانات ومتخصصو التعلم الآلي يتعاملون مع عدد كبير من البيانات من أنواع مختلفة في مشروع علم بيانات نموذجي. تم تطوير العديد من النماذج بتشكيلات وميزات مختلفة ، بالإضافة إلى التكرارات المتعددة لضبط المعلمات للحصول على الأداء الأمثل.
في مثل هذا السيناريو ، يجب مراقبة وقياس جميع تعديلات البيانات وتعديلات عملية بناء النموذج لتحديد ما نجح وما لم ينجح. من الضروري أيضًا أن تكون قادرًا على العودة إلى الإصدار السابق والنظر في النتائج السابقة.
يعد التحكم في إصدار البيانات (DVC) ، الذي يساعد في إدارة البيانات ، والنموذج الأساسي ، وتشغيل النتائج القابلة للتكرار ، أحد هذه التقنيات التي تمكننا من مراقبة كل هذا.
في هذا المنشور ، سننظر عن كثب في التحكم في إصدار البيانات وأفضل الأدوات لاستخدامها. هيا نبدأ.
ما هو التحكم في إصدار البيانات؟
الإصدار مطلوب لجميع أنظمة الإنتاج. نقطة وصول واحدة إلى أحدث البيانات. يحتاج أي مورد يتم تعديله غالبًا ، لا سيما من قبل العديد من المستخدمين في نفس الوقت ، إلى إنشاء مسار تدقيق لتتبع جميع التغييرات.
يعد نظام التحكم في الإصدار مسؤولاً عن ضمان وجود كل فرد في الفريق على نفس الصفحة. إنه يضمن أن كل فرد في الفريق يعمل على أحدث نسخة من الملف ، والأهم من ذلك ، أن الجميع يتعاونون في نفس المشروع في وقت واحد.
إذا كانت لديك المعدات المناسبة ، يمكنك إنجاز ذلك بأقل جهد!
سيكون لديك مجموعات بيانات متسقة وأرشيف شامل لجميع أبحاثك إذا كنت تستخدم استراتيجية إدارة إصدار بيانات يمكن الاعتماد عليها. تعد أدوات تعيين إصدارات البيانات ضرورية لسير عملك إذا كنت تهتم بإمكانية التكاثر وإمكانية التتبع وسجل نموذج ML.
إنها تساعدك في الحصول على نسخة من عنصر ، مثل تجزئة مجموعة بيانات أو نموذج ، والتي يمكنك استخدامها بعد ذلك لتحديدها ومقارنتها. غالبًا ما يتم إدخال إصدار البيانات هذا في حل إدارة البيانات الوصفية لضمان إصدار تدريب النموذج الخاص بك وإمكانية تكراره.
أفضل أدوات التحكم في إصدار البيانات
حان الوقت الآن لإلقاء نظرة على أفضل حلول التحكم في إصدار البيانات المتاحة ، والتي يمكنك استخدامها لتتبع كل جزء من التعليمات البرمجية الخاصة بك.
1. بوابة LFS
مشروع Git LFS مجاني للاستخدام. داخل Git ، يتم استبدال الملفات الكبيرة مثل عينات الصوت ومقاطع الفيديو وقواعد البيانات والصور بمؤشرات نصية ، ويتم حفظ محتويات الملف على خادم بعيد مثل GitHub.com أو GitHub Enterprise.
يتيح لك استخدام Git لإصدار ملفات ضخمة - يصل حجمها إلى عدة غيغابايت - واستضافة المزيد في مستودعات Git الخاصة بك باستخدام التخزين الخارجي ، واستنساخ مستودعات الملفات الكبيرة واستردادها بسرعة أكبر. عندما يتعلق الأمر بإدارة البيانات ، فهذا حل خفيف جدًا. للعمل مع Git ، لا تحتاج إلى أي أوامر أو أنظمة تخزين أو مجموعات أدوات إضافية.
يحد من كمية المعلومات التي تقوم بتنزيلها. هذا يعني أن استنساخ واسترجاع الملفات الكبيرة من المستودعات سيكون أسرع. المؤشرات مصنوعة من مادة أخف وتشير إلى LFS.
نتيجة لذلك ، عندما تدفع الريبو الخاص بك إلى المستودع الرئيسي ، يتم تحديثه بسرعة ويشغل مساحة أقل.
الايجابيات
- يندمج بسهولة في سير عمل التطوير لمعظم الشركات.
- ليست هناك حاجة للتعامل مع الحقوق الإضافية لأنها تستخدم نفس الأذونات مثل مستودع Git.
سلبيات
- يتطلب Git LFS استخدام خوادم مخصصة لتخزين بياناتك. نتيجة لذلك ، سيتم إغلاق فرق علوم البيانات لديك ، وسيزداد عبء العمل الهندسي لديك.
- متخصص للغاية ، وقد يستلزم استخدام مجموعة متنوعة من الأدوات المختلفة للمراحل اللاحقة في سير عمل علم البيانات.
التسعير
إنه مجاني للاستخدام للجميع.
2. ليكفس
LakeFS هو حل مفتوح المصدر لإصدار البيانات يخزن البيانات في S3 أو GCS وله نموذج متفرع شبيه بـ Git ويتسع إلى بيتابايت.
تجعل إستراتيجية التفرع هذه متوافقة مع ACID لبحيرة البيانات الخاصة بك من خلال السماح بحدوث التغييرات في الفروع المتميزة التي يمكن إنشاؤها ودمجها والتراجع عنها ذريًا وفوريًا.
يتيح LakeFS للفرق إنشاء أنشطة بحيرة البيانات التي يمكن تكرارها وذرية وإصدارات. إنه مبتدئ في المشهد ، لكنه قوة لا يستهان بها.
يستخدم نهجًا يشبه Git في التفريع والتحكم في الإصدار للتفاعل مع ملف بحيرة البيانات، قابلة للتطوير حتى بيتابايت من البيانات. على مقياس إكسابايت ، يمكنك التحقق من التحكم في الإصدار.
الايجابيات
- تتضمن العمليات الشبيهة بـ Git التفرع والالتزام والدمج والعودة.
- يتم استخدام خطافات التثبيت المسبق / الدمج لعمليات فحص البيانات CI / CD.
- يوفر ميزات معقدة مثل معاملات ACID للتخزين السحابي البسيط مثل S3 و GCS ، كل ذلك مع بقاء التنسيق محايدًا.
- إعادة التغييرات إلى البيانات في الوقت الفعلي.
- يتسع بسهولة ، مما يسمح له باستيعاب بحيرات البيانات الضخمة جدًا. يمكن توفير التحكم في الإصدار لإعدادات التطوير والإنتاج.
سلبيات
- LakeFS هو منتج جديد ، وبالتالي قد تتغير الوظائف والتوثيق بسرعة أكبر من الحلول السابقة.
- نظرًا لأنه يركز على إصدار البيانات ، فستحتاج إلى استخدام مجموعة متنوعة من الأدوات الإضافية لأجزاء مختلفة من سير عمل علم البيانات.
التسعير
إنه مجاني للاستخدام للجميع.
3. DVC
التحكم في إصدار البيانات هو حل مجاني لإصدار البيانات مصمم لعلوم البيانات وتطبيقات التعلم الآلي. إنه برنامج يسمح لك بتحديد خط الأنابيب الخاص بك بأي لغة.
من خلال إدارة الملفات الكبيرة ومجموعات البيانات ونماذج التعلم الآلي والكود وما إلى ذلك ، تجعل الأداة نماذج التعلم الآلي قابلة للمشاركة وقابلة للتكرار. يتبع البرنامج توجيه Git في توفير سطر أوامر بسيط يمكن إعداده في خطوات قليلة فقط.
كما يوحي اسمه ، لا يتعلق DVC بإصدار البيانات فقط. كما أنه يسهل إدارة خطوط الأنابيب ونماذج التعلم الآلي للفرق.
أخيرًا ، سوف تساعد DVC في تحسين اتساق نماذج فريقك وإمكانية تكرارها. بدلاً من استخدام لواحق الملفات المعقدة والتعليقات في التعليمات البرمجية ، استفد من فروع جيت لتجربة أفكار جديدة. للسفر ، استخدم التتبع المتري الآلي بدلاً من الورق والقلم الرصاص.
لإرسال حزم متسقة من آلة التعلم النماذج والبيانات والتعليمات البرمجية في الإنتاج أو أجهزة الكمبيوتر البعيدة أو سطح مكتب زميل ، يمكنك استخدام أوامر الدفع / السحب بدلاً من البرامج النصية المخصصة.
الايجابيات
- إنه خفيف الوزن ومفتوح المصدر ويعمل مع جميع الأنظمة الأساسية السحابية وأنواع التخزين.
- مرن ومحايد للشكل والإطار وسهل التنفيذ.
- يمكن تتبع التطور الكامل لكل نموذج ML إلى كود المصدر وبياناته.
سلبيات
- ترتبط إدارة خطوط الأنابيب والتحكم في إصدار DVC ارتباطًا وثيقًا. سيكون هناك تكرار إذا كان فريقك يستخدم بالفعل منتجًا آخر لخط أنابيب البيانات.
- نظرًا لأن DVC خفيف الوزن ، فقد يحتاج فريقك إلى تصميم ميزات إضافية يدويًا لجعلها أكثر سهولة في الاستخدام.
التسعير
إنه مجاني للاستخدام للجميع.
4. دلتا ليك
DeltaLake عبارة عن طبقة تخزين مفتوحة المصدر تعزز موثوقية بحيرة البيانات. تدعم Delta Lake معاملات ACID وإدارة البيانات الوصفية القابلة للتطوير بالإضافة إلى التدفق ومعالجة البيانات المجمعة.
إنه يعمل مع واجهات برمجة تطبيقات Apache Spark ويوجد في بحيرة البيانات الموجودة لديك. Delta Sharing هو أول بروتوكول مفتوح في العالم للمشاركة الآمنة للبيانات في الأعمال ، مما يجعل من السهل تبادل البيانات مع الشركات الأخرى المستقلة عن أنظمة الكمبيوتر الخاصة بهم.
دلتا ليكس قادرة على التعامل مع بيتابايت من البيانات بسهولة. يتم تخزين البيانات الوصفية بنفس طريقة تخزين البيانات ، ويمكن للمستخدمين الحصول عليها باستخدام طريقة وصف التفاصيل. تمتلك Delta Lakes بنية واحدة يمكنها قراءة بيانات الدفق والدُفعات.
التحسينات بسيطة في القيام بها باستخدام دلتا. هذه الارتفاعات أو عمليات الدمج في جدول دلتا قابلة للمقارنة مع عمليات دمج SQL. يمكنك استخدامه لدمج البيانات من إطار بيانات آخر في الجدول الخاص بك وإجراء التحديثات والإدراج والحذف.
الايجابيات
- يمكن أن تتوفر العديد من الإمكانات ، مثل معاملات ACID وإدارة البيانات الوصفية القوية في حل تخزين البيانات الحالي.
- يمكن لـ Delta Lake الآن إدارة الجداول بسهولة مع مليارات الأقسام والملفات على مقياس بيتابايت.
- يقلل من الحاجة إلى التحكم اليدوي في إصدار البيانات ومخاوف البيانات الأخرى ، مما يسمح للمطورين بالتركيز على تطوير المنتجات فوق بحيرات البيانات الخاصة بهم.
سلبيات
- نظرًا لأنه تم تصميمه للعمل مع Spark والبيانات الضخمة ، فإن Delta Lake أكثر من اللازم بشكل عام لمعظم المهام.
- يستلزم استخدام تنسيق بيانات مخصص ، مما يحد من مرونته ويجعله غير متوافق مع النماذج الحالية.
التسعير
إنه مجاني للاستخدام للجميع.
5. الأبله
Dolt هي قاعدة بيانات SQL تقوم بالتقسيم والاستنساخ والتفرع والدمج والدفع والسحب بالطريقة نفسها التي يعمل بها مستودع git. لتحسين تجربة المستخدم لقاعدة بيانات التحكم في الإصدار ، يسمح Dolt للبيانات والهيكل بتغيير المزامنة.
إنها أداة ممتازة يمكنك التعاون فيها أنت وزملائك في العمل. يمكنك الاتصال بـ Dolt بنفس الطريقة التي تستخدمها مع أي قاعدة بيانات MySQL أخرى وتشغيل الاستعلامات أو إجراء تغييرات على البيانات باستخدام أوامر SQL.
عندما يتعلق الأمر بإصدار البيانات ، فإن Dolt هو فريد من نوعه. Dolt هي قاعدة بيانات ، على عكس بعض الحلول الأخرى التي تقوم فقط بنسخ البيانات. بينما لا يزال البرنامج في مراحله الأولى حاليًا ، هناك آمال في جعله متوافقًا تمامًا مع Git و MySQL في المستقبل القريب.
ستعمل جميع الأوامر التي تستخدمها مع Git أيضًا مع Dolt. ملفات إصدارات Git ، وجداول إصدارات Dolt باستخدام واجهة سطر الأوامر ، واستيراد ملفات CSV ، وتنفيذ التغييرات ، ونشرها على جهاز بعيد ، ودمج تغييرات زميلك في الفريق.
الايجابيات
- خفيفة الوزن و المصدر المفتوح في جزء.
- بالمقارنة مع الاختيارات الأكثر غموضًا ، فإنه يحتوي على واجهة SQL ، مما يجعله أكثر سهولة لمحللي البيانات.
سلبيات
- بالمقارنة مع بدائل إصدارات قواعد البيانات الأخرى ، لا يزال Dolt منتجًا متطورًا.
- نظرًا لأن Dolt هي قاعدة بيانات ، يجب عليك نقل بياناتك إليها للحصول على الفوائد.
التسعير
الجميع مرحب به لاستخدام جلسة المجتمع. لا توفر المنصة أسعارًا مميزة ؛ بدلاً من ذلك ، يجب عليك الاتصال بالمزود.
6. الشثني حيوان
Pachyderm هو نظام مجاني للتحكم في إصدار علوم البيانات مع الكثير من الميزات. Pachyderm Enterprise عبارة عن منصة قوية لعلوم البيانات مصممة للتعاون على نطاق واسع في بيئات آمنة للغاية.
يعد Pachyderm أحد منصات علوم البيانات القليلة في القائمة. هدف Pachyderm هو توفير منصة تدير دورة البيانات الكاملة وتجعل من السهل تكرار نتائج نماذج التعلم الآلي. يُعرف Pachyderm باسم "Docker of Data" في هذا السياق. حزم Pachyderm بيئة التنفيذ الخاصة بك باستخدام حاويات Docker. هذا يجعل من السهل تكرار نفس النتائج.
يمكن لعلماء البيانات وفرق DevOps نشر النماذج بثقة بفضل مجموعة البيانات التي تم إصدارها مع Docker. بفضل نظام التخزين الفعال ، يمكن الحفاظ على بيتابايت من البيانات المهيكلة وغير المهيكلة مع تقليل تكاليف التخزين إلى الحد الأدنى.
طوال مراحل خطوط الأنابيب ، يوفر الإصدار المستند إلى الملفات سجل تدقيق شامل لجميع البيانات والتحف ، بما في ذلك المخرجات الوسيطة. تعتمد العديد من إمكانات الأداة على هذه الركائز ، والتي تساعد الفرق على تحقيق أقصى استفادة منها.
الايجابيات
- استنادًا إلى الحاويات ، ستكون بيئات البيانات الخاصة بك محمولة وسهلة النقل بين موفري الخدمات السحابية.
- قوية ، مع القدرة على التوسع من الأنظمة الصغيرة إلى الأنظمة الكبيرة للغاية.
سلبيات
- نظرًا لوجود العديد من العناصر المتحركة ، مثل خادم Kubernetes الضروري للتعامل مع الإصدار المجاني من Pachyderm ، فهناك منحنى تعليمي أكثر حدة.
- قد يكون من الصعب دمج Pachyderm في البنية التحتية الحالية للشركة بسبب مكوناتها التكنولوجية العديدة.
التسعير
يمكنك البدء في استخدام النظام الأساسي مع جلسة المجتمع ولإصدار المؤسسة ، يجب عليك الاتصال بالبائع.
7. نبتون
تتم إدارة البيانات الوصفية لبناء النموذج بواسطة مخزن بيانات تعريف ML ، وهو جانب مهم من مكدس MLOps. لكل سير عمل MLOps ، يعمل Neptune كتخزين بيانات وصفية مركزي.
يمكنك تتبع الآلاف من نماذج التعلم الآلي وتصورها ومقارنتها في مكان واحد. يتضمن ميزات مثل تتبع التجربة ، وتسجيل النموذج ، ومراقبة النموذج ، بالإضافة إلى واجهة تعاونية. يتضمن أكثر من 25 أداة ومكتبات مختلفة متكاملة ، بما في ذلك العديد من نماذج التدريب وأدوات ضبط المعامل الفائق.
يمكنك الانضمام إلى Neptune دون استخدام بطاقتك الائتمانية. حساب Gmail سيكون كافيا في مكانه.
الايجابيات
- يعد التكامل مع أي خط أنابيب أو تدفق أو قاعدة بيانات أو إطار عمل أمرًا بسيطًا.
- تصورات الوقت الفعلي وواجهة برمجة التطبيقات السهلة والدعم السريع
- باستخدام Neptune ، يمكنك عمل "نسخة احتياطية" من جميع بيانات تجاربك في مكان واحد ، والتي يمكنك استعادتها لاحقًا.
سلبيات
- على الرغم من أن الإصدار الفردي ليس مفتوح المصدر تمامًا ، إلا أنه من المفترض أن يكون كافياً للاستخدام الخاص ، على الرغم من أن هذا الوصول يقتصر على شهر واحد.
- هناك عدد قليل من عيوب التصميم الصغيرة التي يمكن العثور عليها.
التسعير
يمكنك البدء في استخدام النظام الأساسي مع الخطة الفردية التي يمكن استخدامها مجانًا للجميع. يبدأ قسم التسعير من 150 دولارًا في الشهر.
وفي الختام
في هذا المنشور ، ناقشنا أفضل أدوات تعيين إصدارات البيانات. كل أداة ، كما رأينا ، لها مجموعة ميزاتها الخاصة. كان بعضها مجانيًا ، بينما طلب البعض الآخر الدفع. بعضها مناسب تمامًا لنموذج الأعمال الصغيرة ، بينما يتناسب البعض الآخر بشكل أفضل مع نموذج الأعمال الكبير.
نتيجة لذلك ، يجب عليك تحديد أفضل البرامج لأغراضك بعد الموازنة بين المزايا والعيوب. نحن نشجعك على اختبار الإصدار التجريبي المجاني قبل شراء منتج متميز.
اترك تعليق