تعتمد معظم نماذج التعلم الآلي والتعلم العميق بشكل كبير على كمية البيانات وتنوعها لتعمل بشكل جيد. حجم وتنوع البيانات المقدمة أثناء التدريب له تأثير كبير على دقة التنبؤ لهذه النماذج.
غالبًا ما تشتمل نماذج التعلم العميق التي تم تعليمها لأداء المهام المعقدة بشكل فعال على الخلايا العصبية المخفية. يزداد عدد المعلمات القابلة للتدريب وفقًا لعدد الخلايا العصبية المخفية.
يتناسب حجم البيانات المطلوبة مع عدد معلمات النموذج القابلة للتعلم. تتمثل إحدى طرق التعامل مع صعوبة البيانات المحدودة في تطبيق مجموعة متنوعة من التحويلات على البيانات الحالية لتجميع بيانات جديدة.
يشار إلى تقنية تجميع البيانات الجديدة من البيانات الموجودة باسم "زيادة البيانات". يمكن استخدام زيادة البيانات لتلبية كلا المطلبين: حجم البيانات وتنوع بيانات التدريب المطلوبة لتطوير دقيق التعلم الآلي أو نماذج التعلم العميق.
في هذا المنشور ، سنلقي نظرة فاحصة على زيادة البيانات وأنواعها وسبب أهميتها وغير ذلك الكثير.
إذن ، ما هي زيادة البيانات؟
زيادة البيانات هي عملية تطوير بيانات تمثيلية جديدة من البيانات الموجودة. يمكنك تحقيق ذلك من خلال تضمين إصدارات معدلة من البيانات الموجودة أو توليف بيانات جديدة.
ستعمل مجموعات البيانات التي تنتجها هذه الطريقة على تحسين التعلم الآلي أو نماذج التعلم العميق عن طريق تقليل مخاطر فرط التجهيز. إنها عملية تغيير أو "زيادة" مجموعة بيانات بمعلومات إضافية.
قد تتراوح هذه المدخلات التكميلية من الصور إلى النص ، وتعزز أداء أنظمة التعلم الآلي.
افترض أننا نريد بناء نموذج لتصنيف سلالات الكلاب ولدينا عدد كبير من الصور لجميع الأصناف باستثناء الصلصال. نتيجة لذلك ، سيواجه النموذج صعوبة في تصنيف الصلصال.
يمكننا إضافة صور الصلصال الإضافية (الفعلية أو الخاطئة) إلى المجموعة ، أو يمكننا مضاعفة صور الصلصال الحالية (على سبيل المثال عن طريق نسخها وتشويهها لجعلها فريدة بشكل مصطنع).
ما فائدة زيادة البيانات في الوقت الحاضر؟
طلبات آلة التعلم تتطور وتتنوع بسرعة ، لا سيما في مجال التعلم العميق. يمكن التغلب على التحديات التي تواجه صناعة الذكاء الاصطناعي من خلال تقنيات زيادة البيانات.
يمكن أن تؤدي زيادة البيانات إلى تحسين أداء ونتائج نماذج التعلم الآلي عن طريق إضافة أمثلة جديدة ومتنوعة إلى مجموعات بيانات التدريب.
عندما تكون مجموعة البيانات كبيرة وكافية ، يعمل نموذج التعلم الآلي بشكل أفضل وأكثر دقة. بالنسبة لنماذج التعلم الآلي ، قد يكون جمع البيانات ووضع العلامات مستهلكًا للوقت ومكلفًا.
يمكن للشركات تقليل تكاليفها التشغيلية عن طريق تغيير مجموعات البيانات واستخدام استراتيجيات زيادة البيانات.
يعد تنظيف البيانات إحدى مراحل تطوير نموذج البيانات ، وهو ضروري للنماذج عالية الدقة. ومع ذلك ، لن يكون النموذج قادرًا على توقع المدخلات المناسبة من العالم الفعلي إذا أدى تنظيف البيانات إلى تقليل إمكانية التمثيل.
يمكن تعزيز نماذج التعلم الآلي من خلال استخدام مناهج زيادة البيانات ، والتي تنتج تباينات يمكن أن يواجهها النموذج في العالم الفعلي.
أنواع زيادة البيانات
زيادة البيانات الحقيقية
تحدث زيادة البيانات الحقيقية عند إضافة بيانات تكميلية أصلية إلى مجموعة بيانات. يمكن أن يتراوح هذا من ملفات نصية بسمات إضافية (للصور ذات العلامات) إلى صور كائنات أخرى مماثلة للكائن الأصلي ، أو حتى تسجيلات الشيء الفعلي.
على سبيل المثال ، بإضافة بعض الميزات الأخرى إلى ملف صورة ، يمكن لنموذج التعلم الآلي اكتشاف العنصر بسهولة أكبر.
قد يتم تضمين المزيد من البيانات الوصفية حول كل صورة (على سبيل المثال ، اسمها ووصفها) حتى يعرف نموذج الذكاء الاصطناعي الخاص بنا المزيد حول ما تمثله كل صورة قبل أن يبدأ التدريب على تلك الصور.
عندما يحين وقت تصنيف الصور الجديدة في إحدى الفئات المحددة مسبقًا ، مثل "القط" أو "الكلب" ، يمكن أن يكون النموذج قادرًا بشكل أفضل على اكتشاف العناصر الموجودة في الصورة وتحقيق أداء أفضل بشكل عام نتيجة لذلك.
البيانات التركيبية زيادة
بصرف النظر عن إضافة المزيد من البيانات الحقيقية ، يمكنك أيضًا المساهمة البيانات الاصطناعية أو بيانات اصطناعية تبدو حقيقية.
يعد هذا مفيدًا للمهام الصعبة مثل نقل النمط العصبي ، ولكنه مفيد أيضًا لأي تصميم ، سواء كنت تستخدم شبكات GAN (شبكات الخصومة التوليفية) أو شبكات CNN (الشبكات العصبية التلافيفية) أو غيرها من بنى الشبكات العصبية العميقة.
على سبيل المثال ، إذا أردنا تصنيف كلاب البج بشكل صحيح دون الحاجة إلى الخروج والتقاط عدد من الصور ، فيمكننا إضافة بعض صور الصلصال الزائفة إلى مجموعة من صور الكلاب.
هذا الشكل من زيادة البيانات فعال بشكل خاص لتعزيز دقة النموذج عندما يكون جمع البيانات صعبًا أو مكلفًا أو يستغرق وقتًا طويلاً. في هذه الحالة ، نقوم بتوسيع مجموعة البيانات بشكل مصطنع.
افترض أن مجموعتنا الأولية المكونة من 1000 صورة فوتوغرافية لسلالة الكلاب تحتوي فقط على 5 صور للصلصال. بدلاً من إضافة صور فعلية إضافية لكلاب البج من كلاب حقيقية ، فلنقم بإنشاء صورة مزيفة عن طريق استنساخ إحدى الصور الحالية وتشويهها قليلاً بحيث لا تزال تبدو مثل الصلصال.
تقنيات زيادة البيانات
تستلزم مناهج زيادة البيانات إجراء تعديلات طفيفة على البيانات الموجودة. إنها نفس إعادة صياغة البيان. يمكننا تقسيم زيادة البيانات إلى ثلاث فئات:
نص
- استبدال الكلمات: يتضمن نهج زيادة البيانات هذا استبدال المصطلحات الحالية بالمرادفات. على سبيل المثال ، "هذا الفيلم أحمق" يمكن أن يصبح "هذا الفيلم أحمق".
- الجملة / تبديل الكلمات: تتضمن هذه الإستراتيجية تبديل تسلسل العبارات أو الكلمات مع الحفاظ على التماسك العام.
- معالجة بناء الجملة: يمكنك تغيير جملة موجودة لتكون دقيقة نحويًا أثناء استخدام نفس المصطلحات.
- الحذف العشوائي: على الرغم من أن هذه الإستراتيجية تنتج كتابة قبيحة ، إلا أنها فعالة. نتيجة لذلك ، يصبح السطر "لن أشتري هذا السجل لأنه مخدوش" يصبح "لن أشتري هذا لأنه مخدوش". العبارة أقل وضوحًا ، لكنها تظل إضافة معقولة.
- الترجمة العكسية: هذا النهج فعال وممتع. خذ إفادة مكتوبة بلغتك ، وقم بترجمتها إلى لغة أخرى ، ثم أعد ترجمتها إلى لغتك الأصلية.
الصور
- مرشحات Kernel: يؤدي هذا الأسلوب إلى زيادة وضوح الصورة أو تشويشها.
- مزيج الصور: على الرغم من أنه قد يبدو غريبًا ، يمكنك مزج الصور.
- المسح في عشوائي: احذف جزءًا صغيرًا من الصورة الحالية.
- التحولات الهندسية: يشمل هذا النهج ، من بين أمور أخرى ، التقليب التعسفي للصور أو تدويرها أو اقتصاصها أو ترجمتها.
- قلب الصورة: يمكنك قلب الصورة من الاتجاه الأفقي إلى الاتجاه الرأسي.
- تحويل مساحة اللون: يمكنك تعديل قنوات ألوان RGB أو تحسين أي لون حالي.
- إعادة القياس هي عملية تعديل المقياس المرئي. لديك خيار التحجيم داخل أو خارج. عندما تقوم بالقياس للداخل ، تصبح الصورة أصغر من الحجم الأولي. ستكون الصورة أكبر من الصورة الأصلية إذا قمت بقياسها للخارج.
Audio
- الملعب: يتضمن هذا النهج تغيير درجة الصوت.
- تغيير السرعة: قم بتغيير سرعة ملف الصوت أو التسجيل.
- مزيد من الضوضاء: يمكنك إضافة المزيد من الضوضاء إلى ملف الصوت.
استخدام القضية
التصوير الطبي هو حالة استخدام بارزة لزيادة البيانات في الوقت الحالي. مجموعات الصور الطبية صغيرة ، ومن الصعب مشاركة البيانات بسبب القواعد ومخاوف الخصوصية.
علاوة على ذلك ، تكون مجموعات البيانات أكثر تقييدًا في حالة الاضطرابات غير الشائعة. تستخدم شركات التصوير الطبي زيادة البيانات لتنويع مجموعات بياناتها.
التحديات
تعد قابلية التوسع ومجموعات البيانات المتنوعة والأهمية بعض المشكلات التي يجب حلها من أجل تطوير تقنيات زيادة البيانات الفعالة.
من حيث قابلية التوسع ، يجب أن تكون البيانات المعززة قابلة للتطوير بحيث يمكن للعديد من النماذج المختلفة استخدامها. ستحتاج إلى التأكد من إمكانية تكرار ذلك للاستخدام في النماذج المستقبلية نظرًا لأن إعداد نظام زيادة البيانات الذي ينشئ قدرًا كبيرًا من البيانات ذات الصلة والقيمة والمحسّنة قد يستغرق بعض الوقت.
من حيث عدم التجانس ، تتميز مجموعات البيانات المختلفة بسمات مميزة يجب أخذها في الاعتبار أثناء تطوير البيانات المعززة. لتطوير البيانات المحسّنة المناسبة ، يجب استخدام خصائص كل مجموعة بيانات.
بمعنى آخر ، ستختلف زيادة البيانات بين مجموعات البيانات وحالات الاستخدام.
أخيرًا ، لضمان أن مزايا البيانات المتزايدة تتجاوز أي مخاطر ، يجب تقييم البيانات المعززة باستخدام المقاييس المناسبة قبل استخدامها بواسطة نماذج التعلم الآلي.
على سبيل المثال ، قد يكون لوجود ضوضاء كبيرة في الخلفية أو عناصر غير ذات صلة في البيانات المعززة القائمة على الصورة تأثير ضار على أداء النموذج.
وفي الختام
في النهاية ، سواء كنت تحاول التنبؤ بالخسارة ، أو تحديد الاحتيال المالي ، أو البناء بشكل أفضل تصنيف الصورة النماذج ، تعد زيادة البيانات طريقة مهمة لبناء نماذج أكثر دقة وقوة.
من خلال إجراء تدريب متفوق ، يمكن للمعالجة المسبقة البسيطة وزيادة البيانات مساعدة الفرق في تطوير النماذج المتطورة.
يمكن للشركات الاستفادة من زيادة البيانات لتقليل مقدار الوقت المستغرق في إعداد بيانات التدريب وإنشاء نماذج تعلم آلي أكثر دقة وسرعة.
من خلال توسيع كمية البيانات ذات الصلة في مجموعة البيانات ، يمكن أن تفيد زيادة البيانات أيضًا نماذج التعلم الآلي التي تحتوي بالفعل على الكثير من البيانات.
اترك تعليق