جدول المحتويات[يخفي][يعرض]
غالبًا ما يواجه الباحثون وعلماء البيانات ظروفًا إما لا يمتلكون فيها البيانات الفعلية أو لا يمكنهم استخدامها بسبب اعتبارات السرية أو الخصوصية.
لمعالجة هذه المشكلة ، يتم استخدام إنتاج البيانات التركيبية لإنتاج بديل للبيانات الأصلية.
مطلوب الاستبدال المناسب للبيانات الأصلية حتى تعمل الخوارزمية بشكل صحيح ، والتي يجب أن تكون أيضًا واقعية في طبيعتها. يمكنك استخدام هذه البيانات للحفاظ على الخصوصية أو اختبار الأنظمة أو إنتاج بيانات التدريب لخوارزميات التعلم الآلي.
دعنا نستكشف توليد البيانات التركيبية بالتفصيل ونرى سبب أهميتها في عصر الذكاء الاصطناعي.
ما هي البيانات التركيبية؟
البيانات التركيبية هي بيانات مشروحة تم إنشاؤها بواسطة عمليات محاكاة الكمبيوتر أو الخوارزميات كبديل لبيانات العالم الحقيقي. إنها نسخة طبق الأصل من البيانات الفعلية تم إنشاؤها بواسطة الذكاء الاصطناعي.
قد يستخدم المرء أنماط البيانات والأبعاد باستخدام خوارزميات الذكاء الاصطناعي المتقدمة. يمكنهم إنشاء كمية غير محدودة من البيانات التركيبية التي تمثل إحصائيًا بيانات التدريب الأصلية بمجرد تدريبهم.
هناك مجموعة متنوعة من الأساليب والتقنيات التي يمكن أن تساعدنا في إنشاء بيانات تركيبية ويمكنك استخدامها في مجموعة متنوعة من التطبيقات.
تتطلب برامج توليد البيانات غالبًا:
- البيانات الوصفية لمستودع البيانات ، والتي يجب إنشاء بيانات تركيبية لها.
- تقنية لتوليد قيم معقولة ولكن خيالية. تشمل الأمثلة قوائم القيم والتعبيرات العادية.
- الوعي الشامل بجميع علاقات البيانات ، تلك المعلنة على مستوى قاعدة البيانات وكذلك تلك التي يتم التحكم فيها على مستوى كود التطبيق.
من الضروري أيضًا التحقق من صحة النموذج ومقارنة الجوانب السلوكية للبيانات الحقيقية بتلك التي تم إنشاؤها بواسطة النموذج.
مجموعات البيانات الوهمية هذه لها كل قيمة الشيء الحقيقي ، ولكن لا تحتوي على أي من البيانات الحساسة. إنها مثل كعكة لذيذة وخالية من السعرات الحرارية. يصور بدقة العالم الفعلي.
نتيجة لذلك ، يمكنك استخدامه لاستبدال بيانات العالم الحقيقي.
أهمية البيانات التركيبية
تتميز البيانات التركيبية بخصائص تناسب متطلبات أو مواقف معينة قد لا تكون متاحة في بيانات العالم الحقيقي. عندما يكون هناك ندرة في البيانات للاختبار أو عندما تكون الخصوصية هي الاعتبار الأول ، فإن الأمر يتعلق بالإنقاذ.
مجموعات البيانات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي قابلة للتكيف وآمنة وسهلة التخزين والتبادل والتجاهل. تعد تقنية تجميع البيانات مناسبة لتقسيم البيانات الأصلية وتحسينها.
نتيجة لذلك ، فهو مثالي للاستخدام كبيانات اختبار وبيانات تدريب على الذكاء الاصطناعي.
- لتعليم Uber و سيارات تسلا ذاتية القيادة.
- في الصناعات الطبية والرعاية الصحية ، لتقييم أمراض وظروف معينة لا توجد بيانات حقيقية عنها.
- يعد الكشف عن الاحتيال وحمايته أمرًا بالغ الأهمية في القطاع المالي. باستخدامه ، يمكنك التحقيق في حالات احتيالية جديدة.
- تقوم أمازون بتدريب نظام لغة Alexa باستخدام البيانات التركيبية.
- تستخدم أمريكان إكسبريس البيانات المالية التركيبية لتحسين اكتشاف الاحتيال.
أنواع البيانات التركيبية
يتم إنشاء البيانات التركيبية بشكل عشوائي بهدف إخفاء المعلومات الخاصة الحساسة مع الاحتفاظ بالمعلومات الإحصائية حول الخصائص في البيانات الأصلية.
يتكون بشكل أساسي من ثلاثة أنواع:
- بيانات تركيبية بالكامل
- بيانات تركيبية جزئيًا
- البيانات التركيبية الهجينة
1. البيانات التركيبية بالكامل
يتم إنشاء هذه البيانات بالكامل ولا تحتوي على بيانات أصلية.
عادةً ما يحدد مُنشئ البيانات لهذا النوع وظائف الكثافة للميزات في البيانات الحقيقية ويقدر معلماتها. في وقت لاحق ، من وظائف الكثافة المتوقعة ، يتم إنشاء سلاسل محمية للخصوصية بشكل عشوائي لكل ميزة.
إذا تم اختيار بعض خصائص البيانات الفعلية لاستبدالها بها ، فسيتم تعيين السلسلة المحمية من هذه الميزات على الميزات المتبقية من البيانات الحقيقية لترتيب السلاسل المحمية والحقيقية بنفس الترتيب.
تعد تقنيات Bootstrap والافتراضات المتعددة طريقتين تقليديتين لإنتاج بيانات تركيبية بالكامل.
نظرًا لأن البيانات تركيبية تمامًا ولا توجد بيانات حقيقية ، توفر هذه الإستراتيجية حماية خصوصية ممتازة مع الاعتماد على مصداقية البيانات.
2. البيانات التركيبية جزئيا
تستخدم هذه البيانات القيم التركيبية فقط لاستبدال قيم بعض الميزات الحساسة.
في هذه الحالة ، لا يتم تغيير القيم الحقيقية إلا إذا كان هناك خطر كبير من التعرض. تم إجراء هذا التغيير لحماية خصوصية البيانات التي تم إنشاؤها حديثًا.
تُستخدم مناهج التضمين والنماذج المتعددة لإنتاج بيانات تركيبية جزئيًا. يمكن أيضًا استخدام هذه الطرق لملء القيم المفقودة في بيانات العالم الحقيقي.
3. البيانات التركيبية الهجينة
تتضمن البيانات التركيبية المختلطة كلاً من البيانات الفعلية والمزيفة.
يتم اختيار سجل قريب فيه لكل سجل عشوائي للبيانات الحقيقية ، ثم يتم ضم الاثنين لإنشاء بيانات مختلطة. فهي تتمتع بفوائد البيانات التركيبية كليًا والبيانات التركيبية جزئيًا.
لذلك فهو يوفر حماية قوية للخصوصية مع فائدة عالية عند مقارنته بالاثنين الآخرين ، ولكن على حساب المزيد من الذاكرة ووقت المعالجة.
تقنيات توليد البيانات التركيبية
لسنوات عديدة ، كان مفهوم البيانات المصنعة آليًا شائعًا. الآن هو ينضج.
فيما يلي بعض الأساليب المستخدمة لإنشاء بيانات تركيبية:
1. على أساس التوزيع
في حالة عدم وجود بيانات حقيقية ، لكن لدى محلل البيانات فكرة شاملة عن كيفية ظهور توزيع مجموعة البيانات ؛ يمكنهم إنتاج عينة عشوائية من أي توزيع ، بما في ذلك عادي ، وأسي ، ومربع كاي ، و t ، ولوغاريتمي عادي ، وموحد.
تختلف قيمة البيانات التركيبية في هذه الطريقة اعتمادًا على مستوى فهم المحلل لبيئة بيانات معينة.
2. بيانات العالم الحقيقي في توزيع معروف
يمكن للشركات إنتاجها من خلال تحديد أفضل التوزيعات المناسبة لبيانات حقيقية معينة إذا كانت هناك بيانات حقيقية.
يمكن للشركات استخدام نهج مونت كارلو لإنتاجه إذا كانوا يرغبون في ملاءمة البيانات الحقيقية في توزيع معروف ومعرفة معلمات التوزيع.
على الرغم من أن نهج مونت كارلو يمكن أن يساعد الشركات في تحديد أكبر تطابق متاح ، إلا أن أفضل ملاءمة قد لا تكون ذات فائدة كافية لاحتياجات الشركة من البيانات التركيبية.
قد تستكشف الشركات استخدام نماذج التعلم الآلي لتناسب التوزيعات في هذه الظروف.
تمكن تقنيات التعلم الآلي ، مثل أشجار القرار ، المنظمات من نمذجة التوزيعات غير الكلاسيكية ، والتي قد تكون متعددة الوسائط وتفتقر إلى الخصائص المشتركة للتوزيعات المعترف بها.
قد تنتج الشركات بيانات تركيبية تتصل بالبيانات الأصلية باستخدام هذا التوزيع المجهز للتعلم الآلي.
ومع ذلك، نماذج التعلم الآلي عرضة للتركيب الزائد ، مما يؤدي إلى فشلهم في مطابقة البيانات الجديدة أو توقع الملاحظات المستقبلية.
3. التعلم العميق
يمكن أن تنتج النماذج التوليدية العميقة مثل Variational Autoencoder (VAE) وشبكة الخصومة التوليدية (GAN) بيانات تركيبية.
ترميز تلقائي متنوع
يعد VAE أسلوبًا غير خاضع للإشراف يضغط فيه المشفر على مجموعة البيانات الأصلية ويرسل البيانات إلى وحدة فك التشفير.
ثم ينتج عن وحدة فك التشفير ناتج يمثل مجموعة البيانات الأصلية.
يتضمن تدريس النظام تعظيم الارتباط بين بيانات الإدخال والإخراج.
شبكة الخصومة التوليدية
يقوم نموذج GAN بتدريب النموذج بشكل متكرر باستخدام شبكتين ، المولد والمميز.
يُنشئ المولد مجموعة بيانات تركيبية من مجموعة بيانات عينة عشوائية.
يقارن Discriminator البيانات التي تم إنشاؤها صناعيًا بمجموعة بيانات حقيقية باستخدام شروط محددة مسبقًا.
موفرو البيانات التركيبية
منظم البيانات
توفر الأنظمة الأساسية المذكورة أدناه بيانات تركيبية مشتقة من بيانات جدولية.
يقوم بتكرار بيانات العالم الحقيقي المحفوظة في الجداول ويمكن استخدامها للتحليل السلوكي أو التنبؤي أو المعاملات.
- غرس الذكاء الاصطناعي: هو مزود لنظام إنشاء البيانات التركيبية الذي يستخدم شبكات الخصومة التوليدية والخصوصية التفاضلية.
- بيانات أفضل: هو مزود لحل البيانات التركيبية الذي يحافظ على الخصوصية للذكاء الاصطناعي ومشاركة البيانات وتطوير المنتجات.
- ديفيبال: هو مزود Geminai ، وهو نظام لإنشاء مجموعات بيانات "ثنائية" بنفس الميزات الإحصائية مثل البيانات الأصلية.
بيانات غير منظمة
تعمل المنصات المذكورة أدناه ببيانات غير منظمة ، وتوفر سلع وخدمات بيانات تركيبية لتدريب خوارزميات الرؤية والاستطلاع.
- داتاجين: يوفر بيانات تدريب محاكاة ثلاثية الأبعاد لتعلم وتطوير الذكاء الاصطناعي المرئي.
- نيورولابس: Neurolabs هو مزود لمنصة البيانات الاصطناعية رؤية الكمبيوتر.
- المجال الموازي: هو مزود لمنصة بيانات تركيبية لتدريب النظام الذاتي واختبار حالات الاستخدام.
- كوغناتا: إنها مورد محاكاة لـ ADAS ومطوري المركبات المستقلة.
- بيفروست: يوفر واجهات برمجة تطبيقات للبيانات الاصطناعية لإنشاء بيئات ثلاثية الأبعاد.
التحديات
لها تاريخ طويل في الذكاء الاصطناعي، وعلى الرغم من أنها تتمتع بالعديد من المزايا ، إلا أن لها أيضًا عيوبًا كبيرة تحتاج إلى معالجتها أثناء العمل مع البيانات التركيبية.
وهنا بعض منها:
- قد يكون هناك الكثير من الأخطاء أثناء نسخ التعقيد من البيانات الفعلية إلى البيانات التركيبية.
- إن الطبيعة المرنة لها تؤدي إلى التحيز في سلوكها.
- قد تكون هناك بعض العيوب الخفية في أداء الخوارزميات المدربة باستخدام تمثيلات مبسطة للبيانات التركيبية التي ظهرت مؤخرًا أثناء التعامل مع البيانات الفعلية.
- يمكن أن يصبح تكرار جميع السمات ذات الصلة من بيانات العالم الحقيقي أمرًا معقدًا. من الممكن أيضًا أن يتم التغاضي عن بعض الجوانب الأساسية خلال هذه العملية.
وفي الختام
من الواضح أن إنتاج البيانات التركيبية يثير انتباه الناس.
قد لا تكون هذه الطريقة إجابة ذات مقاس واحد يناسب الجميع لجميع حالات إنشاء البيانات.
إلى جانب ذلك ، قد تتطلب التقنية ذكاءً عبر AI / ML وتكون قادرة على التعامل مع المواقف المعقدة في العالم الحقيقي لإنشاء بيانات مترابطة ، والبيانات المثالية مناسبة لمجال معين.
ومع ذلك ، فهي تقنية مبتكرة تملأ فجوة حيث تقصر تقنيات تمكين الخصوصية الأخرى.
اليوم اصطناعية قد يحتاج إنتاج البيانات إلى تواجد إخفاء البيانات.
في المستقبل ، قد يكون هناك تقارب أكبر بين الاثنين ، مما يؤدي إلى حل أكثر شمولاً لتوليد البيانات.
شارك بآرائك في التعليقات!
اترك تعليق