شرح البيانات التركيبية - الشيء الكبير التالي في AI و ML و DL

جدول المحتويات[يخفي][يعرض]

إذن ، ما هي البيانات التركيبية؟
ما مدى أهمية البيانات التركيبية ولماذا يجب استخدامها؟+-
البيانات الحقيقية مقابل البيانات الاصطناعية
استخدم حالات+-
البيانات التركيبية والتعلم الآلي
كيف يمكنك إنشاء بيانات تركيبية؟+-
تحديات وقيود البيانات التركيبية
Future
وفي الختام

التحليلات المتقدمة وبرامج التعلم الآلي مدفوعة بالبيانات ، لكن الوصول إلى هذه البيانات قد يكون صعبًا بالنسبة للأكاديميين بسبب تحديات الخصوصية وإجراءات العمل.

البيانات التركيبية ، التي يمكن مشاركتها واستخدامها بطرق لا يمكن للبيانات الفعلية القيام بها ، هي اتجاه جديد محتمل للمتابعة. ومع ذلك ، فإن هذه الاستراتيجية الجديدة لا تخلو من المخاطر أو العيوب ، لذلك من الضروري أن تفكر الشركات بعناية في مكان وكيفية استخدام مواردها.

في العصر الحالي للذكاء الاصطناعي ، يمكننا أيضًا أن نقول أن البيانات هي النفط الجديد ، لكن قلة مختارة فقط هي التي تجلس على الهاوية. لذلك ، ينتج الكثير من الناس وقودهم بأنفسهم ، وهو وقود ميسور التكلفة وفعال. تُعرف باسم البيانات التركيبية.

في هذا المنشور ، سنلقي نظرة مفصلة على البيانات التركيبية - لماذا يجب عليك استخدامها ، وكيفية إنتاجها ، وما الذي يجعلها مختلفة عن البيانات الفعلية ، وما هي حالات الاستخدام التي يمكن أن تخدمها ، وأكثر من ذلك بكثير.

إذن ، ما هي البيانات التركيبية؟

عندما تكون مجموعات البيانات الأصلية غير كافية من حيث الجودة أو العدد أو التنوع ، يمكن استخدام البيانات التركيبية لتدريب نماذج الذكاء الاصطناعي بدلاً من البيانات التاريخية الحقيقية.

عندما لا تفي البيانات الحالية بمتطلبات العمل أو تنطوي على مخاطر تتعلق بالخصوصية عند استخدامها للتطوير آلة التعلم النماذج أو برامج الاختبار أو ما شابه ذلك ، يمكن أن تكون البيانات التركيبية أداة مهمة لجهود الشركات في مجال الذكاء الاصطناعي.

ببساطة ، يتم استخدام البيانات التركيبية بشكل متكرر بدلاً من البيانات الفعلية. بتعبير أدق ، هي البيانات التي تم تمييزها بشكل مصطنع وإنتاجها بواسطة عمليات المحاكاة أو خوارزميات الكمبيوتر.

البيانات التركيبية

البيانات التركيبية هي المعلومات التي تم إنشاؤها بواسطة برنامج كمبيوتر بشكل مصطنع وليس نتيجة لوقائع فعلية. يمكن للشركات إضافة بيانات تركيبية إلى بيانات التدريب الخاصة بهم لتغطية جميع حالات الاستخدام والحافة ، أو تقليل تكلفة جمع البيانات ، أو تلبية لوائح الخصوصية.

أصبح الوصول إلى البيانات الاصطناعية الآن أكثر سهولة من أي وقت مضى بفضل التحسينات في قوة المعالجة وطرق تخزين البيانات مثل السحابة. تعمل البيانات التركيبية على تحسين إنشاء حلول الذكاء الاصطناعي التي تكون أكثر فائدة لجميع المستخدمين النهائيين ، وهذا بلا شك تطور جيد.

ما مدى أهمية البيانات التركيبية ولماذا يجب استخدامها؟

عند تدريب نماذج الذكاء الاصطناعي ، يحتاج المطورون في كثير من الأحيان إلى مجموعات بيانات ضخمة ذات تصنيف دقيق. عندما يتم تدريسها بمزيد من البيانات المتنوعة ، الشبكات العصبية أداء أكثر دقة.

ومع ذلك ، فإن جمع مجموعات البيانات الضخمة هذه التي تحتوي على مئات أو حتى ملايين العناصر وتصنيفها ، يمكن أن يكون مستهلكًا للوقت والمال بشكل غير معقول. يمكن تخفيض سعر إنتاج بيانات التدريب بشكل كبير باستخدام البيانات التركيبية. على سبيل المثال ، إذا تم إنشاؤها بشكل مصطنع ، فإن صورة التدريب تكلف 5 دولارات عند شرائها من ملف مزود تسمية البيانات قد تكلف 0.05 دولار فقط.

يمكن للبيانات التركيبية أن تخفف من مخاوف الخصوصية المتعلقة بالبيانات الحساسة المحتملة التي تم إنشاؤها من العالم الفعلي مع تقليل النفقات أيضًا.

بالمقارنة مع البيانات الحقيقية ، التي لا يمكن أن تعكس بدقة النطاق الكامل للحقائق حول العالم الحقيقي ، فقد تساعد في تقليل التحيز. من خلال توفير أحداث غير عادية تمثل احتمالات معقولة ولكن قد يكون من الصعب الحصول عليها من بيانات مشروعة ، يمكن أن توفر البيانات التركيبية تنوعًا أكبر.

قد تكون البيانات التركيبية مناسبة بشكل رائع لمشروعك للأسباب المذكورة أدناه:

1. متانة النموذج

دون الحاجة إلى الحصول عليها ، يمكنك الوصول إلى المزيد من البيانات المتنوعة لنماذجك. باستخدام البيانات التركيبية ، يمكنك تدريب النموذج الخاص بك باستخدام أشكال مختلفة من نفس الشخص مع مختلف قصات الشعر ، وشعر الوجه ، والنظارات ، وأوضاع الرأس ، وما إلى ذلك ، بالإضافة إلى لون البشرة ، والسمات العرقية ، وهيكل العظام ، والنمش ، وخصائص أخرى لتكوين خصائص فريدة. وجوه وتقويتها.

2. تؤخذ حالات الحافة في الاعتبار

النظام الغذائي المتوازن أو يفضل التعلم الآلي مجموعة البيانات الخوارزميات. فكر في العودة إلى مثالنا في التعرف على الوجوه. كان من الممكن أن تتحسن دقة نماذجهم (وفي الواقع ، فعلت بعض هذه الشركات هذا بالضبط) ، وكانوا قد أنتجوا نموذجًا أخلاقيًا أكثر إذا كانوا قد أنتجوا بيانات تركيبية لوجوه ذات بشرة داكنة لملء فجوات البيانات الخاصة بهم. يمكن للفرق تغطية جميع حالات الاستخدام ، بما في ذلك حالات الحافة التي تكون فيها البيانات نادرة أو غير موجودة ، وذلك بمساعدة البيانات التركيبية.

3. يمكن الحصول عليها بسرعة أكبر من البيانات "الفعلية"

تستطيع الفرق إنشاء كميات هائلة من البيانات التركيبية بسرعة. يكون هذا مفيدًا بشكل خاص عندما تعتمد بيانات الحياة الواقعية على أحداث متفرقة. قد تجد الفرق صعوبة في الحصول على بيانات كافية من العالم الحقيقي حول ظروف الطريق القاسية أثناء جمع البيانات لسيارة ذاتية القيادة ، على سبيل المثال ، بسبب ندرتها. من أجل تسريع عملية التعليقات التوضيحية الشاقة ، يمكن لعلماء البيانات وضع خوارزميات لتصنيف البيانات التركيبية تلقائيًا عند إنشائها.

4. يؤمن معلومات خصوصية المستخدم

قد تواجه الشركات صعوبات أمنية أثناء التعامل مع البيانات الحساسة ، اعتمادًا على النشاط التجاري ونوع البيانات. يتم تضمين المعلومات الصحية الشخصية (PHI) ، على سبيل المثال ، بشكل متكرر في بيانات المرضى الداخليين في صناعة الرعاية الصحية ويجب التعامل معها بأقصى درجات الأمان.

نظرًا لأن البيانات التركيبية لا تتضمن معلومات حول الأشخاص الفعليين ، يتم تقليل مشكلات الخصوصية. ضع في اعتبارك استخدام البيانات التركيبية كبديل إذا كان على فريقك الالتزام بقوانين معينة لخصوصية البيانات.

البيانات الحقيقية مقابل البيانات الاصطناعية

في العالم الحقيقي ، يتم الحصول على بيانات حقيقية أو قياسها. عندما يستخدم شخص ما هاتفًا ذكيًا أو كمبيوترًا محمولًا أو كمبيوترًا ، أو يرتدي ساعة يد ، أو يصل إلى موقع ويب ، أو يقوم بإجراء معاملة عبر الإنترنت ، يتم إنشاء هذا النوع من البيانات على الفور.

بالإضافة إلى ذلك ، يمكن استخدام الاستطلاعات لتوفير بيانات حقيقية (عبر الإنترنت وغير متصل). تنتج الإعدادات الرقمية بيانات تركيبية. باستثناء الجزء الذي لم يتم اشتقاقه من أي أحداث في العالم الحقيقي ، يتم إنشاء البيانات التركيبية بطريقة تحاكي بنجاح البيانات الفعلية من حيث الصفات الأساسية.

تعد فكرة استخدام البيانات التركيبية كبديل للبيانات الفعلية واعدة للغاية حيث يمكن استخدامها لتوفير بيانات التدريب التي تعلم الآلة تتطلب النماذج. لكن ليس من المؤكد ذلك الذكاء الاصطناعي يمكن أن تحل كل مشكلة تنشأ في العالم الفعلي.

استخدم حالات

البيانات التركيبية مفيدة لمجموعة متنوعة من الأغراض التجارية ، بما في ذلك التدريب على النموذج ، والتحقق من صحة النموذج ، واختبار المنتجات الجديدة. سنقوم بإدراج عدد قليل من القطاعات التي قادت الطريق في تطبيقه على التعلم الآلي:

1. الرعاية الصحية

نظرًا لحساسية بياناته ، فإن قطاع الرعاية الصحية مناسب تمامًا لاستخدام البيانات التركيبية. يمكن استخدام البيانات التركيبية من قبل الفرق لتسجيل فسيولوجيا كل نوع من المرضى قد يكون موجودًا ، وبالتالي المساعدة في التشخيص الأسرع والأكثر دقة للأمراض.

الرعاية الصحية

يُعد نموذج اكتشاف سرطان الجلد من Google مثالًا مثيرًا للاهتمام لهذا لأنه يشتمل على بيانات تركيبية للأشخاص ذوي البشرة الداكنة (وهي منطقة من البيانات السريرية غير ممثلة بشكل كافٍ للأسف) لتزويد النموذج بالقدرة على العمل بفعالية لجميع أنواع البشرة.

2. سيارات

كثيرًا ما تستخدم المحاكيات من قبل الشركات التي تصنع سيارات ذاتية القيادة لتقييم الأداء. عندما يكون الطقس قاسيًا ، على سبيل المثال ، قد يكون جمع بيانات الطريق الحقيقية محفوفًا بالمخاطر أو صعبًا.

سيارة ذاتية القيادة

لا يعد الاعتماد على الاختبارات الحية مع السيارات الفعلية على الطرق فكرة جيدة بشكل عام نظرًا لوجود العديد من المتغيرات التي يجب مراعاتها في جميع مواقف القيادة المختلفة.

3. نقل البيانات

لتتمكن من مشاركة بيانات التدريب الخاصة بهم مع الآخرين ، تتطلب المنظمات أساليب موثوقة وآمنة. يعد إخفاء معلومات التعريف الشخصية (PII) قبل إتاحة مجموعة البيانات للجمهور تطبيقًا آخر مثيرًا للاهتمام للبيانات التركيبية. يشار إلى تبادل مجموعات بيانات البحث العلمي والبيانات الطبية والبيانات الاجتماعية والمجالات الأخرى التي يمكن أن تحتوي على معلومات تحديد الهوية الشخصية على أنها بيانات تركيبية تحافظ على الخصوصية.

4. الأمان

المنظمات أكثر أمانًا بفضل البيانات التركيبية. فيما يتعلق بمثال التعرف على الوجوه مرة أخرى ، قد تكون على دراية بعبارة "التزييف العميق" ، التي تصف الصور أو مقاطع الفيديو المزيفة. يمكن للشركات إنتاج المنتجات المزيفة العميقة لاختبار أنظمة التعرف على الوجه والأمان الخاصة بها. تُستخدم البيانات التركيبية أيضًا في المراقبة بالفيديو لتدريب النماذج بسرعة أكبر وبتكلفة أقل.

البيانات التركيبية والتعلم الآلي

لبناء نموذج قوي وجدير بالثقة ، تحتاج خوارزميات التعلم الآلي إلى قدر كبير من البيانات لتتم معالجتها. في غياب البيانات التركيبية ، سيكون إنتاج مثل هذا الحجم الكبير من البيانات أمرًا صعبًا.

في مجالات مثل رؤية الكمبيوتر أو معالجة الصور ، حيث يتم تسهيل تطوير النماذج من خلال تطوير البيانات التركيبية المبكرة ، يمكن أن تكون مهمة للغاية. تطور جديد في مجال التعرف على الصور هو استخدام شبكات الخصومة التوليدية (GANs). يتكون عادة من شبكتين: مولد ومميز.

بينما تهدف شبكة أداة التمييز إلى فصل الصور الفعلية عن الصور المزيفة ، تعمل شبكة المولد على إنتاج صور تركيبية تشبه إلى حد كبير صور العالم الحقيقي.

في التعلم الآلي ، تعد شبكات GAN مجموعة فرعية من عائلة الشبكة العصبية ، حيث تتعلم كلتا الشبكتين وتتطوران باستمرار عن طريق إضافة عقد وطبقات جديدة.

عند إنشاء بيانات تركيبية ، لديك خيار تغيير البيئة ونوع البيانات حسب الحاجة لتحسين أداء النموذج. في حين أن دقة البيانات التركيبية يمكن تحقيقها بسهولة من خلال نقاط قوية ، إلا أن دقة البيانات في الوقت الفعلي يمكن أن تكون باهظة الثمن في بعض الأحيان.

كيف يمكنك إنشاء بيانات تركيبية؟

الأساليب المستخدمة لإنشاء مجموعة بيانات تركيبية هي كما يلي:

بناء على التوزيع الإحصائي

تتمثل الإستراتيجية المستخدمة في هذه الحالة في أخذ الأرقام من التوزيع أو النظر إلى التوزيعات الإحصائية الفعلية من أجل إنشاء بيانات خاطئة تبدو قابلة للمقارنة. قد تكون البيانات الحقيقية غائبة تمامًا في بعض الظروف.

يمكن لعالم البيانات إنشاء مجموعة بيانات تحتوي على عينة عشوائية من أي توزيع إذا كان لديه فهم عميق للتوزيع الإحصائي في البيانات الفعلية. التوزيع الطبيعي ، والتوزيع الأسي ، وتوزيع مربع كاي ، والتوزيع اللوغاريتمي الطبيعي ، وأكثر من ذلك هي مجرد أمثلة قليلة لتوزيعات الاحتمالات الإحصائية التي يمكن استخدامها للقيام بذلك.

سيكون لمستوى خبرة عالم البيانات في الموقف تأثير كبير على دقة النموذج المدرب.

حسب النموذج

تبني هذه التقنية نموذجًا يراعي السلوك المرصود قبل استخدام هذا النموذج لتوليد بيانات عشوائية. في جوهره ، هذا ينطوي على ملاءمة البيانات الحقيقية لبيانات من توزيع معروف. يمكن بعد ذلك استخدام نهج مونت كارلو من قبل الشركات لإنشاء بيانات مزيفة.

بالإضافة إلى ذلك ، يمكن أيضًا تركيب التوزيعات باستخدام نماذج التعلم الآلي مثل أشجار القرار. علماء البيانات يجب الانتباه إلى التوقعات ، على الرغم من ذلك ، لأن أشجار القرار عادة ما تكون أكثر من اللازم بسبب بساطتها وتوسعها العميق.

مع التعلم العميق

تعلم عميق النماذج التي تستخدم نماذج التشفير التلقائي المتغير (VAE) أو نماذج شبكة الخصومة التوليدية (GAN) هما طريقتان لإنشاء بيانات تركيبية. تتضمن نماذج التعلم الآلي غير الخاضعة للإشراف نماذج التعلم الآلي (VAE).

وهي مكونة من أجهزة تشفير تعمل على تقليص وضغط البيانات الأصلية وأجهزة فك التشفير التي تقوم بفحص هذه البيانات لتوفير تمثيل للبيانات الحقيقية. يعد الحفاظ على بيانات الإدخال والإخراج متطابقة قدر الإمكان هو الهدف الأساسي لـ VAE. شبكتان عصبيتان متعارضتان هما نماذج GAN والشبكات المتعارضة.

الشبكة الأولى ، المعروفة باسم شبكة المولدات ، مسؤولة عن إنتاج بيانات مزيفة. تعمل شبكة التمييز ، الشبكة الثانية ، من خلال مقارنة البيانات التركيبية التي تم إنشاؤها بالبيانات الفعلية في محاولة لتحديد ما إذا كانت مجموعة البيانات احتيالية. يحذر المُميِّز المولد عندما يكتشف مجموعة بيانات زائفة.

يتم بعد ذلك تعديل الدفعة التالية من البيانات المقدمة إلى أداة التمييز بواسطة المولد. ونتيجة لذلك ، يتحسن المُميِّز بمرور الوقت في اكتشاف مجموعات البيانات الزائفة. يتم استخدام هذا النوع من النماذج بشكل متكرر في القطاع المالي للكشف عن الاحتيال وكذلك في قطاع الرعاية الصحية للتصوير الطبي.

زيادة البيانات هي طريقة مختلفة يستخدمها علماء البيانات لإنتاج المزيد من البيانات. ومع ذلك ، لا ينبغي الخلط بينه وبين البيانات المزيفة. ببساطة ، زيادة البيانات هي عملية إضافة بيانات جديدة إلى مجموعة بيانات حقيقية موجودة بالفعل.

إنشاء عدة صور من صورة واحدة ، على سبيل المثال ، عن طريق ضبط الاتجاه والسطوع والتكبير وغير ذلك. في بعض الأحيان ، يتم استخدام مجموعة البيانات الفعلية مع المعلومات الشخصية المتبقية فقط. إخفاء هوية البيانات هو ما هو عليه ، وبالمثل لا ينبغي اعتبار مجموعة من هذه البيانات على أنها بيانات تركيبية.

تحديات وقيود البيانات التركيبية

على الرغم من أن البيانات التركيبية لها فوائد مختلفة يمكن أن تساعد الشركات في أنشطة علوم البيانات ، إلا أن لها أيضًا قيودًا معينة:

موثوقية البيانات: من المعروف أن كل نموذج للتعلم الآلي / التعلم العميق يكون جيدًا فقط مثل البيانات التي يتم تغذيتها. ترتبط جودة البيانات التركيبية في هذا السياق ارتباطًا وثيقًا بجودة بيانات الإدخال والنموذج المستخدم لإنتاج البيانات. من الأهمية بمكان التأكد من عدم وجود تحيزات في بيانات المصدر ، حيث يمكن عكسها بوضوح شديد في البيانات التركيبية. علاوة على ذلك ، قبل إجراء أي تنبؤات ، يجب تأكيد جودة البيانات والتحقق منها.
يتطلب المعرفة والجهد والوقت: على الرغم من أن إنشاء البيانات التركيبية قد يكون أبسط وأقل تكلفة من إنشاء بيانات حقيقية ، إلا أنه يحتاج إلى بعض المعرفة والوقت والجهد.
تكرار الانحرافات: النسخة المتماثلة المثالية لبيانات العالم الحقيقي غير ممكنة ؛ يمكن للبيانات التركيبية فقط تقريبها. لذلك ، قد لا تغطي البيانات التركيبية بعض القيم المتطرفة الموجودة في البيانات الحقيقية. تعد الحالات الشاذة في البيانات أكثر أهمية من البيانات النموذجية.
ضبط الإنتاج وضمان الجودة: تهدف البيانات التركيبية إلى تكرار بيانات العالم الحقيقي. يصبح التحقق اليدوي من البيانات ضروريًا. من الضروري التحقق من دقة البيانات قبل دمجها في نماذج التعلم الآلي / التعلم العميق لمجموعات البيانات المعقدة التي تم إنشاؤها تلقائيًا باستخدام الخوارزميات.
ردود فعل المستخدمين: نظرًا لأن البيانات التركيبية هي مفهوم جديد ، فلن يكون الجميع على استعداد لتصديق التوقعات التي تم إجراؤها باستخدامها. يشير هذا إلى أنه من أجل زيادة قبول المستخدم ، من الضروري أولاً زيادة المعرفة بفائدة البيانات التركيبية.

Future

زاد استخدام البيانات التركيبية بشكل كبير في العقد الماضي. في حين أنه يوفر على الشركات الوقت والمال ، فإنه لا يخلو من عيوبه. يفتقر إلى القيم المتطرفة ، والتي تحدث بشكل طبيعي في البيانات الفعلية وهي ضرورية للدقة في بعض النماذج.

تجدر الإشارة أيضًا إلى أن جودة البيانات التركيبية تعتمد بشكل متكرر على بيانات الإدخال المستخدمة في الإنشاء ؛ يمكن أن تنتشر التحيزات في بيانات الإدخال بسرعة في البيانات التركيبية ، وبالتالي لا ينبغي المبالغة في اختيار البيانات عالية الجودة كنقطة بداية.

أخيرًا ، يحتاج إلى مزيد من التحكم في الإخراج ، بما في ذلك مقارنة البيانات التركيبية بالبيانات الحقيقية المشروحة بشريًا للتحقق من عدم إدخال التناقضات. على الرغم من هذه العقبات ، لا تزال البيانات التركيبية مجالًا واعدًا.

يساعدنا في إنشاء حلول ذكاء اصطناعي جديدة حتى في حالة عدم توفر بيانات العالم الحقيقي. والأهم من ذلك أنه يمكّن الشركات من بناء منتجات أكثر شمولاً وتدل على تنوع المستهلكين النهائيين.

ومع ذلك ، في المستقبل المستند إلى البيانات ، تهدف البيانات التركيبية إلى مساعدة علماء البيانات على أداء مهام جديدة وإبداعية سيكون من الصعب إكمالها ببيانات العالم الحقيقي وحدها.

وفي الختام

في بعض الحالات ، يمكن للبيانات التركيبية أن تخفف من عجز البيانات أو نقص البيانات ذات الصلة داخل الشركة أو المؤسسة. نظرنا أيضًا في الاستراتيجيات التي يمكن أن تساعد في توليد البيانات التركيبية ومن يمكنه الاستفادة منها.

تحدثنا أيضًا عن بعض الصعوبات التي تصاحب التعامل مع البيانات التركيبية. لاتخاذ القرارات التجارية ، سيتم دائمًا تفضيل البيانات الحقيقية. ومع ذلك ، فإن البيانات الواقعية هي الخيار التالي الأفضل عندما لا تكون هذه البيانات الخام الحقيقية متاحة للتحليل.

ومع ذلك ، يجب أن نتذكر أنه من أجل إنتاج بيانات تركيبية ، يلزم وجود علماء بيانات لديهم فهم قوي لنمذجة البيانات. يعد الفهم الشامل للبيانات الحقيقية ومحيطها ضروريًا أيضًا. هذا ضروري للتأكد من أن البيانات المنتجة دقيقة قدر الإمكان ، إذا كانت متاحة.

شرح البيانات التركيبية - الشيء الكبير التالي في AI و ML و DL

إذن ، ما هي البيانات التركيبية؟