جدول المحتويات[يخفي][يعرض]
يتصور العديد من الروبوتات مثل تلك الموجودة في أفلام الخيال العلمي التي تحاكي أو حتى تتجاوز الذكاء البشري عندما يسمعون مصطلحات الذكاء الاصطناعي والتعلم العميق والتعلم الآلي.
يعتقد البعض الآخر أن هذه الأجهزة تأخذ المعلومات فقط وتتعلم منها بمفردها. حسنًا ... إنه خادع بعض الشيء. تسمية البيانات هي الطريقة المستخدمة لتدريب أجهزة الكمبيوتر على أن تصبح "ذكية" ، لأن قدراتها محدودة بدون تعليمات بشرية.
لتدريب الكمبيوتر على التصرف "بذكاء" ، نقوم بإدخال البيانات في أشكال مختلفة وتعليمها استراتيجيات مختلفة بمساعدة وسم البيانات.
يجب وضع تعليقات توضيحية على مجموعات البيانات أو تسميتها بالعديد من التباديل لنفس المعلومات كجزء من وضع العلامات على البيانات العلمية الأساسية.
يستحق الجهد والتفاني في المنتج النهائي الثناء ، حتى عندما يفاجئنا ويجعل حياتنا اليومية أسهل.
تعرف على تسمية البيانات في هذه المقالة لمعرفة ماهيتها ، وكيف تعمل ، وأنواع البيانات المختلفة ، والعقبات ، وغير ذلك الكثير.
إذن ، ما هو تصنيف البيانات؟
In آلة التعلم، يحدد عيار وطبيعة بيانات الإدخال عيار وطبيعة المخرجات. يتم تحسين دقة نموذج الذكاء الاصطناعي الخاص بك من خلال عيار البيانات المستخدمة لتدريبه.
بعبارات أخرى ، فإن تسمية البيانات هي عملية وضع العلامات أو التعليقات التوضيحية على مجموعات مختلفة من البيانات غير المهيكلة أو المنظمة من أجل تعليم الكمبيوتر تحديد الاختلافات والأنماط فيما بينها.
سيساعدك الرسم التوضيحي على فهم هذا. من الضروري وضع علامة على كل ضوء أحمر في مجموعة متنوعة من الصور حتى يتعلم الكمبيوتر أن الضوء الأحمر هو إشارة للتوقف.
على أساس ذلك ، يطور الذكاء الاصطناعي خوارزمية ستفسر ، في كل موقف ، الضوء الأحمر على أنه إشارة توقف. مثال آخر هو القدرة على تصنيف مجموعات البيانات المختلفة تحت عناوين موسيقى الجاز والبوب والروك والكلاسيكية والمزيد لفصل الأنواع الموسيقية المختلفة.
لتوضيح الأمر ببساطة ، يشير تصنيف البيانات في التعلم الآلي إلى عملية اكتشاف البيانات غير المسماة (مثل الصور والملفات النصية ومقاطع الفيديو وما إلى ذلك) وإضافة تصنيف واحد أو أكثر لتقديم سياق بحيث يمكن لنموذج التعلم الآلي التعلم منه هو - هي.
يمكن أن تشير الملصقات ، على سبيل المثال ، إذا أظهرت الأشعة السينية وجود ورم أم لا ، وما هي الكلمات التي قيلت في مقطع صوتي ، أو إذا كانت صورة لطائر أو سيارة.
يعد تصنيف البيانات أمرًا ضروريًا لعدد من حالات الاستخدام ، بما في ذلك التعرف على الكلام ، رؤية الكمبيوتر، ومعالجة اللغة الطبيعية.
تصنيف البيانات: ما سبب أهميته؟
أولا ، الثورة الصناعية الرابعة تتمحور حول مهارة آلات التدريب. ونتيجة لذلك ، فهي تُصنف من بين أهم التطورات البرمجية في الوقت الحاضر.
يجب إنشاء نظام التعلم الآلي الخاص بك ، والذي يتضمن تسمية البيانات. يحدد قدرات النظام. لا يوجد نظام إذا لم يتم تصنيف البيانات.
إمكانيات وسم البيانات محدودة فقط بإبداعك. سيتكرر أي إجراء يمكنك تعيينه في النظام بمعلومات جديدة.
بمعنى أن نوع البيانات التي يمكنك تدريسها للنظام وكميتها وتنوعها ستحدد ذكاءه وقدرته.
والثاني هو أن عمل تصنيف البيانات يأتي قبل عمل علم البيانات. وفقًا لذلك ، يعد تصنيف البيانات ضروريًا لعلوم البيانات. تؤثر حالات الفشل والأخطاء في تصنيف البيانات على علم البيانات. بدلاً من ذلك ، لاستخدام عبارة مبتذلة أكثر فظاظة ، "قم بإدخال القمامة ، قم بإخراجها".
ثالثًا ، يشير فن وسم البيانات إلى تغيير في كيفية تعامل الناس مع تطوير أنظمة الذكاء الاصطناعي. نقوم في نفس الوقت بتحسين بنية تصنيف البيانات لتحقيق أهدافنا بشكل أفضل بدلاً من محاولة تحسين التقنيات الرياضية فقط.
تعتمد الأتمتة الحديثة على هذا ، وهي مركز تحول الذكاء الاصطناعي الجاري حاليًا. الآن أكثر من أي وقت مضى ، تتم ميكنة العمل المعرفي.
كيف تعمل تسمية البيانات؟
يتم اتباع الترتيب الزمني التالي أثناء إجراء وسم البيانات.
جمع البيانات
البيانات هي حجر الزاوية في أي مسعى للتعلم الآلي. تتكون المرحلة الأولية في وسم البيانات من جمع الكمية المناسبة من البيانات الخام في أشكال مختلفة.
يمكن أن يتخذ جمع البيانات أحد شكلين: إما أنه يأتي من مصادر داخلية كانت الشركة تستخدمها ، أو أنه يأتي من مصادر خارجية متاحة للجمهور.
نظرًا لأنها في شكل خام ، يجب تنظيف هذه البيانات ومعالجتها قبل عمل ملصقات مجموعة البيانات. ثم يتم تدريب النموذج باستخدام هذه البيانات التي تم تنظيفها ومعالجتها مسبقًا. ستكون النتائج أكثر دقة كلما كانت مجموعة البيانات أكبر وأكثر تنوعًا.
شرح البيانات
بعد تنظيف البيانات ، يقوم خبراء المجال بفحص البيانات وتطبيق الملصقات باستخدام العديد من تقنيات وسم البيانات. يحتوي النموذج على سياق هادف يمكن استخدامه كحقيقة أساسية.
هذه هي المتغيرات التي تريد أن يتوقعها النموذج ، مثل الصور.
ضمان الجودة
تعد جودة البيانات ، التي يجب أن تكون جديرة بالثقة ودقيقة ومتسقة ، أمرًا بالغ الأهمية لنجاح تدريب نموذج ML. يجب تنفيذ اختبارات ضمان الجودة المنتظمة من أجل ضمان وضع بطاقات بيانات دقيقة وصحيحة.
من الممكن تقييم دقة هذه التعليقات التوضيحية باستخدام تقنيات ضمان الجودة مثل الإجماع واختبار ألفا كرونباخ. يتم تحسين صحة النتائج بشكل كبير من خلال عمليات التفتيش الروتينية لضمان الجودة.
نماذج التدريب والاختبار
الإجراءات المذكورة أعلاه لا معنى لها إلا إذا تم فحص البيانات للتأكد من صحتها. سيتم وضع التقنية قيد الاختبار من خلال تضمين مجموعة البيانات غير المهيكلة للتحقق مما إذا كانت تؤدي إلى النتائج المرجوة.
استراتيجيات وسم البيانات
تصنيف البيانات هو عملية شاقة تتطلب الاهتمام بالتفاصيل. ستختلف الطريقة المستخدمة للتعليق على البيانات اعتمادًا على بيان المشكلة ، وكمية البيانات التي يجب تمييزها ، ومدى تعقيد البيانات ، والنمط.
دعنا ننتقل إلى بعض الخيارات المتاحة لعملك ، اعتمادًا على الموارد المتوفرة لديه والوقت المتاح له.
وسم البيانات في المنزل
كما يوحي الاسم ، يتم وضع العلامات الداخلية للبيانات بواسطة خبراء داخل الشركة. عندما يكون لديك ما يكفي من الوقت والموظفين والموارد المالية ، يكون هذا هو الخيار الأفضل لأنه يضمن وضع العلامات الأكثر دقة. ومع ذلك ، فإنه يتحرك ببطء.
الاستعانة بمصادر خارجية
هناك خيار آخر لإنجاز المهام وهو توظيف مترجمين مستقلين لمهام تصنيف البيانات الذين يمكن اكتشافهم في العديد من أسواق البحث عن العمل والعمل المستقل مثل Upwork.
يعد الاستعانة بمصادر خارجية خيارًا سريعًا للحصول على خدمات توسيم البيانات ، ومع ذلك ، قد تتأثر الجودة ، على غرار الطريقة السابقة.
التعهيد الجماعي
يمكنك تسجيل الدخول كطالب وتوزيع وظائف وضع العلامات المختلفة على المقاولين المتاحين على منصات التعهيد الجماعي المتخصصة مثل الأمازون ميكانيكي ترك (متورك).
هذه الطريقة ، رغم أنها سريعة وغير مكلفة إلى حد ما ، لا يمكنها توفير بيانات مشروحة ذات جودة جيدة.
وسم البيانات آليا.
قد يساعد البرنامج في الإجراء بالإضافة إلى تنفيذه يدويًا. باستخدام نهج التعلم النشط ، يمكن العثور تلقائيًا على العلامات وإضافتها إلى مجموعة بيانات التدريب.
في الأساس ، يقوم المتخصصون البشريون بتطوير نموذج الملصق التلقائي للذكاء الاصطناعي لتمييز البيانات الأولية غير المسماة. ثم يقررون ما إذا كان النموذج قد طبق الملصقات بشكل مناسب. يقوم البشر بإصلاح الأخطاء بعد الفشل وإعادة تدريب الخوارزمية.
تطوير البيانات التركيبية.
بدلاً من بيانات العالم الحقيقي ، البيانات الاصطناعية هي مجموعة بيانات مصنفة تم تصنيعها بشكل مصطنع. يتم إنتاجه عن طريق الخوارزميات أو المحاكاة الحاسوبية وكثيرا ما يستخدم تدريب نماذج التعلم الآلي.
البيانات التركيبية هي إجابة ممتازة لقضايا ندرة البيانات وتنوعها في سياق إجراءات وضع العلامات. خلق ال البيانات الاصطناعية من الصفر يقدم الحل.
يجب أن يتمكن مطورو مجموعة البيانات من التعرف على إنشاء إعدادات ثلاثية الأبعاد باستخدام العناصر والمحيطة بالنموذج. يمكن تقديم أكبر قدر ممكن من البيانات التركيبية المطلوبة للمشروع.
تحديات وسم البيانات
يتطلب المزيد من الوقت والجهد
بالإضافة إلى صعوبة الحصول على كميات كبيرة من البيانات (خاصة بالنسبة للصناعات عالية التخصص مثل الرعاية الصحية) ، فإن تصنيف كل قطعة من البيانات يدويًا يتطلب عمالة مكثفة وشاقة ، مما يستلزم مساعدة المصممين من البشر.
يتم إنفاق ما يقرب من 80٪ من الوقت المستغرق في مشروع خلال الدورة الكاملة لتطوير ML في إعداد البيانات ، والتي تتضمن وضع العلامات.
احتمال عدم الاتساق
في معظم الأحيان ، ينتج عن وضع العلامات المتقاطعة ، والذي يحدث عندما يقوم العديد من الأشخاص بتسمية نفس مجموعات البيانات ، بمزيد من الدقة.
ومع ذلك ، نظرًا لأن الأفراد لديهم أحيانًا درجات متفاوتة من الكفاءة ، فإن معايير وضع العلامات والتسميات قد تكون غير متسقة ، وهي مشكلة أخرى ، فمن الممكن أن يختلف اثنان أو أكثر من المعلقين على بعض العلامات.
على سبيل المثال ، يمكن لأحد الخبراء أن يصنف تقييمًا لأحد الفنادق على أنه مؤاتٍ بينما يعتبره آخر أنه ساخر ويحدد له تصنيفًا منخفضًا.
معرفة المجال
ستشعر بالحاجة إلى توظيف واضعي ملصقات يتمتعون بمعرفة صناعية متخصصة لبعض القطاعات.
على سبيل المثال ، سيواجه المعلقون الذين ليس لديهم معرفة المجال اللازمة وقتًا صعبًا للغاية في وضع علامات على العناصر بشكل مناسب أثناء إنشاء تطبيق ML لقطاع الرعاية الصحية.
التعرض للأخطاء
وضع العلامات اليدوي عرضة للأخطاء البشرية ، بغض النظر عن مدى معرفة ودراية واضعي الملصقات. نظرًا لحقيقة أن المعلقين يعملون بشكل متكرر مع مجموعات بيانات أولية هائلة ، فإن هذا أمر لا مفر منه.
تخيل شخصًا يعلق على 100,000 صورة بما يصل إلى 10 أشياء مختلفة.
الأنواع الشائعة من تسمية البيانات
رؤية الكمبيوتر
لتطوير مجموعة بيانات التدريب الخاصة بك ، يجب عليك أولاً تسمية الصور أو وحدات البكسل أو النقاط الرئيسية ، أو إنشاء حد يحيط بالكامل صورة رقمية ، تُعرف باسم الصندوق المحيط ، عند إنشاء نظام رؤية الكمبيوتر.
يمكن تصنيف الصور بعدة طرق ، بما في ذلك حسب المحتوى (ما هو موجود بالفعل في الصورة نفسها) والجودة (مثل لقطات المنتج مقابل نمط الحياة).
يمكن أيضًا تقسيم الصور إلى شرائح على مستوى البكسل. يمكن استخدام نموذج رؤية الكمبيوتر الذي تم تطويره باستخدام بيانات التدريب هذه لتصنيف الصور تلقائيًا وتحديد موقع الكائنات وتسليط الضوء على المناطق الرئيسية في الصورة وتقسيم الصور.
معالجة اللغات الطبيعية
قبل إنتاج مجموعة بيانات تدريب معالجة اللغة الطبيعية ، يجب عليك اختيار الأجزاء النصية ذات الصلة يدويًا أو تصنيف المواد باستخدام ملصقات محددة.
على سبيل المثال ، قد ترغب في التعرف على أنماط الكلام وتصنيف الأسماء المناسبة مثل الأماكن والأشخاص وتحديد النص في الصور أو ملفات PDF أو الوسائط الأخرى. قد ترغب أيضًا في تحديد الشعور أو القصد من دعاية نصية.
قم بإنشاء مربعات إحاطة حول النص في مجموعة بيانات التدريب الخاصة بك لإنجاز ذلك ، ثم قم بنسخه يدويًا.
التعرف الضوئي على الحروفوتحديد اسم الكيان وتحليل المشاعر يتم إجراؤها باستخدام نماذج معالجة اللغة الطبيعية.
تجهيز الصوت
تحول المعالجة الصوتية جميع أنواع الأصوات إلى تنسيق منظم بحيث يمكن استخدامها في التعلم الآلي ، بما في ذلك الكلام ، وأصوات الحيوانات (النباح ، أو الصفارات ، أو الزقزقة) ، وضوضاء المباني (الزجاج المكسور ، أو المسح الضوئي ، أو صفارات الإنذار).
في كثير من الأحيان ، قبل أن تتمكن من التعامل مع الصوت ، يجب عليك تحويله يدويًا إلى نص. بعد ذلك ، من خلال تصنيف وإضافة العلامات إلى الصوت ، يمكنك معرفة المزيد من المعلومات المتعمقة حول هذا الموضوع. لك مجموعة بيانات التدريب هل هذا صوت سري.
وفي الختام
في الختام ، يعد تحديد بياناتك جزءًا مهمًا من تدريب أي نموذج ذكاء اصطناعي. ومع ذلك ، فإن المنظمة سريعة الخطى لا تستطيع ببساطة قضاء الوقت في القيام بذلك يدويًا لأنها تستغرق وقتًا طويلاً وتستهلك الكثير من الطاقة.
بالإضافة إلى ذلك ، فهو إجراء عرضة لعدم الدقة ولا يعد بدقة كبيرة. لا يجب أن يكون الأمر بهذه الصعوبة ، فهذه أخبار ممتازة.
تتيح تقنيات وسم البيانات اليوم التعاون بين البشر والآلات لتوفير بيانات دقيقة ومفيدة لمجموعة متنوعة من تطبيقات التعلم الآلي.
اترك تعليق