تشهد معالجة اللغة الطبيعية (NLP) موجة جديدة من التحسينات. وتحتل مجموعات بيانات Hugging Face مكان الصدارة في هذا الاتجاه. في هذه المقالة ، سنلقي نظرة على أهمية مجموعات بيانات Hugging Face.
سنرى أيضًا كيف يمكن استخدامها لتدريب نماذج البرمجة اللغوية العصبية وتقييمها.
Hugging Face هي شركة تزود المطورين بمجموعة متنوعة من مجموعات البيانات.
سواء كنت مبتدئًا أو متخصصًا متمرسًا في البرمجة اللغوية العصبية ، فإن البيانات المقدمة على Hugging Face ستكون مفيدة لك. انضم إلينا بينما نستكشف مجال البرمجة اللغوية العصبية ونتعرف على إمكانات مجموعات بيانات Hugging Face.
أولاً ، ما هو البرمجة اللغوية العصبية؟
معالجة اللغات الطبيعية (NLP) هي فرع من الذكاء الاصطناعي. يدرس كيفية تفاعل أجهزة الكمبيوتر مع لغات الإنسان (الطبيعية). يستلزم البرمجة اللغوية العصبية (NLP) إنشاء نماذج قادرة على فهم وتفسير اللغة البشرية. ومن ثم ، يمكن للخوارزميات القيام بمهام مثل ترجمة اللغة ، تحليل المشاعر، وإنتاج النص.
يستخدم البرمجة اللغوية العصبية في مجموعة متنوعة من المجالات ، بما في ذلك خدمة العملاء والتسويق والرعاية الصحية. الهدف من البرمجة اللغوية العصبية هو السماح لأجهزة الكمبيوتر بتفسير وفهم اللغة البشرية كما تكتب أو يتم التحدث بها بطريقة قريبة من تلك الخاصة بالبشر.
نظرة عامة وجه يعانق
وجه يعانق هي معالجة اللغة الطبيعية (NLP) وأعمال تكنولوجيا التعلم الآلي. أنها توفر مجموعة واسعة من الموارد لمساعدة المطورين في تعزيز مجال البرمجة اللغوية العصبية. المنتج الأكثر جدارة بالملاحظة هو مكتبة Transformers.
إنه مصمم لتطبيقات معالجة اللغة الطبيعية. كما أنه يوفر نماذج مُدربة مسبقًا لمجموعة متنوعة من مهام البرمجة اللغوية العصبية مثل ترجمة اللغة والإجابة على الأسئلة.
تقدم Hugging Face ، بالإضافة إلى مكتبة Transformers ، منصة لمشاركة مجموعات بيانات التعلم الآلي. هذا يجعل من الممكن الوصول بسرعة إلى جودة عالية مجموعات البيانات للتدريب نماذجهم.
تتمثل مهمة Hugging Face في جعل معالجة اللغة الطبيعية (NLP) أكثر سهولة للمطورين.
مجموعات بيانات الوجه المعانقة الأكثر شيوعًا
كورنيل فيلم حوارات كوربوس
هذه مجموعة بيانات معروفة من Hugging Face. تضم مجموعة Cornell Movie-Dialogs حوارات مأخوذة من سيناريوهات الأفلام. يمكن تدريب نماذج معالجة اللغة الطبيعية (NLP) باستخدام هذه الكمية الهائلة من البيانات النصية.
تم تضمين أكثر من 220,579 لقاء حوار بين 10,292 زوجًا من شخصيات الفيلم في المجموعة.
يمكنك استخدام مجموعة البيانات هذه لمجموعة متنوعة من مهام البرمجة اللغوية العصبية. على سبيل المثال ، يمكنك تطوير مشاريع إنشاء اللغة والإجابة على الأسئلة. أيضًا ، يمكنك إنشاء أنظمة حوار. لأن المحادثات تغطي مجموعة واسعة من المواضيع. كما تم استخدام مجموعة البيانات على نطاق واسع في المشاريع البحثية.
ومن ثم ، فهذه أداة مفيدة للغاية للباحثين والمطورين في البرمجة اللغوية العصبية.
مجموعة OpenWebText
مجموعة OpenWebText Corpus عبارة عن مجموعة من الصفحات على الإنترنت يمكنك العثور عليها على منصة Hugging Face. تتضمن مجموعة البيانات هذه مجموعة كبيرة من الصفحات على الإنترنت ، مثل المقالات والمدونات والمنتديات. إلى جانب ذلك ، تم اختيار هذه جميعها لجودتها العالية.
تعتبر مجموعة البيانات ذات قيمة خاصة للتدريب وتقييم نماذج البرمجة اللغوية العصبية. ومن ثم ، يمكنك استخدام مجموعة البيانات هذه لمهام مثل الترجمة والتلخيص. أيضًا ، يمكنك إجراء تحليل المشاعر باستخدام مجموعة البيانات هذه والتي تعد من الأصول الضخمة للعديد من التطبيقات.
قام فريق Hugging Face برعاية OpenWebText Corpus لتقديم عينة عالية الجودة للتدريب. إنها مجموعة بيانات كبيرة تحتوي على أكثر من 570 جيجابايت من البيانات النصية.
بيرت
BERT (تمثيلات التشفير ثنائي الاتجاه من المحولات) هو نموذج البرمجة اللغوية العصبية. لقد تم تدريبه مسبقًا ويمكن الوصول إليه على منصة Hugging Face. تم إنشاء BERT بواسطة فريق Google AI Language. أيضًا ، يتم تدريبه على مجموعة بيانات نصية واسعة لفهم سياق الكلمات في العبارة.
نظرًا لأن BERT هو نموذج قائم على المحولات ، فيمكنه معالجة تسلسل الإدخال الكامل مرة واحدة بدلاً من كلمة واحدة في كل مرة. يستخدم النموذج القائم على المحولات آليات الانتباه لتفسير المدخلات المتسلسلة.
تمكن هذه الميزة BERT من فهم سياق الكلمات في العبارة.
يمكنك استخدام BERT لتصنيف النص وفهم اللغة كيان مسمى تحديد الهوية ، ودقة المرجع ، من بين تطبيقات البرمجة اللغوية العصبية الأخرى. كما أنه مفيد في توليد النص وفهم قراءة الآلة.
فرقة
SQuAD (مجموعة بيانات الإجابة على الأسئلة في ستانفورد) هي قاعدة بيانات للأسئلة والأجوبة. يمكنك استخدامه لتدريب نماذج فهم القراءة الآلية. تتضمن مجموعة البيانات أكثر من 100,000 سؤال وإجابة حول مجموعة متنوعة من الموضوعات. يختلف SQuAD عن مجموعات البيانات السابقة.
يركز على الاستعلامات التي تتطلب معرفة سياق النص بدلاً من مجرد مطابقة الكلمات الرئيسية.
نتيجة لذلك ، يعد موردًا ممتازًا لإنشاء نماذج واختبارها للإجابة على الأسئلة ومهام فهم الماكينة الأخرى. يكتب البشر الأسئلة في SQuAD أيضًا. هذا يوفر درجة عالية من الجودة والاتساق.
بشكل عام ، يعد SQuAD مصدرًا قيمًا للباحثين والمطورين في البرمجة اللغوية العصبية.
الحركة الوطنية لتحرير أزواد
MNLI ، أو استدلال اللغة الطبيعية متعدد الأنواع ، هو مجموعة بيانات تستخدم للتدريب والاختبار نماذج التعلم الآلي للاستدلال على اللغة الطبيعية. الغرض من MNLI هو تحديد ما إذا كانت عبارة معينة صحيحة أو خاطئة أو محايدة في ضوء بيان آخر.
يختلف MNLI عن مجموعات البيانات السابقة من حيث أنه يغطي مجموعة واسعة من النصوص من العديد من الأنواع. تختلف هذه الأنواع من القصص الخيالية إلى المقالات الإخبارية والصحف الحكومية. بسبب هذا التباين ، تعد MNLI عينة تمثيلية أكثر من نصوص العالم الحقيقي. من الواضح أنه أفضل من العديد من مجموعات بيانات الاستدلال اللغوي الطبيعية الأخرى.
مع وجود أكثر من 400,000 حالة في مجموعة البيانات ، توفر MNLI عددًا كبيرًا من الأمثلة لنماذج التدريب. يحتوي أيضًا على تعليقات لكل عينة لمساعدة النماذج في تعلمهم.
افكار اخيرة
أخيرًا ، تعد مجموعات بيانات Hugging Face موردًا لا يقدر بثمن للباحثين والمطورين في البرمجة اللغوية العصبية. يوفر Hugging Face إطارًا لتطوير البرمجة اللغوية العصبية من خلال استخدام مجموعة متنوعة من مجموعات البيانات.
نعتقد أن أعظم مجموعة بيانات في Hugging Face هي OpenWebText Corpus.
تحتوي مجموعة البيانات عالية الجودة هذه على أكثر من 570 جيجابايت من البيانات النصية. إنه مورد لا يقدر بثمن لتدريب وتقييم نماذج البرمجة اللغوية العصبية. يمكنك محاولة استخدام OpenWebText وغيرها في مشاريعك التالية.
اترك تعليق