جدول المحتويات[يخفي][يعرض]
- 1. مجموعة بيانات سمات وجوه المشاهير
- 2. دوتا
- 3. مجموعة بيانات مقارنة تعبيرات الوجه من Google
- 4. الجينوم المرئي
- 5. خطاب ليبري
- 6. فضاءات المدينة
- 7. مجموعة بيانات الخواص الحركية
- 8. CelebAMAsk-HQ
- 9. بن تريبانك
- 10. فوكس سيليب
- 11. سيكسراي
- 12. حوادث الولايات المتحدة
- 13. التعرف على أمراض العين
- 14. مرض القلب
- 15. ذكي
- 16. التبعيات العالمية
- 17. KITTI - 360
- 18. MOT (تتبع الأجسام المتعددة)
- 19. PASCAL 3D +
- 20. نماذج الحيوانات المشوهة للوجه
- 21. مجموعة بيانات النشر البشري MPII
- 22- UCF101
- 23. صوتيات
- 24. ستانفورد للاستدلال اللغوي الطبيعي
- 25. إجابة الأسئلة المرئية
- وفي الختام
في الوقت الحاضر ، يركز معظمنا على تطوير نماذج التعلم الآلي والذكاء الاصطناعي ومعالجة المشكلات باستخدام مجموعات البيانات الحالية. لكن أولاً ، يجب علينا تحديد مجموعة البيانات وأهميتها ودورها في تطوير حلول قوية للذكاء الاصطناعي والتعلم الآلي.
اليوم ، لدينا عدد كبير من مجموعات البيانات مفتوحة المصدر لإجراء البحوث أو تطوير التطبيقات لمعالجة قضايا العالم الحقيقي في مجموعة متنوعة من القطاعات.
ومع ذلك ، فإن ندرة مجموعات البيانات الكمية عالية الجودة هي مصدر قلق. لقد ارتفعت البيانات بشكل كبير وستستمر في التوسع بمعدل أسرع في المستقبل.
في هذا المنشور ، سنغطي مجموعات البيانات المتاحة مجانًا والتي يمكنك استخدامها لتطوير مشروعك التالي للذكاء الاصطناعي.
1. مجموعة بيانات سمات وجوه المشاهير
تحتوي مجموعة بيانات سمات وجوه المشاهير (CelebA) على أكثر من 200 ألف صورة من المشاهير و 40 تعليقًا للسمات لكل صورة ، مما يجعلها نقطة انطلاق ممتازة لمشاريع مثل تمييز الوجوه، واكتشاف الوجه ، وتوطين المعالم (أو مكونات الوجه) ، وتحرير الوجه وتركيبه. علاوة على ذلك ، تحتوي الصور الموجودة في هذه المجموعة على مجموعة واسعة من متغيرات الموضع وفوضى الخلفية.
2. DOTA
DOTA (مجموعة بيانات من كشف الكائن في الصور الجوية) عبارة عن مجموعة بيانات واسعة النطاق لاكتشاف الكائنات تتضمن 15 فئة شائعة (على سبيل المثال ، سفينة وطائرة وسيارة وما إلى ذلك) ، و 1411 صورة للتدريب ، و 458 صورة للتحقق من صحتها.
3. مجموعة بيانات مقارنة تعبيرات الوجه من Google
تحتوي مجموعة بيانات مقارنة تعبيرات الوجه من Google على حوالي 500,000 صورة ثلاثية ، بما في ذلك 156,000 صورة للوجه. تجدر الإشارة إلى أن كل مجموعة ثلاثية في مجموعة البيانات هذه قد تم شرحها بواسطة ستة مقيمين بشريين على الأقل.
تعد مجموعة البيانات هذه مفيدة للمشاريع التي تتضمن تحليل تعبيرات الوجه ، مثل استرجاع الصور القائمة على التعبير ، وتصنيف المشاعر ، وتوليف التعبير ، وما إلى ذلك. للوصول إلى مجموعة البيانات ، يجب إكمال نموذج موجز.
4. الجينوم المرئي
تتوفر بيانات الإجابة على الأسئلة المرئية في بيئة متعددة الخيارات في Visual Genome. وهي مكونة من 101,174 صورة MSCOCO مع 1.7 مليون زوج من QA ، بمتوسط 17 سؤالًا لكل صورة.
بالمقارنة مع مجموعة بيانات الإجابة على الأسئلة المرئية ، فإن مجموعة بيانات الجينوم المرئي لها توزيع أكثر عدلاً عبر ستة أنواع من الأسئلة: ماذا وأين ومتى ومن ولماذا وكيف.
بالإضافة إلى ذلك ، تتضمن مجموعة بيانات Visual Genome 108 آلاف صورة تم تمييزها بشكل كبير بالعناصر والخصائص والوصلات.
5. LibriSpeech
مجموعة LibriSpeech عبارة عن مجموعة من حوالي 1,000 ساعة من الكتب الصوتية من مشروع LibriVox. نشأت غالبية الكتب الصوتية من مشروع جوتنبرج.
تنقسم بيانات التدريب إلى ثلاثة أقسام من مجموعات 100 ساعة و 360 ساعة و 500 ساعة ، بينما يبلغ طول بيانات التطوير والاختبار حوالي 5 ساعات في الطول الصوتي.
6. سيتي سبيس
واحدة من أكثر قواعد البيانات واسعة النطاق المعروفة لمقاطع الفيديو الاستريو ذات المناظر الحضرية تسمى The Cityscapes.
من خلال التعليقات التوضيحية الدقيقة بالبكسل التي تتضمن مواقع GPS ودرجة الحرارة الخارجية وبيانات حركة الأنا ومنظورات الاستريو الصحيحة ، فهي تتضمن تسجيلات من 50 مدينة ألمانية متميزة.
7. مجموعة بيانات الخواص الحركية
تعد مجموعة بيانات Kinetics واحدة من أكثر مجموعات بيانات الفيديو شهرة للتعرف على النشاط البشري على نطاق واسع وبجودة عالية. يوجد ما لا يقل عن 600 مقطع فيديو لكل فئة من فئات النشاط البشري البالغ عددها 600 ، بإجمالي أكثر من 500,000 مقطع فيديو.
تم سحب الأفلام من موقع يوتيوب. يبلغ طول كل واحدة حوالي 10 ثوانٍ ولديها فئة نشاط واحدة فقط مدرجة.
8. CelebAMAsk-HQ
CelebAMask-HQ عبارة عن مجموعة من 30,000 صورة وجه عالية الدقة مع أقنعة مشروحة بعناية و 19 فئة تشمل مكونات الوجه مثل الجلد والأنف والعينين والحواجب والأذنين والفم والشفاه والشعر والقبعة والنظارات والأقراط والقلادة ، العنق ، المادة.
يمكن استخدام مجموعة البيانات لاختبار وتدريب التعرف على الوجوه ، وتحليل الوجوه ، وشبكات GAN لتوليد الوجه وخوارزميات التحرير.
9. بن تريبانك
واحدة من أكثر المؤسسات شهرةً وغالبًا ما تستخدم لتقييم نماذج وضع العلامات التسلسلية هي مجموعة بن تريبانك الإنجليزية (PTB) ، ولا سيما جزء من المجموعة المطابق لمقالات وول ستريت جورنال.
يجب أن يكون لكل كلمة جزء خاص بها من الكلام تم وضع علامة عليه كعنصر من عناصر المهمة. مستوى الحرف ومستوى الكلمة نمذجة اللغة كثيرا ما تستخدم أيضا في كثير من الأحيان.
10 VoxCeleb
VoxCeleb عبارة عن مجموعة بيانات واسعة النطاق لتعريف الكلام يتم إنشاؤها تلقائيًا من وسائط مفتوحة المصدر. يحتوي VoxCeleb على أكثر من مليون كلام من أكثر من 6k مكبرات صوت.
نظرًا لأن مجموعة البيانات تتضمن سمعيًا بصريًا ، يمكن استخدامها لمجموعة متنوعة من التطبيقات الإضافية ، بما في ذلك تركيب الكلام المرئي ، وفصل الكلام ، والنقل عبر الوسائط من وجه إلى صوت أو العكس ، وتدريب التعرف على الوجه من الفيديو لتكملة التعرف على الوجه الحالي مجموعات البيانات.
11 سيكسراي
تتضمن مجموعة بيانات SIXray 1,059,231،XNUMX،XNUMX صورة بالأشعة السينية تم جمعها من محطات مترو الأنفاق وشرحها مفتشو الأمن البشري للكشف عن ستة أنواع رئيسية من العناصر المحظورة: المسدسات والسكاكين والمفاتيح والكماشة والمقص والمطارق. علاوة على ذلك ، تمت إضافة المربعات المحيطة لكل عنصر غير مسموح به يدويًا إلى مجموعات الاختبار من أجل تقييم أداء توطين الكائن.
12 حوادث الولايات المتحدة
تم الكشف عن مادة المشروع بالفعل من خلال اسم مجموعة البيانات ، حوادث الولايات المتحدة. تتضمن مجموعة البيانات هذه حول حوادث السيارات على مستوى البلاد معلومات من فبراير 2016 إلى ديسمبر 2021 وتغطي 49 ولاية في الولايات المتحدة الأمريكية.
يوجد الآن ما يقرب من 1.5 مليون سجل حوادث في هذه المجموعة. تم جمعها في الوقت الفعلي من خلال استخدام العديد من واجهات برمجة تطبيقات المرور.
تنقل واجهات برمجة التطبيقات هذه معلومات حركة المرور التي تم جمعها من مجموعة متنوعة من المصادر ، بما في ذلك كاميرات المرور ، ومنظمات إنفاذ القانون ، ووزارات النقل في الولايات المتحدة والولاية.
13 التعرف على أمراض العين
تحتوي قاعدة البيانات المنظمة للتعرف الذكي على أمراض العين (ODIR) على معلومات عن 5,000 مريض ، بما في ذلك أعمارهم ، ولون قاع العين في أعينهم اليمنى واليسرى ، والكلمات الرئيسية التشخيصية للمهنيين الطبيين.
مجموعة البيانات هذه عبارة عن مجموعة فعلية لبيانات المرضى من مختلف المستشفيات والمرافق الطبية في الصين التي حصلت عليها شركة Shanggong Medical Technology Co.، Ltd. مع إدارة مراقبة الجودة، تم وضع علامات على التعليقات التوضيحية بواسطة قراء بشريين مهرة.
14 امراض القلب
تساعد مجموعة بيانات أمراض القلب هذه في تحديد وجود أمراض القلب لدى المريض بناءً على 76 معيارًا مثل العمر والجنس ونوع ألم الصدر ونوع ضغط الدم أثناء الراحة وما إلى ذلك.
مع 303 حالة ، تسعى قاعدة البيانات ببساطة إلى التفريق بين وجود المرض (القيمة 1,2,3,4 ، 0 ، XNUMX ، XNUMX) من غيابه (القيمة XNUMX).
15 كليفر
تحاكي مجموعة بيانات CLEVR (اللغة التركيبية والتفكير البصري الأولي) الإجابة على الأسئلة المرئية. يتكون من صور لأشياء ثلاثية الأبعاد ، مع كل صورة مصحوبة بسلسلة من الأسئلة شديدة التركيب مقسمة إلى عدة فئات.
لجميع صور وأسئلة التدريب والتحقق من الصحة ، تتكون مجموعة البيانات من 70,000 صورة فوتوغرافية و 700,000 سؤال للتدريب ، و 15,000 صورة و 150,000 سؤال للتحقق من الصحة ، و 15,000 صورة و 150,000 سؤال للاختبار الذي يتضمن الكائنات والردود والرسوم البيانية للمشهد والبرامج الوظيفية.
16 التبعيات العالمية
يهدف مشروع التبعيات العالمية (UD) إلى إنشاء شرح موحد لغويًا وصرفًا توضيحيًا لبنك الشجرة للعديد من اللغات. يحتوي الإصدار 2.7 ، الذي تم إصداره في عام 2020 ، على 183 ضفة شجرة بـ 104 لغة.
يتكون التعليق التوضيحي من علامات أسرى الحرب العالمية ورؤوس التبعية وتسميات التبعية العالمية.
17 كيتي - 360
واحدة من مجموعات البيانات الأكثر استخدامًا للروبوتات المحمولة و القيادة الذاتية هو KITTI (معهد كارلسروه للتكنولوجيا ومعهد تويوتا التكنولوجي).
وهي تتكون من سيناريوهات حركة المرور التي تستغرق ساعات والتي تم التقاطها باستخدام مجموعة من أساليب المستشعر ، مثل كاميرات RGB عالية الدقة وستيريو تدرجات رمادية وكاميرات الماسح الضوئي بالليزر ثلاثية الأبعاد. تم تحسين مجموعة البيانات بمرور الوقت من قبل العديد من الباحثين الذين قاموا يدويًا بتعليق أجزاء مختلفة منها لتناسب احتياجاتهم.
18 MOT (تتبع كائنات متعددة)
MOT (تتبع كائنات متعددة) عبارة عن مجموعة بيانات لتتبع الكائنات المتعددة التي تتضمن مناظر داخلية وخارجية للمواقع العامة التي تتضمن المشاة ككائنات ذات أهمية. ينقسم فيديو كل مشهد إلى جزأين ، أحدهما للتدريب والآخر للاختبار.
تتضمن مجموعة البيانات عمليات الكشف عن الأشياء في إطارات الفيديو باستخدام ثلاثة أجهزة كشف: SDP و Faster-RCNN و DPM.
19 PASCAL 3D +
تتكون مجموعة بيانات Pascal3D + متعددة العروض من صور تم جمعها في البرية ، أي صور فئات العناصر ذات التباين العالي ، والتي تم التقاطها في ظروف خارجة عن السيطرة ، وفي بيئات مزدحمة ، وفي مجموعة متنوعة من المواضع. يتضمن Pascal3D + 12 فئة كائنات صلبة مستمدة من مجموعة بيانات PASCAL VOC 2012.
تحتوي هذه العناصر على معلومات حول الموقف محددة عليها (السمت والارتفاع والمسافة إلى الكاميرا). يتضمن Pascal3D + بالإضافة إلى ذلك الصور المشروحة من مجموعة ImageNet في هذه الفئات الـ 12.
20 نماذج الحيوانات تشوه الوجه
الهدف من مشروع نماذج الحيوانات المشوهة للوجه (FDMA) هو تحدي المنهجيات الحالية في تحديد معالم الوجه البشرية وتتبعها وتطوير خوارزميات جديدة يمكنها التعامل مع التباين الأكبر بشكل كبير الذي يتميز بخصائص وجه الحيوان.
أظهرت خوارزميات المشروع القدرة على التعرف على المعالم وتتبعها على الوجوه البشرية أثناء التعامل مع الفروق الناتجة عن التغيرات في عواطف الوجه أو المواقف ، والانسدادات الجزئية ، والإضاءة.
21 مجموعة بيانات النشر البشري MPII
تحتوي مجموعة بيانات MPII Human Pose Dataset على حوالي 25 ألف صورة ، 15 ألف منها عينات تدريب ، 3 آلاف منها عينات للتحقق ، و 7 آلاف منها عينات اختبار.
يتم تمييز الأوضاع يدويًا بما يصل إلى 16 مفصلًا جسديًا ، ويتم التقاط الصور من أفلام YouTube التي تغطي 410 نشاطًا بشريًا مختلفًا.
22 UCF101
تحتوي مجموعة البيانات UCF101 على 13,320،101 مقطع فيديو منظم في 101 فئة. تنقسم هذه الفئات البالغ عددها XNUMX إلى خمس فئات: الحركات الجسدية ، والتفاعلات بين الإنسان والبشر ، والتفاعلات بين الكائن البشري ، ولعب الآلات الموسيقية ، والرياضة.
مقاطع الفيديو من موقع يوتيوب ومدتها 27 ساعة.
23 صوتي
Audioset عبارة عن مجموعة بيانات أحداث صوتية تتكون من أكثر من 2 مليون مقطع فيديو بشرح مدته 10 ثوانٍ. للتعليق على هذه البيانات ، يتم استخدام علم الوجود الهرمي الذي يشتمل على 632 نوعًا من الأحداث ، مما يعني أنه قد يتم تسمية الصوت نفسه بشكل مختلف.
24 استدلال اللغة الطبيعية في ستانفورد
تحتوي مجموعة بيانات SNLI (استدلال اللغة الطبيعية في ستانفورد) على 570 ألفًا من أزواج الجمل التي تم تصنيفها يدويًا على أنها تعني أو تناقض أو محايد.
المباني هي أوصاف صور Flickr30k ، في حين تم تطوير الفرضيات من قبل المعلقين التوضيحيين من مصادر جماعية الذين تم تزويدهم بفرضية وتوجيههم لإنشاء بيانات تنطوي على ، ومتناقضة ، ومحايدة.
25 إجابة بصرية للأسئلة
الإجابة على الأسئلة المرئية (VQA) هي مجموعة بيانات تحتوي على أسئلة مفتوحة بخصوص الصور. للإجابة على هذه الأسئلة ، تحتاج إلى فهم الرؤية واللغة والفطرة السليمة.
وفي الختام
نظرًا لأن التعلم الآلي والذكاء الاصطناعي (AI) أصبحا أكثر انتشارًا عمليًا في كل عمل تجاري وفي حياتنا اليومية ، كذلك يزداد عدد الموارد والمعلومات المتاحة حول هذا الموضوع.
توفر مجموعات البيانات العامة الجاهزة نقطة انطلاق رائعة لتطوير نماذج الذكاء الاصطناعي مع السماح أيضًا لمبرمجي التعلم الآلي المتمرسين بتوفير الوقت والتركيز على العناصر الأخرى لمشاريعهم.
اترك تعليق