جدول المحتويات[يخفي][يعرض]
يعتمد كل مشروع من مشاريع التعلم الآلي على مجموعة بيانات جيدة. ستسمح لك مجموعة البيانات الكبيرة هذه بتدريب نموذج ML الخاص بك والتحقق من صحته. لذلك ، يتمثل جزء كبير من العمل في مشروع ML في العثور على مجموعة البيانات المثالية لاحتياجاتك. ومع ذلك ، ليس من الممكن دائمًا العثور على خيار يناسب طموحك ، حيث أن العديد من الملفات التي تبدو مثيرة للاهتمام ، في النهاية ، ليست كذلك.
قد يكون من الصعب إضاعة الوقت في تنزيل مجموعات بيانات لا حصر لها حتى تصل إلى المجموعة المثالية. مع وضع ذلك في الاعتبار ، قمنا بتجميع بعض الخيارات التي تبدو مثيرة للاهتمام ويمكن أن تساعدك في تطوير مشروع ML الخاص بك. لاحظ أن بعضها مخصص للاستخدام الشخصي بدلاً من الاستخدام التجاري ، لذا انظر إلى هذه الخيارات كطريقة لاكتساب الخبرة في عالم ML.
أساسيات مجموعات البيانات
قبل أن نذكر مجموعات البيانات ، يجب أن نحدد بعض المصطلحات. في مشاريع الذكاء الاصطناعي على وجه الخصوص تعلم آلة، هناك حاجة إلى كمية كبيرة من البيانات ، والتي سيتم استخدامها لتدريب الخوارزمية. يتم جمع هذه الكمية من البيانات في قاعدة بيانات ، وهو أمر مفيد للغاية لتعليم الخوارزمية.
باستخدام هذه البيانات ، يتم تدريب الخوارزمية - واختبارها أيضًا - وتصبح قادرة على العثور على الأنماط ، وإقامة العلاقات ، وبالتالي اتخاذ القرارات بشكل مستقل. بدون تدريب ، تعلم آلة الخوارزميات غير قادرة على أداء أي إجراء. لذلك ، كلما كانت بيانات التدريب أفضل ، كان أداء النموذج أفضل. لكي تكون قاعدة البيانات مفيدة للمشروع ، لا يتعلق الأمر بالكمية: إنه يتعلق أيضًا بالتصنيف.
من الناحية المثالية ، يجب تسمية البيانات جيدًا. فكر في حالة روبوتات المحادثة: يعد إدخال اللغة أمرًا مهمًا ، ولكن يجب إجراء تحليل نحوي دقيق حتى تتمكن الخوارزمية التي تم إنشاؤها من فهم متى يستخدم المحاور اللغة العامية. عندها فقط سيتمكن المساعد الافتراضي من إطلاق الإجابة وفقًا لما يطلبه المستخدم.
يمكن إنشاء مجموعات البيانات من الاستطلاعات ، وبيانات شراء المستخدم ، والتقييمات المتبقية على الخدمات ، وبطرق أخرى عديدة تسمح بجمع معلومات مفيدة منظمة في أعمدة وصفوف في ملف CSV.
قبل الشروع في البحث عن مجموعة البيانات المثالية ، من المهم أن تعرف الغرض من مشروعك ، خاصةً إذا كان من منطقة معينة ، مثل الطقس والتمويل والصحة وما إلى ذلك. سيحدد هذا المصدر الذي ستصدر منه مجموعة البيانات.
مجموعات البيانات لـ ML
تدريب Chatbot
تتطلب برامج الدردشة الفعالة قدرًا هائلاً من بيانات التدريب من أجل حل استفسارات المستخدم بسرعة دون تدخل بشري. ومع ذلك ، فإن العقبة الأساسية في تطوير روبوتات المحادثة هي الحصول على بيانات حوار واقعية وموجهة نحو المهام لتدريب هذه الأنظمة القائمة على التعلم الآلي.
تجمع مجموعة البيانات الخاصة بالمحادثة البيانات بتنسيق سؤال وجواب. إنه مثالي لتدريب روبوتات المحادثة التي ستقدم إجابات آلية للجمهور. بدون هذه البيانات ، سيفشل chatbot في حل استفسارات المستخدم بسرعة أو الإجابة على أسئلة المستخدم دون الحاجة إلى تدخل بشري.
باستخدام مجموعات البيانات هذه ، يمكن للشركات إنشاء أداة توفر إجابات سريعة للعملاء على مدار الساعة طوال أيام الأسبوع وهي أرخص بكثير من وجود فريق من الأشخاص يقومون بدعم العملاء.
1. مجموعة بيانات الأسئلة والأجوبة
توفر مجموعة البيانات هذه مجموعة من مقالات وأسئلة ويكيبيديا وإجاباتها التي تم إنشاؤها يدويًا. إنها مجموعة بيانات تم جمعها بين عامي 2008 و 2010 لاستخدامها في الأبحاث الأكاديمية.
2. بيانات اللغة
بيانات اللغة هي قاعدة بيانات تديرها Yahoo مع معلومات تم إنشاؤها من بعض خدمات الشركة ، مثل Yahoo! الإجابة ، والتي تعمل كمجتمع مفتوح للمستخدمين لنشر الأسئلة والأجوبة.
3. ويكيQA
تتكون مجموعة WikiQA أيضًا من مجموعة من الأسئلة والأجوبة. مصدر الأسئلة هو Bing ، بينما ترتبط الإجابات بصفحة Wikipedia مع إمكانية حل السؤال الأولي.
في المجموع ، هناك أكثر من 3,000 سؤال ومجموعة من 29,258 جملة في مجموعة البيانات ، تم تصنيف حوالي 1,400 منها على أنها إجابات لسؤال مماثل.
البيانات الحكومية
تجلب مجموعات البيانات التي تنشئها الحكومات البيانات الديموغرافية ، وهي مدخلات رائعة للمشاريع المتعلقة بفهم الاتجاهات الاجتماعية ، ووضع السياسات العامة ، وتحسين المجتمع. يمكن أن يكون هذا مفيدًا للحملات السياسية أو الإعلانات المستهدفة أو لتحليل السوق.
تحتوي مجموعات البيانات هذه عادةً على بيانات مجهولة المصدر ، لذلك بينما يمكن للنماذج الوصول إلى البيانات الأولية ، لا توجد انتهاكات للخصوصية الشخصية.
4. Data.gov
تم إطلاق Data.gov في عام 2009 ، وهو مصدر البيانات في أمريكا الشمالية. كتالوجها مثير للإعجاب: أكثر من 218,000 مجموعة بيانات تسمح بالتقسيم حسب التنسيق والعلامات والأنواع والموضوعات.
5. بوابة البيانات المفتوحة في الاتحاد الأوروبي
توفر بوابة البيانات المفتوحة للاتحاد الأوروبي الوصول إلى البيانات المفتوحة التي تشاركها مؤسسات الاتحاد الأوروبي. هذه هي البيانات التي يمكن أن تكون مخصصة للاستخدام التجاري وغير التجاري. يوجد تحت تصرف المستخدم أكثر من 15.5 ألف مجموعة بيانات تغطي موضوعات مثل الصحة والطاقة والبيئة والثقافة والتعليم.
البيانات الصحية
في أعقاب الأزمة الصحية المستمرة في جميع أنحاء العالم ، تعد مجموعات البيانات التي أنشأتها المنظمات الصحية ضرورية لتطوير حلول فعالة لإنقاذ الأرواح. يمكن أن تساعد مجموعات البيانات هذه في تحديد عوامل الخطر والعمل على أنماط انتقال المرض وتسريع التشخيص.
تتكون مجموعات البيانات هذه من السجلات الصحية والتركيبة السكانية للمرضى وانتشار الأمراض والاستخدام الطبي والقيم الغذائية وغير ذلك الكثير.
6. مرصد الصحة العالمية
مجموعة البيانات هذه هي مبادرة من منظمة الصحة العالمية (WHO). يوفر بيانات عامة تتعلق بمختلف مجالات الصحة ، مرتبة حسب موضوعات مثل النظم الصحية ، ومكافحة استخدام التبغ ، والأمومة ، وفيروس نقص المناعة البشرية / الإيدز ، وما إلى ذلك. وهناك أيضًا خيار الرجوع إلى البيانات الخاصة بـ COVID-19.
7. كورد -19
CORD-19 عبارة عن مجموعة من المنشورات الأكاديمية حول COVID-19 ومقالات أخرى حول فيروس كورونا الجديد. إنها مجموعة بيانات مفتوحة تهدف إلى إنشاء رؤى جديدة حول COVID-19.
بيانات الاقتصاد
عادةً ما تجمع مجموعات البيانات المتعلقة بالبيئة المالية قدرًا هائلاً من المعلومات ، نظرًا لأنه من الشائع أن يتم جمعها لفترة طويلة. إنها مثالية لإنشاء تنبؤات اقتصادية أو تحديد اتجاهات الاستثمار.
مع مجموعات البيانات المالية الصحيحة ، أ نموذج التعلم الآلي قد تكون قادرة على التنبؤ بسلوك أصل معين. هذا هو السبب في أن القطاع المالي يبذل قصارى جهده لإنشاء نموذج فعال للتعلم الآلي ، حيث أن أي شيء يمكن أن يتنبأ به بشكل معقول لديه القدرة على توليد ملايين الدولارات. يتنبأ التعلم الآلي بالفعل بسلوك المواطنين ، مما يؤثر على الطريقة التي يؤدي بها صانعو السياسات وظائفهم.
8. صندوق النقد الدولي
تحتوي مجموعة بيانات صندوق النقد الدولي على مجموعة من المؤشرات الاقتصادية والمالية ، وإحصاءات الدول الأعضاء ، وغيرها من بيانات القروض وأسعار الصرف.
9. بنك عالمي
يحتوي مستودع البنك الدولي على مجموعات بيانات مختلفة تحتوي على معلومات اقتصادية من بلدان مختلفة. هناك أكثر من 17,000 مجموعة بيانات مقسومة على القارات.
مراجعات المنتجات والخدمات
وجد تحليل المشاعر تطبيقاته في مختلف المجالات التي تساعد الآن المؤسسات على التقدير والتعلم من عملائها أو عملائها بشكل صحيح. يتم استخدام تحليل المشاعر بشكل متزايد لمراقبة وسائل التواصل الاجتماعي ، ومراقبة العلامة التجارية ، وصوت العميل (VoC) ، وخدمة العملاء ، وأبحاث السوق.
يستخدم تحليل المشاعر البرمجة اللغوية العصبية (البرمجة اللغوية العصبية) والخوارزميات التي تكون إما قائمة على القواعد أو مختلطة أو تعتمد على تقنيات التعلم الآلي لتعلم البيانات من مجموعات البيانات.
يجب أن تكون البيانات المطلوبة في تحليل المشاعر متخصصة ومطلوبة بكميات كبيرة. الجزء الأكثر صعوبة في عملية التدريب على تحليل المشاعر هو العثور على البيانات بكميات كبيرة ؛ بدلاً من ذلك ، هو العثور على مجموعات البيانات ذات الصلة. يجب أن تغطي مجموعات البيانات هذه منطقة واسعة من تطبيقات تحليل المشاعر وحالات الاستخدام.
10 الأمازون الاستعراضات
تحتوي مجموعة البيانات هذه على حوالي 35 مليون مراجعة من Amazon ، تمتد على مدار 18 عامًا من المعلومات التي تم جمعها. إنها مجموعة بيانات لمحتوى المنتج والمستخدم والمراجعة.
11 مراجعات الصرخة
يقدم موقع Yelp أيضًا مجموعة بيانات تستند إلى المعلومات التي تم جمعها من خدمته. هناك أكثر من 8 ملايين تقييم ، ومليون نصيحة ، بالإضافة إلى ما يقرب من 1 مليون سمة متعلقة بالأعمال ، مثل ساعات العمل ومدى التوفر.
12 مراجعات IMDB
تحتوي قاعدة البيانات هذه على مجموعة من أكثر من 25 ألف مراجعة فيلم للتدريب و 25 ألفًا أخرى للاختبارات المأخوذة بشكل غير رسمي من صفحة IMDB المتخصصة في تصنيفات الأفلام. كما أنه يوفر بيانات غير مصنفة كعنصر إضافي.
مجموعات البيانات للخطوات الأولى في ML
13 مجموعة بيانات جودة النبيذ
توفر مجموعة البيانات هذه معلومات تتعلق بالنبيذ ، باللونين الأحمر والأخضر ، المنتج في شمال البرتغال. الهدف هو تحديد جودة النبيذ بناءً على الاختبارات الفيزيائية والكيميائية. مثيرة للاهتمام لأولئك الذين يرغبون في ممارسة إنشاء نظام تنبؤ.
14 تيتانيك داتاسيت
تجلب مجموعة البيانات هذه بيانات من 887 راكبًا حقيقيًا من تيتانيك ، مع تحديد كل عمود ما إذا كانوا على قيد الحياة ، والعمر ، وفئة الركاب ، والجنس ، ورسوم الصعود التي دفعوها. كانت مجموعة البيانات هذه جزءًا من التحدي الذي أطلقته منصة Kaggle ، والتي كانت تهدف إلى إنشاء نموذج يمكنه التنبؤ بالركاب الذين نجوا من غرق تيتانيك.
منصات للعثور على مجموعات البيانات الأخرى
إذا كنت ترغب في الذهاب إلى أبعد من ذلك والعثور على مجموعة البيانات الخاصة بك ، فإن أفضل طريقة هي تصفح المستودعات الأكثر شهرة في تعلم آلة كون:
Kaggle
Kaggle ، إحدى الشركات التابعة لشركة Google LLC ، عبارة عن مجتمع عبر الإنترنت لعلماء البيانات ومحترفي التعلم الآلي. يسمح Kaggle للمستخدمين بالعثور على مجموعات البيانات ونشرها واستكشاف النماذج وإنشائها في بيئة علوم البيانات المستندة إلى الويب ؛ العمل مع علماء البيانات الآخرين و مهندسو التعلم الآلي، والمشاركة في مسابقات لحل تحديات علوم البيانات.
بدأت Kaggle في عام 2010 من خلال تقديم مسابقات التعلم الآلي والآن تقدم أيضًا للجمهور منصة البيانات، منضدة عمل قائمة على السحابة لتعليم علوم البيانات والذكاء الاصطناعي.
البحث في مجموعة البيانات
Dataset Search هو محرك بحث من Google يساعد الباحثين في تحديد موقع البيانات المتوفرة مجانًا للاستخدام على الإنترنت. عبر الويب ، هناك الملايين من مجموعات البيانات حول أي موضوع تقريبًا يثير اهتمامك.
إذا كنت تبحث عن شراء جرو ، فيمكنك العثور على مجموعات بيانات تجمع شكاوى مشتري الجراء أو دراسات حول إدراك الجراء. أو إذا كنت تحب التزلج ، فيمكنك العثور على بيانات حول إيرادات منتجعات التزلج أو معدلات الإصابة وأرقام المشاركة. قام Dataset Search بفهرسة ما يقرب من 25 مليونًا من مجموعات البيانات هذه ، مما يمنحك مكانًا واحدًا للبحث عن مجموعات البيانات والعثور على روابط إلى مكان البيانات.
مستودع التعلم الآلي UCI
The UCI Machine Learning Repository عبارة عن مجموعة من قواعد البيانات ونظريات المجال ومولدات البيانات التي يستخدمها مجتمع التعلم الآلي للتحليل التجريبي لخوارزميات التعلم الآلي. تم إنشاء الأرشيف كأرشيف بروتوكول نقل الملفات في عام 1987 بواسطة David Aha وزملاؤه من طلاب الدراسات العليا في جامعة كاليفورنيا في إيرفين.
منذ ذلك الوقت ، تم استخدامه على نطاق واسع من قبل الطلاب والمعلمين والباحثين في جميع أنحاء العالم كمصدر أساسي لمجموعات بيانات ML. كدليل على تأثير الأرشيف ، فقد تم الاستشهاد به أكثر من 1000 مرة ، مما يجعله واحدًا من أكثر 100 بحثًا تم الاستشهاد بها في جميع علوم الكمبيوتر.
Quandl
Quandl عبارة عن منصة توفر لمستخدميها مجموعات بيانات اقتصادية ومالية وبديلة. يمكن للمستخدمين تنزيل البيانات المجانية أو شراء البيانات المدفوعة أو بيع البيانات إلى Quandl. يمكن أن يكون أداة مفيدة لتطوير خوارزميات التداول، على سبيل المثال.
وفي الختام
من خلال استكشاف هذه الأدوات ، من المؤكد أنك ستجد مدخلات رائعة لمشاريعك. تأكد من اختيار مجموعة البيانات الأكثر ملاءمة لاحتياجاتك الخاصة وتذكر دائمًا: لا يتعلق الأمر بالكمية فحسب ، بل بالجودة أيضًا. مجموعة البيانات هي أساس أي مشروع التعلم الآلي ومن الضروري البناء على بيانات عالية الجودة من أجل تجنب مخاطر التوصل إلى استنتاجات خاطئة.
اترك تعليق