25 بهترین مجموعه داده آموزشی هوش مصنوعی (2024)

امروزه، بیشتر ما بر روی توسعه مدل‌های یادگیری ماشین و هوش مصنوعی و پرداختن به مسائل با استفاده از مجموعه داده‌های فعلی تمرکز کرده‌ایم. اما ابتدا باید یک مجموعه داده، اهمیت و نقش آن در توسعه راه حل های قوی هوش مصنوعی و ML را تعریف کنیم.

امروزه ما مجموعه‌ای از مجموعه داده‌های منبع باز داریم که می‌توانیم روی آنها تحقیق کنیم یا برنامه‌های کاربردی را برای مقابله با مسائل دنیای واقعی در بخش‌های مختلف توسعه دهیم.

با این حال، کمبود مجموعه داده‌های کمی با کیفیت بالا منبع نگرانی است. داده ها به شدت افزایش یافته اند و در آینده با سرعت بیشتری گسترش خواهند یافت.

در این پست، مجموعه داده‌های رایگان موجود را پوشش می‌دهیم که می‌توانید برای توسعه پروژه هوش مصنوعی بعدی خود از آنها استفاده کنید.

1. مجموعه داده CelebFaces Attributes

مجموعه داده های CelebFaces Attributes (CelebA) حاوی بیش از 200 هزار عکس از افراد مشهور و 40 حاشیه نویسی ویژگی برای هر تصویر است که آن را به نقطه شروع عالی برای پروژه هایی مانند تشخیص چهره، تشخیص چهره، محلی سازی نقطه عطف (یا جزء چهره)، و ویرایش و ترکیب چهره. علاوه بر این، عکس‌های این مجموعه شامل طیف گسترده‌ای از انواع موقعیت‌ها و به هم ریختگی پس‌زمینه است.

2. DOTA

DOTA (مجموعه داده از تشخیص شی در عکس های هوایی) مجموعه داده ای در مقیاس بزرگ برای تشخیص اشیا است که شامل 15 دسته رایج (مانند کشتی، هواپیما، ماشین و غیره)، 1411 تصویر برای آموزش و 458 تصویر برای اعتبارسنجی است.

3. مجموعه داده مقایسه بیان چهره Google

مجموعه داده مقایسه حالت چهره Google شامل حدود 500,000 تصویر سه قلو، از جمله 156,000 عکس چهره است. شایان ذکر است که هر سه گانه در این مجموعه داده توسط حداقل شش ارزیاب انسانی حاشیه نویسی شده است.

این مجموعه داده برای پروژه هایی که شامل تجزیه و تحلیل بیان چهره هستند، مانند بازیابی تصویر مبتنی بر بیان، دسته بندی احساسات، ترکیب بیان و غیره مفید است. برای دسترسی به مجموعه داده، یک فرم مختصر باید تکمیل شود.

4. ژنوم بصری

ویژوال پرسش پاسخ داده ها در یک محیط چند گزینه ای در ویژوال ژنوم موجود است. این از 101,174 عکس MSCOCO با 1.7 میلیون جفت QA با میانگین 17 سوال در هر تصویر تشکیل شده است.

در مقایسه با مجموعه داده پاسخ به سؤال ویژوال، مجموعه داده ژنوم ویژوال توزیع عادلانه تری در بین شش نوع سؤال دارد: چه، کجا، چه زمانی، چه کسی، چرا، و چگونه.

علاوه بر این، مجموعه داده های Visual Genome شامل 108K عکس است که به شدت با اشیا، ویژگی ها و اتصالات برچسب گذاری شده اند.

5. LibriSpeech

مجموعه LibriSpeech مجموعه ای از حدود 1,000 ساعت کتاب صوتی از پروژه LibriVox است. اکثر کتاب های صوتی از پروژه گوتنبرگ نشات گرفته اند.

داده های آموزشی به سه پارتیشن 100 ساعتی، 360 ساعتی و 500 ساعتی تقسیم می شوند، در حالی که داده های توسعه دهنده و تست تقریباً 5 ساعت طول صدا دارند.

6. فضاهای شهر

یکی از شناخته شده ترین پایگاه های داده در مقیاس بزرگ ویدئوهای استریو با نماهای شهری، The Cityscapes نام دارد.

با حاشیه‌نویسی‌های دقیق پیکسلی که شامل مکان‌های GPS، دمای بیرون، داده‌های ego-motion، و پرسپکتیوهای استریوی درست است، شامل ضبط‌هایی از 50 شهر آلمانی مجزا می‌شود.

7. مجموعه داده سینتیک

یکی از شناخته شده ترین مجموعه داده های ویدیویی برای تشخیص فعالیت های انسانی در مقیاس بزرگ و با کیفیت خوب، مجموعه داده های Kinetics است. حداقل 600 کلیپ ویدیویی برای هر یک از 600 کلاس فعالیت انسانی وجود دارد که در مجموع بیش از 500,000 کلیپ است.

فیلم ها از یوتیوب بیرون کشیده شدند. هر یک حدود 10 ثانیه طول می کشد و فقط یک کلاس فعالیت در لیست دارد.

8. CelebAMask-HQ

CelebAMask-HQ مجموعه ای از 30,000 عکس صورت با وضوح بالا با ماسک هایی با حاشیه نویسی دقیق و 19 کلاس است که شامل اجزای صورت مانند پوست، بینی، چشم، ابرو، گوش، دهان، لب، مو، کلاه، عینک، گوشواره، گردنبند، گردن، مواد

این مجموعه داده را می توان برای آزمایش و آموزش تشخیص چهره، تجزیه چهره، و GAN ها برای الگوریتم های تولید چهره و ویرایش استفاده کرد.

9. پن درخت بانک

یکی از برجسته‌ترین و اغلب مورد استفاده برای ارزیابی مدل‌ها برای برچسب‌گذاری دنباله، پیکره انگلیسی Penn Treebank (PTB) است، به‌ویژه بخشی از مجموعه متناظر با مقالات وال استریت ژورنال.

هر کلمه باید بخشی از گفتار خود را به عنوان جزئی از کار برچسب گذاری کند. در سطح کاراکتر و در سطح کلمه مدل سازی زبان همچنین اغلب از بدنه استفاده می کند.

10. VoxCeleb

VoxCeleb یک مجموعه داده شناسایی گفتار در مقیاس بزرگ است که به طور خودکار از آن تولید می شود رسانه منبع باز. VoxCeleb بیش از یک میلیون صحبت از بیش از 6k بلندگو دارد.

از آنجایی که مجموعه داده شامل سمعی و بصری است، می‌توان از آن برای انواع برنامه‌های کاربردی دیگر، از جمله سنتز گفتار بصری، جداسازی گفتار، انتقال متقابل از چهره به صدا یا برعکس، و آموزش تشخیص چهره از ویدیو برای تکمیل تشخیص چهره فعلی استفاده کرد. مجموعه داده ها

11. SIXray

مجموعه داده SIXray شامل 1,059,231 عکس پرتو ایکس است که از ایستگاه های مترو جمع آوری شده و توسط بازرسان امنیتی انسانی برای شناسایی شش نوع اصلی ممنوعه: تپانچه، چاقو، آچار، انبردست، قیچی و چکش شرح داده شده است. علاوه بر این، جعبه‌های محدودکننده برای هر آیتم غیرمجاز به‌منظور ارزیابی عملکرد محلی‌سازی شی، به‌صورت دستی به مجموعه‌های آزمایش اضافه شده‌اند.

12. حوادث ایالات متحده

ماهیت پروژه قبلاً با نام مجموعه داده، حوادث ایالات متحده، آشکار شده است. این مجموعه داده در مورد تصادفات خودرو در سراسر کشور شامل اطلاعاتی از فوریه 2016 تا دسامبر 2021 است و 49 ایالت در ایالات متحده را پوشش می دهد.

در حال حاضر حدود 1.5 میلیون پرونده تصادف در این مجموعه موجود است. با استفاده از چندین API ترافیک در زمان واقعی جمع آوری شد.

این APIها اطلاعات ترافیک جمع آوری شده از منابع مختلف، از جمله دوربین های ترافیکی، سازمان های مجری قانون، و ادارات حمل و نقل ایالات متحده و ایالت را انتقال می دهند.

13. تشخیص بیماری های چشمی

پایگاه داده سازمان یافته چشم پزشکی تشخیص هوشمند بیماری چشمی (ODIR) حاوی اطلاعاتی درباره 5,000 بیمار از جمله سن آنها، رنگ فوندوس در چشم چپ و راست آنها و کلمات کلیدی تشخیصی متخصصان پزشکی است.

این مجموعه داده مجموعه ای واقعی از داده های بیماران از بیمارستان ها و مراکز پزشکی مختلف در چین است که شرکت فناوری پزشکی شانگونگ، با مسئولیت محدود به دست آورده است. با مدیریت کنترل کیفیت، حاشیه نویسی توسط خوانندگان انسانی ماهر برچسب گذاری شد.

14. بیماری قلبی

این مجموعه داده بیماری قلبی به شناسایی وجود بیماری قلبی در بیمار بر اساس 76 پارامتر مانند سن، جنسیت، نوع درد قفسه سینه، فشار خون در حالت استراحت و غیره کمک می کند.

با 303 مورد، پایگاه داده به دنبال تمایز ساده وجود یک بیماری (مقدار 1,2,3,4،0،XNUMX،XNUMX) از عدم وجود آن (مقدار XNUMX) است.

15. CLEVR

مجموعه داده CLEVR (زبان ترکیبی و استدلال تصویری ابتدایی) پاسخگویی به سؤالات تصویری را تقلید می کند. این شامل عکس هایی از اشیاء رندر سه بعدی است که هر عکس با مجموعه ای از سوالات بسیار ترکیبی به چندین دسته تقسیم می شود.

برای تمام تصاویر و سؤالات قطار و اعتبارسنجی، مجموعه داده شامل 70,000 عکس و 700,000 سؤال برای آموزش، 15,000 تصویر و 150,000 سؤال برای تأیید اعتبار، و 15,000 تصویر و 150,000 سؤال برای آزمایش شامل اشیاء، پاسخ ها، و برنامه های عملکردی است.

16. وابستگی های جهانی

پروژه Universal Dependencies (UD) با هدف ایجاد مورفولوژی یکنواخت متقابل زبانی و حاشیه نویسی بانک درختی نحوی برای بسیاری از زبان ها است. نسخه 2.7 که در سال 2020 منتشر شد، دارای 183 درخت به 104 زبان است.

حاشیه نویسی از برچسب های POW جهانی، سرهای وابستگی و برچسب های وابستگی جهانی تشکیل شده است.

17. کیتی - 360

یکی از مجموعه داده های پرکاربرد برای ربات های سیار و رانندگی خودمختار KITTI (موسسه فناوری کارلسروهه و موسسه فناوری تویوتا) است.

این از سناریوهای ترافیکی چند ساعته تشکیل شده است که با استفاده از طیف وسیعی از روش‌های حسگر، مانند دوربین‌های RGB با وضوح بالا، استریو در مقیاس خاکستری، و دوربین‌های اسکنر لیزری سه‌بعدی گرفته شده‌اند. این مجموعه داده در طول زمان توسط چندین محقق بهبود یافته است که به صورت دستی بخش‌های مختلفی از آن را مطابق با نیازهای خود حاشیه‌نویسی کردند.

18. MOT (ردیابی چند شی)

MOT (Multiple Object Tracking) مجموعه داده ای برای ردیابی اشیاء چندگانه است که شامل مناظر داخلی و خارجی مکان های عمومی است که شامل عابران پیاده به عنوان اشیاء مورد علاقه است. ویدیوی هر صحنه به دو قسمت تقسیم شده است، یکی برای آموزش و دیگری برای آزمایش.

مجموعه داده شامل تشخیص اشیا در فریم های ویدئویی با استفاده از سه آشکارساز: SDP، Faster-RCNN و DPM.

19. PASCAL 3D+

مجموعه داده چند نمایشی Pascal3D+ از عکس‌های جمع‌آوری‌شده در طبیعت، به عنوان مثال، تصاویر دسته‌های اقلام با تنوع بالا، در شرایط کنترل‌نشده، در محیط‌های شلوغ و در موقعیت‌های مختلف تشکیل شده است. Pascal3D+ شامل 12 دسته شی صلب است که از مجموعه داده PASCAL VOC 2012 گرفته شده است.

این آیتم ها دارای اطلاعات وضعیت بدن (آزیموت، ارتفاع و فاصله تا دوربین) هستند. Pascal3D+ علاوه بر این شامل عکس‌های حاشیه‌نویسی ژست از مجموعه ImageNet در این ۱۲ دسته است.

20. مدل های تغییر شکل دهنده صورت حیوانات

هدف پروژه مدل‌های تغییر شکل‌پذیر صورت حیوانات (FDMA) به چالش کشیدن روش‌های کنونی در شناسایی و ردیابی نشانه‌های چهره انسان و توسعه الگوریتم‌های جدیدی است که می‌تواند با تنوع بسیار بزرگ‌تری که مشخصه ویژگی‌های صورت حیوانات است، مقابله کند.

الگوریتم‌های این پروژه توانایی تشخیص و ردیابی نقاط عطف روی صورت انسان را در حین برخورد با واریانس‌های ناشی از تغییرات در احساسات یا موقعیت‌های صورت، انسداد جزئی و نور نشان دادند.

21. مجموعه داده های پست انسانی MPII

مجموعه داده MPII Human Pose شامل حدود 25K عکس است که 15K نمونه آموزشی، 3K نمونه اعتبار سنجی و 7K نمونه آزمایشی است.

موقعیت ها به صورت دستی با حداکثر 16 مفصل بدن برچسب گذاری شده اند و عکس ها از فیلم های YouTube گرفته شده اند که 410 فعالیت مختلف انسانی را پوشش می دهند.

22. UCF101

مجموعه داده UCF101 شامل 13,320 کلیپ ویدیویی است که در 101 دسته سازماندهی شده اند. این 101 دسته به پنج دسته تقسیم می شوند: حرکات بدن، تعامل انسان و انسان، تعامل انسان و شی، نواختن آلات موسیقی و ورزش.

ویدیوها از یوتیوب هستند و 27 ساعت طول می کشند.

23. Audioset

Audioset یک مجموعه داده رویداد صوتی است که از بیش از 2 میلیون بخش ویدیویی 10 ثانیه ای با حاشیه نویسی توسط انسان تشکیل شده است. برای حاشیه نویسی این داده ها، یک هستی شناسی سلسله مراتبی شامل 632 نوع رویداد استفاده می شود، که به این معنی است که ممکن است همان صدا به طور متفاوتی برچسب گذاری شود.

24. استنباط زبان طبیعی استانفورد

مجموعه داده SNLI (استنباط زبان طبیعی استانفورد) شامل 570 هزار جفت جمله است که به صورت دستی به عنوان دلالت، تناقض یا خنثی دسته بندی شده اند.

مقدمات، توصیف‌های تصویری Flickr30k هستند، در حالی که فرضیه‌ها توسط حاشیه‌نویس‌هایی با منبع جمعی ایجاد شده‌اند که مقدمه‌ای ارائه شده‌اند و دستور داده شده‌اند تا عبارات مستلزم، متناقض و خنثی تولید کنند.

25. پاسخ تصویری به سوال

پاسخگویی به سؤالات تصویری (VQA) مجموعه داده ای است که شامل سؤالات باز در مورد تصاویر است. برای پاسخ به این سؤالات، باید بینش، زبان و عقل سلیم را درک کنید.

نتیجه

همانطور که یادگیری ماشین و هوش مصنوعی (AI) تقریباً در هر کسب و کار و در زندگی روزمره ما رایج تر می شود، تعداد منابع و اطلاعات موجود در مورد این موضوع نیز افزایش می یابد.

مجموعه داده‌های عمومی آماده نقطه شروعی عالی برای توسعه مدل‌های هوش مصنوعی است و در عین حال به برنامه‌نویسان باتجربه ML اجازه می‌دهد در زمان صرفه‌جویی کرده و بر سایر عناصر پروژه‌های خود تمرکز کنند.

بهترین مجموعه داده های آموزشی جایگزین هوش مصنوعی

25 بهترین مجموعه داده آموزشی جایگزین هوش مصنوعی

1. مجموعه داده CelebFaces Attributes

2. DOTA

3. مجموعه داده مقایسه بیان چهره Google

4. ژنوم بصری

5. LibriSpeech

6. فضاهای شهر

7. مجموعه داده سینتیک

8. CelebAMask-HQ

9. پن درخت بانک

10. VoxCeleb

11. SIXray

12. حوادث ایالات متحده

13. تشخیص بیماری های چشمی

14. بیماری قلبی

15. CLEVR

16. وابستگی های جهانی

17. کیتی - 360

18. MOT (ردیابی چند شی)

19. PASCAL 3D+

20. مدل های تغییر شکل دهنده صورت حیوانات

21. مجموعه داده های پست انسانی MPII

22. UCF101

23. Audioset

24. استنباط زبان طبیعی استانفورد

25. پاسخ تصویری به سوال

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

25 بهترین مجموعه داده آموزشی جایگزین هوش مصنوعی

1. مجموعه داده CelebFaces Attributes

2. DOTA

3. مجموعه داده مقایسه بیان چهره Google

4. ژنوم بصری

5. LibriSpeech

6. فضاهای شهر

7. مجموعه داده سینتیک

8. CelebAMask-HQ

9. پن درخت بانک

10. VoxCeleb

11. SIXray

12. حوادث ایالات متحده

13. تشخیص بیماری های چشمی

14. بیماری قلبی

15. CLEVR

16. وابستگی های جهانی

17. کیتی - 360

18. MOT (ردیابی چند شی)

19. PASCAL 3D+

20. مدل های تغییر شکل دهنده صورت حیوانات

21. مجموعه داده های پست انسانی MPII

22. UCF101

23. Audioset

24. استنباط زبان طبیعی استانفورد

25. پاسخ تصویری به سوال

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست