فهرست مندرجات[پنهان شدن][نمایش]
- 1. CelebFaces Attributes Dataset
- 2. DOTA
- 3. مجموعه داده مقایسه بیان صورت Google
- 4. ژنوم بصری
- 5. LibriSpeech
- 6. فضاهای شهر
- 7. مجموعه داده سینتیک
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. حوادث ایالات متحده
- 13. تشخیص بیماری های چشمی
- 14. بیماری قلبی
- 15. CLEVR
- 16. وابستگی های جهانی
- 17. کیتی – 360
- 18. MOT (ردیابی چند شی)
- 19. PASCAL 3D+
- 20. مدل های تغییر شکل دهنده صورت حیوانات
- 21. مجموعه داده های پست انسانی MPII
- 22. UCF101
- 23. Audioset
- 24. استنفورد زبان طبیعی استنباط
- 25. پاسخ به سوال تصویری
- نتیجه
امروزه، بیشتر ما بر روی توسعه مدلهای یادگیری ماشین و هوش مصنوعی و پرداختن به مسائل با استفاده از مجموعه دادههای فعلی تمرکز کردهایم. اما ابتدا باید یک مجموعه داده، اهمیت و نقش آن در توسعه راه حل های قوی هوش مصنوعی و ML را تعریف کنیم.
امروزه ما مجموعهای از مجموعه دادههای منبع باز داریم که میتوانیم روی آنها تحقیق کنیم یا برنامههای کاربردی را برای مقابله با مسائل دنیای واقعی در بخشهای مختلف توسعه دهیم.
با این حال، کمبود مجموعه دادههای کمی با کیفیت بالا منبع نگرانی است. داده ها به شدت افزایش یافته اند و در آینده با سرعت بیشتری گسترش خواهند یافت.
در این پست، مجموعه دادههای رایگان موجود را پوشش میدهیم که میتوانید برای توسعه پروژه هوش مصنوعی بعدی خود از آنها استفاده کنید.
1. مجموعه داده CelebFaces Attributes
مجموعه داده های CelebFaces Attributes (CelebA) حاوی بیش از 200 هزار عکس از افراد مشهور و 40 حاشیه نویسی ویژگی برای هر تصویر است که آن را به نقطه شروع عالی برای پروژه هایی مانند تشخیص چهره، تشخیص چهره، محلی سازی نقطه عطف (یا جزء چهره)، و ویرایش و ترکیب چهره. علاوه بر این، عکسهای این مجموعه شامل طیف گستردهای از انواع موقعیتها و به هم ریختگی پسزمینه است.
2. DOTA
DOTA (مجموعه داده از تشخیص شی در عکس های هوایی) مجموعه داده ای در مقیاس بزرگ برای تشخیص اشیا است که شامل 15 دسته رایج (مانند کشتی، هواپیما، ماشین و غیره)، 1411 تصویر برای آموزش و 458 تصویر برای اعتبارسنجی است.
3. مجموعه داده مقایسه بیان چهره Google
مجموعه داده مقایسه حالت چهره Google شامل حدود 500,000 تصویر سه قلو، از جمله 156,000 عکس چهره است. شایان ذکر است که هر سه گانه در این مجموعه داده توسط حداقل شش ارزیاب انسانی حاشیه نویسی شده است.
این مجموعه داده برای پروژه هایی که شامل تجزیه و تحلیل بیان چهره هستند، مانند بازیابی تصویر مبتنی بر بیان، دسته بندی احساسات، ترکیب بیان و غیره مفید است. برای دسترسی به مجموعه داده، یک فرم مختصر باید تکمیل شود.
4. ژنوم بصری
ویژوال پرسش پاسخ داده ها در یک محیط چند گزینه ای در ویژوال ژنوم موجود است. این از 101,174 عکس MSCOCO با 1.7 میلیون جفت QA با میانگین 17 سوال در هر تصویر تشکیل شده است.
در مقایسه با مجموعه داده پاسخ به سؤال ویژوال، مجموعه داده ژنوم ویژوال توزیع عادلانه تری در بین شش نوع سؤال دارد: چه، کجا، چه زمانی، چه کسی، چرا، و چگونه.
علاوه بر این، مجموعه داده های Visual Genome شامل 108K عکس است که به شدت با اشیا، ویژگی ها و اتصالات برچسب گذاری شده اند.
5. LibriSpeech
مجموعه LibriSpeech مجموعه ای از حدود 1,000 ساعت کتاب صوتی از پروژه LibriVox است. اکثر کتاب های صوتی از پروژه گوتنبرگ نشات گرفته اند.
داده های آموزشی به سه پارتیشن 100 ساعتی، 360 ساعتی و 500 ساعتی تقسیم می شوند، در حالی که داده های توسعه دهنده و تست تقریباً 5 ساعت طول صدا دارند.
6. فضاهای شهر
یکی از شناخته شده ترین پایگاه های داده در مقیاس بزرگ ویدئوهای استریو با نماهای شهری، The Cityscapes نام دارد.
با حاشیهنویسیهای دقیق پیکسلی که شامل مکانهای GPS، دمای بیرون، دادههای ego-motion، و پرسپکتیوهای استریوی درست است، شامل ضبطهایی از 50 شهر آلمانی مجزا میشود.
7. مجموعه داده سینتیک
یکی از شناخته شده ترین مجموعه داده های ویدیویی برای تشخیص فعالیت های انسانی در مقیاس بزرگ و با کیفیت خوب، مجموعه داده های Kinetics است. حداقل 600 کلیپ ویدیویی برای هر یک از 600 کلاس فعالیت انسانی وجود دارد که در مجموع بیش از 500,000 کلیپ است.
فیلم ها از یوتیوب بیرون کشیده شدند. هر یک حدود 10 ثانیه طول می کشد و فقط یک کلاس فعالیت در لیست دارد.
8. CelebAMask-HQ
CelebAMask-HQ مجموعه ای از 30,000 عکس صورت با وضوح بالا با ماسک هایی با حاشیه نویسی دقیق و 19 کلاس است که شامل اجزای صورت مانند پوست، بینی، چشم، ابرو، گوش، دهان، لب، مو، کلاه، عینک، گوشواره، گردنبند، گردن، مواد
این مجموعه داده را می توان برای آزمایش و آموزش تشخیص چهره، تجزیه چهره، و GAN ها برای الگوریتم های تولید چهره و ویرایش استفاده کرد.
9. پن درخت بانک
یکی از برجستهترین و اغلب مورد استفاده برای ارزیابی مدلها برای برچسبگذاری دنباله، پیکره انگلیسی Penn Treebank (PTB) است، بهویژه بخشی از مجموعه متناظر با مقالات وال استریت ژورنال.
هر کلمه باید بخشی از گفتار خود را به عنوان جزئی از کار برچسب گذاری کند. در سطح کاراکتر و در سطح کلمه مدل سازی زبان همچنین اغلب از بدنه استفاده می کند.
10. VoxCeleb
VoxCeleb یک مجموعه داده شناسایی گفتار در مقیاس بزرگ است که به طور خودکار از آن تولید می شود رسانه منبع باز. VoxCeleb بیش از یک میلیون صحبت از بیش از 6k بلندگو دارد.
از آنجایی که مجموعه داده شامل سمعی و بصری است، میتوان از آن برای انواع برنامههای کاربردی دیگر، از جمله سنتز گفتار بصری، جداسازی گفتار، انتقال متقابل از چهره به صدا یا برعکس، و آموزش تشخیص چهره از ویدیو برای تکمیل تشخیص چهره فعلی استفاده کرد. مجموعه داده ها
11. SIXray
مجموعه داده SIXray شامل 1,059,231 عکس پرتو ایکس است که از ایستگاه های مترو جمع آوری شده و توسط بازرسان امنیتی انسانی برای شناسایی شش نوع اصلی ممنوعه: تپانچه، چاقو، آچار، انبردست، قیچی و چکش شرح داده شده است. علاوه بر این، جعبههای محدودکننده برای هر آیتم غیرمجاز بهمنظور ارزیابی عملکرد محلیسازی شی، بهصورت دستی به مجموعههای آزمایش اضافه شدهاند.
12. حوادث ایالات متحده
ماهیت پروژه قبلاً با نام مجموعه داده، حوادث ایالات متحده، آشکار شده است. این مجموعه داده در مورد تصادفات خودرو در سراسر کشور شامل اطلاعاتی از فوریه 2016 تا دسامبر 2021 است و 49 ایالت در ایالات متحده را پوشش می دهد.
در حال حاضر حدود 1.5 میلیون پرونده تصادف در این مجموعه موجود است. با استفاده از چندین API ترافیک در زمان واقعی جمع آوری شد.
این APIها اطلاعات ترافیک جمع آوری شده از منابع مختلف، از جمله دوربین های ترافیکی، سازمان های مجری قانون، و ادارات حمل و نقل ایالات متحده و ایالت را انتقال می دهند.
13. تشخیص بیماری های چشمی
پایگاه داده سازمان یافته چشم پزشکی تشخیص هوشمند بیماری چشمی (ODIR) حاوی اطلاعاتی درباره 5,000 بیمار از جمله سن آنها، رنگ فوندوس در چشم چپ و راست آنها و کلمات کلیدی تشخیصی متخصصان پزشکی است.
این مجموعه داده مجموعه ای واقعی از داده های بیماران از بیمارستان ها و مراکز پزشکی مختلف در چین است که شرکت فناوری پزشکی شانگونگ، با مسئولیت محدود به دست آورده است. با مدیریت کنترل کیفیت، حاشیه نویسی توسط خوانندگان انسانی ماهر برچسب گذاری شد.
14. بیماری قلبی
این مجموعه داده بیماری قلبی به شناسایی وجود بیماری قلبی در بیمار بر اساس 76 پارامتر مانند سن، جنسیت، نوع درد قفسه سینه، فشار خون در حالت استراحت و غیره کمک می کند.
با 303 مورد، پایگاه داده به دنبال تمایز ساده وجود یک بیماری (مقدار 1,2,3,4،0،XNUMX،XNUMX) از عدم وجود آن (مقدار XNUMX) است.
15. CLEVR
مجموعه داده CLEVR (زبان ترکیبی و استدلال تصویری ابتدایی) پاسخگویی به سؤالات تصویری را تقلید می کند. این شامل عکس هایی از اشیاء رندر سه بعدی است که هر عکس با مجموعه ای از سوالات بسیار ترکیبی به چندین دسته تقسیم می شود.
برای تمام تصاویر و سؤالات قطار و اعتبارسنجی، مجموعه داده شامل 70,000 عکس و 700,000 سؤال برای آموزش، 15,000 تصویر و 150,000 سؤال برای تأیید اعتبار، و 15,000 تصویر و 150,000 سؤال برای آزمایش شامل اشیاء، پاسخ ها، و برنامه های عملکردی است.
16. وابستگی های جهانی
پروژه Universal Dependencies (UD) با هدف ایجاد مورفولوژی یکنواخت متقابل زبانی و حاشیه نویسی بانک درختی نحوی برای بسیاری از زبان ها است. نسخه 2.7 که در سال 2020 منتشر شد، دارای 183 درخت به 104 زبان است.
حاشیه نویسی از برچسب های POW جهانی، سرهای وابستگی و برچسب های وابستگی جهانی تشکیل شده است.
17. کیتی - 360
یکی از مجموعه داده های پرکاربرد برای ربات های سیار و رانندگی خودمختار KITTI (موسسه فناوری کارلسروهه و موسسه فناوری تویوتا) است.
این از سناریوهای ترافیکی چند ساعته تشکیل شده است که با استفاده از طیف وسیعی از روشهای حسگر، مانند دوربینهای RGB با وضوح بالا، استریو در مقیاس خاکستری، و دوربینهای اسکنر لیزری سهبعدی گرفته شدهاند. این مجموعه داده در طول زمان توسط چندین محقق بهبود یافته است که به صورت دستی بخشهای مختلفی از آن را مطابق با نیازهای خود حاشیهنویسی کردند.
18. MOT (ردیابی چند شی)
MOT (Multiple Object Tracking) مجموعه داده ای برای ردیابی اشیاء چندگانه است که شامل مناظر داخلی و خارجی مکان های عمومی است که شامل عابران پیاده به عنوان اشیاء مورد علاقه است. ویدیوی هر صحنه به دو قسمت تقسیم شده است، یکی برای آموزش و دیگری برای آزمایش.
مجموعه داده شامل تشخیص اشیا در فریم های ویدئویی با استفاده از سه آشکارساز: SDP، Faster-RCNN و DPM.
19. PASCAL 3D+
مجموعه داده چند نمایشی Pascal3D+ از عکسهای جمعآوریشده در طبیعت، به عنوان مثال، تصاویر دستههای اقلام با تنوع بالا، در شرایط کنترلنشده، در محیطهای شلوغ و در موقعیتهای مختلف تشکیل شده است. Pascal3D+ شامل 12 دسته شی صلب است که از مجموعه داده PASCAL VOC 2012 گرفته شده است.
این آیتم ها دارای اطلاعات وضعیت بدن (آزیموت، ارتفاع و فاصله تا دوربین) هستند. Pascal3D+ علاوه بر این شامل عکسهای حاشیهنویسی ژست از مجموعه ImageNet در این ۱۲ دسته است.
20. مدل های تغییر شکل دهنده صورت حیوانات
هدف پروژه مدلهای تغییر شکلپذیر صورت حیوانات (FDMA) به چالش کشیدن روشهای کنونی در شناسایی و ردیابی نشانههای چهره انسان و توسعه الگوریتمهای جدیدی است که میتواند با تنوع بسیار بزرگتری که مشخصه ویژگیهای صورت حیوانات است، مقابله کند.
الگوریتمهای این پروژه توانایی تشخیص و ردیابی نقاط عطف روی صورت انسان را در حین برخورد با واریانسهای ناشی از تغییرات در احساسات یا موقعیتهای صورت، انسداد جزئی و نور نشان دادند.
21. مجموعه داده های پست انسانی MPII
مجموعه داده MPII Human Pose شامل حدود 25K عکس است که 15K نمونه آموزشی، 3K نمونه اعتبار سنجی و 7K نمونه آزمایشی است.
موقعیت ها به صورت دستی با حداکثر 16 مفصل بدن برچسب گذاری شده اند و عکس ها از فیلم های YouTube گرفته شده اند که 410 فعالیت مختلف انسانی را پوشش می دهند.
22. UCF101
مجموعه داده UCF101 شامل 13,320 کلیپ ویدیویی است که در 101 دسته سازماندهی شده اند. این 101 دسته به پنج دسته تقسیم می شوند: حرکات بدن، تعامل انسان و انسان، تعامل انسان و شی، نواختن آلات موسیقی و ورزش.
ویدیوها از یوتیوب هستند و 27 ساعت طول می کشند.
23. Audioset
Audioset یک مجموعه داده رویداد صوتی است که از بیش از 2 میلیون بخش ویدیویی 10 ثانیه ای با حاشیه نویسی توسط انسان تشکیل شده است. برای حاشیه نویسی این داده ها، یک هستی شناسی سلسله مراتبی شامل 632 نوع رویداد استفاده می شود، که به این معنی است که ممکن است همان صدا به طور متفاوتی برچسب گذاری شود.
24. استنباط زبان طبیعی استانفورد
مجموعه داده SNLI (استنباط زبان طبیعی استانفورد) شامل 570 هزار جفت جمله است که به صورت دستی به عنوان دلالت، تناقض یا خنثی دسته بندی شده اند.
مقدمات، توصیفهای تصویری Flickr30k هستند، در حالی که فرضیهها توسط حاشیهنویسهایی با منبع جمعی ایجاد شدهاند که مقدمهای ارائه شدهاند و دستور داده شدهاند تا عبارات مستلزم، متناقض و خنثی تولید کنند.
25. پاسخ تصویری به سوال
پاسخگویی به سؤالات تصویری (VQA) مجموعه داده ای است که شامل سؤالات باز در مورد تصاویر است. برای پاسخ به این سؤالات، باید بینش، زبان و عقل سلیم را درک کنید.
نتیجه
همانطور که یادگیری ماشین و هوش مصنوعی (AI) تقریباً در هر کسب و کار و در زندگی روزمره ما رایج تر می شود، تعداد منابع و اطلاعات موجود در مورد این موضوع نیز افزایش می یابد.
مجموعه دادههای عمومی آماده نقطه شروعی عالی برای توسعه مدلهای هوش مصنوعی است و در عین حال به برنامهنویسان باتجربه ML اجازه میدهد در زمان صرفهجویی کرده و بر سایر عناصر پروژههای خود تمرکز کنند.
پاسخ دهید