如今,我们大多数人都专注于开发机器学习和 AI 模型,并使用当前数据集解决问题。 但首先,我们必须定义一个数据集、它的重要性以及它在开发强大的 AI 和 ML 解决方案中的作用。
今天,我们拥有大量的开源数据集,可以在这些数据集上进行研究或开发应用程序,以解决各个领域的现实问题。
然而,高质量定量数据集的稀缺令人担忧。 数据大幅增长,未来还将继续以更快的速度扩展。
在这篇文章中,我们将介绍可用于开发下一个 AI 项目的免费数据集。
1. CelebFaces 属性数据集
CelebFaces 属性数据集 (CelebA) 包含超过 200 万张名人照片和每张图像的 40 个属性注释,使其成为项目的绝佳起点,例如 人脸识别、人脸检测、地标(或面部成分)定位以及人脸编辑和合成。 此外,此系列中的照片包含各种位置变化和背景混乱。
2. DOTA
DOTA(数据集 物体检测 in Aerial Photos) 是一个用于对象检测的大规模数据集,包括 15 个常见类别(例如,船舶、飞机、汽车等)、1411 个用于训练的图像和 458 个用于验证的图像。
3. 谷歌面部表情比较数据集
谷歌面部表情比较数据集包含大约 500,000 张图片三元组,其中包括 156,000 张面部照片。 值得注意的是,该数据集中的每个三元组都由至少六名人工评分者进行了注释。
该数据集对于涉及人脸表情分析的项目非常有用,例如基于表情的图片检索、情感分类、表情合成等。 要访问数据集,必须填写一份简短的表格。
4. 视觉基因组
Visual Genome 中提供了多项选择环境中的视觉问答数据。 它由 101,174 张 MSCOCO 照片和 1.7 万对 QA 组成,每张图像平均有 17 个问题。
与 Visual Question Answering 数据集相比,Visual Genome 数据集在六种问题类型中分布更为公平:What、Where、When、Who、Why 和 How。
此外,Visual Genome 数据集包括 108K 张照片,这些照片被大量标记为对象、属性和连接。
5. 图书馆演讲
LibriSpeech 语料库是来自 LibriVox 项目的大约 1,000 小时有声读物的集合。 大多数有声读物来自古腾堡计划。
训练数据分为 100hr、360hr 和 500hr 三个分区,而 dev 和 test 数据的音频长度大约为 5hr。
6. 城市空间
最著名的大型城市景观立体视频数据库之一称为 The Cityscapes。
通过包括 GPS 位置、室外温度、自我运动数据和正确立体视角的像素精确注释,它包括来自 50 个不同德国城市的记录。
7. 动力学数据集
Kinetics 数据集是用于大规模和高质量识别人类活动的最著名的视频数据集之一。 600 个人类活动类别中的每个类别至少有 600 个视频剪辑,总计超过 500,000 个。
这些电影是从 YouTube 上撤下来的; 每一个大约 10 秒长,并且只列出一个活动类。
8. CelebAMask-总部
CelebAMask-HQ 是 30,000 张高分辨率面部照片的集合,带有经过仔细注释的面具和 19 个类别,其中包括皮肤、鼻子、眼睛、眉毛、耳朵、嘴巴、嘴唇、头发、帽子、眼镜、耳环、项链、脖子, 材料.
该数据集可用于测试和训练人脸识别、人脸解析以及用于人脸生成和编辑算法的 GAN。
9. 宾夕法尼亚树库
用于评估序列标记模型的最著名和最常用的语料库之一是英语 Penn Treebank (PTB) 语料库,特别是对应于华尔街日报文章的语料库部分。
每个单词都必须将其词性标记为任务的组成部分。 字符级和单词级 语言建模 也经常使用语料库。
10. 名人之声
VoxCeleb 是一个自动生成的大规模语音识别数据集 开源媒体. VoxCeleb 拥有来自 6k 多位演讲者的超过 XNUMX 万条话语。
由于数据集包括视听,它可以用于各种附加应用,包括视觉语音合成、语音分离、从人脸到语音的跨模态转换,以及从视频训练人脸识别以补充当前的人脸识别数据集。
11. 六线
SIXray 数据集包括从地铁站收集的 1,059,231 张 X 射线照片,并由人类安全检查员进行注释,以检测六种主要的违禁物品:手枪、刀具、扳手、钳子、剪刀和锤子。 此外,每个不允许的项目的边界框已手动添加到测试集中,以评估对象定位的性能。
12. 美国事故
数据集的名称 US Accidents 已经揭示了该项目的实质。 该全国性汽车事故数据集包括 2016 年 2021 月至 49 年 XNUMX 月的信息,涵盖美国 XNUMX 个州。
该集合中现在存在大约 1.5 万条事故记录。 它是通过利用几个流量 API 实时收集的。
这些 API 传输从各种来源收集的交通信息,包括交通摄像头、执法机构以及美国和州的交通部门。
13. 眼部疾病识别
有组织的眼科数据库眼科疾病智能识别 (ODIR) 包含有关 5,000 名患者的信息,包括他们的年龄、左右眼眼底的颜色以及医疗专业人员的诊断关键词。
该数据集是上工医疗科技有限公司收购的中国多家医院和医疗机构的患者数据的实际集合。 和 质量控制管理, 注释由熟练的人类读者标记。
14. 心脏疾病
该心脏病数据集有助于根据年龄、性别、胸痛种类、静息血压等 76 个参数来识别患者是否存在心脏病。
对于 303 个病例,数据库试图简单地区分疾病的存在(值 1,2,3,4、0、XNUMX、XNUMX)和不存在(值 XNUMX)。
15. 聪明的
CLEVR 数据集(组合语言和初级视觉推理)模仿视觉问答。 它由 3D 渲染对象的照片组成,每张照片都伴随着一系列高度组合的问题,分为几类。
对于所有训练和验证图片和问题,数据集包括 70,000 张照片和 700,000 个训练问题、15,000 张图像和 150,000 个验证问题,以及 15,000 张图像和 150,000 个测试问题,涉及对象、回复、场景图和功能程序。
16. 通用依赖
Universal Dependencies (UD) 项目旨在为多种语言创建跨语言统一的形态和语法树库注释。 2.7 版于 2020 年发布,拥有 183 种语言的 104 个树库。
注释由通用 POW 标签、依赖头和通用依赖标签组成。
17. 基蒂 – 360
移动机器人和移动机器人最常用的数据集之一 自动驾驶 是KITTI(卡尔斯鲁厄理工学院和丰田技术学院)。
它由使用各种传感器模式(例如高分辨率 RGB、灰度立体和 3D 激光扫描仪相机)捕获的数小时的交通场景组成。 随着时间的推移,一些研究人员对数据集进行了改进,他们手动注释了数据集的各个部分以满足他们的需求。
18. MOT(多目标跟踪)
MOT(Multiple Object Tracking)是一个用于多对象跟踪的数据集,包括公共场所的室内和室外风景,其中包括作为感兴趣对象的行人。 每个场景的视频都分为两部分,一部分用于训练,另一部分用于测试。
数据集包括 物体检测 在视频帧中使用三个检测器:SDP、Faster-RCNN 和 DPM。
19. 帕斯卡 3D+
Pascal3D+ 多视图数据集由在野外收集的照片组成,即具有高度可变性的项目类别的图像,在不受控制的情况下、在拥挤的环境中以及在各种位置上捕获。 Pascal3D+ 包括从 PASCAL VOC 12 数据集中提取的 2012 个刚性对象类别。
这些项目上标有姿势信息(方位角、仰角和到相机的距离)。 Pascal3D+ 还包括这 12 个类别中来自 ImageNet 集合的姿势注释照片。
20. 动物面部可变形模型
动物面部可变形模型 (FDMA) 项目的目标是挑战当前人类面部标志识别和跟踪的方法,并开发新的算法来处理动物面部特征的较大可变性。
该项目的算法展示了识别和跟踪人脸上地标的能力,同时处理由面部情绪或位置、部分遮挡和照明变化引起的变化。
21. MPII 人类邮政数据集
MPII Human Pose Dataset 包含大约 25K 张照片,其中 15K 是训练样本,其中 3K 是验证样本,其中 7K 是测试样本。
这些位置由多达 16 个身体关节手动标记,照片取自 YouTube 电影,涵盖 410 种不同的人类活动。
22. UCF101
UCF101 数据集包含 13,320 个视频剪辑,分为 101 个类别。 这101个类别分为五类:身体动作、人与人互动、人与物互动、乐器演奏和运动。
这些视频来自 YouTube,时长为 27 小时。
23. 音频集
Audioset 是一个音频事件数据集,由超过 2 万个人工注释的 10 秒视频片段组成。 为了注释这些数据,使用了包含 632 个事件类型的分层本体,这意味着相同的声音可能被不同地标记。
24. 斯坦福自然语言推理
SNLI 数据集(斯坦福自然语言推理)包含 570k 个句子配对,这些配对已被手动分类为蕴涵、矛盾或中性。
前提是 Flickr30k 图片描述,而假设是由众包注释者开发的,他们提供了一个前提并被指示生成包含、矛盾和中性的陈述。
25. 视觉问答
视觉问答 (VQA) 是一个包含有关图片的开放式问题的数据集。 要回答这些问题,您需要掌握视觉、语言和常识。
结论
随着机器学习和人工智能 (AI) 在几乎所有业务和我们的日常生活中变得越来越普遍,有关该主题的可用资源和信息的数量也在增加。
现成的公共数据集为开发 AI 模型提供了一个很好的起点,同时还允许经验丰富的 ML 程序员节省时间并专注于他们项目的其他元素。
发表评论