每个机器学习项目都依赖于一个好的数据集。 正是这个大型数据集将允许您训练和验证您的 ML 模型。 因此,ML 项目的很大一部分工作是找到满足您需求的完美数据集。 但是,并非总是能够找到适合您的雄心壮志的选项,因为许多看起来很有趣的文件最终却并非如此。
浪费时间下载无数数据集,直到找到理想的数据集可能会令人生畏。 考虑到这一点,我们收集了一些看起来很有趣的选项,可以帮助您开发 ML 项目。 请注意,有些是供个人而非商业用途使用的,因此将这些选项视为获得 ML 世界经验的一种方式。
数据集基础
在我们提到数据集之前,我们应该定义一些术语。 在人工智能项目中,尤其是 机器学习,需要大量数据,将用于训练算法。 这些数据量被收集在数据库中,这对于教授算法非常有用。
有了这些数据,算法就得到了训练——也经过了测试——并能够找到模式、建立关系,从而自主做出决策。 未经训练, 机器学习 算法无法执行任何操作。 因此,训练数据越好,模型的性能就越好。 对于一个对项目有用的数据库,它与数量无关:它还与分类有关。
理想情况下,数据应该被很好地标记。 想想聊天机器人的例子:语言插入很重要,但必须进行仔细的句法分析,以便创建的算法能够理解对话者何时使用俚语。 只有这样,虚拟助手才能根据用户的要求启动答案。
数据集可以从调查、用户购买数据、对服务的评估以及许多其他允许收集在 CSV 文件中以列和行组织的有用信息的方式生成。
在开始寻找完美的数据集之前,了解项目的目的很重要,特别是如果它来自特定领域,例如天气、金融、健康等。这将决定您将要从哪个来源获取您的数据。数据集。
机器学习数据集
聊天机器人培训
一个有效的聊天机器人需要大量的训练数据才能在没有人工干预的情况下快速解决用户查询。 然而,聊天机器人开发的主要瓶颈是获取现实的、面向任务的对话数据来训练这些基于机器学习的系统。
会话数据集以问答格式收集数据。 它非常适合培训聊天机器人,为观众提供自动答案。 如果没有这些数据,聊天机器人将无法在无需人工干预的情况下快速解决用户查询或回答用户问题。
使用这些数据集,企业可以创建一个工具,为客户提供 24/7 的快速答案,并且比拥有一个团队提供客户支持要便宜得多。
1. 问答数据集
该数据集提供了一组维基百科文章、问题及其各自手动生成的答案。 它是 2008 年至 2010 年间收集的数据集,用于 学术研究.
2. 语言数据
Language Data 是由 Yahoo 管理的数据库,其中包含从公司的某些服务(例如 Yahoo! Answer,作为一个开放社区,供用户发布问题和答案。
3. 维基问答
WikiQA 语料库还包含一组问题和答案。 问题的来源是必应,而答案链接到一个有可能解决最初问题的维基百科页面。
数据集中总共有 3,000 多个问题和一组 29,258 个句子,其中大约 1,400 个已被归类为相应问题的答案。
政府数据
政府生成的数据集带来了人口统计数据,这些数据对于与了解社会趋势、制定公共政策和改善社会相关的项目来说是重要的输入。 这对于政治运动、有针对性的广告或市场分析很有用。
这些数据集通常包含匿名数据,因此虽然模型可以访问原始数据,但不会侵犯个人隐私。
4. Data.gov
Data.gov 于 2009 年推出,是北美的数据来源。 它的目录令人印象深刻:超过 218,000 个数据集,允许按格式、标签、类型和主题进行分割。
5. 欧盟开放数据门户
欧盟开放数据门户提供对欧盟机构共享的开放数据的访问。 这些数据可用于商业和非商业用途。 用户可以使用超过 15.5 万个数据集,涵盖健康、能源、环境、文化和教育等主题。
健康数据
在全球范围内持续的健康危机之后,卫生组织生成的数据集对于开发有效的解决方案以挽救生命至关重要。 这些数据集可以帮助识别风险因素、确定疾病传播模式并加快诊断速度。
这些数据集包括健康记录、患者人口统计、疾病流行、药物使用、营养价值等等。
6. 全球卫生观察站
该数据集是世界卫生组织 (WHO) 的一项倡议。 它提供与不同健康领域相关的公共数据,按卫生系统、烟草使用控制、生育、艾滋病毒/艾滋病等主题组织。还可以选择查阅有关 COVID-19 的数据。
7. CORD-19
CORD-19 是有关 COVID-19 的学术出版物和其他有关新型冠状病毒的文章的语料库。 它是一个开放数据集,旨在对 COVID-19 产生新的见解。
经济数据
与金融环境相关的数据集通常会收集大量信息,因为它们已经收集了很长时间。 它们是创建经济预测或建立投资趋势的理想选择。
有了正确的金融数据集, 机器学习模型 可能能够预测给定资产的行为。 这就是为什么金融部门正在竭尽全力创建有效的 ML 模型,因为任何可以预测得相当好的东西都有可能产生数百万美元的收入。 机器学习已经在预测公民的行为,这正在影响政策制定者的工作方式。
8. 国际货币基金组织
IMF 数据集包含一系列经济和金融指标、成员国统计数据以及其他贷款和汇率数据。
9. 世界银行
世界银行的资料库包含来自不同国家的经济信息的不同数据集。 按大洲划分的数据集超过 17,000 个。
产品和服务评论
情绪分析在各个领域都有应用,现在帮助企业正确地估计和学习他们的客户或客户。 情绪分析越来越多地用于社交媒体监控、品牌监控、客户之声 (VoC)、客户服务和市场研究。
情绪分析使用 NLP (神经语言编程)基于规则、混合或依赖机器学习技术从数据集中学习数据的方法和算法。
情感分析所需的数据应该是专门的,需要大量的。 情感分析训练过程中最具挑战性的部分不是查找大量数据。 相反,它是找到相关的数据集。 这些数据集必须涵盖广泛的情感分析应用程序和用例。
10. 亚马逊评论
该数据集包含大约 35 万条亚马逊评论,跨越 18 年收集的信息。 它是产品、用户和评论内容的数据集。
11. Yelp评论
Yelp 还提供基于从其服务中收集的信息的数据集。 有超过 8 万条评论、1 万条提示,以及近 1.5 万条与业务相关的属性,例如营业时间和可用性。
12. IMDB评论
该数据库包含一组超过 25 条用于训练的电影评论,以及另外 25 条用于从 IMDB 页面进行的非正式测试,专门用于电影评级。 它还提供未标记的数据作为附加。
ML 第一步的数据集
13. 葡萄酒质量数据集
该数据集提供了与葡萄牙北部生产的红葡萄酒和绿葡萄酒有关的信息。 目标是根据物理化学测试来定义葡萄酒的质量。 对于那些想要练习创建预测系统的人来说很有趣。
14. 泰坦尼克号数据集
该数据集带来了来自泰坦尼克号的 887 名真实乘客的数据,每列定义了他们是否幸存、他们的年龄、乘客等级、性别以及他们支付的登机费。 该数据集是 Kaggle 平台发起的一项挑战的一部分,其目的是创建一个模型,可以预测哪些乘客在泰坦尼克号沉没中幸存下来。
查找其他数据集的平台
如果您想更进一步并找到自己的数据集,最好的方法是浏览最有名的存储库 机器学习 宇宙:
Kaggle
Kaggle 是 Google LLC 的子公司,是一个由数据科学家和机器学习专业人士组成的在线社区。 Kaggle 允许用户在基于 Web 的数据科学环境中查找和发布数据集、探索和创建模型; 与其他数据科学家合作 机器学习工程师,并参加竞赛以解决数据科学挑战。
Kaggle 于 2010 年开始提供机器学习竞赛,现在还提供公共 数据平台,一个用于数据科学和人工智能教育的基于云的工作台。
数据集搜索
Dataset Search 是来自 Google 的搜索引擎,可帮助研究人员查找可免费使用的在线数据。 在网络上,几乎所有您感兴趣的主题都有数百万个数据集。
如果你想买一只小狗,你可以找到收集小狗买家投诉或小狗认知研究的数据集。 或者,如果您喜欢滑雪,您可以找到有关滑雪胜地收入或受伤率和参与人数的数据。 数据集搜索已为其中近 25 万个数据集编制索引,让您可以在一个地方搜索数据集并找到指向数据所在位置的链接。
UCI机器学习存储库
UCI 机器学习存储库是机器学习社区用于对机器学习算法进行实证分析的数据库、领域理论和数据生成器的集合。 该档案是 1987 年由 David Aha 和加州大学欧文分校的研究生创建的 ftp 档案。
从那时起,它就被世界各地的学生、教育工作者和研究人员广泛用作 ML 数据集的主要来源。 作为档案影响力的指标,它已被引用超过 1000 次,使其成为所有计算机科学中被引用次数最多的 100 篇“论文”之一。
昆德尔
Quandl 是一个为用户提供经济、金融和替代数据集的平台。 用户可以下载免费数据、购买付费数据或向 Quandl 出售数据。 它可以成为开发的有用工具 交易算法,例如。
结论
通过探索这些工具,您一定会为您的项目找到很好的输入。 请务必选择最适合您的特定需求的数据集,并始终牢记:这不仅关乎数量,还关乎质量。 数据集是任何数据的基础 机器学习项目 为了避免得出错误结论的风险,必须以质量数据为基础。
发表评论