大多数机器学习和深度学习模型在很大程度上依赖于数据量和多样性才能正常运行。 训练期间提供的数据的数量和多样性对这些模型的预测准确性有重大影响。
已经被教导有效执行复杂任务的深度学习模型通常包括隐藏的神经元。 可训练参数的数量根据隐藏神经元的数量而增加。
所需的数据量与模型可学习参数的数量成正比。 处理有限数据困难的一种方法是对当前数据进行各种变换以合成新数据。
从现有数据合成新数据的技术称为“数据增强”。 数据增强可用于满足两个要求:数据量和开发准确数据所需的训练数据的多样性 机器学习或深度学习模型.
在这篇文章中,我们将仔细研究数据增强、它的类型、它为何如此重要等等。
那么,什么是数据增强?
数据增强是从现有数据中开发新的和有代表性的数据的过程。 您可以通过包含现有数据的修改版本或合成新数据来实现此目的。
此方法生成的数据集将改善您的机器学习或 深度学习模型 通过最小化过度拟合的风险。 这是使用附加信息更改或“增强”数据集的过程。
这种补充输入的范围可能从图像到文本,它提高了机器学习系统的性能。
假设我们要建立一个模型来对犬种进行分类,并且我们有大量的除了哈巴狗以外的所有品种的照片。 因此,该模型将难以对哈巴狗进行分类。
我们可以在收藏中添加额外的(真实的或虚假的)哈巴狗照片,或者我们可以将当前的哈巴狗照片翻倍(例如,通过复制和扭曲它们以使它们人为地独一无二)。
数据增强目前有什么用途?
申请 机器学习 正在迅速发展和多样化,尤其是在深度学习领域。 人工智能行业面临的挑战可以通过数据增强技术来克服。
数据增强可以通过向训练数据集中添加新的和多样化的示例来提高机器学习模型的性能和结果。
当数据集大且足够时,机器学习模型的性能更好且更准确。 对于机器学习模型,数据收集和标记可能既耗时又昂贵。
公司可以通过更改数据集和利用数据增强策略来降低运营成本。
清洗数据是数据模型开发的阶段之一,对于高精度模型至关重要。 但是,如果数据清理降低了可表示性,该模型将无法预测来自实际世界的正确输入。
机器学习模型可以通过采用数据增强方法来加强,这些方法会产生模型在现实世界中可能遇到的差异。
数据增强的类型
真实数据增强
当您将真实的补充数据添加到数据集时,就会发生真正的数据扩充。 这可以从具有附加属性的文本文件(用于标记的图片)到与原始对象相当的其他对象的图像,甚至是实际事物的记录。
例如,通过向图像文件添加更多特征,机器学习模型可以更轻松地检测到该项目。
可能会包含关于每张图像的更多元数据(例如,它的名称和描述),以便我们的 AI 模型在开始对这些照片进行训练之前更多地了解每张图像所代表的内容。
当需要将新鲜照片分类到我们预定的类别之一时,例如“猫”或“狗”,该模型可以更好地检测图像中存在的项目并因此整体表现更好。
综合数据 提高
除了添加更多真实数据,您还可以贡献 综合数据 或看似真实的人造数据。
这有利于神经风格迁移等困难任务,但也适用于任何设计,无论您使用的是 GAN(生成对抗网络)、CNN(卷积神经网络)还是其他深度神经网络架构。
例如,如果我们想要正确地对哈巴狗进行分类,而不必外出拍摄大量照片,我们可以将一些虚假的哈巴狗照片添加到狗图像集合中。
当收集数据困难、昂贵或耗时时,这种形式的数据增强对于提高模型准确性特别有效。 在这种情况下,我们正在人为地扩展数据集。
假设我们最初的 1000 张狗品种照片组仅包含 5 张哈巴狗图像。 与其添加来自真实狗的其他实际哈巴狗照片,不如通过克隆当前的一张并稍微扭曲它以使其看起来仍然像哈巴狗来创建一张假照片。
数据增强技术
数据增强方法需要对现有数据进行少量修改。 这与改写声明相同。 我们可以将数据增强分为三类:
文本
- 单词替换:这种数据增强方法包括用同义词替换当前术语。 例如,“这部电影很愚蠢”可以变成“这部电影很白痴”。
- 句子/单词改组:此策略涉及在保持整体连贯性的同时切换短语或单词的顺序。
- 句法树操作:您在使用相同术语的同时将现有句子更改为语法准确。
- 随机删除:虽然这种策略会产生丑陋的文字,但它是有效的。 结果,“我不会购买这张唱片,因为它被划伤”这行变成了“我不会买这个,因为它被划伤了”。 这句话不太清楚,但它仍然是一个合理的补充。
- 反向翻译:这种方法既有效又令人愉快。 用您的语言编写一份声明,将其翻译成另一种语言,然后将其重新翻译回您的原始语言。
图片
- 内核过滤器:这种方法锐化或模糊图片。
- 图像组合:虽然看起来很奇怪,但您可以混合照片。
- 随机擦除:删除当前图片的一小部分。
- 几何变换:这种方法包括任意翻转、旋转、裁剪或翻译图片。
- 翻转图片:您可以将图像从水平方向翻转到垂直方向。
- 颜色空间转换:您可以修改 RGB 颜色通道或增强任何当前颜色。
- 重新缩放是调整视觉比例的过程。 您可以选择缩小或缩小。 当您向内缩放时,图像变得小于初始大小。 如果向外缩放,图片会比原图大。
Audio
- 音高:这种方法涉及改变音频音高。
- 更改速度:更改音频文件或录音的速度。
- 更多噪音:您可以为音频文件添加更多噪音。
用例
医学成像是目前数据增强的一个突出用例。 医学图片集合很小,由于规则和隐私问题,共享数据很困难。
此外,在罕见疾病的情况下,数据集受到更多限制。 医学影像公司使用数据增强来多样化他们的数据集。
挑战
可扩展性、多样化的数据集和相关性是开发有效数据增强技术需要解决的一些问题。
在可扩展性方面,增强数据必须是可扩展的,以便许多不同的模型可以使用它。 您需要确保这可以复制以用于未来的模型,因为建立一个生成大量相关、有价值、增强数据的数据增强系统可能需要一些时间。
在异质性方面,各种数据集具有不同的特征,在开发增强数据时必须考虑这些特征。 为了开发适当的增强数据,必须利用每个数据集的属性。
换句话说,数据增强在数据集和用例之间会有所不同。
最后,为了保证增加的数据的优势超过任何危害,在被机器学习模型使用之前,应该使用合适的指标来评估增加的数据。
例如,基于图像的增强数据中存在显着的背景噪声或不相关的项目可能会对模型的性能产生不利影响。
结论
最终,无论您是试图预测损失、识别财务欺诈还是更好地构建 图像分类 在模型中,数据增强是构建更准确、更健壮的模型的关键方法。
通过卓越的训练程序,简单的预处理和数据增强甚至可以帮助团队开发尖端模型。
企业可以利用数据增强来减少准备训练数据所花费的时间,并创建更准确、更快速的机器学习模型.
通过扩展数据集中相关数据的数量,数据增强还可以使已经拥有大量数据的机器学习模型受益。
发表评论