高级分析和机器学习程序由数据推动,但由于隐私和业务程序方面的挑战,学术界可能难以访问这些数据。
可以以实际数据无法共享和利用的方式共享和利用合成数据,是一个潜在的新方向。 然而,这种新策略并非没有危险或缺点,因此企业必须仔细考虑他们在何处以及如何使用其资源。
在当前的人工智能时代,我们也可以说数据是新的石油,但只有少数人坐在喷油器上。 因此,很多人都在生产自己的燃料,既实惠又高效。 它被称为合成数据。
在这篇文章中,我们将详细介绍合成数据——为什么要使用它、如何生成它、它与实际数据有何不同、它可以服务于哪些用例等等。
那么,什么是合成数据?
当真实数据集在质量、数量或多样性方面不足时,可以使用合成数据来训练 AI 模型来代替真实的历史数据。
当现有数据不能满足业务需求或用于开发时存在隐私风险时 机器学习 模型、测试软件等,合成数据可以成为企业 AI 工作的重要工具。
简单地说,合成数据经常被用来代替实际数据。 更准确地说,它是通过模拟或计算机算法人工标记和产生的数据。
合成数据是由计算机程序人工创建的信息,而不是实际发生的结果。 公司可以将合成数据添加到他们的训练数据中,以涵盖所有使用情况和边缘情况,降低数据收集成本或满足隐私法规。
由于处理能力和数据存储方法(如云)的改进,人工数据现在比以往任何时候都更容易访问。 合成数据改进了对所有最终用户更有利的人工智能解决方案的创建,这无疑是一个很好的发展。
合成数据有多重要,为什么要使用它?
在训练 AI 模型时,开发人员经常需要带有精确标签的庞大数据集。 当用更多不同的数据进行教学时, 神经网络 执行更准确。
然而,收集和标记这些包含数百甚至数百万个项目的海量数据集可能会非常耗费时间和金钱。 使用合成数据可以大大降低生成训练数据的价格。 例如,如果是人工创建的,从 数据标签提供者 可能只需要 0.05 美元。
合成数据可以减轻与现实世界产生的潜在敏感数据相关的隐私问题,同时还可以减少开支。
与无法准确反映有关现实世界的全部事实的真实数据相比,它可能有助于减少偏见。 通过提供代表合理可能性但可能难以从合法数据中获取的不寻常事件,合成数据可以提供更大的多样性。
综合数据可能非常适合您的项目,原因如下:
1.模型的稳健性
无需获取它,即可为您的模型访问更多不同的数据。 通过合成数据,您可以使用同一个人的各种发型、面部毛发、眼镜、头部姿势等的变体以及肤色、种族特征、骨骼结构、雀斑和其他特征来训练您的模型,以生成独特的面对并加强它。
2.考虑边缘情况
平衡 机器学习首选数据集 算法。 回想一下我们的人脸识别示例。 他们的模型的准确性会有所提高(事实上,其中一些企业就是这样做的),如果他们产生了肤色较深的人脸的合成数据来填补他们的数据空白,他们就会产生一个更道德的模型。 在合成数据的帮助下,团队可以涵盖所有用例,包括数据稀缺或不存在的边缘情况。
3.可以比“实际”数据更快地获得
团队能够快速生成大量合成数据。 当现实生活中的数据依赖于零星事件时,这尤其有用。 例如,由于稀有性,团队在为自动驾驶汽车收集数据时,可能会发现很难在恶劣的路况下获得足够的真实数据。 为了加快繁琐的注释过程,数据科学家可以提出算法来自动标记生成的合成数据。
4. 保护用户隐私信息
公司在处理敏感数据时可能会遇到安全问题,具体取决于业务和数据类型。 例如,个人健康信息 (PHI) 经常包含在医疗保健行业的住院患者数据中,并且必须以最高安全性进行处理。
由于合成数据不包括有关真实人物的信息,因此减少了隐私问题。 如果您的团队必须遵守某些数据隐私法,请考虑使用合成数据作为替代方案。
真实数据与合成数据
在现实世界中,获取或测量真实数据。 当有人使用智能手机、笔记本电脑或电脑、佩戴手表、访问网站或进行在线交易时,这类数据会立即生成。
此外,调查可用于提供真实数据(在线和离线)。 数字设置产生合成数据。 除了不是来自任何真实世界事件的部分外,合成数据的创建方式可以成功地在基本质量方面模仿实际数据。
使用合成数据代替实际数据的想法非常有前途,因为它可以用来提供 机器学习的训练数据 模型需要。 但不确定 人工智能 可以解决现实世界中出现的每一个问题。
用例
合成数据可用于各种商业目的,包括模型训练、模型验证和新产品测试。 我们将列出一些在机器学习应用方面处于领先地位的行业:
1。 卫生保健
鉴于其数据的敏感性,医疗保健行业非常适合使用合成数据。 团队可以使用合成数据来记录可能存在的每种患者的生理机能,从而帮助更快、更准确地诊断疾病。
谷歌的黑色素瘤检测模型是一个有趣的例子,因为它结合了肤色较深的人的合成数据(令人遗憾的是,这一领域的临床数据代表性不足)为模型提供了对所有皮肤类型有效运行的能力。
2。 汽车
制造自动驾驶汽车的公司经常使用模拟器来评估性能。 例如,当天气恶劣时,收集真实的道路数据可能会有风险或困难。
依靠道路上实际汽车的现场测试通常不是一个好主意,因为在所有不同的驾驶情况下要考虑的变量太多。
3. 数据的可移植性
为了能够与他人共享他们的训练数据,组织需要可靠且安全的方法。 在公开数据集之前隐藏个人身份信息 (PII) 是合成数据的另一个有趣应用。 交换可能包含 PII 的科学研究数据集、医学数据、社会学数据和其他领域,被称为保护隐私的合成数据。
4. 安全性
由于合成数据,组织更加安全。 关于我们的面部识别示例,您可能熟悉“深度伪造”一词,它描述了伪造的照片或视频。 企业可以生产深度伪造品来测试他们自己的面部识别和安全系统。 合成数据还用于视频监控,以更快、更便宜地训练模型。
合成数据和机器学习
为了构建可靠且值得信赖的模型,机器学习算法需要处理大量数据。 在没有合成数据的情况下,生成如此大量的数据将具有挑战性。
在计算机视觉或图像处理等领域,早期合成数据的开发促进了模型的开发,这可能非常重要。 图片识别领域的一个新发展是使用生成对抗网络(GAN)。 通常由两个网络组成:生成器和鉴别器。
虽然鉴别器网络旨在将真实照片与假照片区分开来,但生成器网络的功能是生成与真实世界图像更加相似的合成图像。
在机器学习中,GAN 是神经网络家族的一个子集,两个网络都通过添加新节点和层来不断学习和发展。
创建合成数据时,您可以根据需要更改数据的环境和类型,以增强模型的性能。 虽然合成数据的准确性可以通过高分轻松获得,但标记的实时数据的准确性有时会非常昂贵。
如何生成合成数据?
用于创建合成数据集合的方法如下:
基于统计分布
在这种情况下使用的策略是从分布中获取数字或查看实际的统计分布,以创建看起来具有可比性的虚假数据。 在某些情况下,可能完全没有真实数据。
如果数据科学家深入掌握实际数据中的统计分布,他可以生成包含任何分布的随机样本的数据集。 正态分布、指数分布、卡方分布、对数正态分布等只是可用于执行此操作的统计概率分布的几个示例。
数据科学家对这种情况的经验水平将对训练模型的准确性产生重大影响。
取决于型号
在使用该模型生成随机数据之前,该技术会构建一个模型来解释观察到的行为。 本质上,这涉及将真实数据拟合到来自已知分布的数据。 然后,公司可以使用蒙特卡罗方法来创建虚假数据。
此外,分布也可以使用 机器学习模型 像决策树。 数据科学家 但是,必须注意预测,因为决策树通常由于其简单性和深度扩展而过拟合。
通过深度学习
深入学习 使用变分自动编码器 (VAE) 或生成对抗网络 (GAN) 模型的模型是创建合成数据的两种方法。 无监督机器学习模型包括 VAE。
它们由压缩和压缩原始数据的编码器和仔细检查这些数据以提供真实数据表示的解码器组成。 保持输入和输出数据尽可能一致是 VAE 的基本目标。 两个对立的神经网络是 GAN 模型和对抗网络。
第一个网络称为生成器网络,负责生成假数据。 鉴别器网络(第二个网络)通过将创建的合成数据与实际数据进行比较来识别数据集是否具有欺诈性。 鉴别器在发现虚假数据集时向生成器发出警报。
提供给鉴别器的以下一批数据随后由生成器修改。 因此,随着时间的推移,鉴别器在发现虚假数据集方面会变得更好。 这种模型经常用于金融领域的欺诈检测以及医疗保健领域的医学成像。
数据增强是数据科学家用来生成更多数据的另一种方法。 不过,不应将其误认为是虚假数据。 简单地说,数据增强是将新数据添加到已经存在的真实数据集中的行为。
从单个图像创建多张图片,例如,通过调整方向、亮度、放大率等。 有时,使用实际数据集时仅保留个人信息。 数据匿名化就是这样,一组这样的数据同样不能被视为合成数据。
合成数据的挑战和局限性
尽管合成数据有多种好处可以帮助公司进行数据科学活动,但它也有一定的局限性:
- 数据的可靠性: 众所周知,每个机器学习/深度学习模型都与它所提供的数据一样好。 在这种情况下,合成数据的质量与输入数据的质量和用于生成数据的模型密切相关。 确保源数据中不存在偏差至关重要,因为这些偏差可以非常清楚地反映在合成数据中。 此外,在进行任何预测之前,应确认和验证数据质量。
- 需要知识、努力和时间:虽然创建合成数据可能比创建真实数据更简单且成本更低,但它确实需要一些知识、时间和精力。
- 复制异常:真实世界数据的完美复制是不可能的; 合成数据只能近似它。 因此,合成数据可能无法覆盖真实数据中存在的一些异常值。 数据异常比典型数据更显着。
- 控制生产,确保质量:合成数据旨在复制真实世界的数据。 数据人工验证变得必不可少。 对于使用算法自动创建的复杂数据集,在将数据整合到机器学习/深度学习模型中之前,必须验证数据的准确性。
- 用户反馈:由于合成数据是一个新概念,并不是每个人都愿意相信用它做出的预测。 这表明,为了提高用户的接受度,首先需要提高对合成数据效用的认识。
未来
在过去十年中,合成数据的使用急剧增加。 虽然它为公司节省了时间和金钱,但也不是没有缺点。 它缺少异常值,这些异常值自然存在于实际数据中,并且对于某些模型的准确性至关重要。
还值得注意的是,合成数据的质量通常取决于用于创建的输入数据。 输入数据中的偏差会迅速蔓延到合成数据中,因此不应夸大选择高质量数据作为起点。
最后,它需要进一步的输出控制,包括将合成数据与人工注释的真实数据进行比较,以验证没有引入差异。 尽管存在这些障碍,合成数据仍然是一个有前途的领域。
即使现实世界的数据不可用,它也可以帮助我们创建新颖的 AI 解决方案。 最重要的是,它使企业能够构建更具包容性并能体现其最终消费者多样性的产品。
然而,在数据驱动的未来,合成数据旨在帮助数据科学家执行新颖且创造性的任务,这些任务仅靠现实世界的数据来完成是具有挑战性的。
结论
在某些情况下,合成数据可以缓解企业或组织内部的数据不足或相关数据缺乏。 我们还研究了哪些策略可以帮助生成合成数据以及谁可以从中获利。
我们还谈到了处理合成数据时遇到的一些困难。 对于商业决策而言,真实数据将永远受到青睐。 但是,当无法访问此类真实的原始数据进行分析时,真实数据是下一个最佳选择。
但是,必须记住,为了生成合成数据,需要扎实掌握数据建模的数据科学家。 对真实数据及其周围环境的透彻理解也是必不可少的。 这对于确保生成的数据尽可能准确(如果可用)至关重要。
发表评论