研究人员和数据科学家经常遇到这样的情况,即他们要么没有实际数据,要么出于保密或隐私考虑而无法使用这些数据。
为了解决这个问题,合成数据生产用于生产真实数据的替代品。
算法的正确执行需要对真实数据进行适当的替换,这在特征上也应该是现实的。 您可以使用此类数据来维护隐私、测试系统或为机器学习算法生成训练数据。
让我们详细探讨合成数据的生成,看看它们在人工智能时代为何如此重要。
什么是合成数据?
合成数据是由计算机模拟或算法生成的注释数据,可替代现实世界的数据。 它是人工智能生成的实际数据的复制品。
人们可以使用先进的人工智能算法来使用数据模式和维度。 他们可以创建无限数量的合成数据,这些数据在经过训练后在统计上代表原始训练数据。
有多种方法和技术可以帮助我们创建合成数据,您可以在各种应用程序中使用。
数据生成软件通常需要:
- 数据存储库的元数据,必须为其创建合成数据。
- 产生似是而非的价值的技术。 示例包括值列表和正则表达式。
- 全面了解所有数据关系,包括在数据库级别声明的以及在应用程序代码级别控制的那些。
同样有必要验证模型并将真实数据的行为方面与模型生成的行为方面进行比较。
这些虚构的数据集具有真实事物的所有价值,但没有敏感数据。 这就像一个甘美、无卡路里的蛋糕。 它准确地描绘了现实世界。
因此,您可以使用它来替换真实世界的数据。
合成数据的重要性
合成数据具有适合某些需求或情况的特征,否则这些需求或情况在现实世界的数据中是不可用的。 当缺乏测试数据或隐私是首要考虑因素时,它就会派上用场。
AI 生成的数据集适应性强、安全且易于存储、交换和丢弃。 数据合成技术适用于对原始数据进行子集化和改进。
因此,它非常适合用作测试数据和 AI 训练数据。
- 教授基于 ML 的 Uber 和 特斯拉自动驾驶汽车.
- 在医疗和保健行业,评估不存在真实数据的特定疾病和情况。
- 欺诈检测和保护在金融领域至关重要。 通过使用它,您可以调查新的欺诈实例。
- 亚马逊正在使用合成数据训练 Alexa 的语言系统。
- 美国运通正在使用合成财务数据来改进欺诈检测。
合成数据的类型
合成数据是随机创建的,目的是隐藏敏感的私人信息,同时保留有关原始数据特征的统计信息。
它主要分为三种:
- 全合成数据
- 部分合成数据
- 混合合成数据
1. 全合成数据
此数据完全生成,不包含原始数据。
通常,此类数据生成器将识别真实数据中特征的密度函数并估计其参数。 随后,根据预测的密度函数,为每个特征随机创建受隐私保护的序列。
如果仅选择实际数据的几个特征来替换它,则将这些特征的保护序列映射到真实数据的其余特征,以相同的顺序对保护序列和真实序列进行排序。
Bootstrap 技术和多重插补是产生完全合成数据的两种传统方法。
由于数据完全是合成的,不存在真实数据,因此该策略依靠数据的真实性提供了出色的隐私保护。
2. 部分合成数据
该数据仅使用合成值来替换少数敏感特征的值。
在这种情况下,只有在存在很大的暴露危险时才会改变真正的价值。 进行此更改是为了保护新创建数据的隐私。
多重插补和基于模型的方法用于生成部分合成数据。 这些方法也可用于填充真实数据中的缺失值。
3. 混合合成数据
混合合成数据包括真实数据和虚假数据。
为每个真实数据的随机记录挑选其中的一个近记录,然后将两者连接起来生成混合数据。 它具有完全合成和部分合成数据的优点。
因此,与其他两个相比,它提供了强大的隐私保护和高实用性,但代价是更多的内存和处理时间。
合成数据生成技术
多年来,机器制作数据的概念一直很流行。 现在它正在成熟。
以下是一些用于生成合成数据的技术:
1.基于分布
如果不存在真实数据,但数据分析师对数据集分布的显示方式有透彻的了解; 它们可以生成任何分布的随机样本,包括正态、指数、卡方、t、对数正态和均匀分布。
这种方法中合成数据的价值取决于分析人员对特定数据环境的理解程度。
2. 真实世界数据转化为已知分布
如果有真实数据,企业可以通过确定给定真实数据的最佳拟合分布来生成它。
如果企业希望将真实数据拟合到已知分布并知道分布参数,则可以使用蒙特卡罗方法来生成它。
尽管蒙特卡洛方法可以帮助企业找到可用的最佳匹配,但最佳匹配可能不足以满足公司的合成数据需求。
企业可能会探索使用机器学习模型来适应这些情况下的分布。
机器学习技术(例如决策树)使组织能够对非经典分布进行建模,这些分布可能是多模态的并且缺乏公认分布的共同属性。
企业可以使用这种机器学习拟合分布生成连接到真实数据的合成数据。
然而, 机器学习模型 容易受到过度拟合的影响,这导致它们无法匹配新数据或预测未来的观察结果。
3. 深度学习
变分自动编码器 (VAE) 和生成对抗网络 (GAN) 等深度生成模型可以生成合成数据。
可变自动编码器
VAE 是一种无监督方法,其中编码器压缩原始数据集并将数据发送到解码器。
解码器然后产生作为原始数据集表示的输出。
教学系统涉及最大化输入和输出数据之间的相关性。
生成性对抗网络
GAN 模型使用生成器和鉴别器这两个网络迭代地训练模型。
生成器从一组随机样本数据创建合成数据集。
鉴别器使用预定义的条件将合成创建的数据与真实数据集进行比较。
综合数据提供者
结构化数据
下面提到的平台提供从表格数据派生的合成数据。
它复制了保存在表中的真实数据,可用于行为、预测或事务分析。
- 灌输人工智能:它是使用生成对抗网络和差分隐私的合成数据创建系统的提供商。
- 更好的数据:它是为人工智能、数据共享和产品开发提供隐私保护合成数据解决方案的提供商。
- 潜水员:它是 Geminai 的提供者,该系统用于创建具有与原始数据相同统计特征的“双”数据集。
非结构化数据
下面提到的平台使用非结构化数据运行,为训练视觉和侦察算法提供合成数据商品和服务。
- 数据源: 为视觉 AI 学习和开发提供 3D 模拟训练数据。
- 神经实验室:Neurolabs 是计算机视觉合成数据平台的提供商。
- 并行域:它是用于自主系统训练和测试用例的合成数据平台的提供商。
- 干邑白兰地:它是 ADAS 和自动驾驶汽车开发商的仿真供应商。
- Bifrost:它提供用于创建 3D 环境的合成数据 API。
挑战
它在历史悠久 人工智能,虽然它有许多优点,但它也有在处理合成数据时需要解决的重大缺点。
这里是其中的一些:
- 在将复杂性从实际数据复制到合成数据时,可能会出现很多错误。
- 它的可塑性会导致其行为出现偏差。
- 使用最近在处理实际数据时出现的合成数据的简化表示训练的算法的性能可能存在一些隐藏的缺陷。
- 从真实数据中复制所有相关属性可能会变得复杂。 在整个操作过程中,一些重要方面也可能被忽略。
结论
合成数据的产生显然引起了人们的注意。
对于所有数据生成案例,这种方法可能不是一个万能的答案。
此外,该技术可能需要通过 AI/ML 实现智能,并能够处理创建相互关联数据的现实世界复杂情况,理想情况下是适合特定领域的数据。
尽管如此,它还是一项创新技术,填补了其他支持隐私的技术不足的空白。
今天,合成 数据生产可能需要数据脱敏并存.
将来,两者之间可能会有更大的融合,从而产生更全面的数据生成解决方案。
在评论中分享您的观点!
发表评论