合成数据是指通过人工制造而非由现实世界事件生成的信息。它是通过算法生成的,作为生产或操作数据的测试数据集的替代品,用于验证数学模型和训练机器学习(ML)和深度学习模型。
从现实世界收集高质量数据既困难又昂贵,且耗时。然而,合成数据技术使用户能够快速、轻松且以数字方式生成所需数量的数据,以满足他们的需求。
合成数据可以追溯到1970年代计算机的出现。大多数初始系统和算法依赖于数据来运作。然而,处理能力的限制、收集大量数据的挑战以及隐私问题促使了合成数据的产生。
在2012年ImageNet竞赛之后——通常被称为人工智能(AI)的“大爆炸”——Geoff Hinton领导的一组研究人员成功训练了一个人工神经网络,以惊人的优势赢得了图像分类挑战。研究人员开始寻找人工数据,因为神经网络被证明能够比人类更快地识别物体。
本文为
什么是生成性AI?生成性AI的解释
- 还包括:
- 2024年8个顶级生成性AI工具类别
- AI会取代工作吗?17种可能受影响的职位类型
- 2024年19个最佳大型语言模型
为什么合成数据重要?
合成数据的使用正在获得认可,因为它可以提供比现实数据更多的好处。Gartner预测,到2030年,合成数据将超过用于开发AI模型的真实数据。
合成数据的最大应用在于神经网络和机器学习模型的训练,因为开发者需要仔细标记的数据集,这些数据集的数量从几千到几千万不等。合成数据可以被人工生成,以模拟真实数据集,让公司在不花费大量资金和时间的情况下创建大量多样化的训练数据。根据AI.Reverie的联合创始人Paul Walborsky的说法,一张从标记服务获取的图像成本为6美元,而可以人工生成的图像仅需6美分。
合成数据还用于保护用户隐私并遵守隐私法律,特别是在处理敏感的健康和个人数据时。此外,它可以确保客户获得准确反映现实世界的多样化数据,从而减少数据集中的偏见。
合成数据是如何生成的?
生成合成数据的过程因所使用的工具和算法以及特定的用例而异。以下是创建合成数据的三种常见技术:
- 从分布中抽取数字。随机从分布中选择数字是生成合成数据的一种常见方法。尽管这种方法未能捕捉真实数据的洞察,但它可以生成与真实数据相似的数据分布。
- 基于代理的建模。这种模拟技术涉及创建相互通信的独特代理。当研究不同代理(如手机、人甚至计算机程序)在复杂系统中如何相互作用时,这种方法尤其有用。使用预构建的核心组件,Python包如Mesa使得快速开发基于代理的模型并在基于浏览器的界面中查看它们变得更容易。
- 生成模型。这些算法生成模拟现实数据统计特性或特征的合成数据。生成模型学习训练数据中的统计模式和关系,然后利用这些知识生成与原始数据相似的新合成数据。生成对抗网络和变分自编码器是生成AI模型的示例。
生成对抗网络训练过程是一种流行的生成AI内容的方法。
合成数据的优势是什么?
合成数据提供以下优势:
- 可定制的数据。组织可以根据需要定制合成数据,将数据调整为无法通过真实数据获得的条件。他们还可以为软件测试和数据质量保证(QA)目的生成数据集,供DevOps团队使用。
- 成本效益的数据。合成数据是现实数据的廉价替代品。例如,收集真实的车辆碰撞数据对汽车制造商来说可能比模拟数据更昂贵。
- 数据标记。即使合成数据可用,它也不总是被标记。对于监督学习任务,手动标记大量实例可能既耗时又容易出错。合成标记数据可以加快模型开发过程。此外,它确保标记的准确性。
- 更快的生产。由于合成数据不是从实际事件中收集的,因此可以使用合适的软件和技术更快地创建数据集。因此,可以在更短的时间内生成大量人工数据。
- 完整的注释。完美的注释消除了手动数据收集的需要。场景中的每个对象都会自动创建多种注释。这是合成数据与真实数据相比为何如此便宜的主要原因之一。
- 数据隐私。虽然合成数据可能与真实数据相似,但它不应包含任何可用于识别真实数据的信息。这一特性使合成数据匿名且适合传播,并且可以成为医疗和制药行业数据优化的重要组成部分。
- 完全的用户控制。合成数据模拟使用户对每个方面都能实现完全控制。处理数据集的人控制事件频率、项目分布和许多其他因素。当使用合成数据时,ML从业者也对数据集有控制权。一些示例包括控制类别分离的程度、样本大小和数据集中的噪声水平。
合成数据也有缺点,包括在试图复制原始数据集中的复杂性时出现的不一致性。另一个挑战是无法完全替代真实数据,因为仍然需要准确的真实数据来生成有用的合成示例。
合成数据的应用场景有哪些?
合成数据应适当地反映其努力改进的原始数据。合成数据的典型应用场景包括:
- 测试。合成测试数据比基于规则的测试数据更容易创建,并提供灵活性、可扩展性和现实性。它对数据驱动的测试和软件开发至关重要。
- AI和ML模型训练。合成数据越来越多地用于训练AI模型。它通常优于真实数据,并且对于开发更优秀的AI模型至关重要。合成训练数据提高了模型性能,消除了偏见,并增加了新的领域知识和可解释性。除了完全符合隐私要求外,它还通过AI驱动的合成过程增强了原始数据。例如,在人工训练数据中,可以通过上采样不常见的模式和事件,即向数据集中添加新数据,以解决不平衡问题。
- 隐私法规。合成数据帮助数据分析师遵守数据隐私法律,如《健康保险可携带性与责任法案》、《通用数据保护条例》和《加利福尼亚消费者隐私法》。在使用敏感数据集进行测试或训练时,它也是最佳选择。合成数据提供洞察,而不会危及隐私合规。
- 医疗和其他私人数据。健康和隐私数据特别适合采用合成方法,因为隐私规则对这些领域施加了重大限制。通过使用合成数据,研究人员可以提取所需的信息,而不会侵犯他人的隐私。由于合成数据并不代表真实患者的数据,因此不太可能导致实际患者或其个人数据记录的识别。合成数据还优于数据掩蔽技术,因为后者存在更大的隐私风险。
合成数据的示例是什么?
合成数据在许多不同的行业中用于各种应用场景。以下是合成数据应用的一些示例:
- 媒体数据。在此用例中,计算机图形和图像处理算法用于生成合成图像、音频和视频。例如,亚马逊使用合成数据来训练亚马逊Alexa的语言系统。
- 文本数据。这可能包括基于人工生成文本数据的聊天机器人、机器翻译算法和情感分析。ChatGPT是使用文本数据的工具之一。
- 表格数据。这由用于数据分析、模型训练和其他应用的合成生成数据表组成。
- 非结构化数据。非结构化数据可以包括图像、视频和音频数据,这些数据主要用于机器视觉、语音识别和自动驾驶技术等领域。例如,谷歌的Waymo使用合成数据来训练其自动驾驶汽车。
- 金融服务数据。金融行业在欺诈预防、风险管理和信用风险评估方面严重依赖合成数据。例如,美国运通使用合成金融数据来改善欺诈检测。
- 制造数据。制造业使用合成数据进行质量控制测试和预测性维护。例如,德国保险公司Provinzial测试合成数据以进行预测分析。
有关生成性AI的更多信息,请阅读以下文章:
AI生成内容的利弊
探索AI内容生成器
企业的顶级生成性AI好处
评估不同类型的生成性AI应用
企业应考虑的生成性AI挑战
生成性AI伦理:最大担忧
生成性AI领域:潜在未来趋势
生成性AI创新的历史跨越数十年
如何检测AI生成的内容
合成数据的真实行业示例
金融服务和医疗保健是两个使用合成数据技术制造具有实际敏感或受管制数据属性的数据的行业。这使得数据专业人员可以更自由地使用和共享数据。
例如,医疗数据专业人员使用合成数据来使记录级数据的公共使用成为可能,同时仍然保持患者的机密性。
在金融领域,合成数据集(如借记卡和信用卡支付)看起来和表现得像典型的交易数据,以帮助揭露欺诈活动。数据科学家可以使用合成数据来测试或评估欺诈检测系统,以及开发新的欺诈检测方法。合成金融数据集可以在Kaggle上找到,这是一个托管预测建模和分析竞赛的众包平台。
DevOps团队使用合成数据进行软件测试和QA。他们可以将人工生成的数据插入流程,而不必从生产中取出真实数据。然而,一些专家建议DevOps团队选择数据掩蔽技术而非合成数据技术,因为生产数据集包含复杂的关系,使得快速且廉价地制造准确的表示变得困难。
真实数据与模拟数据
真实数据和模拟数据与合成数据在使用和生成方式上有所不同。
真实数据
真实数据是训练模型以进行有效预测的最佳选择。然而,真实数据并不总是可用的,尤其是对需要训练数据的企业而言。此外,使用包含敏感信息的真实数据训练模型可能会违反数据隐私法规。当缺少真实数据时,密切模仿真实数据的合成数据可以作为替代品,从而避免敏感数据的问题。
模拟数据
模拟数据集使用简单的占位符值创建,并不打算具备真实数据集的任何属性或洞察。它们不需要复杂的工具,如神经网络,来生成。
一位经验丰富的数据科学家可以轻松创建模拟数据,以测试和训练原型模型,以查看真实模型版本是否能正常工作。复杂的数据和数据点之间的关系并不必要,使用占位符值的模拟数据集就足够了。
合成数据与机器学习
合成数据在机器学习领域越来越受到重视。机器学习算法需要使用大量数据进行训练,而收集所需数量的标记训练数据可能成本高昂。
合成生成的数据帮助公司和研究人员建立训练甚至预训练机器学习模型所需的数据存储库。这种技术被称为迁移学习。
数据科学研究正在推进合成数据在机器学习中的应用。例如,麻省理工学院的数据到AI实验室的成员记录了他们在合成数据仓库中的成功。它可以构建机器学习模型,以自动生成和提取自己的合成数据。
公司也在尝试合成数据技术。例如,谷歌Deepmind使用合成数据训练一个名为AlphaGeometry的AI系统,以解决复杂的几何问题。计算机视觉、图像识别和机器人技术是其他受益于合成数据使用的应用。
合成数据工具和技术
随着AI模型在各行业的使用扩展,合成数据生成工具的市场也在增长。各种工具可供使用。
企业还可以使用各种方法和工具创建自己的合成数据。这些方法包括:
- 大型语言模型。组织可以使用自己的数据集训练LLM(如GPT模型)以创建合成数据。
- 生成对抗网络。GAN方法涉及两个神经网络:生成网络和判别网络。生成网络被训练以生成合成但现实的数据,而判别网络试图区分真实数据和合成数据。当生成网络试图欺骗判别网络时,它会不断提高生成现实数据的能力。
- 变分自编码器。VAE将真实数据集编码为压缩格式,然后解码为模仿真实数据集特征的合成数据集。
- 统计分布。如果数据科学家了解真实数据集的统计分布,他们可以手动创建一个类似的合成数据集,而无需使用其他工具。
机器学习可以利用合成数据消除偏见、民主化数据、增强隐私并降低成本。了解合成数据如何解决机器学习偏见和隐私问题。
最后更新于2024年12月。