AI模型无法保持静态不变,它们不可避免地会随时间发生漂移。这使得持续监控和模型漂移缓解对于任何持续的AI策略都至关重要。
AI系统通过算法的复杂组合进行开发,通过比较新的操作数据与全面的训练数据集来产生结果。训练数据和生产数据之间的这种比较至关重要,因为它使AI模型能够在不断增长的业务信息洪流中学习模式并做出明智的行动。
不幸的是,现实世界的数据条件可能会意外改变或在几个月甚至几年的过程中逐渐改变——而训练数据不会自动适应以跟上这些变化。随着时间的推移,生产和训练数据之间的偏差越来越大,可能会损害模型的准确性或预测能力——这种现象被称为模型漂移,这可能导致模型性能下降。
什么是 AI 模型漂移?
AI模型漂移发生在模型遇到的实际世界数据与它训练时用来识别或处理的数据发生偏差时。由于这种差异,模型逐渐失去了准确识别趋势、识别问题或做出决策的能力,因为它继续应用在其初始训练期间学习到的过时模式。
例如,考虑一个电子邮件过滤模型,该模型通过标记此类电子邮件中常见的某些单词或短语来识别垃圾邮件。随着时间的推移,语言发生变化,垃圾邮件发送者采用新的策略来吸引读者的注意力。这可能包括模型最初未经过训练的新流行词、短语、引用和诸如鱼叉式网络钓鱼等战术。
因此,随着时间的推移,模型被训练来识别的元素可能会减少并被新元素取代。由于这些生产数据的变化,模型的功能会下降,因为它从未被教导如何处理这些新数据元素。这导致模型漂移,减少甚至消除模型对企业的价值。为了对抗这一点,AI和机器学习团队可以更新训练数据,并可能集成能够适应新垃圾邮件行为的自适应学习机制。
漂移对模型本身没有永久影响——如果生产数据和变量恢复到预期参数,模型的行为和输出将恢复。然而,漂移确实影响模型提供准确和可预测输出的能力,损害其价值。这种影响的严重程度取决于生产数据和训练数据之间的偏差量。
AI 模型漂移的原因
模型漂移的主要原因有两个:
- 数据漂移发生在随着时间的推移,传入的生产数据的分布、范围或性质发生变化时。例如,用于为零售业务进行趋势预测的模型可能会因为COVID-19大流行期间意外的高运输量和成本而受到损害,当时典型的运输活动显著增加。
- 功能漂移发生在变量之间的基本底层行为或关系发生变化时,使得初始参数不太适合操作环境。例如,如果经济变化改变了贷款违约与信用评分之间的关系,金融服务提供商使用的模型可能会经历功能漂移。
其他因素也可能导致模型漂移的不同形式,削弱可靠性和准确性:
- 数据质量差。不正确的测量、缺失值、缺乏标准化和其他数据错误可能导致数据质量问题,降低模型的有效性。例如,输入了错误交易金额的销售预测模型将不会产生可靠的结果。
- 训练数据偏差。数据偏差发生在数据集中的数据分布不当倾斜或不适当代表真实分布时。如果模型使用有偏差的数据进行训练,当它在现实环境中遇到与训练集不同的数据时,它在生产中的表现将会很差。
- 外部事件。用于诸如用户体验或情感分析等任务的模型可能会面临来自外部来源的大量意外数据,如政治事件、经济变化和自然灾害。例如,地区战争可能会影响产品或服务的用户情感分析,导致之前积极的指标突然广泛下降。这种数据漂移有时会迅速解决,但也可能持续很长时间,对模型产生长期影响。
AI模型在偏差数据上训练时,可能会表现出与预期偏离的性能,导致对某些人群的错误决策和潜在伤害。
如何监控和检测 AI 模型漂移
检测模型漂移可能很棘手;企业可能不愿意花费必要的时间来构建和训练模型以及检查结果。然而,业务环境和数据会随时间变化,使任何系统面临模型漂移的风险。这反过来可能会抑制组织内的准确决策制定,并导致AI计划的投资回报率下降。
检测模型漂移需要一套全面的方法:
- 直接比较。检测模型漂移的最直接方法是比较预测值与实际值。例如,如果模型旨在帮助预测下一季度的收入,定期将预测的收入与该季度的实际收入进行比较,可以确保如果两个结果随时间而偏离,则漂移变得明显。
- 模型性能监控。有许多指标可以帮助衡量模型性能,包括混淆矩阵、F1分数、增益和提升图等。其他统计方法,如Kolmogorov-Smirnov测试,还可以帮助计算输出与预期均值的偏差。模型工程师应选择最适合模型、其预期用途和所审查特征的指标。
- 数据和特征评估。模型中使用的数据和特征会随时间变化。模型工程师应定期评估交付给模型的数据,考虑用于准备模型的训练数据,并重新评估用于构建模型的算法和假设。这可以帮助团队确定数据质量是否发生变化以及现有特征是否仍具有预测能力。
- 比较模型。当有两个或多个相似模型可用时,比较多个模型的输出可能有助于了解它们的可变性和对不同数据集的敏感性。例如,团队可以开发使用略有不同的训练数据或生产数据的并行模型,然后比较输出来帮助确定一个或多个模型中的漂移。
无论使用哪种方法,漂移检测都应被视为一个常规过程,以确保随时间产生准确的输出。
如何纠正 AI 模型漂移
为了纠正模型漂移,企业可以采用包括定期数据质量保证、漂移监控和缓解在内的机器学习工作流程。这包括建立强大的数据治理实践,主动设计模型以确保它们能够随时间进行调整,并定期审核模型的准确性和可靠性。
具体的漂移缓解策略包括:
- 模型重新训练。定期重新训练是缓解模型漂移最简单、最直接的方法之一,可以根据需要进行——无论是定期还是检测到漂移时触发。重新训练可以提供新鲜、准确、完整和有效的数据,使模型能够根据新数据和新特征进行演进。
- 自适应技术。传统的机器学习模型在需要时采用初始训练和重新训练,但先进的模型设计可以在模型内部实施反馈循环,使其能够主动从传入数据中学习和适应。这种技术可能包括用户评分或其他人类反馈,使模型能够动态调整其决策制定以产生更理想的输出。还可以将其他增量或连续学习技术集成到模型中,以进行定期训练更新。
- 多个模型。另一种防止模型漂移的方法是同时使用多个相关模型,使用不同的模型来捕获问题的不同方面或数据。从不同角度评估同一问题为分析和决策制定建立了更全面的方法。使用多个模型还可以作为整个系统失败的保障,如果一个模型开始漂移。
Stephen J. Bigelow是TechTarget的高级技术编辑,在PC和技术行业拥有超过20年的技术写作经验。