数据是机器学习(ML)和人工智能(AI)的核心。识别、决策和预测等任务需要知识,而这些知识只能通过训练获得。
就像父母教孩子区分猫和鸟,或者高管学习识别季度报告中的商业风险,机器学习模型也需要在高质量和相关的数据上进行有目的的训练。随着人工智能不断改变现代商业格局,训练数据的重要性日益增强。
什么是训练数据?
机器学习和人工智能有两个主要优势:在数据中发现模式和基于数据做出决策。为了执行这些任务,模型需要参考框架。训练数据为模型提供了这一框架,通过建立一个基准,模型可以用来比较新数据。
考虑猫与鸟的图像识别示例。机器学习模型无法自动区分对象;它们必须被教导。在这种情况下,训练数据将由成千上万张猫和鸟的图片组成。每张图片必须经过仔细标记,以突出相关特征——例如,猫的毛发、尖耳朵和四条腿,与鸟的羽毛、缺乏耳朵和两只脚形成对比。
训练数据通常是广泛且多样的。对于这个图像识别的用例,数据集可能包括不同姿势、光线和配置下的各种猫和鸟的许多示例。这些数据应该足够一致,以捕捉共同特征,但又要足够多样,以考虑自然差异,例如不同毛色的猫在蹲、坐、站和跳的姿势。
同样,在商业分析中,机器学习模型必须首先通过分析历史财务和运营数据来学习企业的运作方式,才能发现问题或识别机会。一旦训练完成,模型就可以检测异常模式,例如某个商品的销售异常低,或建议新的机会,例如更便宜的运输替代方案。
一旦机器学习模型经过训练、测试和验证,就可以应用于现实数据。对于猫与鸟的例子,训练好的模型可以部署到一个使用实时摄像头视频流来识别动物的人工智能平台上。
如何选择训练数据?
“垃圾进,垃圾出”的老IT格言与机器学习训练数据特别相关;机器学习模型的结果只与其训练数据的质量有关。这使得数据来源、相关性、多样性和质量对机器学习和人工智能开发者至关重要。
数据来源
训练数据很少能够现成获得,尽管这种情况正在改变。获取原始数据可能具有挑战性——想象一下,为上述相对简单的模型寻找和获取成千上万张猫和鸟的图片。
此外,仅仅拥有原始数据远远不够,尤其是在监督学习中。数据必须经过仔细标记,以突出机器学习模型应关注的关键特征。适当的标记是一门艺术;杂乱或标记不当的数据几乎没有训练价值。
内部团队可以收集和注释数据,但这通常成本高昂且耗时。或者,企业可以从政府数据库、开放数据集或众包项目中获取数据,尽管这些来源都需要密切关注其他数据质量标准。简而言之,训练数据必须为预期用例提供完整、多样和准确的表示。
数据相关性
训练数据必须及时、有意义并与主题相关。例如,包含成千上万张动物图片但没有猫的图片的数据集,对于教机器学习模型识别猫毫无用处。
同样,训练数据必须直接与模型的预期用途相关。例如,商业财务和运营数据可能在历史上是准确和完整的,但如果它反映的是过时的工作流程和政策,那么今天作出的任何机器学习决策都将无关紧要。
数据多样性和偏见
足够多样的训练数据集对于构建有效的机器学习模型至关重要。如果模型的目标是识别不同姿势的猫,则其训练数据应包括各种姿势的猫的图片。
同样,如果数据集仅代表黑猫,模型识别白猫、花猫或灰猫的能力可能会受到限制。这种现象被称为偏见,可能导致不完整或不准确的预测,并阻碍模型性能。
数据质量
训练数据必须是高质量的。准确性不足、缺失数据或分辨率差等问题会显著影响模型的有效性。
例如,企业的训练数据可能包括客户姓名、地址和其他细节。但如果这些细节中的任何一项缺失或错误,机器学习模型很可能无法交付预期的结果。同样,远处、模糊或光线不足的猫和鸟的低质量图像,会削弱它们作为训练数据的有效性。
训练数据在人工智能和机器学习中的使用方式
训练数据被输入到机器学习模型中,算法分析数据以识别模式。这使得机器学习模型能够对未来的类似数据做出更准确的预测或分类。
主要有三种训练技术:
- 监督学习使用标注数据来说明相关特征,由人类负责选择、标记和其他方式精炼数据。人类反馈在模型训练的前、中、后期都起着直接作用。
- 无监督学习让机器学习模型在未标记的原始数据中寻找模式,使用聚类等技术。这在很大程度上将人类排除在训练过程之外,尽管可能会使用反馈来评估模型的输出。
- 半监督学习是监督和无监督技术的混合。许多-shot、few-shot 和 one-shot 学习等高级方法通常属于这一类别。
强化学习如何适应?
强化学习不依赖于预定义的训练数据集,而是采取试错的方法,代理与其环境进行交互。反馈以奖励或惩罚的形式帮助代理随着时间的推移改进其策略。
与依赖标记数据的监督学习和在原始数据中寻找模式的无监督学习不同,强化学习专注于动态决策。它优先考虑持续的经验而非静态的训练数据,使其成为机器人、游戏和其他实时应用的有用方法。
考虑人类在简单监督训练过程中的角色:
- 原始数据。大多数监督训练从原始数据开始,因为现成的、适当的预标记数据集是稀缺的。这些数据可以从不同来源收集,甚至可以在内部生成。
- 标注数据。原始数据经过策划和标记,以确保相关性并突出机器学习模型需要学习的重要元素。标注几乎总是由人类(如数据科学家)执行。
- 模型摄取。模型摄取标注数据,隔离和处理所需元素。这是学习发生的地方。尽管这个过程在很大程度上是自动化的,但通常资源密集且耗时。
- 模型输出。一旦训练完成,模型会对测试数据进行预测,这些预测会被检查以验证其准确性。如果模型的输出正确,则准备部署。否则,人类操作员会向模型提供反馈,以指导其决策,调查和修正训练数据问题,并通过额外训练进一步优化和精炼模型。
机器学习数据管道具有训练模型和进行预测的并行过程。
训练数据与测试数据
训练完成后,机器学习模型必须通过测试进行验证,就像教师在课程结束后对学生进行测验。测试数据确保模型经过适当训练,能够在可接受的准确性和性能范围内交付结果。
在监督学习中,训练数据被标记以帮助机器学习模型识别和学习相关模式,而测试数据则未标记,通常以原始形式提供,类似于现实世界的数据。在无监督学习中,训练和测试数据通常都是未标记的;测试数据用于评估模型发现的模式是否可以推广到训练过程中看到的特定示例之外。
将数据划分为训练集和测试集的过程称为数据分割。测试数据应与训练数据不同,尽管这两个数据集会共享某些相似特征。训练的目标是识别数据中的模式,因此将训练数据重复用于测试不会准确评估模型的预测能力。使用单独的数据集使得以更大的信心评估模型的准确性成为可能。
测试数据也可以定期用于重新评估模型的性能,特别是在额外训练或反馈之后。没有后续再训练的静态模型应保持相同的输出准确性,但更新后的模型可以重新测试,以观察性能随时间的变化。
Stephen J. Bigelow,TechTarget 的高级技术编辑,拥有超过 20 年的个人电脑和技术行业的技术写作经验。