随着企业对开发人工智能工具的兴趣上升,确保数据准备好用于训练模型和应用程序变得至关重要。
然而,准备数据以支持人工智能工具并非简单明了。根据在2024年影响力大会(Impact 2024)上发言的一组专家,确保数据质量、使用适当工具和实施合适的组织流程是一个综合性的过程。这场虚拟会议由数据可观测性专家Monte Carlo于11月中旬主办。
如果组织在使用数据训练人工智能模型和应用程序之前未能妥善准备数据,可能会面临重大的后果,包括经济损失、违反监管要求和严重的尴尬。
例如,在2024年2月,加拿大航空公司因其人工智能聊天机器人误导一位顾客在其祖母去世后支付全价机票而被迫赔偿该顾客,而实际上有丧亲票价可用。
“垃圾进,垃圾出。因此,你需要优先关注模型的输入和输出,以确保其保持健康,”DraftKings的高级数据工程师Casey Maskalenko说道。
除了Maskalenko,专家小组还包括Grammarly的产品、数据科学和工程负责人Stefanie Tignor,以及SurveyMonkey的数据工程主管Sri Subramanian。
他们讨论了各自公司如何使用人工智能。从简单定义人工智能准备数据开始,他们概述了为人工智能工具妥善准备数据的基本策略。
一组专家小组讨论了在Monte Carlo主办的虚拟会议上为人工智能准备数据,成员包括Monte Carlo的Sydney Nielson(左上),SurveyMonkey的Sri Subramanian(右上),DraftKings的Casey Maskalenko(右下)和Grammarly的Stefanie Tignor(左下)。
定义人工智能准备数据
最基本的说,人工智能准备数据是指能够产生尽可能准确结果的数据。
即使使用高质量数据进行训练,人工智能也并非万无一失。人工智能应用,尤其是生成式人工智能,可能会出现被称为“幻觉”的错误。有时这些错误显得荒谬甚至冒犯,容易被发现。然而,有时这些错误看似合理;如果不仔细检查,可能导致错误的决策。
虽然这不是完美的解决方案,但减少人工智能幻觉发生的最明显方法是用经过妥善准备的大量高质量数据来训练模型和应用程序。用于训练人工智能工具的数据质量越高,人工智能工具的准确性和抗幻觉能力就越强。
因此,建立和理解什么构成高质量数据是确保数据准备好用于人工智能的重要组成部分,Tignor表示。
“人工智能准备数据是可靠的、高质量的和可信的,”她说。“我们需要所有这些,使数据能够准备好用于人工智能。”
然而,Tignor继续指出,确定数据的可信性和可靠性并不止于训练模型时。相反,组织应建立指标,以确定人工智能工具在开发后的准确性和有效性。通过查看输出并确保其符合某些标准,开发人员可以深入了解为人工智能工具提供数据的基础数据。
“人们非常关注输入数据——这当然是非常重要的,”Tignor说。“但你也需要花很多时间来建立有效的指标,以了解人工智能输出是否良好、有用,以及它们是否实现了你的期望。这可能容易被忽视,但在我看来,这是非常重要的。”
Subramanian同样表示,可靠性是人工智能准备数据的本质。
在许多组织中,数据仍然是孤立的。当数据与组织的数据治理框架分离或在企业的不同领域之间不一致时,数据是不可依赖的。但当数据一致且经过妥善管理时,就可以信任。
“你不希望数据处于孤岛中,”Subramanian说。“你希望专注于一个高度可靠、结构良好且……良好治理的单一真实来源,以便授权人员可以轻松访问。这是使数据真正准备好用于人工智能的良好重点。”
技术的角色
由于数据质量是成功开发人工智能的基础,技术在数据准备中发挥着关键作用。
云数据仓库的出现、对实时分析的日益重视以及对人工智能开发的不断增长的需求改变了数据质量监控。在云出现之前,组织将所有数据保存在本地,由经过培训的数据专家团队进行监督。
由于缺乏普遍的连接性,数据源受到限制,但由于源数量有限,数据量是可管理的。
与此同时,分析通常以可预测的每周、每月、每季度和每年报告的形式存在,数据团队有时间仔细开发报告,包括检查报告所依据的基础数据的准确性和其他质量标准。
然而,现在,数据量每年呈指数级增长,而数据的复杂性,包括文本和音频文件等非结构化数据类型,也在增加。此外,企业不再仅依赖可预测的定期报告来保持竞争力。他们需要实时数据以便即时采取行动。
这种PB级数据、各种数据形式和需要随时准备好进行分析的数据的组合使得即使是人类团队也无法检查数据质量。
因此,数据质量计划需要自动化,无论是使用自制技术还是来自数据可观测性专家Monte Carlo和Acceldata等供应商的工具。这些工具可以发现异常和数据变化,而像DBT Labs这样的工程平台则可以在测试过程中发现错误。
“这种组合使我们能够主动和反应,”Subramanian说。
此外,人工智能本身也是监控数据以确保其准备好支持分析和人工智能工具的越来越有效的手段,他继续说道。
例如,DBT Labs使工程师能够使用生成式人工智能开发测试和文档,而Monte Carlo则为用户提供生成式人工智能功能,让他们使用自然语言而不是代码进行修复。两者都旨在通过承担耗时的任务来节省工程师和其他数据专家的大量时间。
然而,最终,人工智能可能会变得更加自主。能够独立行动的代理将监控数据和应用程序中的错误、异常和变化,并承担一些准备和恢复工作。
“人工智能驱动的数据管道自愈和人工智能驱动的数据清洗和分析将变得极其关键,因为随着企业的扩展,他们的需求将增加,必须跟上,”Subramanian说。“你需要有一些东西自动为你做事情,而这些将是剖析和清洗数据的人工智能代理。”
人和流程
虽然技术提供了实施数据准备和质量计划的手段,但组织政策也是确保数据准备好用于支持人工智能模型和应用程序的重要方面,Tignor表示。
“我们需要合适的工具和基础设施,但许多数据质量问题都是文化问题,确保我们有合适的人和流程到位,”她说。“这往往被忽视,但它是非常重要且关键的成分。没有它,什么都无法真正运作。”
创造一种重视数据质量的文化的一种方法是将每个指标的所有权分配给数据团队中的某个人,Tignor继续说道。
通过将所有权分配给个人,使他们负责监督绩效并定期向团队其他成员报告该绩效,可以明确每个数据质量方面的责任人。此外,这也提高了这些个人的责任感。
“尽管我们可以自动化很多警报,但你仍然需要有人觉得自己有责任成为该指标的管理者——‘首席理解者',因为当警报发生时,它们必须去某个地方,”Tignor说。“这就是警报的意义:某人必须对此采取行动。”
Maskalenko同样强调了所有权和沟通的重要性。
“你需要有一个理解并负责[数据质量指标]的人,”他说。“为了继续这一点,我们专注于……让某人促进对话,以便利益相关者知道如果发生了‘X',那么‘Y'将会发生,我们可以对此感到满意或进行调解。”
除了所有权,实施强有力的数据治理框架也很重要,Subramanian表示。
数据治理框架是企业控制谁可以访问哪些数据的地方,确保数据不会落入错误的手中。它们是设置规范的地方,以便没有不符合某些标准的数据用于支持分析和人工智能工具。定义可以标准化,以便组织的所有数据都保持一致,并可以实施数据目录,使数据集和工具易于查找。
“拥有一个治理框架非常重要,”Subramanian说。
确保数据质量的最后一个组织要求是,在使用数据训练人工智能模型和应用程序之前,必须由人来最终决定数据是否准备好,Tignor表示。机器,包括人工智能驱动的工具,可能会出错。捕捉这些错误的责任在于人。
“人们对所有这些自动化和人工智能感到非常兴奋,但有时这可能会导致人们以每小时100英里的速度前进,完全取消所有人类流程,”Tignor说。“你需要人类评估、主题专家知识和……批判性思维。这将有助于改善你的系统,并知道它是否在执行你希望它执行的内容。”
展望未来
随着人工智能的发展,用于准备数据以训练模型和应用程序的技术以及监督人工智能工具开发、部署和运营的团队也必须不断演变。
自2022年11月OpenAI推出ChatGPT以来,企业对人工智能工具的兴趣激增,标志着生成式人工智能能力的显著提升,Subramanian表示,数据团队将演变为人工智能的推动者。
“我们将推动所有人工智能计划,努力为特定模型生成高质量数据,并确保有一个人工智能准备基础设施,”他说。
Subramanian继续指出,人工智能准备基础设施能够随着数据量的持续增长而扩展,SurveyMonkey的数据工作负载在过去两年中增加了五倍。
“我只能想象五年后数据量将会有多大,以及我们将为所有不同的计划生成多少数据集,”他说。“扩展基础设施是非常重要的。”
与此同时,Maskalenko指出,无论数据量如何持续增加,企业投资多少新的人类智能计划,数据团队仍将负责确保用于支持人工智能工具的数据确实准备好。
“我们都听过‘数据是新石油'这句话,”他说。“我认为数据工程团队与这个比喻完美契合。数据是强大的,且可用,但你需要对其进行提炼。”