Informatica于周三发布了其“2024年秋季版本”,推出了旨在帮助客户准备数据以训练AI模型和应用的新工具,包括改进的数据集成能力。
数据是任何AI模型或应用的基础,为AI工具提供了做出决策和采取行动所需的智能。然而,数据必须经过适当准备,才能使模型或应用有效。
如果数据准备不当,例如包含不准确或无关的信息,AI工具将产生错误的输出。但如果数据经过良好准备且质量高,虽然无法保证准确性,但AI模型和应用产生不准确输出的可能性大大降低。
TechTarget企业战略组分析师Stephen Catanzano表示,在使用数据训练AI模型和应用之前,确保数据得到适当准备至关重要。
“AI的数据准备至关重要,因为AI的输出仅与其训练的数据质量相关,”他说。“如果你用一组认为世界是平的的数据来训练AI,那它就会相信这一点。”
Catanzano继续指出,AI的适当数据准备包括构建可信的数据源,确保数据的准确性、可靠性、上下文相关性、治理、时效性和多样性。
“这是使用企业数据构建生成性AI解决方案的过程中的最关键一步,以及支持它的数据平台基础设施,”他说。
BARC美国的分析师Kevin Petrie同样指出,适当的数据准备是AI开发的重要组成部分。如果没有导致可信数据的治理措施,模型和应用将无法成功。
“我们已经进入了这一轮AI创新周期的阶段,早期采用者意识到,要实现有意义的生产部署,他们需要认真对待数据治理,”Petrie说。“强大的模型在没有可信输入的情况下会失败,导致错误推断、生成虚假或有害内容等问题。”
总部位于加利福尼亚州红木城的Informatica是一家数据管理专家,其平台智能数据管理云使客户能够集成和准备数据以进行分析。
在5月,该供应商推出了Claire GPT,这是一款基于生成性AI的助手,允许客户使用自然语言而非代码与数据进行交互,并提供了用于开发生成性AI工具的低代码/无代码环境。一个月前,该供应商曾被传闻为Salesforce的收购目标,但由于投资者的不满,谈判未能达成。
企业在使用生成性AI时可能获得这七大好处。
新功能
自2022年11月OpenAI推出ChatGPT以来,生成性AI能力有了显著提升,企业对开发传统AI和生成性AI工具的兴趣在过去两年中激增。
由于像ChatGPT和Google Gemini这样的庞大语言模型实现了真正的自然语言处理,企业希望将其专有数据与LLM能力相结合,使员工能够使用自然语言而非代码与数据进行交互。随着编码技能不再总是必需,组织内更多员工可以利用分析来做出决策,从而提高决策的效率和准确性。
此外,由于LLM可以用专有数据进行训练,以自动化占用数据专家大量时间的重复任务,AI工具可以使应用开发人员、数据工程师、数据科学家和其他受过训练的专家更高效。
然而,如果用于训练AI工具的专有数据没有经过适当准备,那么基于这些数据训练的模型和应用将无法按预期运行。
企业通常拥有大量数据,其中许多是非结构化的,例如文本、图像和音频文件,这些数据被加载到数据湖或其他存储库中后未经过处理。即使是一些结构化数据,例如财务和销售交易记录,往往也只是简单地加载到数据仓库中,未进行进一步处理。
为了使所有这些数据能够为AI工具提供信息,必须经过适当的准备,Informatica的AI和元数据产品管理副总裁Gaurav Pathak表示。
AI的数据准备至关重要,因为AI的输出仅与其训练的数据质量相关。如果你用一组认为世界是平的的数据来训练AI,那它就会相信这一点。Stephen Catanzano 企业战略组分析师
“许多组织持有数TB或PB的数据,包括结构化和非结构化数据。但其中太多数据没有得到适当管理和治理。这不是我们所称的AI准备好的数据,”他说。“清理混乱的数据将帮助企业为AI准备数据。”
Informatica的“秋季版本”旨在帮助企业客户清理混乱的数据。根据Catanzano的说法,此次更新的一个关键组件是改进了对存储在Databricks和Google BigQuery中的数据的集成能力。
“2024年秋季版本”包括Informatica的无代码工具与Databricks的生成性AI能力之间的集成;一个基于SQL的数据转换功能,使用户能够在Databricks Delta Lake和Google BigQuery中处理提取、加载和转换(ELT)管道;以及一个任务向导,指导用户在AI项目中摄取和复制数据。
“与Databricks的对接是一个稳固的步骤,因为他们在[生成性AI能力]方面发展迅速,”Catanzano说。“作为一个智能数据管理平台,Informatica需要在客户所在或希望去的地方进行良好的集成,以作为管理层。”
Petrie同样指出,将ELT管道添加到Delta Lake和BigQuery的重要性。
“ELT的增强十分合理,”他说。“许多数据团队现在偏爱ELT……因为他们可以在将数据摄取到Databricks和Snowflake等平台之后,对数据进行复杂的转换。”
Informatica的“2024年秋季版本”还包括以下内容:
- Turbo-charged应用集成运行时,这是一个计划于11月正式发布的功能,旨在通过自动扩展、高吞吐量和低延迟集成能力来改善应用性能。它包括无服务器选项。
- 用于集成存储在AWS、Microsoft Azure、Google和Oracle等平台的数据的预构建集成模板。
- 与各种AI开发环境的连接器,例如Amazon Bedrock和Google Vertex AI,以及商业和消息应用,包括Coupa、Salesforce Streaming Events和Azure Service Bus。
- 旨在改善工作流集成的新主数据管理功能。
- 改进的数据治理能力,包括Informatica的云数据治理和数据目录中的元数据访问控制。
- Claire GPT的区域可用性扩大。
Petrie指出,Informatica的更新包含了广泛的新功能和改进功能。也许最重要的是,它们相互补充,例如Turbo-charged应用集成运行时针对连接器和预构建集成模板所实现的集成的速度和效率。
“Informatica在应用集成方面的增强是非常合理的,”Petrie说。“为了脱颖而出,AI采用者必须基于经过治理、良好集成的数据优化用户体验,Informatica正在帮助企业更快、更高效地在流行的数据平台上实现这一目标。”
尽管Informatica的最新更新旨在帮助客户准备数据以训练AI模型和应用,但Pathak指出,增加旨在为AI准备数据的能力的动力来自于客户反馈与供应商自身研究的结合。
“客户需求……始终是主要驱动因素,此外还有我们自己的研究和开发,”他说。“如今,许多商业和技术领导者希望加速他们的GenAI项目和战略计划。我们正在通过这些最新的创新来帮助他们。”
下一步
尽管Informatica的2024年秋季版本专注于帮助客户准备数据以训练AI模型和应用,但Catanzano指出,它并未涉及AI工具的实际开发,除了提供集成。
去年5月,Informatica推出了用于开发AI模型和应用的低代码/无代码环境。包括拖放功能、可定制模板、生成性AI开发的预构建技术以及对多种LLM和向量数据库的支持。
该供应商的最新平台更新包括与其他供应商(如Databricks和Google)的开发环境的集成和连接器,但未包括对其自身开发环境的新功能和改进。
因此,Catanzano建议Informatica将未来的一些产品开发和营销重点放在其自身的模型和应用开发工具上。
“我认为[Informatica应该做]更多的工作,让客户看到他们的平台是构建GenAI解决方案的理想之地,”他说。“他们专注于让你的数据准备好,但我还没有看到太多关于下一步该去哪里的信息。”
Eric Avidon是TechTarget编辑部的高级新闻撰稿人,拥有超过25年的工作经验。他专注于分析和数据管理。