Databricks于周三发布了旨在使企业客户能够安全、经济地开发生成式AI模型和应用的新功能,这些功能旨在提供高质量的输出。
新工具包括Mosaic AI Agent Framework,它通过使用专有数据的基础模型来构建检索增强生成(RAG)应用,从而提高模型质量。另一个新工具是Mosaic AI Gateway,这是一个AI治理框架,解决了成本、安全性和质量问题。
此外,Databricks还宣布,其数据和AI治理的数据目录Unity Catalog从周三起已开源。
Databricks在旧金山举行的用户会议Data + AI Summit上介绍了这些新功能以及Unity Catalog的新状态。
根据ISG的Ventana Research分析师David Menninger的说法,这些新功能共同解决了长期以来一直是数据和分析架构一部分的碎片化问题。
就像Databricks通过帮助开发结合数据仓库和数据湖功能的数据湖仓格式来针对碎片化一样,它现在正将以前分散的数据管理、AI和分析功能整合到一个环境中。
David Menninger表示:“Databricks在数据平台市场建立了足够的地位,他们有机会减少碎片化。数据湖仓是第一步。现在,他们正在帮助确保所有类型的分析,包括BI、AI和生成式AI,都可以在同一平台上进行。”
总部位于旧金山的Databricks是数据湖仓存储格式的先驱之一,它将数据仓库的结构化数据存储能力与数据湖的非结构化数据存储能力相结合。
在过去18个月里,Databricks将其平台的广度扩展到包括开发生成式AI模型和应用的环境。这一环境的关键是2023年6月收购的MosaicML,它现在构成了Databricks的AI和机器学习操作的基础。
解决AI质量问题
自OpenAI推出ChatGPT标志着生成式AI能力取得显著进步以来,Databricks在创建AI和机器学习开发环境方面一直非常积极。
通过真正的自然语言处理使数据管理和分析变得更简单、更高效,极大地减少了编写代码的需要,企业渴望开发了解他们组织的生成式AI模型和应用。作为回应,许多数据管理和分析供应商推出了AI助手等工具,提供生成式AI功能,以及其他工具,如向量搜索和与大语言模型(LLMs)的集成,使生成式AI开发成为可能。
除了收购MosaicML外,Databricks还进行了其他三项收购,旨在帮助客户构建AI和机器学习应用。它还引入了一系列新功能,包括开发开源LLM、向量搜索和AI治理。
随着Databricks建立AI和ML开发环境,它注意到企业在构建AI模型和应用方面的方式发生了变化,根据供应商营销副总裁Joel Minnick的说法。
最初,客户使用他们的数据与单一的LLM结合,试图深入了解他们的组织。然而,结果并不令人鼓舞,模型和应用程序经常提供不准确的输出,并且对提示的响应时间过长。
随后,客户开始构建Databricks所称的复合系统,该系统将专有数据与多个LLMs和其他系统(如RAG管道)结合使用。使用复合系统,Databricks发现模型准确性显著提高,响应时间也大大加快,Minnick说。
Databricks最近将RAG管道的关键组件向量搜索普遍提供给客户,以帮助他们开发复合系统。
周三发布的新功能同样旨在实现复合系统开发,以产生高质量的输出,据Minnick称。此外,它们旨在安全、经济地实现复合系统开发。
“从我们考虑从Databricks的角度投资什么来看,我们希望使客户更容易开始构建这些复合系统,”Minnick说。
Mosaic AI Agent Framework和Mosaic AI Gateway可能是最重要的新功能,据Menninger说。
Mosaic AI Agent Framework是一个用于开发RAG管道的软件开发工具包,它发现相关数据以告知AI模型或应用,并将其传递给模型进行训练。其中包括Mosaic AI Agent Evaluation,这是一个AI驱动的工具,用于测量输出质量,并通过直观的用户界面使用户能够提供反馈。
与此同时,Mosaic AI Gateway是一个治理工具,使用户能够查询、管理和部署模型和应用程序。使用此功能,客户可以轻松更改为其模型和应用程序提供动力的LLMs,因为新的LLMs出现并且其性能超过了现有LLMs。此外,管理员可以跟踪使用情况、设置速率限制以控制支出,并过滤敏感数据(如个人身份信息)以解决安全和合规问题。
“生成式AI开发的一些最大挑战仍然是准确性和治理,”Menninger说。“Mosaic AI Agent Framework将有助于提高生成式AI输出的质量。此外,Mosaic AI Gateway提供了一个可以跨越开源和专有模型的治理框架。”
BARC美国分析师Kevin Petrie同样强调Mosaic AI Agent Framework是一个重要的新功能。
他指出,强调复合系统是适当的,因为语言模型只是开发生成式AI模型的更广泛系统的一个组件。其他组件(如向量数据库和RAG管道)也同样重要。因此,开发RAG管道的框架是一个必要的功能。
“Mosaic AI Agent Framework是Databricks迈出的关键且必要的一步,”Petrie说。“RAG已成为向语言模型提供特定领域数据并提高模型准确性的最合乎逻辑且成本效益最高的方法。您越能帮助……实施RAG,就越能将早期采用者从实验和试点阶段快速转移到生产部署阶段。”
更多功能
除了Mosaic AI Agent Framework和Mosaic AI Gateway之外,Databricks还推出了旨在帮助客户开发复合系统的新功能,包括:
- Unity Catalog GenAI Tools,一个功能,使客户能够使用Databricks Unity Catalog治理、共享和注册工具,以便在整个组织中以安全、受治理的方式发现这些工具。
- Mosaic AI Model Training,一个工具,使用户能够使用组织的专有数据微调开源基础模型,从而使特定领域的模型能够以比使用更大模型(如ChatGPT和Google Gemini)更经济高效的方式为特定于该组织的决策提供信息。
- 将Unity Catalog开源,为跨云、数据格式(包括Apache Iceberg和Apache Hudi)和数据平台的数据和AI治理提供开放生态系统。
- 与包括Nvidia、Informatica、Precisely和Qlik在内的供应商建立合作伙伴关系和集成。
Unity Catalog GenAI Tools处于私人预览阶段,而周三发布的其他所有功能(Mosaic AI Agent Framework、Mosaic AI Agent Evaluation、Mosaic AI Model Training和Mosaic AI Gateway)都处于公开预览阶段。
Databricks没有提供全面上市的时间表。
鉴于许多功能都处于预览阶段——无论是Databricks推出的功能还是AWS、Google、Microsoft、Oracle和Snowflake等竞争对手推出的功能——很难知道哪些供应商为AI开发提供了最先进的环境,据Menninger说。
“很高兴看到这些新公告,”他说。“它们无疑是朝着正确方向迈出的一步。但企业需要可靠且支持全面可用的功能。”
Petrie同样表示,新的Databricks功能将帮助客户开发生成式AI模型和应用。
他指出,该供应商的客户群包括精通数据科学的团队,可以利用Databricks计划提供的功能。因此,该供应商在产品发展计划上走在正确的轨道上。但为了使新工具真正有效,它们需要全面上市,而不是处于预览阶段。
“与Snowflake(在最近的用户会议上)一样,Databricks正在宣布仍处于公开或私人预览阶段的软件,”Petrie说。“真正的考验是尽快进入全面上市阶段。”
至于哪家供应商迄今为止开发了最实用的生成式AI开发环境,现在还为时过早,他继续说道。Databricks、Snowflake、AWS、Google、Oracle和Microsoft都公布了重大的产品开发计划,但都没有构建完整的生成式AI开发环境。
“现在还太早,无法宣布供应商在生成式AI竞赛中的赢家,甚至早期领导者,”Petrie说。“但因为生成式AI最终将更多地成为一项功能,而不是一个独立的项目,最终的赢家将是那些能够帮助公司将生成式AI融入他们已经拥有的东西(如应用和现有架构)的公司。”
关于开发Mosaic AI Agent Framework和Mosaic AI Gateway等功能的动力,客户反馈是一个推动因素,据Databricks的Minnick说。
与客户的对话一致表明,企业正在尝试生成式AI,但难以将模型和应用程序投入生产。客户还一致表示,阻碍生成式AI开发的问题集中在质量、成本和隐私上。
“当我们考虑过去12个月的路线图时,我们考虑了如何帮助客户掌握[质量、成本和隐私],”Minnick说。“与此同时,复合系统也在兴起。”