Cockroach Labs在周四推出了向量搜索功能,旨在帮助客户访问和操作非结构化数据,以训练生成性AI模型和应用程序。
此外,该供应商还推出了一种新工具,旨在通过减少查询时间和优化使用来提高效率,并为CockroachDB Cloud引入了新的定价层。这些新功能都是Cockroach Labs的CockroachDB 24.2更新的一部分。
随着企业对生成性AI的兴趣在过去两年中急剧上升,向量搜索已成为发现所需数据(大部分为非结构化数据)的一种常见手段,这些数据用于增强检索生成(RAG)管道,以供生成性AI工具的训练和使用。因此,增加向量搜索功能对像Cockroach Labs这样的数据库供应商来说至关重要,TechTarget企业战略组的分析师Stephen Catanzano表示。
“向量搜索是CockroachDB的一个重要进展,因为它使用户能够处理非结构化数据,”他说。“通过添加向量搜索,Cockroach使用户能够更智能地管理数据。这一点尤其重要,因为企业越来越依赖AI,需要能够处理向量的数据库,以提高性能和准确性。”
Cockroach Labs总部位于纽约市,是一家提供云原生SQL数据库平台的数据库供应商。
迄今为止,该供应商已筹集超过6亿美元的资金,包括2021年1月的2.78亿美元和2020年5月的1.6亿美元。与此同时,其竞争对手包括MongoDB、Yugabyte等其他数据库专业公司,以及亚马逊DynamoDB和微软SQL Server等科技巨头的数据库产品。
新功能
OpenAI在2022年11月推出ChatGPT标志着大型语言模型(LLM)能力的重大进展。
自那时以来,许多企业将开发生成性AI功能作为优先事项,将LLM能力与自身专有数据结合,以开发理解其业务的模型和应用程序。
通过这些模型和应用程序,企业可以开发生成性AI助手,使任何技能水平的用户能够使用自然语言处理查询和分析数据,以做出明智的决策。此外,企业还可以编程模型和应用程序,以承担重复性任务,从而使数据工程师和其他专家的工作效率提高。
然而,将LLM的能力与专有数据结合以训练生成性AI工具并非易事。
没有大量高质量的数据——即使有时有——生成性AI工具容易出现AI幻觉,这些幻觉是错误的,有时甚至是荒谬的输出,如果不被人类发现,可能会造成严重后果。为了为模型和应用程序提供足够的数据以减少幻觉的可能性,需要非结构化数据。
非结构化数据(如文本、图像和音频文件)估计占所有数据的80%以上。然而,没有某种形式的结构,数据很难操作。向量是由算法自动分配的数据的数值表示,为非结构化数据提供了搜索和发现所需的结构。
因此,为了满足希望开发生成性AI工具的客户需求,许多数据库专家和其他数据管理供应商增加了向量搜索和存储功能。
例如,Cockroach Labs的竞争对手MongoDB和Couchbase现在都提供向量搜索和存储,而科技巨头AWS和Oracle已将向量搜索和存储作为其数据库战略的核心。
现在,Cockroach Labs也推出了自己的向量搜索能力,增加了在企业对生成性AI兴趣激增的背景下对任何数据库供应商至关重要的工具,BARC美国的分析师Kevin Petrie表示。
CockroachDB的向量搜索能力通过与pgvector的集成实现,pgvector是一个用于PostgreSQL数据库的开源工具,利用语义建模来改善向量搜索。通过这一集成,Cockroach Labs的客户现在可以在大型向量数据集上执行语义搜索,以发现与生成性AI模型和应用程序相关的数据,如推荐引擎和AI助手。
“鉴于生成性AI的流行,向量搜索已成为数据库供应商的必备功能,”Petrie说。
在典型的RAG工作流程中,向量搜索是企业将生成性AI语言模型应用于其专有数据的一种方式,他继续说道。向量数据库查找和检索非结构化数据(如文本或图像),然后将其输入管道,从而使生成性AI语言模型不太可能出现幻觉。
“认识到这一机会,许多数据库供应商正在添加向量搜索功能,”Petrie说。
数据库供应商Cockroach Labs通过与pgvector的集成增加了向量搜索能力。
虽然一些供应商的向量搜索能力已存在超过一年——如Pinecone等专注于向量数据库的供应商——Cockroach Labs才刚刚开始使用向量搜索。尽管推荐引擎和AI助手是两个目标用例,但还有其他用例,Petrie补充道。
“我很期待看到他们在即将发布的公告中提供关于能力、目标用例和理想数据集的更多细节,”他说。
除了新的向量搜索能力,Cockroach Labs还推出了其数据库完全托管版本的新定价结构。它还提供自我管理版本。
该供应商现在提供CockroachDB Cloud的基础版、标准版和高级版。此前,该供应商只提供无服务器和专用层。
基础版和高级版基本上取代了无服务器和专用版,而标准版则代表两者之间的新层,以便为客户提供三种完全托管的选项。
基础版免费提供,客户在超过每月10GB存储和5000万请求单位后开始收费。标准版的起价为每月146美元(每两个虚拟CPU),而高级版的起价为每月295美元(每两个虚拟CPU)。
新定价层不仅仅是简单地重命名两个定价选项并增加一个新选项,而是旨在更好地将企业的工作负载需求与定价层匹配,Cockroach Labs首席执行官Spencer Kimball表示。
例如,基础层可能最适合具有入门级工作负载的组织,而高级层则可能适合需要高安全性和可扩展性的企业。同时,标准层提供了一种平衡,旨在提供基础层的成本效率以及一些高级层的效率、可扩展性和安全性。
“标准层的引入使公司能够整合多种工作负载,同时优化成本和性能,”Kimball说。
Catanzano同样表示,新增定价层具有重要意义,因为它们为现有和潜在客户提供了灵活性,以应对工作负载需求和预算的变化。
“它简化了云的采用,使CockroachDB能够为从初创企业到大型企业的更广泛用户提供服务,”他说。
除了新的向量搜索能力和重新组织的定价外,Cockroach Labs还推出了通用查询计划,这是一种通过使用更少的计算能力来减少查询时间,使复杂查询更高效、更便宜的工具。
根据Kimball的说法,客户反馈和市场趋势的结合促使了向量搜索和其他新功能的添加。
许多企业正在将生成性AI作为优先事项。为了满足他们的需求,Cockroach Labs需要增加向量搜索能力,使这些企业能够找到和操作相关数据,同时改善其数据库的性能,以处理AI所需的工作负载。
“我们设计CockroachDB以满足这些不断变化的需求,确保我们的数据库能够处理这些工作负载的规模和复杂性,”Kimball说。
展望未来
随着CockroachDB 24.2的推出,Cockroach Labs计划继续增加功能,以使客户能够运行AI和机器学习工作负载,Kimball表示。
其中包括认识到许多企业刚刚开始使用AI和机器学习,且工作负载的规模和复杂性将随着时间的推移而增加。
向量搜索是CockroachDB的一个重要进展,因为它使用户能够处理非结构化数据。通过添加向量搜索,Cockroach使用户能够更智能地管理数据。Stephen Catanzano企业战略组分析师
“我们的目标是为企业提供一个不仅满足当前需求的数据库,还能为未来的挑战做好准备,使我们的客户在快速发展的环境中保持领先,”他说。
Petrie认为,专注于增加和改善使客户能够开发生成性AI模型和应用程序的功能是明智的。
鉴于Cockroach Labs现在才刚刚开始使用向量搜索,该供应商展示其致力于促进高级应用开发的承诺至关重要。
“我很想看看Cockroach在支持RAG工作流程方面的认真程度,”Petrie说。“如果他们确实如此,我预计会有更多关于用向量和关系数据丰富生成性AI语言模型提示的好处的公告。”
Catanzano同样建议Cockroach Labs继续增加对希望开发生成性AI工具的客户的支持。正如与pgvector的集成是Cockroach Labs增加向量搜索的方式,与其他供应商的集成可能是快速开发AI和机器学习生态系统的一种手段。
“为了继续增长,Cockroach Labs可以进一步整合更多以AI驱动的数据管理功能,如增强对机器学习工作负载的支持和更无缝的多云能力,”Catanzano说。
为开发人员添加新工具和数据可观察性等功能也可能使Cockroach Labs受益,并帮助该供应商在竞争中脱颖而出,他继续说道。
“这些举措可能有助于Cockroach Labs巩固其在云原生、弹性数据库领域的领导地位,”Catanzano说。
Eric Avidon是TechTarget编辑部的高级新闻撰稿人,拥有超过25年的经验。他报道分析和数据管理领域的新闻。