当TS Imagine首次开始使用Snowflake时,它只是寻求一种管理数据的方式。三年后,Snowflake正在为这家金融科技公司的转型提供动力,使其成为一个由AI驱动的企业。
TS Imagine总部位于蒙大拿州的博兹曼,但没有中央总部,是一家数据云供应商,其平台使客户能够存储和分析数据。此外,在过去的几年里,该供应商将AI作为重点,开发了一个环境,客户可以在其中开发、部署和管理AI、机器学习模型和应用程序。
与此同时,TS Imagine是一家基于SaaS的金融服务供应商,总部位于纽约市,提供前台交易、投资组合管理和金融风险评估能力。该公司于2021年在TradingScreen与Imagine Software合并后成立。
合并后,TS Imagine需要一种方式来整合和组织来自TradingScreen(成立于1999年)和Imagine Software(成立于1993年)的多年数据。
Snowflake就是这样的解决方案。然而,随着Snowflake从数据管理平台演变为AI环境,TS Imagine也随之发展,利用Snowflake的平台推动其转型。
“我们是一家以云为先的公司,也是以Snowflake为先的公司,”TS Imagine的首席运营官兼首席数据与分析官Thomas Bodenski说。“现在还有第三个:以AI为先。”
通过使用Snowflake,TS Imagine能够访问以前无法获得的数据,以便做出决策。它正在利用AI管理某些流程,并获得了财务收益。
不过,首先它需要整理数据。
从Snowflake开始
当TradingScreen和Imagine Software于2021年5月合并时,新成立的公司面临挑战。TradingScreen和Imagine Software各自带来了超过20年的数据。此外,新公司有两个数据团队;两个技术栈;并计划扩展到新的领域,例如固定收益证券交易。
TS Imagine需要一种方法来统一这些数据,并且需要在一个系统中完成,以支持其扩展。
“我们很快就确定数据是我们需要关注的领域,”Bodenski说。“我们知道,从战略上讲,我们必须采取行动。我们必须随时准备好数据,因为它用于交易和风险管理。我们需要解决客户永远不该看到的问题。”
TS Imagine管理着超过2000万种金融工具——如股票、债券、贷款、基金和存款证等可交易或交换的资产。每种金融工具,包括拥有该工具的客户,都会生成数据,这意味着TS Imagine需要管理大量数据以满足客户的需求。
因此,它需要一个足够简单的数据管理平台,以便用户在需要时能够轻松访问数据,并且能够处理规模。
一个选项是TradingScreen和Imagine Technologies之前使用的平台。其他选项包括专门用于分类金融交易的参考数据的平台,如Markit EDM和GoldenSource。
最终,TS Imagine选择了Snowflake。
根据Bodenski的说法,及时性是TS Imagine决策的关键因素,因为它需要近实时访问数据以通知和执行交易。Snowflake的广度和深度——规模——也是重要因素。
最后,简单性起了重要作用。
Snowflake理解Python和SQL代码。如果TS Imagine选择了一个需要Java或C++的平台,例如,几乎没有开发人员具备使用该平台所需的技能。但由于Snowflake可以使用Python和SQL,54名数据科学家、工程师和其他数据专家已经具备所需的技能。
“我们觉得使用Snowflake,我们有一个能够赋能我们的平台,”Bodenski说。“我们能够在一夜之间从一个小团队成长为一个大型组织。”
现在,TS Imagine将所有数据存储在Snowflake中,并在Snowflake中运行所有数据管理流程,如数据质量监控、管道监控和自动回归测试。
企业在使用生成AI时可能会获得这七个好处。
加入AI
在TS Imagine将数据整理到Snowflake一年后,OpenAI推出了ChatGPT。
ChatGPT于2022年11月发布,显著提升了生成AI的能力,尤其是自然语言处理(NLP)和自动化能力引起了许多组织的关注。
企业迅速意识到,如果能将这些能力与专有数据结合起来,以理解组织的运作,他们可以获得显著收益,比如由于NLP的广泛使用而提高分析能力,以及由于流程自动化而获得效率提升。
在看到生成AI在企业中潜在价值的组织中,TS Imagine也在其中。
“当ChatGPT的炒作开始时,我们非常兴奋,”Bodenski说。“我的所有高管同事也都关注数据,ChatGPT是每次会议的主题。”
TS Imagine已经尝试使用NLP和机器学习来自动化任务,如数据分类和目录编制。然而,将非结构化数据转换为结构化数据以通知模型和应用程序的过程证明是困难的。
非结构化数据,如文本、图像和音频文件,估计占所有数据的三分之二以上。挖掘非结构化数据对于全面理解组织至关重要。
当时,Snowflake仍然主要集中在数据管理上,TS Imagine将ChatGPT的生成AI能力视为最终获取其非结构化数据的途径,尤其是电子邮件和PDF文档中的文本。
“我们需要通过将其转换为结构化内容来使其更具可操作性,”Bodenski说。
TS Imagine开发了一个AI工程团队,与其数据专家合作,利用存储在Snowflake中的数据训练ChatGPT进行文本分析。
它创建了一个AI管道,使用开源数据库ChromaDB对非结构化数据进行向量化,以赋予其结构,使用LangChain开发检索增强生成(RAG)管道,以发现训练模型所需的相关数据,并使用Google Cloud的容器来运行其生成AI工作负载。
结果是模型在分析来自500多名客户的文本时提供了准确的输出,Bodenski表示。
“它的提供率高得惊人,以至于我们可以依赖它,”他说。
尽管如此,TS Imagine并没有根据生成AI的输出自动化最终决策。它仍然安排人类检查输出的准确性并做出最终决策。
在接下来的一年里,TS Imagine继续使用ChatGPT作为其生成AI开发和分析的基础。直到Snowflake开始开发自己的生成AI环境。
Snowflake为一切AI
像TS Imagine这样的企业并不是唯一在ChatGPT发布后认识到生成AI潜在价值的组织。
数据作为AI的基础引擎——用于训练和通知AI模型和应用程序的信息——分析和数据管理供应商,从MicroStrategy和Monte Carlo等专业公司到AWS、Google Cloud和Microsoft等科技巨头,都将生成AI作为其产品开发计划的重点。
Snowflake的竞争对手Databricks在为客户创建AI模型和应用程序的环境方面尤其积极。在缓慢起步后,Snowflake也随之跟进。
“我们是一家以云为先的公司,也是以Snowflake为先的公司。现在还有第三个:以AI为先。”Thomas Bodenski TS Imagine首席运营官兼首席数据与分析官
2023年5月,Snowflake收购了搜索引擎专家Neeva,以获取生成能力。五个月后,该供应商推出了Cortex,这是一个AI开发环境,包含对LLM和向量搜索能力的访问等功能。此后,Snowflake继续添加旨在支持AI和机器学习开发的工具,包括其自己的LLM和聊天机器人开发框架。
由于Snowflake——通过Cortex——提供了TS Imagine与ChatGPT、ChromaDB、LangChain和Google Cloud拼凑的相同能力,这家金融服务公司决定将其AI运营迁移到Snowflake。
根据Bodenski的说法,这一过程很简单,仅需一名工程师一周就完成了整个迁移。
“现在所有AI工作都专门在Snowflake上运行,”他说。
迁移后,仅通过消除使用各种平台创建AI管道的成本,而改为使用Snowflake提供的工具,TS Imagine在与培训和管理其生成AI能力相关的支出上减少了30%。
“这对我们来说是重要的,”Bodenski说。“这是一个一站式服务。我们可以在我们都熟悉的技术上构建整个AI管道。”
由于其数据已经存储在Snowflake中,TS Imagine可以直接在这些数据上构建AI管道,而无需将数据移动到可能会意外暴露的其他系统中。此外,所有AI管道所需的组件都在一个环境中,开发新模型或应用程序只需几天时间。
结果
在使用Snowflake进行AI开发和部署的一年后,TS Imagine在使用ChatGPT开发文本分析能力并将其迁移到Snowflake后,已经为不同应用开发了五个其他生成AI管道。
除了分析电子邮件和PDF之外,生成AI的一个关键应用是监控客户服务。TS Imagine每月平均收到5000个查询。全面理解客户服务相关的所有内容是具有挑战性的。
“如果你是全球客户服务负责人,获得概览并不容易,”Bodenski说。“如果你是区域经理,了解正在发生的一切也很困难。”
通过其客户服务应用,TS Imagine现在可以对每个客户服务事件进行分类,自动分配敏感性评级,并理解请求的情感、紧急性和复杂性。
“这些步骤本来都需要手动完成,”Bodenski说。
通过使用Snowflake开发和部署生成AI工具,TS Imagine节省了数千小时的工作,包括4000小时本来用于手动分析电子邮件的工作。
“这使我们能够利用人力去做更具分析性、更具知识性的工作,”Bodenski说。“我们可以让人们在其他任务上更高效。”
尽管有众多好处,像大多数使用生成AI改善运营的企业一样,TS Imagine也在解决一些问题。
虽然使用Snowflake开发生成AI工具的过程很顺利,但根据Bodenski的说法,确保模型和应用程序始终提供可靠输出仍然是一个问题。
“大型语言模型产生的结果仍然存在挑战,”他说。
准确性一直是生成AI的问题。即使使用高质量数据进行训练,模型和应用程序有时仍会产生错误甚至奇怪的输出,被称为幻觉。
为了应对这些不准确,TS Imagine对每个查询多次运行其RAG管道,以尝试剔除任何异常值。然而,该公司始终确保有一个人来采取行动,而不是信任模型或应用程序自动从输出转向行动。
“我们需要不断查看结果,”Bodenski说。“你真的需要找到合适的用例。这些东西并不能解决所有问题。你需要找到合适的用例,这样才能获得高精度率。即便如此,输出有时仍然非常奇怪。”
未来计划
在使用Snowflake进行AI开发和部署一年后,TS Imagine在运行六个RAG管道的情况下,计划增加更多AI应用,Bodenski表示。
迄今为止,该公司在生成AI方面的工作是自动化流程,以提高员工效率。它尚未开发能够让业务用户使用自然语言查询和分析数据的AI助手。
TS Imagine利用Snowflake开发了客户可以用来分析数据的应用程序。但这些应用程序是传统的分析应用,而非AI驱动的应用。
下一步是将生成AI添加到这些应用中,以使客户在分析金融交易和策略时,能够超越数据专家,进行自助分析。
“我们的目标是自助分析,”Bodenski说。“金融交易涉及大量数据,客户可以自助服务。我们希望通过我们的产品将AI带给客户。这是最终目标。”
Eric Avidon是TechTarget Editorial的高级新闻撰稿人,拥有超过25年的新闻从业经验。他专注于分析和数据管理。