Metaplane在周一发布了Snowflake的本地应用程序的公开预览,这是一个旨在帮助共同用户监控和保护他们在Snowflake数据云中的数据以确保数据质量的集成。
Metaplane总部位于波士顿,是一家数据可观察性专家,其平台使客户能够跟踪数据的整个生命周期,以确保其在用于报告、仪表板、模型和应用程序等数据和AI产品时是准确和可信的。
截至目前,这家2019年成立的初创公司通过A轮融资筹集了2220万美元的风险资本,并于5月从数据平台供应商Snowflake的投资子公司Snowflake Ventures获得了一笔未披露的资金。
根据Snowflake的说法,这笔投资旨在为Snowflake客户提供Metaplane的数据可观察性能力,以便他们在操作数据以供决策和采取行动时使用。
与此同时,数据质量的重要性可能从未如此突出。随着企业对AI的兴趣激增,训练AI模型和应用程序所需的数据量远远超过人类团队能够监督的数量,组织需要自动化工具,如数据可观察性平台,以确保准确性。
如果没有准确的数据,模型和应用程序将产生不正确的输出,而这些输出如果用于决策,可能会导致重大问题。因此,像Metaplane为Snowflake提供的本地应用程序这样的数据可观察性工具,对于企业在构建分析和AI工具时至关重要,TechTarget企业战略集团的分析师Stephen Catanzano表示。
“数据可观察性至关重要,因为它确保数据团队对其数据管道的健康和性能有全面的可见性,”他说。“这有助于主动识别和解决数据问题,确保数据在业务运营和AI/ML项目中的可靠性、质量和可信度。”
除了Metaplane,数据可观察性专家还包括Acceldata、Monte Carlo和Soda Data。
新能力
数据可观察性是一个日益增长的需求。
近年来,数据量呈指数增长。组织从越来越多的来源获取数据,而这些来源产生的数据量也在增加。此外,数据变得更加复杂,估计超过80%的新数据是非结构化数据,如文本、图像、视频和音频文件。
数据量和复杂性的增加,使得近一半的组织现在管理至少500PB的数据,手动观察数据质量几乎是不可能的。
为了应对这一挑战,数据可观察性供应商应运而生,提供自动监控数据质量的平台,关注数据的准确性、时效性、模式和血缘等特征。
如今,企业对开发AI工具(包括生成式AI)的兴趣激增,更加加剧了对数据可观察性的需求。
即使用于训练AI模型和应用程序的数据质量很高,AI工具仍然容易出现幻觉,即产生不正确、误导性甚至有时令人反感的输出。再加上不良数据,模型或应用程序产生错误输出的概率就会增加。模型和应用程序的效果取决于用于训练它们的基础数据。
鉴于对AI的兴趣上升与高质量数据的需求相结合,Catanzano表示,目前的数据管理状况为数据可观察性供应商提供了机会。
“市场条件,包括数据量的激增和对AI的日益关注,使得数据可观察性变得更加重要,”他说。“现代数据生态系统的复杂性和规模,加上对AI和ML所需可信数据的需求,意味着可观察性工具对于维护数据质量和防止代价高昂的错误或失败至关重要。”
Metaplane的联合创始人兼首席执行官Kevin Hu同样表示,企业对开发生成式AI工具的兴趣可能为数据可观察性供应商提供增长机会。然而,他指出,只有少数前沿技术企业实际上将生成式AI工具投入生产,这为数据可观察性供应商提供了增长潜力。
“当他们有一个生成式AI用例时,那真是太棒了,”Hu说。“从自私的角度来看,这对我们来说是好事,我们是潮水上涨中的一只船。但对大多数数据团队来说,他们仍在提升成熟度曲线。”
虽然当前条件为数据可观察性供应商提供了一定的增长机会,但他们的平台确实满足了企业的真实需求。
因此,Metaplane为Snowflake提供的本地应用程序有望使寻求开始开发AI工具或改善现有开发流程的Snowflake客户受益,Catanzano表示。
与传统集成不同,后者作为数据系统之间的通道并改善它们之间的移动,Metaplane为Snowflake提供的本地应用程序消除了将数据从Snowflake转移到Metaplane的任何需求,这可能会导致高成本和数据暴露风险,以观察其质量。
相反,该应用程序通过Snowflake Marketplace提供,使共同客户能够在数据所在的位置观察其数据。在公开预览期间,该应用程序是免费的。一旦正式发布,用户在30天的免费试用后将需支付应用程序费用。然而,Hu表示,Metaplane尚未确定定价结构。
“为Snowflake添加本地应用程序意义重大,因为它将数据可观察性直接集成到Snowflake环境中,”Catanzano说。“这使得共同客户能够无缝利用Snowflake强大的安全性和治理功能,同时确保数据质量和性能。它为数据团队提供了一种简化的方法来监控和保护他们的数据。”
根据供应商的说法,使用Metaplane的Snowflake本地应用程序的好处包括:
- 从数据摄取到分析的自动可观察性,由机器学习驱动,使数据团队能够专注于其他项目,而不是在数据通过管道移动时进行检查。
- 在数据生命周期中对数据健康状况的可见性,包括在出现问题时接收警报,以确保数据对于AI和机器学习计划以及核心业务运营是可靠的。
- 安全性和合规性,因为Metaplane的工具在Snowflake环境中观察数据,而不是要求导出数据,这对需要满足合规标准的高度监管行业的企业尤其有利。
目前,Metaplane不计划为其他数据平台(如Databricks、AWS、Google Cloud和Microsoft Azure)开发类似的本地应用程序,Hu表示。
由于Snowflake是Metaplane的投资者,两者之间有着密切的关系以及许多共同客户。此外,Snowflake的Snowpark容器服务使用户能够在Snowflake的基础设施中运行容器化应用程序,这也为本地应用程序提供了便利。
“就我所知,其他平台没有等效的功能,”Hu说。“Snowflake正在构建许多数据治理功能,并继续不断扩展。AWS是最早的超大规模云服务提供商,他们支持运行本地应用程序所需的所有功能,但并不是以如此容器化的方式。”
关于开发Snowflake本地应用程序的动机,Hu表示,这一想法最初来自Metaplane。但一旦客户了解到这一可能性,他们表现出热情。
此外,该本地应用程序还可能吸引新客户,他继续说道。
下一步
随着Snowflake应用程序进入公开预览,Metaplane的一个主要关注点将是改善应用程序的性能,以为其正式发布做准备,Hu表示。
除了本地应用程序,供应商的产品开发计划的一个重点是增加与更多数据库和其他数据源的集成,他说。
市场条件,包括数据量的激增和对AI的日益关注,使得数据可观察性变得更加重要。现代数据生态系统的复杂性和规模,加上对AI和ML所需可信数据的需求,意味着可观察性工具对于维护数据质量至关重要。Stephen Catanzano 企业战略集团分析师
第二个重点是将数据质量的延伸超越数据团队,更好地使组织内的其他角色理解数据的质量,以便他们可以信任这些数据来指导决策。
“如果我对我们的类别——数据可观察性——以及我们自己有任何批评,那就是我们谈论数据团队的数据可观察性太多,这很重要,”Hu说。“但如果数据团队信任数据,而业务团队却不信任,那就没有意义。我们必须更好地确保组织内的其他人能够监控对他们重要的内容,并理解数据的状态。”
与此同时,Catanzano建议Metaplane计划增加更多集成是明智的。此外,他表示,供应商还应该开发不仅限于Snowflake的本地应用程序。
“随着Metaplane的持续增长,扩展其集成和功能以覆盖更广泛的数据环境将是有价值的,”Catanzano说。
此外,增加预测分析能力将使客户受益,他继续说道。
“更先进的机器学习算法可以进一步赋能数据团队,主动检测问题,以便在影响业务运营之前进行预测和预防,”Catanzano说。