AWS在周二推出了重新构想的SageMaker,将原本用于训练和部署机器学习模型的服务转变为一个统一的数据管理、分析和人工智能开发平台。
新版本的SageMaker包括统一工作室,以连接之前分散的AWS数据管理、分析和人工智能开发能力。此外,它还具有数据目录,以提供治理能力;数据湖屋,以统一之前存储在湖泊、仓库和数据库中的数据;以及简化访问第三方应用程序中数据的集成。
新版本的SageMaker在AWS re:Invent 2024大会上揭幕,该大会由这家科技巨头在拉斯维加斯举办。更新后的SageMaker已全面上线,除了统一工作室,该功能目前处于预览阶段,计划于2025年正式推出。
根据ISG的Ventana Research分析师David Menninger的说法,AWS正在与谷歌云和微软等科技巨头展开激烈竞争,旨在为客户提供统一的数据和人工智能平台。
他提到,AWS在最近的ISG买家指南中稍微领先于谷歌云和微软。一旦全面上线,统一工作室与其他新功能的结合,应该能帮助AWS提升其市场地位。
“所有云服务和数据平台提供商都在努力提供一个统一的数据和人工智能平台,”Menninger说。“他们都在为自己的平台添加功能,竞争市场将持续存在。但一旦这些新公告全面上线,将改善AWS的评级。”
SageMaker首次推出于2017年11月,最初是一个完全托管的机器学习模型开发和部署服务。自那时以来,AWS不断对其进行现代化改进,包括在2020年推出SageMaker JumpStart,以简化对预构建模型的访问,在2021年推出模型构建的新功能,以及在2022年推出治理和地理空间数据工具。
如今,SageMaker不仅仅是一个机器学习的托管服务,而是扩展为一个统一的数据管理、人工智能开发和分析环境。
全新SageMaker
企业将生成性人工智能视为提升员工智慧和效率的一种手段。
因此,自OpenAI推出ChatGPT显著改善生成性人工智能技术以来,企业在开发人工智能驱动应用程序方面的投资激增,这些应用程序有些可以与数据进行自然语言交互,有些则自动化重复的流程。
这一发展的关键是专有数据,没有这些数据,生成性人工智能模型和应用程序无法理解特定组织的独特特征。
因此,针对对人工智能开发投资激增的响应,许多数据管理和分析供应商创建了旨在使企业能够开发将专有数据与生成性人工智能技术结合的应用程序的环境。
虽然并非仅仅旨在促进人工智能开发——AWS还提供Bedrock,这是一个更专门用于开发生成性人工智能驱动应用程序的机器学习和人工智能平台——重新构想的SageMaker汇集了开发人工智能工具所需的要素。
统一工作室在SageMaker原有的机器学习开发能力的基础上,将其与之前分散的数据管理和应用开发服务结合在一个集成环境中。其中包括来自AWS Glue的数据集成功能、EMR的数据处理、Redshift和S3的数据存储,以及Bedrock的生成性人工智能开发。
此外,该套件还包括Amazon Q开发者,这是一个基于生成性人工智能的助手,使开发者能够使用自然语言寻求有关数据发现和编码等主题的建议,以便为特定用途构建应用程序。
鉴于企业使用众多平台来摄取、集成、准备和分析数据——包括开发数据和人工智能产品——Menninger指出,AWS等供应商采取的任何措施来使其工具之间更具互操作性都是重要的。
因此,统一工作室的加入对AWS客户来说具有重要意义。
“统一数据和分析流程,包括人工智能,今天是一个真正的挑战,”Menninger说。“即使在与单一供应商合作时,也有太多工具和技术需要集成。软件提供商可以做的任何事情来将所有这些组件结合起来,都是受欢迎的改进。”
BARC美国的分析师Kevin Petrie同样表示,供应商应该通过使工具更易于协同使用来减少复杂性,甚至可能减少所需的不同工具数量,以实现数据驱动的洞察。
商业智能、机器学习和人工智能正在融合和重叠,因此AWS试图使其数据管理和人工智能开发更易于协同使用是重要的。
“你越能交叉使用模型类型和数据类型,就越能丰富你的分析输出和业务工作流程,”Petrie说。“因此,减少公司用于管理复杂数据和多维分析的工具和平台数量至关重要。AWS在这方面迈出了良好的一步。”
除了统一工作室,新版SageMaker还包括SageMaker目录和SageMaker湖屋。
数据目录是数据的连接纽带,否则数据可能会在企业跨部门使用的许多系统中孤立,某些组织甚至在不同的物理位置。它们可以作为数据集和数据产品(如报告和仪表盘)的索引,以便发现和重用,从而为决策提供支持。它们还可以作为元数据管理工具和语义建模层,确保组织所有领域的数据一致。
或许最重要的是,它们可以作为治理框架,使管理员能够确保组织数据的安全和保密。
AWS的新SageMaker目录建立在Amazon DataZone数据目录服务之上,使管理员能够定义和实施治理政策,确保其组织的数据和人工智能资产的正确使用。例如,可以在数据产品、人工智能产品、数据集和数据源中设置和强制执行定制权限,以确保数据保持安全和合规。
尽管有益,但SageMaker目录有一个显著的缺点——与谷歌云和微软的数据目录一样——根据Petrie的说法。
许多企业使用多个云进行数据存储。此外,他们不一定将所有数据都存储在云中,还使用本地数据库以及云数据仓库、湖泊和湖屋。
“挑战在于,AWS与谷歌和Azure一样,未能充分集成或支持现代企业普遍存在的混合、异构和多云环境,”Petrie说。“在这方面,目录功能是有限的。”
所有云服务和数据平台提供商都在努力提供一个统一的平台用于数据和人工智能。他们都在为自己的平台添加功能,竞争市场将持续存在,但一旦这些新公告全面上线,将改善AWS的评级。 David Menninger ISG Ventana Research的分析师
虽然数据目录使企业更容易管理其数据和人工智能资产,但湖屋则使它们更容易整合数据,为分析和人工智能开发做好准备。
湖屋结合了数据仓库的结构化数据存储能力和数据湖的非结构化数据存储能力,使组织能够整合和操作所有数据,而不仅仅是其中的一部分。
企业传统上仅基于结构化数据进行分析,如财务记录和销售点交易。然而,现在,非结构化数据(如文本、图像和音频文件)占所有数据的80%以上。因此,访问非结构化数据并将其与结构化数据结合起来,对于组织全面了解其运营至关重要。
与此同时,为了简化大数据集的数据处理,数据湖和湖屋使用表存储格式,如Delta Lake、Apache Hudi和Apache Iceberg。
AWS的SageMaker湖屋统一了存储在S3数据湖和Redshift数据仓库中的数据,以减少数据孤岛,并与Apache Iceberg兼容,后者是最流行的表存储格式。使用SageMaker湖屋,AWS客户可以从统一工作室访问其数据,以训练和开发人工智能模型和应用程序,以及为报告和仪表盘等数据产品提供信息。
根据Menninger的说法,与Apache Iceberg的兼容性或许是SageMaker湖屋最重要的特性。Apache Iceberg使SageMaker湖屋能够与其他供应商的Iceberg兼容工具进行交互,从而减少数据移动或复制的需要。
“市场上对Apache Iceberg的支持正在迅速增长,原因显而易见,”Menninger说。“更少的数据移动意味着更少的成本和努力。更少的数据冗余意味着更好的数据控制和治理。这也让企业更接近单一版本的真相。”
除了更新的SageMaker,AWS还推出了新集成,消除了将数据从SaaS应用程序摄取到AWS数据库、数据仓库、数据湖和现在的数据湖屋时的传统提取、转换和加载(ETL)工作负载。
通过零ETL集成,客户可以从SAP和Zendesk等应用程序捕获数据,并将其移动到Redshift、SageMaker湖屋和一系列AWS数据库,如Amazon Aurora和Amazon RDS。
这些集成旨在减少与数据摄取相关的成本和劳动,包括开发和管理数据管道。
展望未来
尽管AWS对SageMaker的重新构想统一了之前分散的系统和流程,但Petrie表示,它并未统一所有的数据管理、分析和人工智能开发流程。
因此,仍有改进的空间。
成功的分析和人工智能项目涵盖了数据、模型及其基础数据和模型的应用程序的生命周期,Petrie表示。
“这一公告解决了数据和模型的生命周期,”他说。“我将很感兴趣地看到AWS如何帮助客户优化应用程序生命周期,并将其与数据和模型的生命周期整合起来。”
与此同时,Menninger指出,尽管与SaaS应用程序的零ETL集成令人感兴趣,但只有在与特定组织的合适应用程序之间才有价值。
AWS提到了SAP和Zendesk,但没有提供更多细节。为了让零ETL集成产生显著效果,必须与主要的企业资源规划、客户关系管理和医疗管理应用程序建立更多的连接。
“能够将这些能力应用于企业今天使用的主要ERP、CRM、HCM和其他业务应用程序,将极为有帮助,”Menninger说。
Eric Avidon是TechTarget编辑部的高级新闻撰稿人,拥有超过25年的新闻经验。他专注于分析和数据管理。