企业在众多行业中持续看到人工智能的价值。无论是自动化任务、优化业务流程、检测欺诈,还是根据预测做出更明智的决策,企业都在寻找利用人工智能和机器学习技术获利的方法。为了最大限度地发挥人工智能的力量,组织必须使用合适的 EC2 实例。
Amazon SageMaker 的主要功能之一是为机器学习应用的多个阶段提供和管理计算能力。尽管它提供了一些无服务器选项,但许多场景需要使用 SageMaker 服务管理的 EC2 实例。
在选择实例类型时,用户必须充分了解其工作负载,并评估任务的计算和应用需求。对于机器学习或人工智能工作负载,用户需要提供深度学习和计算的最佳性能的实例。加速计算实例系列,包括 p5、g5、trn1 和 inf2 实例,可以为团队提供这种功能。
让我们讨论一下实例类型的重要性、机器学习工作负载的 EC2 实例选项,以及团队如何确定适合其工作负载的最佳实例。
为什么实例类型重要?
SageMaker 中可用的 EC2 实例类型根据执行的任务而有所不同,例如开发、训练和推理。并非所有实例类型都适合任何类型的任务;例如,适用于训练的类型不一定适用于笔记本或处理。此外,还有一些任务可能更计算密集或内存密集,或需要特定的存储或网络吞吐量。
SageMaker 提供了几种通用 EC2 实例系列,以及更优化的实例,如下图所示。这些实例系列包含为各种任务创建的专用实例类型。
一些实例提供了优化的组合——例如,计算和网络(c5n)或内存和存储(r5d)。
处理的数据量也对特定任务的最佳实例类型产生重大影响。如果数据存储在 EC2 实例内部,存储优化实例类型是一个不错的选择。如果需要从外部存储检索大量数据,那么网络优化实例可能是一个不错的选择。加速计算实例类型推荐用于深度学习和大型语言模型(LLMs)。
机器学习的 EC2 实例
SageMaker 提供了加速计算实例,例如 p5、g5、trn1 和 inf2。这些实例适用于多个机器学习任务。让我们更详细地看看以下实例。
P5
P5 实例由 Nvidia H100 GPU 提供动力,为深度学习和计算提供高性能。目前,SageMaker 仅提供 ml.p5.48xlarge,根据组件类型,费用在每小时 113 到 118 美元之间。这个价格使得许多团队难以负担。
这些实例非常适合极具挑战性的工作负载,例如生成性人工智能应用、大型语言模型、图形和视频生成的开发、训练和推理。
G5
G5 实例由 Nvidia A10G Tensor Core GPU 提供动力,也非常适合重训练和推理工作负载。与 P5 实例相比,SageMaker 为 G5 实例提供了更多的尺寸选择,为应用所有者在计算能力和成本管理方面提供了更多灵活性。尺寸包括:
- ml.g5.xlarge.
- ml.g5.2xlarge.
- ml.g5.4xlarge.
- ml.g5.8xlarge.
- ml.g5.12xlarge.
- ml.g5.48xlarge.
Trn1
Trn1 实例使用 AWS Trainium 芯片,专门为深度学习训练任务而构建,同时保持低成本。根据 AWS 的说法,与类似的 EC2 实例相比,它提供高达 50% 的训练成本节省。这使得各种规模的企业更容易获得。此外,对于注重可持续发展的企业,据说它在深度学习训练中比其他加速计算 EC2 实例节能 25%。
目前可用的尺寸有:ml.trn1.2xlarge 和 ml.trn1.32xlarge。
常见用例包括自然语言处理、计算机视觉和搜索,以及推荐和排名。
Inf2
Inf2 实例使用 AWS Inferentia2 芯片,旨在进行深度学习推理任务。与 trn1 实例类似,inf2 实例提供可持续性优势,并在性能上比类似的 Amazon EC2 实例高出 50%。
可用的实例尺寸如下:
- ml.inf2.xlarge.
- ml.inf2.8xlarge.
- ml.inf2.24xlarge.
- ml.inf2.48xlarge.
它们通常用于图像和文本生成与摘要,以及语音识别。
哪个加速实例适合您?
考虑到发布机器学习应用的过程由多个步骤组成,因此在整个生命周期中需要不同类型的计算能力。能力取决于正在执行的任务。与部署机器学习模型相关的任务示例包括:
- 开发。
- 预处理和后处理。
- 评估。
- 训练。
- 数据准备。
- 推理。
在大多数情况下,每种任务类型都有其自身的计算和应用需求与挑战。根据正在执行的特定任务选择合适的 EC2 实例非常重要。
检查性能需求和要求
在选择特定的实例类型和尺寸之前,确定每个任务的性能需求至关重要。在许多情况下,优化实例的成本可能比具有相似容量的通用实例高出 30% 至 75%。某些商业目标可能会证明额外成本是合理的,例如最大延迟或需要处理、训练或推理的数据量。
在某些情况下,通用实例类型可能能够满足应用需求。但在某些情况下,更高的性能可能会导致更低的成本。对每个任务执行多次测试以确定性能需求。每次测试必须使用预期的数据和事务量进行。使用多种实例类型计算成本,并测量影响用户体验和应用性能的相关指标。
查看指标
CloudWatch 提供了在调用、延迟、错误、CPU 和内存利用率等领域的相关指标。鉴于机器学习任务的成本可能迅速达到数千美元,专注于特定需求的最佳基础设施成本至关重要。CloudWatch 指标是评估特定实例类型是否适合特定工作负载目标的重要工具。
节省成本
Amazon SageMaker 节省计划可以通过承诺用户在一或三年内的每小时支出来降低成本。根据实例类型和承诺期限,节省幅度可达约 20% 甚至 64%。需要注意的是,并非所有类型的实例都支持特定组件类型,例如处理、推理、训练和笔记本。例如,SageMaker 不支持预留实例。
Ernesto Marquez 是 Concurrency Labs 的所有者和项目主管,他帮助初创企业在 AWS 上启动和发展其应用程序。他喜欢构建无服务器架构、构建数据分析解决方案、实施自动化,并帮助客户降低 AWS 成本。