AMD Instinct MI325X 是首款配备 256 GB HBM3e 内存、明年配备 288 GB MI355X“CDNA 4”的 AI GPU,性能提升 8 倍
AMD推出了最新的Instinct MI325X AI GPU加速器,配备了256 GB HBM3e内存,而明年的MI355X将配备288 GB。
AMD全力以赴推出HBM3e内存:今年MI325X“CDNA 3”配备256 GB,明年MI355X“CDNA 4”配备288 GB
在今天的“推进AI”事件中,AMD推出了全新的Instinct MI325X AI GPU加速器,增强了MI300X的全新功能。
但在详细介绍之前,我们必须谈谈AMD的Instinct平台整体,该平台获得了全球顶级AI公司的支持,并被一些大品牌如Meta、OpenAI和微软所使用。
AMD对性能领先、易于迁移、开放生态系统和以客户为中心的产品组合的承诺,赢得了主要OEM和云合作伙伴的巨大支持,因此,随着行业对AI的需求达到前所未有的高度,公司迅速推进了下一代解决方案的发布。
AMD MI325X 配备256 GB内存和CDNA 3架构
目前,AMD的MI300X在一系列特定于AI的工作负载中,性能比NVIDIA H100高出30%。AMD对其ROCm套件的改进正在帮助从旗舰加速器中提取更多性能,但现在是时候在同样强大的软件支持下,构建更好的硬件了。
介绍一下AMD Instinct MI325X,这款全新的加速器基于与MI300X相同的基本设计和架构。使用CDNA 3 GPU架构,MI325X可以被视为一次中期升级,提供256 GB的HBM3e内存,采用16-Hi堆叠,内存带宽高达6 TB/s,FP8性能为2.6 PFLOPs,FP16性能为1.3 PFLOPs,所有这些都集成在一个拥有1530亿个晶体管的芯片中。
AMD预计Instinct MI325X AI GPU的首次生产将于2024年第四季度开始,相关服务器解决方案将于2025年第一季度通过主要合作伙伴提供。这些AI Instinct服务器将配备多达8个MI325X配置,内存高达2 TB HBM3e,Infinity Fabric带宽为896 GB/s,内存带宽为48 TB/s,FP8性能为20.8 PFLOPs,FP16性能为10.4 PFLOPs。每个GPU的功耗配置为1000W,较MI300X的750-700W配置有了显著提升。
深入分析数据,AMD声称Instinct MI325X AI GPU加速器在Mixtral 8x7B中比NVIDIA H200快40%,在Mistral 7B中快30%,在Meta Llama 3.1 70B LLMs中快20%。一个8x MI325X平台在Llama 3.1 405B中也将比H200 HGX AI平台快40%,在70B推理测试中快20%。在AI训练方面,MI325X的性能与H200平台相当,或提高10%。
AMD MI355X 配备288 GB内存和CDNA 4架构
明年,AMD计划推出全新的Instinct MI355X GPU加速器,专注于AI工作负载,该加速器将采用3nm工艺节点。GPU将采用CDNA 4架构。在规格方面,内存将升级到更高的容量,最高可达288 GB HBM3e,并支持FP4/FP6数据类型。
AMD表示,CDNA 4架构相较于CDNA 3实现了35倍的性能飞跃,AI计算能力提高了7倍,内存容量/带宽提高了50%,并且还引入了最新的网络效率改进。
在性能方面,AMD Instinct MI355X AI GPU将提供高达2.3 PFLOPs的FP16性能,比MI325X提高80%;FP8性能也提高80%,达到4.6 PFLOPs。新的FP6和FP4计算性能为9.2 PFLOPs。
MI355X将实现内存容量和带宽的50%提升,速度高达8 TB/s,超越当前的MI300X。首批搭载八个MI355X GPU的平台将在2025年下半年推出,提供高达2.3 TB的HBM3E内存,带宽为64 TB/s,FP16性能为18.5 PFLOPs,FP8性能为37 PFLOPs,以及FP6/FP4计算性能为74 PFLOPs。
ROCm 6.2继续提升Instinct的AI性能
回到软件方面,AMD宣布最新的ROCm 6.2生态系统,在推理和训练性能方面,平均性能提升为2.4倍,某些AI工作负载可达到2.8倍。
最后,AMD仍在确认其Instinct MI400将在2026年发布,作为“CDNA Next”产品,而不使用最近披露的UDNA架构名称。也许现在使用UDNA命名为时尚早,因为AMD尚未正式确认这一点,尽管他们的一位高级代表已经确认了。
总的来说,AMD似乎在未来的Instinct产品中全力以赴投入AI热潮,与NVIDIA展开激烈竞争,同时也在迎头赶上Intel。
AMD Instinct AI加速器:
加速器名称AMD Instinct MI400AMD Instinct MI350XAMD Instinct MI325XAMD Instinct MI300XAMD Instinct MI250X
GPU架构 | CDNA Next | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
GPU工艺节点 | TBD | 3nm | 5nm+6nm | 5nm+6nm | 6nm |
GPU芯片 | TBD | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM) 1 (Per Die) |
GPU核心 | TBD | TBD | 19,456 | 19,456 | 14,080 |
GPU时钟速度 | TBD | TBD | 2100 MHz | 2100 MHz | 1700 MHz |
INT8计算 | TBD | TBD | 2614 TOPS | 2614 TOPS | 383 TOPs |
FP6/FP4计算 | TBD | 9.2 PFLOPs | N/A | N/A | N/A |
FP8计算 | TBD | 4.6 PFLOPs | 2.6 PFLOPs | 2.6 PFLOPs | N/A |
FP16计算 | TBD | 2.3 PFLOPs | 1.3 PFLOPs | 1.3 PFLOPs | 383 TFLOPs |
FP32计算 | TBD | TBD | 163.4 TFLOPs | 163.4 TFLOPs | 95.7 TFLOPs |
FP64计算 | TBD | TBD | 81.7 TFLOPs | 81.7 TFLOPs | 47.9 TFLOPs |
显存 | TBD | 288 HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
Infinity Cache | TBD | TBD | 256 MB | 256 MB | N/A |
内存时钟 | TBD | 8.0 Gbps? | 5.9 Gbps | 5.2 Gbps | 3.2 Gbps |
内存总线 | TBD | 8192-bit | 8192-bit | 8192-bit | 8192-bit |
内存带宽 | TBD | 8 TB/s | 6.0 TB/s | 5.3 TB/s | 3.2 TB/s |
外形因素 | TBD | OAM | OAM | OAM | OAM |
冷却 | TBD | 被动冷却 | 被动冷却 | 被动冷却 | 被动冷却 |
TDP(最大) | TBD | TBD | 1000W | 750W | 560W |
本文提到的产品
AMD Instinct MI300X
USD 25,999