英伟达展示了其GeForce RTX 40系列显卡(包括旗舰产品RTX 4090)在Llama和Mistral等AI模型中的出色表现。
在新的Llama和Mistral AI基准测试中,英伟达的GeForce RTX 40系列显卡击败了笔记本电脑CPU和NPU,通过TensorRT-LLM进一步加速
英伟达为Windows推出的TensorRT-LLM加速功能为Windows PC平台带来了一些惊人的性能提升。我们看到英伟达RTX“AI PC”功能集中增加了一些令人印象深刻的新功能和特性,而且随着该公司展示其旗舰产品GeForce RTX 4090 GPU的一些巨大性能指标,情况变得更好。
在最新一期的AI-Decoded博客中,英伟达分享了其现有GPU系列如何超越整个NPU生态系统,后者在2024年只能达到50 TOPS。与此同时,英伟达的RTX AI GPU具有数百TOPS的性能,使用GeForce RTX 4090甚至可以达到1321 TOPS,使其成为运行LLM等最快的桌面AI解决方案。它也是地球上最快的游戏显卡。
英伟达的GeForce RTX GPU提供高达24 GB的VRAM,而NVIDIA RTX GPU提供高达48 GB的VRAM,这使得它们在处理大型语言模型(LLM)方面表现出色,因为这些工作负载需要大量的显存。英伟达的RTX硬件不仅配备了专用显存,还通过Tensor Cores(硬件)和前面提到的TensorRT-LLM(软件)提供针对AI的特定加速。
在英伟达的GeForce RTX 4090 GPU上,所有批次大小中生成的令牌数量非常快,但启用TensorRT-LLM加速后,速度显著提高,提高了4倍以上。
英伟达现在正在使用一些新的基准测试,这些测试使用了开源的Jan.ai平台,该平台最近也将TensorRT-LLM集成到了其本地聊天机器人应用中。这个聊天机器人利用易于使用的解决方案,如Llama或Mistral等AI模型。软件提供商现在提供了一些在英伟达的GeForce RTX 40 GPU与带有专用AI NPU的笔记本电脑CPU上运行的基准测试。
在没有TensorRT-LLM的情况下,英伟达GeForce RTX 4090 GPU比AMD锐龙9 8945HS CPU快8.7倍,而使用加速后,这一领先优势扩大到15倍(比非TensorRT-LLM配置提高了70%)。
与AMD CPU上的11.57个令牌/秒相比,您可以在一秒钟内处理多达170.63个令牌。即使使用英伟达GeForce RTX 4070笔记本电脑GPU,您也可以获得高达4.45倍的加速。更有趣的是,该公司还分享了使用eGPU配置的RTX 4090的数据,以展示如何使用外部GPU进一步加速笔记本电脑在AI工作负载上的性能。与同一款AMD笔记本电脑CPU相比,此配置的性能提升了9.07倍。
英伟达最近展示了当前AI计算能力的格局,并展示了其GeForce RTX 40台式机CPU如何从入门级的242 TOPS扩展到高端的1321 TOPS。与今年我们将在SOC上看到的最新45-50 TOPS AI NPU相比,最低端增加了4.84倍,而最高端增加了26.42倍。
即使是笔记本电脑的英伟达GeForce RTX 40选项,如RTX 4050,也从194 TOPS开始,这是即将推出的最快NPU的3.88倍,而RTX 4090笔记本电脑芯片则以其686 TOPS提供了13.72倍的速度提升。
英伟达一次又一次地展示了它在AI领域与竞争对手相比的领先地位,这些基准测试再次证明,如果你需要使用AI,那么英伟达有适合你的硬件。