AMD 已经推出其首个小型语言模型 AMD-135M,该模型利用了推测解码来增强 AI 能力,从而推动技术进步。
AMD 决定加入 AI 模型阵营,揭示更高效的 Token 生成小型语言模型
[新闻稿]: 在不断发展的人工智能领域,像 GPT-4 和 Llama 这样的巨大语言模型(LLMs)因其在自然语言处理和生成方面的出色能力而备受关注。
然而,小型语言模型(SLMs)作为 AI 模型社区的重要补充,正在崭露头角,为特定用例提供独特的优势。AMD 很高兴推出其首个小型语言模型 AMD-135M,采用推测解码技术。这项工作展示了对开放 AI 方法的承诺,旨在推动更具包容性、伦理性和创新性的技术进步,确保其好处能够更广泛地分享,并更协作地应对挑战。
AMD-135M:首个 AMD 小型语言模型
AMD-135M 是 Llama 家族的首个小型语言模型,完全从头开始在 AMD Instinct™ MI250 加速器上训练,使用了 6700 亿个 Token,并分为两个模型:AMD-Llama-135M 和 AMD-Llama-135M-code。
- 预训练: AMD-Llama-135M 模型使用 6700 亿个通用数据 Token 在四个 MI250 节点上训练,持续六天。
- 代码微调: AMD-Llama-135M-code 变体通过额外的 200 亿个代码数据 Token 进行了微调,使用相同硬件花费四天完成。
该模型的训练代码、数据集和权重均已开源,开发者可以复现该模型并帮助训练其他 SLM 和 LLM。
利用推测解码进行优化
大型语言模型通常使用自回归方法进行推理。然而,这种方法的一个主要限制是每次前向传递只能生成一个 Token,导致内存访问效率低下,并影响整体推理速度。
推测解码的出现解决了这个问题。其基本原理是使用一个小型草稿模型生成一组候选 Token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 Token,而不影响性能,从而显著减少内存访问消耗,并实现几个数量级的速度提升。
推理性能加速
我们使用 AMD-Llama-135M-code 作为 CodeLlama-7b 的草稿模型,测试了在 MI250 加速器和 Ryzen™ AI 处理器(带 NPU)上的推理性能,比较了使用和不使用推测解码的情况。在我们测试的特定配置中,使用 AMD-Llama-135M-code 作为草稿模型时,Instinct MI250 加速器、Ryzen AI CPU 和 Ryzen AI NPU 的推理速度均有所提升,较之于没有使用推测解码的推理。[3] AMD-135M SLM 建立了一个端到端的工作流程,涵盖了在特定 AMD 平台上的训练和推理。