AMD-135 是该公司的第一个小型语言模型，旨在通过推测解码实现技术进步

AMD 已经推出其首个小型语言模型 AMD-135M，该模型利用了推测解码来增强 AI 能力，从而推动技术进步。

AMD 决定加入 AI 模型阵营，揭示更高效的 Token 生成小型语言模型

[新闻稿]: 在不断发展的人工智能领域，像 GPT-4 和 Llama 这样的巨大语言模型（LLMs）因其在自然语言处理和生成方面的出色能力而备受关注。

然而，小型语言模型（SLMs）作为 AI 模型社区的重要补充，正在崭露头角，为特定用例提供独特的优势。AMD 很高兴推出其首个小型语言模型 AMD-135M，采用推测解码技术。这项工作展示了对开放 AI 方法的承诺，旨在推动更具包容性、伦理性和创新性的技术进步，确保其好处能够更广泛地分享，并更协作地应对挑战。

AMD-135M：首个 AMD 小型语言模型

AMD-135M 是 Llama 家族的首个小型语言模型，完全从头开始在 AMD Instinct™ MI250 加速器上训练，使用了 6700 亿个 Token，并分为两个模型：AMD-Llama-135M 和 AMD-Llama-135M-code。

预训练: AMD-Llama-135M 模型使用 6700 亿个通用数据 Token 在四个 MI250 节点上训练，持续六天。
代码微调: AMD-Llama-135M-code 变体通过额外的 200 亿个代码数据 Token 进行了微调，使用相同硬件花费四天完成。

该模型的训练代码、数据集和权重均已开源，开发者可以复现该模型并帮助训练其他 SLM 和 LLM。

利用推测解码进行优化

大型语言模型通常使用自回归方法进行推理。然而，这种方法的一个主要限制是每次前向传递只能生成一个 Token，导致内存访问效率低下，并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用一个小型草稿模型生成一组候选 Token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 Token，而不影响性能，从而显著减少内存访问消耗，并实现几个数量级的速度提升。

推理性能加速

我们使用 AMD-Llama-135M-code 作为 CodeLlama-7b 的草稿模型，测试了在 MI250 加速器和 Ryzen™ AI 处理器（带 NPU）上的推理性能，比较了使用和不使用推测解码的情况。在我们测试的特定配置中，使用 AMD-Llama-135M-code 作为草稿模型时，Instinct MI250 加速器、Ryzen AI CPU 和 Ryzen AI NPU 的推理速度均有所提升，较之于没有使用推测解码的推理。[3] AMD-135M SLM 建立了一个端到端的工作流程，涵盖了在特定 AMD 平台上的训练和推理。

# 电脑资讯