You dont have javascript enabled! Please enable it!
百度/360权5,日IP1w+ 查看详情
立即入驻

AMD-135 是该公司的第一个小型语言模型,旨在通过推测解码实现技术进步

AMD 已经推出其首个小型语言模型 AMD-135M,该模型利用了推测解码来增强 AI 能力,从而推动技术进步。

AMD 决定加入 AI 模型阵营,揭示更高效的 Token 生成小型语言模型

[新闻稿]: 在不断发展的领域,像 GPT-4 和 Llama 这样的巨大语言模型(LLMs)因其在自然语言处理和生成方面的出色能力而备受关注。

然而,小型语言模型(SLMs)作为 AI 模型社区的重要补充,正在崭露头角,为特定用例提供独特的优势。AMD 很高兴推出其首个小型语言模型 AMD-135M,采用推测解码技术。这项工作展示了对开放 AI 方法的承诺,旨在推动更具包容性、伦理性和创新性的技术进步,确保其好处能够更广泛地分享,并更协作地应对挑战。

AMD-135M:首个 AMD 小型语言模型

AMD-135M 是 Llama 家族的首个小型语言模型,完全从头开始在 AMD Instinct™ MI250 加速器上训练,使用了 6700 亿个 Token,并分为两个模型:AMD-Llama-135M 和 AMD-Llama-135M-code。

  • 预训练: AMD-Llama-135M 模型使用 6700 亿个通用数据 Token 在四个 MI250 节点上训练,持续六天。
  • 代码微调: AMD-Llama-135M-code 变体通过额外的 200 亿个代码数据 Token 进行了微调,使用相同硬件花费四天完成。

该模型的训练代码、数据集和权重均已开源,开发者可以复现该模型并帮助训练其他 SLM 和 LLM。

利用推测解码进行优化

大型语言模型通常使用自回归方法进行推理。然而,这种方法的一个主要限制是每次前向传递只能生成一个 Token,导致内存访问效率低下,并影响整体推理速度。

AMD-135 是该公司的第一个小型语言模型,旨在通过推测解码实现技术进步

推测解码的出现解决了这个问题。其基本原理是使用一个小型草稿模型生成一组候选 Token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 Token,而不影响性能,从而显著减少内存访问消耗,并实现几个数量级的速度提升。

推理性能加速

我们使用 AMD-Llama-135M-code 作为 CodeLlama-7b 的草稿模型,测试了在 MI250 加速器和 Ryzen™ AI 处理器(带 NPU)上的推理性能,比较了使用和不使用推测解码的情况。在我们测试的特定配置中,使用 AMD-Llama-135M-code 作为草稿模型时,Instinct MI250 加速器、Ryzen AI CPU 和 Ryzen AI NPU 的推理速度均有所提升,较之于没有使用推测解码的推理。[3] AMD-135M SLM 建立了一个端到端的工作流程,涵盖了在特定 AMD 平台上的训练和推理。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...