You dont have javascript enabled! Please enable it!

杰玛是什么?谷歌开源人工智能模型解释

AI技术1周前更新 gy.J
4 0 0

Gemma 是一系列轻量级开源生成式(GenAI)模型,主要面向开发者和研究人员。Gemma 由 Google DeepMind 研究实验室创建,该实验室还开发了闭源的 Gemini,即 Google 的生成式 AI 聊天机器人。Google 提供多种大小的 Gemma 模型,并支持与流行的开发者工具和 Google Cloud 服务的兼容使用。

“Gemma”这个名字源于拉丁语,意为“宝石”。Google 于 2024 年 2 月 21 日发布了 Gemma,推出了两个模型:Gemma 2B 和 Gemma 7B。这些模型是文本到文本的解码器大型语言模型(LLMs),包括预训练和指令调优的变体。Gemma 2B 拥有 20 亿个参数的神经网络,而 Gemma 7B 拥有 70 亿个参数。Gemma 的规模和能力不及一些流行的 AI 模型,如 的 ChatGPT-4 和 Google 的 Gemini Ultra 和 Pro 聊天机器人——这些模型的参数达到数万亿。然而,Gemma 的紧凑轻量级模型可以在或台式电脑上运行,因为它们具有更快的推理速度和更低的计算需求。

Gemma 还可以在移动设备和公共云上运行。Nvidia 与 Google 合作,优化 Gemma 以在其图形处理单元(GPU)上运行。由于广泛支持的平台和硬件,Gemma 可以在 GPU、中央处理单元或 Google Cloud 的张量处理单元(TPU)上运行。

Google 允许 Gemma 的商业使用和分发,并计划扩展 Gemma 系列。

Gemma 与其他 AI 模型有何不同?

Gemma 与流行的 AI 聊天机器人(包括 Google 的 Gemini)有几个显著的区别。Gemma 的开放性和轻量化使其脱颖而出。Gemini 和 ChatGPT 是闭源模型,且都不够轻便,无法在笔记本电脑上运行。由于 ChatGPT 和 Gemini 是闭源的,开发者无法像使用开源 Gemma 一样自定义其代码。

本文为

什么是 Gen AI?生成式 AI 解释

  • 还包括:
  • 2024 年 8 大生成式 AI 工具类别
  • AI 会取代工作吗?可能受影响的 17 种工作类型
  • 2024 年 19 款最佳大型语言模型

Gemma 不是 Google 的第一个开源 AI 模型,但与较旧的 Bert 和 T5 模型相比,它在训练和性能上更为先进。ChatGPT 的开发者 OpenAI 迄今尚未发布任何开源模型。

Google 还提供了预训练和指令调优的 Gemma 模型,以便在笔记本电脑和工作站上运行。与 Gemma 类似,Meta 的 Llama 2 是一个可以在笔记本电脑上运行的开源 AI 模型。Llama 2 更像是一个商业工具,但也通过 Hugging Face 和其他平台向开发者提供。Gemma 通常被认为在科学任务上表现更佳,而 Llama 2 更适合通用任务。

其他开源 AI 模型包括 Bionic GPT、GPT-Neo、Mistral AI、Hugging Face Falcon 180B、Bloom、Databricks Dolly 和 Cerebras-GPT。这些模型中有些比 Gemma 大得多,而其他模型则主要为特定用例或垂直市场开发。

Gemma 与 Gemini 之间的另一个区别是它用来将输入序列转换为输出序列的变换器类型。模型可以使用解码器变换器、编码器变换器或两者的混合。

解码器生成以新文本形式的输出,例如对用户查询的回答。这与编码器模型不同,后者处理输入并理解其上下文。解码器模型用于生成式 AI,而编码器模型处理诸如文本分类、问题回答和情感分析等任务。

Gemma 和 ChatGPT 使用解码器变换器。由于它们仅为解码器,Gemma 和 ChatGPT 适用于文本到文本的 LLM,但不适用于图像和视频。Google Gemini 则同时使用解码器和编码器架构。这种架构促进了 Gemini 的多模态能力,使其能够支持语音和图像,以及文本在用户提示和响应中的使用。

Gemma 用于什么?

开发者可以使用 Gemma 构建自己的 AI 应用程序,例如聊天机器人、文本摘要工具和其他检索增强生成应用。由于其轻量化,Gemma 非常适合需要低延迟的实时 GenAI 应用,例如流式文本。

Gemma 可通过流行的开发者工具使用,包括 Colab 和 Kaggle 笔记本,以及 Hugging Face Transformers、JAX、Keras 3.0 和 PyTorch 等框架。

Gemma 模型可以部署在 Google Cloud 的 Vertex AI 平台和 Google Kubernetes Engine(GKE)上。Google Vertex AI 让应用构建者能够针对特定用例优化 Gemma,例如文本生成、摘要和问答。在 GKE 上运行 Gemma 使开发者能够在可移植容器中构建自己的微调模型。

Gemma 被优化为可在流行的 AI 硬件上运行,包括 Nvidia GPU 和 Google Cloud TPU。Nvidia 与 Google 合作,通过 Nvidia TensorRT-LLM 开源库支持 Gemma,以优化 LLM 推理,并在数据中心、云端和本地工作站及 PC 上运行 Nvidia GPU。

Gemma 已在大规模数据集上进行了预训练。这节省了开发者从头构建数据集的时间和成本,并为他们提供了一个可以自定义的基础,以构建其应用程序。预训练模型可以帮助在自然语言处理()、语音 AI、计算机视觉、医疗保健、网络安全和创意艺术等领域构建 AI 应用。

Google 表示,Gemma 在多样化的英文网页文本文档上进行了训练,以使其接触到多种语言风格、主题和词汇。Google 还在编程语言代码和数学文本上训练 Gemma,以帮助其生成代码并回答与代码和数学相关的问题。

谁可以使用 Gemma?

虽然任何人都可以使用 Gemma,但它主要是为开发者设计的。由于其开源、轻量化,并通过开发者平台和硬件设备广泛提供,Gemma 被称为“使 AI 民主化”。

然而,将开源 AI 模型用于商业用途存在风险。恶意行为者可以利用 AI 开发侵犯隐私或传播虚假信息或有害内容的应用程序。

Google 已采取措施应对这些风险。它为 Gemma 发布了负责任的生成式 AI 工具包,提供有关负责任使用开源 AI 的最佳实践。该工具包提供有关设置安全政策的指导,包括微调、分类和评估模型,以及一个学习可解释性工具,帮助开发者理解自然语言处理(NLP)模型的行为。它还包括构建强大安全分类器的方法。

在推出 Gemma 时,Google 表示其构建目的是“帮助开发者和研究人员负责任地构建 AI”。Gemma 的使用条款禁止冒犯性、非法或不道德的应用。

Google 还声称,Gemma 由 DeepMind 进行预训练,以省略有害、非法和偏见内容,以及个人和敏感信息。它还发布了模型文档,详细说明了其能力、局限性和偏见。

开发者和研究人员可以在 Kaggle 和 Colab 中免费访问 Gemma,Colab 是一种服务型的 Jupyter Notebook 版本。首次使用 Google Cloud 的用户在使用 Gemma 时可获得 300 美元的信用额度,研究人员可以申请高达 500,000 美元的 Google Cloud 信用额度,用于其 Gemma 项目。

Gemma 的最新更新

2024 年 4 月,Google 发布了 Gemma 1.1,介绍了性能改进和错误修复,并宣布为 Gemma 产品系列新增了两个预训练变体:一个用于编码,另一个用于推理和研究目的。

CodeGemma 和 RecurrentGemma

CodeGemma 提供代码完成和生成任务,以及遵循指令的能力。Google 指出了使用此模型的几个优势,包括:

  • 能够在本地或使用云资源生成代码,甚至是大段代码。
  • 与“在 5000 亿个主要为英语数据的标记上训练”相关的增强准确性。
  • 其多语言能力,CodeGemma 理解并能够处理多种编程语言,包括 Python、JavaScript、Java、Kotlin 和 C++ 等。

这个开源轻量级模型有三种大小可供选择:用于代码完成和代码生成任务的 7B 预训练变体;用于代码聊天和遵循指令的 7B 调优变体;以及适合计算机的快速代码完成的 2B 预训练变体。

RecurrentGemma 使用递归神经网络和局部注意力来优化内存使用。Google 表示,虽然该模型的性能与 Gemma 2B 模型相似,但其“独特架构”的内存需求低于其他模型。这意味着它可以在内存有限的设备上生成更长的样本,例如单个 GPU 或 CPU。

Google 还强调了该模型处理更高批量大小的能力,从而实现更快的生成,并称其非变换器架构是研究的突破。

CodeGemma 和 RecurrentGemma 都是基于 JAX 构建的,并与 JAX、PyTorch、Hugging Face Transformers 和 Gemma.cpp 兼容。

CodeGemma 还与 Keras、Nvidia NeMo、TensorRT-LLM、Optimum-Nvidia、MediaPipe 兼容,并可在 Vertex AI 上使用。RecurrentGemma 将很快添加对这些产品的支持。

PaliGemma 和 Gemma 2

2024 年 5 月,Google 发布了 PaliGemma,这是一种基于开源组件(如 SigLIP 视觉模型和 Gemma 语言模型)的轻量级视觉语言模型(VLM)。它受到了 Pali-3 的启发,最适合用于为图像和短视频添加字幕、视觉问答、理解图像文本、检测对象和对象分割。

PaliGemma 在 GitHub、Hugging Face 模型、Kaggle、Vertex AI 模型园和 Ai.nvidia.com 上可用,并通过 TensorRT-LLM 加速。集成可通过 JAX 和 Hugging Face Transformers 实现。

根据 Google 的说法,下一代 Gemma 应在 6 月推出,将增加更大的模型 Gemma 27B。

最后更新于 2024 年 11 月。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...