生成式AI世界持续演进,谷歌推出Gemini 1.5 Pro模型

大型语言模型(LLMs)是生成式AI的核心元素,因为LLMs是构建服务和应用的基础。OpenAI以其GPT系列开启了现代LLM时代,而最新版本——GPT-4o模型——于2024年5月13日发布。GPT-4o承诺以更低的成本实现文本、图像和音频的多模态性,同时性能优于先前的GPT-4版本。

生成式AI世界持续演进,谷歌推出Gemini 1.5 Pro模型

不甘落后,谷歌一直努力追赶并可能超越OpenAI。2023年12月,谷歌宣布了其Gemini多模态LLM家族,并自此不断迭代。Gemini 1.5 Pro模型于2024年2月首次作为预览版发布。在2024年5月的谷歌I/O大会上,Gemini 1.5 Pro模型进行了公开演示并显著扩展。

什么是Gemini 1.5 Pro?

Gemini 1.5 Pro是由谷歌DeepMind开发的多模态AI模型,旨在助力谷歌平台及第三方开发者生成AI服务。

Gemini有哪些增强功能?

随着Gemini 1.5 Pro的更新,谷歌公布了一系列模型增强功能。

Gemini的增强功能包括:

增加了上下文窗口。Gemini 1.5 Pro具有100万个令牌的上下文窗口,对于Google AI Studio和Vertex AI用户,通过等待列表可扩展至200万个令牌。
改进了性能和上下文理解。该更新在各种任务(如翻译、编码和推理)中提供了性能增强。
增强了多模态能力。Gemini 1.5 Pro在图像和视频理解方面较之前的模型有所改进。它还包括原生音频理解功能,可直接处理语音输入。还支持从链接的外部源进行视频分析。
增强了函数调用和JSON模式。该模型可以从非结构化数据(如图像或文本)生成JSON对象作为结构化输出。函数调用能力也得到了增强。
更新了Gemini Advanced。使用Gemini Advanced,用户可以直接从Google Drive上传文件进行数据分析和自定义可视化。
引入了Gem定制。Gemini 1.5 Pro引入了一个名为Gems的功能,使用户能够创建针对特定任务和个人偏好的Gemini AI定制版本。
扩展了Google应用扩展。Gemini现在可以连接YouTube Music。未来计划包括与Google Calendar、Tasks和Keep连接,这将使诸如从图像创建日历条目等操作成为可能。
引入了Gemini Live。这种新的移动会话体验提供了自然的声音和中断或澄清问题的能力。

Gemini 1.5 Pro如何增强谷歌?

Gemini 1.5 Pro通过先进的功能和改进显著增强了谷歌的能力和服务,为开发者和企业客户带来了诸多好处。

Gemini 1.5 Pro可以用于什么?

Gemini 1.5 Pro是一个强大的多模态AI模型,可用于各种任务。以下是Gemini 1.5 Pro的一些关键用例和功能:

知识。Gemini可用于基于谷歌基础模型训练数据的基本知识问答。
摘要。Gemini 1.5 Pro可以作为多模态模型生成长文本、音频记录或视频内容的摘要。
文本内容生成。Gemini 1.5 Pro的语言理解和生成能力可用于故事编写、内容创作和剧本编写等任务。
多模态问题回答。Gemini 1.5 Pro可以结合来自文本、图像、音频和视频的信息来回答跨多个模态的问题。
长内容分析。凭借其高达100万个令牌的大上下文窗口,Gemini 1.5 Pro在分析和理解长篇文档、书籍、代码库和视频方面的能力超过了之前的Gemini模型。
视觉信息分析。该模型可以生成与视觉内容相关的描述或解释。
翻译。用户可以使用此模型进行语言翻译。
智能助手和聊天机器人。Gemini 1.5 Pro可用于构建能够理解和推理多模态输入的会话式AI助手。
代码分析和生成。Gemini 1.5 Pro理解应用程序开发代码。该模型可以分析整个代码库,提出改进建议,解释代码功能并生成新的代码片段。

Gemini 1.5 Pro是否会与其他平台集成?

Gemini 1.5 Pro可以与多个平台集成。平台集成功能包括:

Vertex AI。Gemini 1.5 Pro集成到Google Cloud的Vertex AI平台中,使开发者能够构建、部署和管理AI模型。
AI Studio。开发者可以通过Google AI Studio访问Gemini 1.5 Pro,这是一个基于Web的工具,用于在浏览器中直接原型设计和运行提示。
Gemini API。Gemini API使开发者能够将Gemini 1.5 Pro集成到他们的应用或平台中。这包括使用文本、图像、音频和视频输入生成内容、分析数据和解决问题。
JSON模式和函数调用。API支持JSON模式进行结构化数据提取和增强的函数调用功能,使其更容易与其他系统和应用集成。
Google Workspace。Gemini 1.5 Pro集成到Google Workspace中,包括Gmail、Docs和其他Google应用。
移动应用。开发者可以使用API和SDK将Gemini 1.5 Pro集成到移动应用中。
Web应用。Gemini API可以将AI功能集成到Web应用中,实现聊天机器人、内容生成和数据分析等功能。

Gemini 1.5 Pro何时可用以及成本是多少?

Gemini 1.5 Pro模型最初于2024年2月提供早期测试和私人预览。

截至撰写本文时,Gemini 1.5 Pro已通过Google AI Studio中的Gemini API公开预览,可在超过200个国家和地区访问。预计Gemini 1.5 Pro将于2024年6月向所有客户开放。

Gemini 1.5 Pro的定价包括免费层和付费层。

免费层的速率限制为每分钟两个请求(RPM)和每天总共50个请求(RPD)。在付费层,速率限制为每分钟360个请求和每天10,000个请求。付费层定价基于令牌长度。对于大小不超过128K的提示,价格为每100万个令牌3.5美元,对于超过128K的提示,价格为每100万个令牌7美元。

Gemini 1.5 Flash是Gemini 1.5的一个更便宜、优化程度较低且功能较少的版本。Flash现在与Pro版本一起提供预览。Gemini 1.5 Flash具有相同的速率限制,但价格显著低于Pro版本,对于大小不超过128K的提示,每100万个令牌的价格为0.35美元,较大的提示每100万个令牌的价格为0.7美元。

Sean Michael Kerner是一名IT顾问、技术爱好者和修补匠。他曾拉过Token Ring,配置过NetWare,并编译过自己的Linux内核。他为行业和媒体组织提供技术咨询。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...