生成式AI世界持续演进，谷歌推出Gemini 1.5 Pro模型

AI技术1年前 (2024)更新 💋陈先生

大型语言模型（LLMs）是生成式AI的核心元素，因为LLMs是构建服务和应用的基础。OpenAI以其GPT系列开启了现代LLM时代，而最新版本——GPT-4o模型——于2024年5月13日发布。GPT-4o承诺以更低的成本实现文本、图像和音频的多模态性，同时性能优于先前的GPT-4版本。

不甘落后，谷歌一直努力追赶并可能超越OpenAI。2023年12月，谷歌宣布了其Gemini多模态LLM家族，并自此不断迭代。Gemini 1.5 Pro模型于2024年2月首次作为预览版发布。在2024年5月的谷歌I/O大会上，Gemini 1.5 Pro模型进行了公开演示并显著扩展。

什么是Gemini 1.5 Pro？

Gemini 1.5 Pro是由谷歌DeepMind开发的多模态AI模型，旨在助力谷歌平台及第三方开发者生成AI服务。

Gemini有哪些增强功能？

随着Gemini 1.5 Pro的更新，谷歌公布了一系列模型增强功能。

Gemini的增强功能包括：

增加了上下文窗口。Gemini 1.5 Pro具有100万个令牌的上下文窗口，对于Google AI Studio和Vertex AI用户，通过等待列表可扩展至200万个令牌。
改进了性能和上下文理解。该更新在各种任务（如翻译、编码和推理）中提供了性能增强。
增强了多模态能力。Gemini 1.5 Pro在图像和视频理解方面较之前的模型有所改进。它还包括原生音频理解功能，可直接处理语音输入。还支持从链接的外部源进行视频分析。
增强了函数调用和JSON模式。该模型可以从非结构化数据（如图像或文本）生成JSON对象作为结构化输出。函数调用能力也得到了增强。
更新了Gemini Advanced。使用Gemini Advanced，用户可以直接从Google Drive上传文件进行数据分析和自定义可视化。
引入了Gem定制。Gemini 1.5 Pro引入了一个名为Gems的功能，使用户能够创建针对特定任务和个人偏好的Gemini AI定制版本。
扩展了Google应用扩展。Gemini现在可以连接YouTube Music。未来计划包括与Google Calendar、Tasks和Keep连接，这将使诸如从图像创建日历条目等操作成为可能。
引入了Gemini Live。这种新的移动会话体验提供了自然的声音和中断或澄清问题的能力。

Gemini 1.5 Pro如何增强谷歌？

Gemini 1.5 Pro通过先进的功能和改进显著增强了谷歌的能力和服务，为开发者和企业客户带来了诸多好处。

Gemini 1.5 Pro可以用于什么？

Gemini 1.5 Pro是一个强大的多模态AI模型，可用于各种任务。以下是Gemini 1.5 Pro的一些关键用例和功能：

知识。Gemini可用于基于谷歌基础模型训练数据的基本知识问答。
摘要。Gemini 1.5 Pro可以作为多模态模型生成长文本、音频记录或视频内容的摘要。
文本内容生成。Gemini 1.5 Pro的语言理解和生成能力可用于故事编写、内容创作和剧本编写等任务。
多模态问题回答。Gemini 1.5 Pro可以结合来自文本、图像、音频和视频的信息来回答跨多个模态的问题。
长内容分析。凭借其高达100万个令牌的大上下文窗口，Gemini 1.5 Pro在分析和理解长篇文档、书籍、代码库和视频方面的能力超过了之前的Gemini模型。
视觉信息分析。该模型可以生成与视觉内容相关的描述或解释。
翻译。用户可以使用此模型进行语言翻译。
智能助手和聊天机器人。Gemini 1.5 Pro可用于构建能够理解和推理多模态输入的会话式AI助手。
代码分析和生成。Gemini 1.5 Pro理解应用程序开发代码。该模型可以分析整个代码库，提出改进建议，解释代码功能并生成新的代码片段。

Gemini 1.5 Pro是否会与其他平台集成？

Gemini 1.5 Pro可以与多个平台集成。平台集成功能包括：

Vertex AI。Gemini 1.5 Pro集成到Google Cloud的Vertex AI平台中，使开发者能够构建、部署和管理AI模型。
AI Studio。开发者可以通过Google AI Studio访问Gemini 1.5 Pro，这是一个基于Web的工具，用于在浏览器中直接原型设计和运行提示。
Gemini API。Gemini API使开发者能够将Gemini 1.5 Pro集成到他们的应用或平台中。这包括使用文本、图像、音频和视频输入生成内容、分析数据和解决问题。
JSON模式和函数调用。API支持JSON模式进行结构化数据提取和增强的函数调用功能，使其更容易与其他系统和应用集成。
Google Workspace。Gemini 1.5 Pro集成到Google Workspace中，包括Gmail、Docs和其他Google应用。
移动应用。开发者可以使用API和SDK将Gemini 1.5 Pro集成到移动应用中。
Web应用。Gemini API可以将AI功能集成到Web应用中，实现聊天机器人、内容生成和数据分析等功能。

Gemini 1.5 Pro何时可用以及成本是多少？

Gemini 1.5 Pro模型最初于2024年2月提供早期测试和私人预览。

截至撰写本文时，Gemini 1.5 Pro已通过Google AI Studio中的Gemini API公开预览，可在超过200个国家和地区访问。预计Gemini 1.5 Pro将于2024年6月向所有客户开放。

Gemini 1.5 Pro的定价包括免费层和付费层。

免费层的速率限制为每分钟两个请求（RPM）和每天总共50个请求（RPD）。在付费层，速率限制为每分钟360个请求和每天10,000个请求。付费层定价基于令牌长度。对于大小不超过128K的提示，价格为每100万个令牌3.5美元，对于超过128K的提示，价格为每100万个令牌7美元。

Gemini 1.5 Flash是Gemini 1.5的一个更便宜、优化程度较低且功能较少的版本。Flash现在与Pro版本一起提供预览。Gemini 1.5 Flash具有相同的速率限制，但价格显著低于Pro版本，对于大小不超过128K的提示，每100万个令牌的价格为0.35美元，较大的提示每100万个令牌的价格为0.7美元。

Sean Michael Kerner是一名IT顾问、技术爱好者和修补匠。他曾拉过Token Ring，配置过NetWare，并编译过自己的Linux内核。他为行业和媒体组织提供技术咨询。

# AI技术 # AI technologies # NLP # 人工智能技术 # 开源人工智能工具 # 机器学习 # 深度学习

文章版权归作者所有，未经允许请勿转载。如有侵犯您的版权，请及时联系我们→侵删通道。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

生成式AI世界持续演进，谷歌推出Gemini 1.5 Pro模型

什么是Gemini 1.5 Pro？

Gemini有哪些增强功能？

Gemini 1.5 Pro如何增强谷歌？

Gemini 1.5 Pro可以用于什么？

Gemini 1.5 Pro是否会与其他平台集成？

Gemini 1.5 Pro何时可用以及成本是多少？

相关文章

如何应对AI模型漂移：监控、检测与纠正策略

OpenAI发布GPT-4 Omni，AI技术又进入了一个全新的发展阶段

暂无评论

次世代合租平台

最新文章

生成式AI世界持续演进，谷歌推出Gemini 1.5 Pro模型

什么是Gemini 1.5 Pro？

Gemini有哪些增强功能？

Gemini 1.5 Pro如何增强谷歌？

Gemini 1.5 Pro可以用于什么？

Gemini 1.5 Pro是否会与其他平台集成？

Gemini 1.5 Pro何时可用以及成本是多少？

相关文章

如何应对AI模型漂移：监控、检测与纠正策略

OpenAI发布GPT-4 Omni，AI技术又进入了一个全新的发展阶段

暂无评论

广告位

次世代合租平台

最新文章