OpenAI发布GPT-4 Omni，AI技术又进入了一个全新的发展阶段

AI技术1年前 (2024)更新 💋陈先生

OpenAI作为生成式AI时代的标志性厂商之一，其成功和受欢迎的基础在于公司的大型语言模型（LLM）GPT系列，包括GPT-3和GPT-4，以及公司的ChatGPT对话式AI服务。

2024年5月13日，在公司的春季更新活动上，OpenAI宣布GPT-4 Omni（GPT-4o）作为其新的旗舰多模态语言模型。作为活动的一部分，OpenAI发布了多个视频，展示了该模型的直观语音响应和输出能力。

GPT-4o 是什么？

GPT-4o是OpenAI LLM技术组合中的旗舰模型。这里的O代表Omni，并非仅仅是某种营销夸大其词，而是指该模型在文本、视觉和音频方面的多种模态。

GPT-4o模型标志着OpenAI于2023年3月首次发布的GPT-4 LLM的新进化。这也不是GPT-4的首次更新，因为该模型在2023年11月首次得到了增强，推出了GPT-4 Turbo。GPT的缩写代表Generative Pre-Trained Transformer。Transformer模型是生成式AI的基础元素，提供了一种能够理解并生成新输出的神经网络架构。

GPT-4o 能做什么？

在发布时，GPT-4o在功能和性能上都是OpenAI所有模型中最强大的。

GPT-4o可以执行的任务包括：

实时交互。GPT-4o模型可以进行实时口头对话，没有明显的延迟。
基于知识的问答。与所有先前的GPT-4模型一样，GPT-4o经过知识库训练，能够回答问题。
文本摘要和生成。与所有先前的GPT-4模型一样，GPT-4o可以执行常见的文本LLM任务，包括文本摘要和生成。
多模态推理和生成。GPT-4o将文本、语音和视觉整合到一个模型中，使其能够处理和响应数据类型的组合。该模型可以同时理解音频、图像和文本，并通过音频、图像和文本生成响应。
语言和音频处理。GPT-4o在处理超过50种不同语言方面具有先进的能力。
情感分析。该模型能够理解不同模态的文本、音频和视频中的用户情感。
语音细微差别。GPT-4o可以生成带有情感细微差别的语音，使其适用于需要敏感和细致沟通的应用。
音频内容分析。该模型可以生成和理解口语，可应用于语音激活系统、音频内容分析和交互式讲故事。
实时翻译。GPT-4o的多模态能力可以支持从一种语言到另一种语言的实时翻译。
图像理解和视觉。该模型可以分析图像和视频，允许用户上传GPT-4o将理解并能够解释和提供分析的视觉内容。
数据分析。视觉和推理能力使用户能够分析包含在数据图表中的数据。GPT-4o还可以根据分析或提示创建数据图表。
文件上传。除了知识截止日期外，GPT-4o还支持文件上传，让用户分析特定数据进行分析。
记忆和上下文意识。GPT-4o可以记住先前的交互并在更长的对话中保持上下文。
大上下文窗口。支持最多128,000个令牌的上下文窗口使GPT-4o能够在更长的对话或文档中保持连贯性，使其适合详细分析。
减少幻觉和提高安全性。该模型旨在最小化生成不正确或误导性信息的情况。GPT-4o包括增强的安全协议，以确保输出对用户是适当和安全的。

如何使用 GPT-4o

用户和组织可以通过多种方式使用GPT-4o。

ChatGPT免费版。GPT-4o模型将提供给OpenAI的ChatGPT聊天机器人的免费用户。一旦可用，GPT-4o将取代ChatGPT免费用户的当前默认设置。ChatGPT免费用户的消息访问将受到限制，并且无法访问包括视觉、文件上传和数据分析在内的一些高级功能。
ChatGPT Plus。OpenAI的ChatGPT付费服务的用户将获得GPT-4o的完全访问权限，没有免费用户实施的功能限制。
API访问。开发人员可以通过OpenAI的API访问GPT-4o。这允许将其集成到应用程序中，以充分利用GPT-4o在各种任务中的功能。
桌面应用程序。OpenAI已将GPT-4o集成到桌面应用程序中，包括于5月13日推出的适用于Apple macOS的新应用程序。
自定义GPT。组织可以创建针对特定业务需求或部门的GPT-4o的自定义GPT版本。自定义模型可以通过OpenAI的GPT Store提供给用户。
Microsoft OpenAI服务。用户可以在Microsoft Azure OpenAI Studio中以预览模式探索GPT-4o的功能，该工作室专为处理包括文本和视觉在内的多模态输入而设计。此初始版本允许Azure OpenAI服务的客户在受控环境中测试GPT-4o的功能，并计划在未来扩展其功能。

GPT-4 vs. GPT-4 Turbo vs. GPT-4o

以下是GPT-4、GPT-4 Turbo和GPT-4o之间的简要比较：

功能/模型	GPT-4	GPT-4 Turbo	GPT-4o
发布日期	2023年3月14日	2023年11月	2024年5月13日
上下文窗口	8,192个令牌	128,000个令牌	128,000个令牌
知识截止日期	2021年9月	2023年4月	2023年10月
输入模态	文本，有限的图像处理	文本，图像（增强）	文本，图像，音频（完全多模态功能）
视觉能力	基础	增强，包括通过DALL-E 3进行图像生成	先进的视觉和音频能力
多模态能力	有限	增强的图像和文本处理	文本、图像和音频的完全集成
成本	标准	与GPT-4相比，输入令牌成本降低三倍	比GPT-4 Turbo

# AI技术 # AI technologies # NLP # 人工智能技术 # 开源人工智能工具 # 机器学习 # 深度学习

文章版权归作者所有，未经允许请勿转载。如有侵犯您的版权，请及时联系我们→侵删通道。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI发布GPT-4 Omni，AI技术又进入了一个全新的发展阶段

GPT-4o 是什么？

GPT-4o 能做什么？

如何使用 GPT-4o

GPT-4 vs. GPT-4 Turbo vs. GPT-4o

相关文章

生成式AI世界持续演进，谷歌推出Gemini 1.5 Pro模型

2024 年 19 个最佳 LLMs 大型语言模型

暂无评论

次世代合租平台

最新文章

OpenAI发布GPT-4 Omni，AI技术又进入了一个全新的发展阶段

GPT-4o 是什么？

GPT-4o 能做什么？

如何使用 GPT-4o

GPT-4 vs. GPT-4 Turbo vs. GPT-4o

相关文章

生成式AI世界持续演进，谷歌推出Gemini 1.5 Pro模型

2024 年 19 个最佳 LLMs 大型语言模型

暂无评论

广告位

次世代合租平台

最新文章