OpenAI作为生成式AI时代的标志性厂商之一,其成功和受欢迎的基础在于公司的大型语言模型(LLM)GPT系列,包括GPT-3和GPT-4,以及公司的ChatGPT对话式AI服务。
2024年5月13日,在公司的春季更新活动上,OpenAI宣布GPT-4 Omni(GPT-4o)作为其新的旗舰多模态语言模型。作为活动的一部分,OpenAI发布了多个视频,展示了该模型的直观语音响应和输出能力。
GPT-4o 是什么?
GPT-4o是OpenAI LLM技术组合中的旗舰模型。这里的O代表Omni,并非仅仅是某种营销夸大其词,而是指该模型在文本、视觉和音频方面的多种模态。
GPT-4o模型标志着OpenAI于2023年3月首次发布的GPT-4 LLM的新进化。这也不是GPT-4的首次更新,因为该模型在2023年11月首次得到了增强,推出了GPT-4 Turbo。GPT的缩写代表Generative Pre-Trained Transformer。Transformer模型是生成式AI的基础元素,提供了一种能够理解并生成新输出的神经网络架构。
GPT-4o 能做什么?
在发布时,GPT-4o在功能和性能上都是OpenAI所有模型中最强大的。
GPT-4o可以执行的任务包括:
- 实时交互。GPT-4o模型可以进行实时口头对话,没有明显的延迟。
- 基于知识的问答。与所有先前的GPT-4模型一样,GPT-4o经过知识库训练,能够回答问题。
- 文本摘要和生成。与所有先前的GPT-4模型一样,GPT-4o可以执行常见的文本LLM任务,包括文本摘要和生成。
- 多模态推理和生成。GPT-4o将文本、语音和视觉整合到一个模型中,使其能够处理和响应数据类型的组合。该模型可以同时理解音频、图像和文本,并通过音频、图像和文本生成响应。
- 语言和音频处理。GPT-4o在处理超过50种不同语言方面具有先进的能力。
- 情感分析。该模型能够理解不同模态的文本、音频和视频中的用户情感。
- 语音细微差别。GPT-4o可以生成带有情感细微差别的语音,使其适用于需要敏感和细致沟通的应用。
- 音频内容分析。该模型可以生成和理解口语,可应用于语音激活系统、音频内容分析和交互式讲故事。
- 实时翻译。GPT-4o的多模态能力可以支持从一种语言到另一种语言的实时翻译。
- 图像理解和视觉。该模型可以分析图像和视频,允许用户上传GPT-4o将理解并能够解释和提供分析的视觉内容。
- 数据分析。视觉和推理能力使用户能够分析包含在数据图表中的数据。GPT-4o还可以根据分析或提示创建数据图表。
- 文件上传。除了知识截止日期外,GPT-4o还支持文件上传,让用户分析特定数据进行分析。
- 记忆和上下文意识。GPT-4o可以记住先前的交互并在更长的对话中保持上下文。
- 大上下文窗口。支持最多128,000个令牌的上下文窗口使GPT-4o能够在更长的对话或文档中保持连贯性,使其适合详细分析。
- 减少幻觉和提高安全性。该模型旨在最小化生成不正确或误导性信息的情况。GPT-4o包括增强的安全协议,以确保输出对用户是适当和安全的。
如何使用 GPT-4o
用户和组织可以通过多种方式使用GPT-4o。
- ChatGPT免费版。GPT-4o模型将提供给OpenAI的ChatGPT聊天机器人的免费用户。一旦可用,GPT-4o将取代ChatGPT免费用户的当前默认设置。ChatGPT免费用户的消息访问将受到限制,并且无法访问包括视觉、文件上传和数据分析在内的一些高级功能。
- ChatGPT Plus。OpenAI的ChatGPT付费服务的用户将获得GPT-4o的完全访问权限,没有免费用户实施的功能限制。
- API访问。开发人员可以通过OpenAI的API访问GPT-4o。这允许将其集成到应用程序中,以充分利用GPT-4o在各种任务中的功能。
- 桌面应用程序。OpenAI已将GPT-4o集成到桌面应用程序中,包括于5月13日推出的适用于Apple macOS的新应用程序。
- 自定义GPT。组织可以创建针对特定业务需求或部门的GPT-4o的自定义GPT版本。自定义模型可以通过OpenAI的GPT Store提供给用户。
- Microsoft OpenAI服务。用户可以在Microsoft Azure OpenAI Studio中以预览模式探索GPT-4o的功能,该工作室专为处理包括文本和视觉在内的多模态输入而设计。此初始版本允许Azure OpenAI服务的客户在受控环境中测试GPT-4o的功能,并计划在未来扩展其功能。
GPT-4 vs. GPT-4 Turbo vs. GPT-4o
以下是GPT-4、GPT-4 Turbo和GPT-4o之间的简要比较:
功能/模型 | GPT-4 | GPT-4 Turbo | GPT-4o |
发布日期 | 2023年3月14日 | 2023年11月 | 2024年5月13日 |
上下文窗口 | 8,192个令牌 | 128,000个令牌 | 128,000个令牌 |
知识截止日期 | 2021年9月 | 2023年4月 | 2023年10月 |
输入模态 | 文本,有限的图像处理 | 文本,图像(增强) | 文本,图像,音频(完全多模态功能) |
视觉能力 | 基础 | 增强,包括通过DALL-E 3进行图像生成 | 先进的视觉和音频能力 |
多模态能力 | 有限 | 增强的图像和文本处理 | 文本、图像和音频的完全集成 |
成本 | 标准 | 与GPT-4相比,输入令牌成本降低三倍 | 比GPT-4 Turbo |
相关文章
© 版权声明
文章版权归作者所有,未经允许请勿转载。如有侵犯您的版权,请及时联系我们→侵删通道。
暂无评论...