You dont have javascript enabled! Please enable it!

OpenAI发布GPT-4 Omni,AI技术又进入了一个全新的发展阶段

AI技术5个月前更新 💋陈先生
7 0 0

作为生成式AI时代的标志性厂商之一,其成功和受欢迎的基础在于公司的大型语言模型(LLM)GPT系列,包括GPT-3和GPT-4,以及公司的ChatGPT对话式AI服务。

2024年5月13日,在公司的春季更新活动上,OpenAI宣布GPT-4 Omni(GPT-4o)作为其新的旗舰多模态语言模型。作为活动的一部分,OpenAI发布了多个视频,展示了该模型的直观语音响应和输出能力。

OpenAI发布GPT-4 Omni,AI技术又进入了一个全新的发展阶段

GPT-4o 是什么?

GPT-4o是OpenAI LLM技术组合中的旗舰模型。这里的O代表Omni,并非仅仅是某种营销夸大其词,而是指该模型在文本、视觉和音频方面的多种模态。

GPT-4o模型标志着OpenAI于2023年3月首次发布的GPT-4 LLM的新进化。这也不是GPT-4的首次更新,因为该模型在2023年11月首次得到了增强,推出了GPT-4 Turbo。GPT的缩写代表Generative Pre-Trained Transformer。Transformer模型是生成式AI的基础元素,提供了一种能够理解并生成新输出的神经网络架构。

GPT-4o 能做什么?

在发布时,GPT-4o在功能和性能上都是OpenAI所有模型中最强大的。

GPT-4o可以执行的任务包括:

  • 实时交互。GPT-4o模型可以进行实时口头对话,没有明显的延迟。
  • 基于知识的问答。与所有先前的GPT-4模型一样,GPT-4o经过知识库训练,能够回答问题。
  • 文本摘要和生成。与所有先前的GPT-4模型一样,GPT-4o可以执行常见的文本LLM任务,包括文本摘要和生成。
  • 多模态推理和生成。GPT-4o将文本、语音和视觉整合到一个模型中,使其能够处理和响应数据类型的组合。该模型可以同时理解音频、图像和文本,并通过音频、图像和文本生成响应。
  • 语言和音频处理。GPT-4o在处理超过50种不同语言方面具有先进的能力。
  • 情感分析。该模型能够理解不同模态的文本、音频和视频中的用户情感。
  • 语音细微差别。GPT-4o可以生成带有情感细微差别的语音,使其适用于需要敏感和细致沟通的应用。
  • 音频内容分析。该模型可以生成和理解口语,可应用于语音激活系统、音频内容分析和交互式讲故事。
  • 实时翻译。GPT-4o的多模态能力可以支持从一种语言到另一种语言的实时翻译。
  • 图像理解和视觉。该模型可以分析图像和视频,允许用户上传GPT-4o将理解并能够解释和提供分析的视觉内容。
  • 数据分析。视觉和推理能力使用户能够分析包含在数据图表中的数据。GPT-4o还可以根据分析或提示创建数据图表。
  • 文件上传。除了知识截止日期外,GPT-4o还支持文件上传,让用户分析特定数据进行分析。
  • 记忆和上下文意识。GPT-4o可以记住先前的交互并在更长的对话中保持上下文。
  • 大上下文窗口。支持最多128,000个令牌的上下文窗口使GPT-4o能够在更长的对话或文档中保持连贯性,使其适合详细分析。
  • 减少幻觉和提高安全性。该模型旨在最小化生成不正确或误导性信息的情况。GPT-4o包括增强的安全协议,以确保输出对用户是适当和安全的。

如何使用 GPT-4o

用户和组织可以通过多种方式使用GPT-4o。

  • ChatGPT免费版。GPT-4o模型将提供给OpenAI的ChatGPT聊天机器人的免费用户。一旦可用,GPT-4o将取代ChatGPT免费用户的当前默认设置。ChatGPT免费用户的消息访问将受到限制,并且无法访问包括视觉、文件上传和数据分析在内的一些高级功能。
  • ChatGPT Plus。OpenAI的ChatGPT付费服务的用户将获得GPT-4o的完全访问权限,没有免费用户实施的功能限制。
  • API访问。开发人员可以通过OpenAI的API访问GPT-4o。这允许将其集成到应用程序中,以充分利用GPT-4o在各种任务中的功能。
  • 桌面应用程序。OpenAI已将GPT-4o集成到桌面应用程序中,包括于5月13日推出的适用于Apple macOS的新应用程序。
  • 自定义GPT。组织可以创建针对特定业务需求或部门的GPT-4o的自定义GPT版本。自定义模型可以通过OpenAI的GPT Store提供给用户。
  • Microsoft OpenAI服务。用户可以在Microsoft Azure OpenAI Studio中以预览模式探索GPT-4o的功能,该工作室专为处理包括文本和视觉在内的多模态输入而设计。此初始版本允许Azure OpenAI服务的客户在受控环境中测试GPT-4o的功能,并计划在未来扩展其功能。

GPT-4 vs. GPT-4 Turbo vs. GPT-4o

以下是GPT-4、GPT-4 Turbo和GPT-4o之间的简要比较:

功能/模型 GPT-4 GPT-4 Turbo GPT-4o
发布日期 2023年3月14日 2023年11月 2024年5月13日
上下文窗口 8,192个令牌 128,000个令牌 128,000个令牌
知识截止日期 2021年9月 2023年4月 2023年10月
输入模态 文本,有限的图像处理 文本,图像(增强) 文本,图像,音频(完全多模态功能)
视觉能力 基础 增强,包括通过DALL-E 3进行图像生成 先进的视觉和音频能力
多模态能力 有限 增强的图像和文本处理 文本、图像和音频的完全集成
成本 标准 与GPT-4相比,输入令牌成本降低三倍 比GPT-4 Turbo

 

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...