OpenAI 已成为生成式人工智能时代的主要领导者之一。该公司的 ChatGPT 是生成式人工智能中最受欢迎和广泛使用的实例之一,基于其 GPT 系列大型语言模型(LLM)。截至 2024 年 9 月,ChatGPT 使用的主要模型是 GPT-4o 和 GPT-3.5。
在 2024 年 8 月和 9 月的几周内,有关 OpenAI 新模型的传闻四起,该模型代号为“Strawberry”。最初尚不清楚 Strawberry 是否是 GPT-4o 的继任者或其他内容。
在 2024 年 9 月 12 日,关于 Strawberry 的悬念随着 OpenAI o1 模型的正式发布而解除,包括 o1-preview 和 o1-mini。
什么是 OpenAI o1?
OpenAI o1 是 OpenAI 推出的一系列大型语言模型,经过优化以增强推理功能。
o1 模型最初是预览模型,旨在为用户和 OpenAI 提供与 GPT-4o 模型不同的 LLM 体验。与 OpenAI 的所有 LLM 一样,o1 是一种变换器模型。它可以用于总结内容、生成新内容、回答问题和编写应用程序代码。
与 OpenAI 之前的模型不同,o1 模型旨在更好地进行推理。也就是说,它不仅仅是尽快提供响应,而是“思考”解决问题的正确方法。对用户查询的给定问题进行推理的过程旨在为某些复杂查询提供潜在更准确的响应。与之前的模型不同,o1 系列在响应之前花费更多时间处理信息。o1 模型旨在解决需要多步骤推理和复杂问题解决策略的难题。
OpenAI 在推理中采用的基本策略是链式思维提示,模型通过迭代方法逐步推理问题。o1 的开发涉及高级训练技术,例如强化学习。
2024 年 9 月的首次发布包括两个模型:
- OpenAI o1-preview — 擅长处理复杂问题。
- OpenAI o1-mini — 提供 o1 的更小、更具成本效益的版本。
OpenAI o1 能做什么?
OpenAI o1 能执行许多与 OpenAI 其他 GPT 模型相同的任务,例如回答问题、总结内容和生成新内容。
作为一款先进的推理模型,o1 特别适合某些任务和用例,包括:
- 增强推理。o1 模型针对复杂推理任务进行了优化,尤其是在 STEM(科学、技术、工程和数学)领域。
- 头脑风暴和创意生成。该模型的高级推理能力使其在各种上下文中生成创意想法和解决方案时非常有用。
- 科学研究。o1 模型非常适合不同类型的科学研究任务。例如,o1 可以注释细胞测序数据并处理量子光学等领域所需的复杂数学公式。
- 编码。根据 OpenAI 的说法,o1 模型在生成和调试代码方面表现出色,在 HumanEval 和 Codeforces 等编码基准测试中表现良好。该模型还能够帮助开发人员构建和执行多步骤工作流程。
- 数学。根据 OpenAI 的说法,o1 在与数学相关的基准测试中表现优异,超越了该公司的先前模型。在国际数学奥林匹克(IMO)的资格考试中,o1 的准确率为 83%,而 GPT-4o 的准确率仅为 13%。o1 的数学能力在其他高级数学竞赛中也取得了良好结果,包括美国邀请数学考试(AIME)。该模型的数学能力可能用于帮助物理学家生成复杂的数学公式。
- 自我事实检查。o1 模型能够自我事实检查,提高其响应的准确性。
如何使用 OpenAI o1
用户和组织可以通过多种方式使用 o1 模型。
- ChatGPT Plus 和 Team 用户。o1-preview 和 o1-mini 模型自 9 月 12 日起直接向 ChatGPT Plus 和 Team 用户提供。用户可以在模型选择器中手动选择模型。
- ChatGPT Enterprise 和教育用户。OpenAI 已承诺自 2024 年 9 月 19 日起提供对这两个模型的访问。
- ChatGPT 免费用户。启动时,ChatGPT 的免费用户无法访问 o1 模型。OpenAI 计划在未来将 o1-mini 的访问权限扩展到所有免费用户。
- API 开发者。开发者可以通过 OpenAI 的 API 访问 o1-preview 和 o1-mini。
- 第三方服务。多个第三方服务已使这些模型可用,包括 Microsoft Azure AI Studio 和 GitHub Models。
OpenAI o1 的限制
作为新类型 LLM 的早期迭代预览模型,存在若干限制,包括:
- 功能差距。在发布时,o1 模型缺乏网页浏览、图像处理和文件上传功能。
- API 限制。在发布时,API 上对模型有多种限制。初期不支持函数调用和流式传输。在预览阶段,聊天完成参数的访问也有限。
- 响应时间。OpenAI 用户已习惯快速响应且延迟较小。但由于更彻底的推理过程,o1 模型初期响应速度较慢。
- 使用限制。对于 ChatGPT Plus 或 Team 用户,OpenAI 初期将 o1-preview 的使用限制为每周 30 条消息,o1-mini 为每周 50 条消息。2024 年 9 月 16 日,OpenAI 将 o1-preview 的限制提高到每周 50 条消息,并将 o1-mini 提高到每天 50 条消息。
- 成本。对于 API 用户,OpenAI o1 的成本高于以前的模型,包括 GPT-4o。
OpenAI o1 如何提高安全性
作为 o1 模型发布的一部分,OpenAI 还公开发布了一份系统卡,这是一个描述模型开发过程中进行的安全评估和风险评估的文档。它详细说明了如何使用 OpenAI 的框架评估网络安全、说服力和模型自主性等领域的风险。
- 链式思维推理。o1 模型使用大规模强化学习在响应之前进行复杂推理。这使它们能够精炼生成过程并识别错误。因此,它们可以更好地遵循特定的指导方针和模型政策,提高提供安全和适当内容的能力。
- 高级越狱抵抗。o1 模型在抵抗越狱方面表现出显著改善。在强拒绝基准测试中,o1-preview 和 o1-mini 的得分优于 GPT-4o。
- 改进的内容政策遵循。在挑战性拒绝评估中,o1-preview 在拒绝不安全内容方面的得分为 0.934,优于 GPT-4o 的 0.713。
- 增强的偏见缓解。在 QA 评估的偏见基准测试中,o1-preview 在明确问题上正确选择答案的概率为 94%,而 GPT-4o 为 72%。在测量在决策中使用种族、性别和年龄的评估中,o1-preview 的表现普遍优于 GPT-4o。
- 清晰的安全监控。o1 模型提供的链式思维摘要为安全监控提供了一种新方法。在对 100,000 个合成提示的分析中,仅 0.79% 的 o1-preview 响应被标记为潜在欺骗,其中大多数是幻觉而非故意欺骗。
GPT-4o 与 OpenAI o1 的比较
以下表格比较了 OpenAI 的 GPT-4o 和 o1 模型,显示了它们之间的若干差异。
特性 | GPT-4o | o1 模型 |
发布日期 | 2024年5月13日 | 2024年9月12日 |
模型变体 | 单一模型 | 两个变体:o1-preview 和 o1-mini |
推理能力 | 表现良好 | 增强推理,尤其在 STEM 领域 |
性能基准 | 数学奥林匹克 13% | 数学奥林匹克 83%,STEM 领域博士级准确性 |
多模态能力 | 处理文本、图像、音频和视频 | 主要以文本为中心,正在开发图像能力 |
上下文窗口 | 128K 令牌 | 128K 令牌 |
速度 | 比之前的模型快两倍 | 由于更多的推理过程,速度较慢 |
成本(每百万令牌) | 输入:$5;输出:$15 | o1-preview:输入 $15,输出 $60;o1-mini:输入 $3,输出 $12 |
可用性 | 广泛可用于 OpenAI 产品 | 特定用户的有限访问 |
特性 | 包括网页浏览、文件上传 | 缺乏 GPT-4o 的一些功能,如网页浏览 |
安全性和对齐 | 专注于安全措施 | 改进的安全措施,更高的越狱抵抗能力 |
肖恩·迈克尔·凯尔纳是一位 IT 顾问、技术爱好者和爱好者。他曾配置过 Token Ring、NetWare,并且以编译自己的 Linux 内核而闻名。他为行业和媒体组织提供技术问题的咨询。