OpenAI 向开发人员展示了语音工具的可能性

AI技术2年前 (2024)更新 gy.J

OpenAI及其合作伙伴微软为企业开发者和普通用户推出了生成性AI工具。

在本周早些时候的DevDay旧金山活动上，ChatGPT的开发者推出了实时API、模型蒸馏、提示缓存和视觉微调等新工具。

这些新产品的推出正值这家独立的生成性AI供应商完成了一轮新的融资，该轮融资使生成性AI供应商获得了来自Thrive Capital、微软、Khosla Ventures、Fidelity Management & Research Co.以及Nvidia等投资者的66亿美元新资金。

这笔资金注入——是最大的私人投资之一——将OpenAI的估值提升至约1570亿美元，使其成为全球最大的初创公司之一。这笔新资金的到来也正值OpenAI试图将自己从一家非营利研究实验室重组为一家完全盈利的公司。

微软还推出了Copilot Labs和Copilot Vision。

实时API

根据前技术分析师、现任Domino Data Lab AI战略负责人凯尔·卡尔森（Kjell Carlsson）的说法，在所有新推出的OpenAI工具中，实时API尤为突出。

“这是一项非常令人印象深刻的技术，能够将其提供给开发者真是太好了，”卡尔森说。实时API目前处于公开测试阶段，允许开发者在其应用中构建多模态体验，并支持使用API中已经支持的六种预设语音进行自然的语音对话。

OpenAI还在聊天完成API中引入了音频输入和输出。聊天完成API允许用户通过提供包含指令的消息来创建提示，以供大型语言模型使用。

随着音频输入和输出的引入，开发者可以将任何文本或音频传递给GPT-4o，并让模型以用户选择的文本或音频形式进行响应，或同时提供两者，OpenAI表示。

通过实时API以及即将推出的聊天完成API音频，开发者可以通过一次API调用构建自然的对话体验。

“现在[OpenAI]使得人们能够以一种之前更难做到的方式构建基于语音的聊天机器人和系统，并以更低的延迟进行操作，”卡尔森说。

实时API可以在输入和文本输入困难的场景中使用，Gartner分析师阿伦·钱德拉塞卡兰（Arun Chandrasekaran）表示。

例如，当某人驾驶汽车时，语音输入和输出是非常有用的。

此外，汽车制造商可能会对使用类似ChatGPT的对话聊天机器人以提升车内体验的质量感兴趣，钱德拉塞卡兰说。

“实时API和其他提供商可能推出的类似API在启用这些用例方面可能成为重要的差异化因素，”他说。

尽管像实时API或其他语音技术的假设用例（例如取代与呼叫中心的互动）存在，但卡尔森表示，缺乏这些应用成功的良好示例。

“我们有很多例子表明，人们喜欢、采用并有时更喜欢与生成性AI模型的互动。但是，当涉及通过语音互动并提供端到端的语音体验时，我们尚未看到它运行良好，”他说。

然而，生成性AI技术是关于可能性的艺术，钱德拉塞卡兰表示。

“一旦你展示出某种可能性，人们就会想出潜在的使用方式，”他说。

视觉微调

新的视觉微调工具遵循与文本微调类似的过程，允许开发者对模型进行微调，以更好地理解他们想要使用的图像。

“视觉微调是……一个有用的功能，但它并不是建立在OpenAI的优势之上的功能，”卡尔森说。

他补充说，OpenAI的Dall-E在某些竞争对手的图像模型（如Stable Diffusion等）面前并不强大。

尽管如此，视觉微调仍然重要，因为它支持医疗图像分析或自动驾驶汽车等不同用例，Constellation Research分析师安迪·图赖（Andy Thurai）表示。

微软Copilot Vision和Copilot Labs

在微软的Copilot Vision中，Copilot嵌入在Microsoft Edge浏览器中，能够理解用户查看的网页并理解有关其内容的问题。Copilot Vision为可选功能，用户可以决定何时或如何使用它。

在其预览版本中，用户与Copilot的所有内容和互动都不会被存储或用于训练，微软表示。会话在功能关闭后立即删除。

该服务还被阻止在付费墙保护的网站和敏感内容上使用。

“微软有充分的理由限制这些功能，因为它不想惹麻烦，”卡尔森说。“它不希望你进入并滥用Copilot，从而生成有害内容。”

Copilot Labs也处于预览阶段。Labs中的第一个可用功能是“深入思考”（Think Deeper）。这使Copilot能够推理更复杂的问题。

目前尚不清楚微软是否使用任何OpenAI模型来支持深入思考或Copilot Vision。

模型蒸馏和提示缓存

与此同时，OpenAI的模型蒸馏工具使开发者能够使用像GPT-01和GPT-4o这样的模型的输出，以微调和改进像GPT-4o mini这样的模型。

根据OpenAI的说法，这一功能大大降低了模型的成本，尤其是在用户需要在边缘位置部署较小模型时。

“这几乎是每个人的一个主要痛点，”图赖说。“虽然我不确定他们的解决方案有多好……但这对小型语言模型训练者来说可能是最受欢迎的解决方案。”

最后，提示缓存被视为使用大量API调用的企业的成本节约方案。这是对OpenAI竞争对手Anthropic的回应，后者在今年早些时候推出了类似的功能。

“在这一点上，Anthropic正在迅速追赶，并在某些领域领先，”图赖说。“这主要是一场两马竞争，尽管其他公司也在尽快实施这项技术。”

埃斯特·阿贾奥（Esther Ajao）是TechTarget编辑部的新闻撰稿人和播客主持人，专注于人工智能软件和系统。

# AI技术

文章版权归作者所有，未经允许请勿转载。如有侵犯您的版权，请及时联系我们→侵删通道。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI 向开发人员展示了语音工具的可能性

实时API

视觉微调

微软Copilot Vision和Copilot Labs

模型蒸馏和提示缓存

企业对生成式人工智能的采用正在加速

SingleStore 收购 BryteFlow 目标是数据集成

暂无评论

次世代合租平台

最新文章

OpenAI 向开发人员展示了语音工具的可能性

实时API

视觉微调

微软Copilot Vision和Copilot Labs

模型蒸馏和提示缓存

企业对生成式人工智能的采用正在加速

SingleStore 收购 BryteFlow 目标是数据集成

暂无评论

广告位

次世代合租平台

最新文章