OpenAI 在 2022 年 11 月推出了 ChatGPT,引发了人们对人工智能的巨大兴趣。ChatGPT 获得了如此多的关注,以至于生成式人工智能(GenAI)在 2023 年成为科技界的主导主题。
微软在 2023 年初支持 OpenAI,承诺提供数百万美元、多年的投资,以加速 OpenAI 开发其 AI 技术。
谷歌在 2023 年 3 月推出了 Bard,迈出了其 GenAI 的一步。2024 年 2 月,谷歌在推出 AI 聊天机器人的改进版本时,将 Bard 重命名为 Gemini。
ChatGPT 和 Gemini 主要负责 GenAI 的巨大热度,后者使用机器学习模型的数据来回答问题并创建图像、文本和视频。OpenAI 和谷歌不断改进 ChatGPT 和 Gemini 背后的大型语言模型(LLMs),以赋予它们更大的生成类似人类文本的能力。
生成式 AI 是什么?您需要了解的一切
- 其中还包括:
- 2024 年 8 个顶级生成式 AI 工具类别
- AI 会取代工作吗?可能受影响的 9 种工作类型
- 2024 年 19 个最佳大型语言模型
GenAI 仍在快速发展,模型并不总是返回正确答案。尽管在 ChatGPT 和 Gemini 中都普遍出现了 AI 幻觉——由 AI 生成的错误答案——但这些工具正被寻求自动化耗时任务的企业和消费者采用。
ChatGPT 是什么?
ChatGPT 是由 AI 驱动的聊天机器人,使 GenAI 成为 2023 年的热门技术。据 OpenAI 首席执行官 Sam Altman 称,ChatGPT 在 2022 年 11 月 30 日发布后的五天内就达到了 100 万用户。
ChatGPT 基于的模型是 Generative Pre-trained Transformer,它在数据序列中查找模式。其 AI 语言模型对用户查询产生响应,并作为让用户与语言模型通信的界面。截至 2024 年 5 月,GPT-4o 是 ChatGPT 免费版的可用默认设置。用户仍然可以选择使用之前的默认设置 GPT-3.5。在 ChatGPT Plus、ChatGPT Team 和 ChatGPT Enterprise 的付费订阅版本中,可以更稳健地访问 GPT-4o 以及 GPT-4。GPT-4 在推出时通常被认为是最先进的 GenAI 模型,但谷歌的 Gemini Advanced 为其提供了强大的竞争对手。
ChatGPT 的流行应用包括电子邮件、社交媒体帖子和博客的内容生成;文本摘要;语言翻译;代码生成;学习和教育;构建虚拟助手;模拟和培训;研究协助;以及构建游戏和其他娱乐应用程序。
ChatGPT 是多模态的,意味着用户可以使用图像和声音来提示聊天机器人。ChatGPT Voice(可在 iOS 和 Android 手机上使用)让用户与 ChatGPT 进行对话,ChatGPT 可以用五种 AI 生成的声音之一进行回应。
ChatGPT 和 ChatGPT Plus 针对个人用户。ChatGPT 的免费版可通过网页浏览器和移动设备使用。开发人员还可以将 ChatGPT API 嵌入到他们的软件应用程序中供其用户访问。
ChatGPT Plus 的费用为每位用户每月 20 美元。在 ChatGPT Plus 中使用的 GPT-4o 的完整版本比之前的 GPT 版本响应更快;更准确;并具有高级数据分析等功能。GPT-4o 还可以创建更详细的响应,并且在描述照片和编写图像说明等任务上速度更快。虽然 GPT-3.5 仅训练了截至 2022 年 1 月的数据,但 GPT-4o 训练了截至 2023 年 10 月的数据。
ChatGPT Plus 订阅的另一个优势是,即使在高峰使用时段也能保证 ChatGPT 的访问。免费 ChatGPT 的响应时间受到带宽和可用性的限制。ChatGPT Plus 还提供对 OpenAI 的 Dall-E 3 文本到图像 GenAI 模型的集成访问。
OpenAI 将 ChatGPT Team 和 ChatGPT Enterprise 销售给企业。ChatGPT Team 的费用为每位用户每月 25 美元,按年计费。它包含 ChatGPT Plus 中的所有内容,但在规定的时间限制内允许发送更多消息。它还可以与其他工作人员共享 GPT,比 ChatGPT Plus 响应更快,并包括管理控制台。ChatGPT Enterprise 对 GPT-4 有无限高速访问;更高级的管理、客户支持和分析能力;扩展的内容窗口以处理更长的输入;并且是 ChatGPT 所有版本中响应速度最快的。ChatGPT Enterprise 的定价根据使用情况而异。
谷歌 Gemini 是什么?
Gemini 是谷歌的 GenAI 模型,由谷歌 DeepMind AI 研究库构建。Gemini AI 模型为谷歌在 2023 年 3 月推出的 Bard GenAI 工具提供支持。谷歌在 2024 年 2 月将 Bard 重命名为 Gemini,这是在基于其新的 Ultra 1.0 LLM 基础推出 Gemini Advanced 几个月后。2024 年 5 月,谷歌首次向 Gemini Advanced 用户提供了更新版的 Gemini 1.5 Pro 模型。
Gemini 被设计为以简单答案的形式检索信息,类似于 Alexa 和 Siri 等智能助手的工作方式。它使用 LLMs 来回答已经学习或可以从其他谷歌服务中检索到的信息的提示。
谷歌 Gemini 是多模态的——它理解音频、视频、计算机代码以及文本。然而,由于存在不准确性,谷歌已经暂停了 Gemini 的图像生成功能。谷歌的声明承诺很快将重新发布改进的图像生成功能。
Gemini 的功能已集成到谷歌的搜索引擎中,并可在 Google Workspace 应用程序中使用,如 Docs、Gmail、Sheets、Slides 和 Meet。Google Workspace 的 Gemini 是 Duet AI for Google Workspace 的新名称,后者是谷歌对微软 Copilot AI 助手的回应。谷歌 Gemini 可在 Android 手机上的应用程序和 iOS 上的谷歌应用程序中使用。
Gemini Advanced 是 Google One AI Premium 计划订阅服务的一部分,在美国每月费用为 19.99 美元。Google One AI Premium 还包括 2TB 的存储空间。
Gemini Advanced 是比 Gemini Pro 更强大的 AI 版本,后者仍然免费提供。配备 Gemini Pro 1.5 的 Gemini Advanced 提供了 100 万个标记的大上下文窗口,使分析更大的数据集成为可能。
谷歌建议,如果您正在寻找免费的聊天机器人,Gemini Pro 及其 AI 功能是开发、研究和创建任务的更好选择。它为个人使用带来了 AI 到简单任务。对于那些愿意支付订阅费用的人,谷歌推荐 Gemini Advanced 用于专业应用程序、更苛刻的工作流程、增强的性能和更前沿的功能。Google Advanced 还将包括对新功能的早期访问。
Gemini Nano 是谷歌 Gemini 家族的另一个部分,用于谷歌 Pixel 8 Pro 等设备。
ChatGPT 和 Gemini 之间的差异快照。
Gemini 和 ChatGPT 之间的主要区别是什么?
ChatGPT 和谷歌 Gemini 变得越来越相似。两者都提供免费服务、价格几乎相同的订阅服务,以及相似的界面和用例。它们之间的主要区别在于其语言模型。
它们还用于许多相似的功能,并通过用户键入查询以获取响应来工作。两者都引发了关于如何使用用户数据的隐私担忧。然而,它们在训练模型、数据源、用户体验以及数据存储方式上存在差异。
训练模型
ChatGPT 基于 OpenAI 的 GPT-3.5 或 GPT-4。Gemini 有三种大小:用于广泛任务的 Gemini Pro,用于高度复杂任务的 Gemini Ultra,以及用于移动设备的 Gemini Nano。为订阅版 Gemini Advanced 提供支持的 Gemini Pro 1.5 比免费 Gemini 服务所使用的模型更快、更先进。
数据源
ChatGPT 和 Gemini 之间的主要区别在于训练其 LLMs 所使用的数据源。GPT-4o 使用截至 2023 年 10 月的预定义数据。Gemini 实时从互联网上提取数据。它被调整以选择来自符合特定主题(如编程或最新科学研究)的源的数据。
用户体验
ChatGPT 用户可以使用任何电子邮件帐户登录到免费版 ChatGPT。ChatGPT 还包含一个 API,开发人员可以使用它将 OpenAI LLMs 集成到第三方软件中。它没有保存按钮,但用户可以将 ChatGPT 中的答案复制并粘贴到另一个应用程序中。它确实有一个归档按钮,可以在 ChatGPT 的左侧窗格中列出以前的响应,以便快速检索。
由于 ChatGPT 是基于文本的,因此它无法在其答案中包含图像、视频、图表或链接。它也不具备搜索互联网的能力。
由于 OpenAI 与微软的紧密合作,ChatGPT 可以通过 Windows 应用程序(如 Word、Excel、PowerPoint 和 Outlook)使用。此外,微软的 Copilot AI 助手使用 GPT-4 语言模型。
Gemini Pro 的界面允许用户喜欢或不喜欢一个响应,选择修改响应的大小或语气,共享或验证响应,或将其导出到 Google Docs 或 Gmail。Gemini 还具有“查看其他草稿”选项,该选项显示其答案的替代版本。Gemini 还允许用户上传图像,但其创建图像的能力处于暂停状态,直到谷歌改进该功能。
数据存储和隐私
ChatGPT 和谷歌 Gemini 都存储用户数据。
ChatGPT 存储所有提示和查询。用户可以通过其归档功能查看以前的对话。虽然用户可以删除响应和对话,但聊天机器人可能会继续在其 LLM 中使用这些响应进行训练。当用户输入个人数据或专有信息时,这引发了隐私担忧。OpenAI 还透露,ChatGPT 收集地理位置数据、网络活动、联系详细信息(如电子邮件地址和电话号码)以及设备信息。
根据 OpenAI 的隐私政策,它收集用户提供的任何个人信息。这包括账户信息,如姓名、联系信息、支付卡信息和交易历史。OpenAI 还可能将地理位置数据披露给第三方,如供应商和服务提供商,以及法律要求时向执法机构披露。
OpenAI 表示,用户保留输入数据的所有权并拥有输出数据的所有权,但“可能会使用内容来提供、维护、开发和改进我们的服务,遵守适用法律,执行我们的条款和政策,并保持我们的服务安全。”
Gemini 将对话存储在用户的 Google 账户中,为期 18 个月,但用户可以在活动设置中将其保留期更改为 3 个月或 36 个月。Gemini 对话也可能出现在搜索中,引发了隐私担忧。
谷歌透露,它收集对话、位置、反馈和使用信息。谷歌隐私政策声称谷歌使用收集的数据来开发、提供、维护和改进服务,以及提供个性化服务,如内容和广告。客户可以使用“我的谷歌活动”删除其账户中的信息,或删除谷歌产品或其谷歌账户。
谷歌表示,在获得用户同意和法律要求时,将与第三方和执法机构共享信息。
哪个聊天机器人更好?
现在正在进行一场 GenAI 军备竞赛,OpenAI 和谷歌都在更新他们的模型。谷歌尤其积极,可能是因为 ChatGPT 先发制人,而 Gemini 必须迎头赶上。随着 LLMs 的每个新版本,谷歌和 OpenAI 都比以前的版本取得了重大进展。
一般来说,ChatGPT 被认为是基于文本的任务的最佳选择,而 Gemini 是多媒体内容的最佳选择。但是,如本文前面的部分所述,还有其他考虑因素。用户可以试用免费版本来确定哪个更适合他们。
值得注意的是,有几个关于聊天机器人的深入评论:
- 卡内基梅隆大学和 BerriAI 的研究人员对 Gemini Pro 与 GPT-3 和 GPT-4 在 10 项不同的语言任务上进行了基准测试,目的是提供公正深入的分析。他们发现 Gemini 的优势包括处理长而复杂的推理链以及翻译成非英语语言的性能。不利的一面是,它在数学推理方面表现挣扎——尤其是处理大数字时——在多选题上表现出偏见,并且激进的内容过滤阻止了许多响应。总之,研究人员得出结论,Gemini Pro 不如 GPT-3 和 GPT-4,但“在处理复杂性和推理深度方面表现出优势”。
- 宾夕法尼亚大学沃顿商学院的 AI 副教授 Ethan Mollick 对 Gemini Advanced 与 GPT-4 进行了他所谓的“品鉴笔记”。Mollick 总结说,Gemini Advanced 是第一个可以与 GPT-4 竞争的高级 AI 模型。他说每个模型都有其优缺点——例如,GPT-4 以更复杂的方式使用代码,更擅长硬性的口头任务,而 Gemini 更擅长解释和搜索。但两者“都很奇怪、不一致,并且比您希望的产生更多的幻觉”。
- 未来主义者、Generative AI in Practice 的作者 Bernard Marr 在福布斯的一篇文章中指出,ChatGPT 被设计为更具对话性,而 Gemini 更高效地处理信息和自动化任务。Marr 在使用 ChatGPT 和 Gemini 后得出的结论是,ChatGPT-4 是更强大的聊天界面,但“Gemini 正在缩小差距……”。
- ChatGPT 和 Gemini 都不完美,它们的开发者也承认这一点。两者都会产生幻觉,甚至在回应中警告用户这一点。
- 这两个聊天机器人都在其提示屏幕的底部包含免责声明。Gemini 的免责声明写道:“Gemini 可能会显示不准确的信息,包括关于人的信息,因此请仔细检查其响应。”ChatGPT 建议:“ChatGPT 可能会出错。请考虑检查重要信息。”
- 谷歌网站上 Gemini 的常见问题解答提供了适用于所有 AI 工具的有价值的建议:
- Gemini 无法替代您生活中的重要人物,如家人、朋友、老师或医生。
- Gemini 不能为您完成工作。
- Gemini 不能为您做出重要的生活决策。
生成式 AI 替代方案
GenAI 是一项快速发展的技术。除了对 ChatGPT 和谷歌 Gemini 的更新外,其他公司也在开发 AI 项目。这些包括 AI21 Labs 的 Wordtune、Anthropic 的 Claude、Glean、Jasper、Open Assistant 和 Writesonic 的 Chatsonic。中国的百度搜索引擎使用名为 Ernie Bot 的 AI 应用程序。许多生产力应用程序和 SaaS 产品也集成了 GenAI 助手。
ChatGPT 与 Gemini 响应的比较
我们向 ChatGPT 3.5 和谷歌 Gemini Pro 提出了相同的请求和提示,以查看它们的响应如何比较。结果如下:
创意生成
提示:IT 专业人员应该了解哪五个最热门的 IT 趋势?
ChatGPT 针对五大最热门 IT 趋势的创意生成对策。
Gemini 针对五大最热门 IT 趋势的创意生成。
感想ChatGPT的回答比较笼统,而 Gemini 则深入到了具体领域–例如,生成式人工智能与人工智能、网络安全网格与网络安全。ChatGPT 无法参考 2022 年 1 月之后的数据,这限制了它在寻找趋势信息时的有效性。双子座在 “Bonus trends.”(额外趋势)下偷偷加入了一些额外信息。
创建内容
提示:撰写两段摘要,解释网络复原力方面的挑战。
ChatGPT 的内容生成应对措施,解释网络复原力挑战。
Gemini 的内容生成对策解释了网络复原力挑战。
感想:两篇文章都很好地用两段话解释和概括了一个复杂的问题,但双子座的文章更具体地阐述了面临的挑战和可以采取的措施。
规划
提示:最值得参加的云计算会议有哪些?
ChatGPT 为最值得参加的云计算会议制定计划。
Gemini 对最值得参加的云计算会议的规划回应。
感想:ChatGPT 列出了更多的会议,但其列表有些过时,因为其中几个会议已经更名。Gemini 提供了更多细节,并将其列表划分为特定的专业领域。
开发人员协助
提示:列出查询 PostgreSQL 数据库的 10 个常用 SQL 查询。
ChatGPT 就查询 PostgreSQL 数据库的常用 SQL 查询向开发人员寻求帮助。
Gemini 就查询 PostgreSQL 数据库的常用 SQL 查询向开发人员寻求帮助。
思考:虽然在某些情况下使用了不同的术语,但这些清单都很相似。一个很好的特点是在答复中嵌入了代码。我们缩短了 Gemini 的回复,以便在一页内完成,但其较长的版本包含了嵌入代码。
Dave Raffo 是一名独立的 IT 分析师和记者。他曾在 The Futurum Group 和 Evaluator Group 担任高级分析师,负责集成系统、软件定义存储、容器存储、公共云存储和即服务产品。2007 年至 2021 年,他曾在 TechTarget 担任执行新闻总监和编辑总监,负责存储方面的报道。