Dall-E 是一种生成性人工智能(AI)技术,允许用户通过提交基于文本的提示来创建图像。在后台,Dall-E 使用先进的文本到图形技术将简单的文字转化为图片。Dall-E 是一个经过训练的神经网络,可以根据用户的提示生成各种风格的全新图像。
Dall-E 这个名字向技术的两个核心主题致敬,暗示了艺术与人工智能技术融合的目标。第一部分(Dall)旨在唤起西班牙超现实主义艺术家萨尔瓦多·达利,第二部分(E)则与虚构的迪士尼机器人瓦力(Wall-E)相关。两个名字的结合反映了该技术的抽象性和某种超现实的插图能力。
人工智能供应商 OpenAI 开发了 Dall-E,并在 2021 年 1 月推出了初始版本。该技术使用深度学习模型和 GPT-3 大型语言模型(LLM)作为理解自然语言用户提示和生成新图像的基础。
Dall-E 是 OpenAI 于 2020 年 6 月首次推出的一个项目的演变。最初名为 Image GPT,该项目代表了展示神经网络如何用于创建高质量图像的初步尝试。Dall-E 扩展了 Image GPT 的初始概念,使用户能够通过文本提示生成新图像,就像 GPT-3 可以根据自然语言文本提示生成新文本一样。
这篇文章是
什么是生成性人工智能?生成性人工智能解释
- 还包括:
- 2024 年 8 大生成性人工智能工具类别
- 人工智能会取代工作吗?17 种可能受影响的职业类型
- 2024 年 19 种最佳大型语言模型
Dall-E 技术属于有时被称为生成设计的人工智能类别。它与类似技术竞争,如 Stable Diffusion 和 Midjourney。
Dall-E 是如何工作的?
Dall-E 使用多种技术生成图像,包括自然语言处理、LLM 和扩散处理。
最初的 Dall-E 是使用 GPT-3 LLM 的一个子集构建的。然而,Dall-E 只使用了 120 亿个参数,而不是 GPT-3 提供的 1750 亿个参数,这种方法旨在优化图像生成。与 GPT-3 LLM 一样,Dall-E 使用了一个称为变换器神经网络的模型,使得模型能够创建和理解不同概念之间的联系。
在 Dall-E 中实现文本到图像生成的原始方法在 2021 年 2 月发布的研究论文《零样本文本到图像生成》中有所描述。零样本是一种人工智能方法,使模型能够执行任务,例如使用先前知识和相关概念生成全新图像。
为了证明 Dall-E 模型能够正确生成图像,OpenAI 还构建了对比语言-图像预训练(CLIP)模型,该模型在 4 亿个标记图像上进行了训练。OpenAI 使用 CLIP 来帮助评估 Dall-E 的输出,分析哪个标题最适合生成的图像。
OpenAI 于 2021 年 1 月宣布了 Dall-E 的首次发布。Dall-E 使用一种称为离散变分自编码器(dVAE)的技术,从文本生成图像。dVAE 在某种程度上基于 Alphabet 的 DeepMind 部门进行的向量量化变分自编码器的研究。
向 Dall-E 2 的过渡
2022 年 4 月,OpenAI 推出了 Dall-E 2,为用户提供了一系列增强的功能。它还改进了生成图像的方法,结果是一个可以提供更高端和照片级真实图像的平台。最重要的变化之一是转向一种扩散模型,该模型集成了 CLIP 数据,以生成更高质量的图像。
与 Dall-E 使用的 dVAE 相比,扩散模型能够生成更高质量的图像。OpenAI 声称,Dall-E 2 可以创建的图像分辨率是 Dall-E 图像的四倍。Dall-E 2 还在速度和图像大小上进行了改进,使用户能够以更快的速度生成更大的图像。
Dall-E 2 还扩展了自定义图像和应用不同风格的能力。例如,在 Dall-E 2 中,提示可以指定图像应绘制为像素艺术或油画。Dall-E 2 还引入了外绘的概念,使用户能够创建一个图像作为原始图像的扩展或外绘。
Dall-E 3 的推出
OpenAI 于 2023 年 10 月发布了 Dall-E 3。Dall-E 3 在 Dall-E 2 的基础上进行了改进,提供了更好的图像质量和提示保真度。Dall-E 3 还与 ChatGPT 原生集成,不同于其前身。现在,任何用户都可以通过 ChatGPT 提示创建 AI 生成的图像。然而,免费版 ChatGPT 限制用户每天只能生成两张图像。开发者还可以通过 OpenAI 的应用程序编程接口(API)访问 Dall-E 3 服务,使他们能够将 Dall-E 3 功能直接嵌入到他们的应用程序中。
Dall-E 3 在文本到图像工程方面有显著改进。用户可以通过简单的对话更容易地生成图像,而 Dall-E 3 能更忠实地呈现这些图像。Dall-E 3 可以处理大量提示而不感到困惑,并在各种风格中呈现复杂细节。它可以理解更细微的指令。此外,ChatGPT 会自动优化用户的提示,调整原始提示以获得更精确的结果。用户还可以在同一聊天中直接请求修改第一次图像请求。
图像本身也优于 Dall-E 2。它们在响应提示方面更准确,细节更清晰、精确且视觉上更精致。Dall-E 3 还可以生成横向和纵向的图像比例。此外,Dall-E 3 可以比 Dall-E 2 更有效地在图像中添加文本,尽管文本能力仍然有些不可预测。
OpenAI 为 Dall-E 3 添加了多项保护措施,以限制其生成成人、暴力或仇恨内容的能力。例如,如果提示中包含有害偏见或公众人物的名字,Dall-E 3 不会返回图像。OpenAI 还采取措施改善生成图像中的人口统计代表性。此外,Dall-E 3 拒绝任何要求使用在世艺术家风格的请求。艺术家也可以拒绝其艺术作品被用来训练模型。
在 Dall-E 3 发布后,OpenAI 停止接受新的 Dall-E 2 客户。这也意味着新客户无法购买 Dall-E 2 代币,尽管之前购买的代币仍然有效。
Dall-E 的好处是什么?
Dall-E 的潜在好处包括:
- 速度。Dall-E 可以在短时间内生成图像,通常少于一分钟。用户只需一个文本提示即可创建详细的高质量图像。
- 定制化。通过正确的文本提示,用户可以创建几乎任何想象中的高度定制图像——尽管在成人、暴力或仇恨内容上有一定限制。
- 可及性。由于 Dall-E 3 可以通过 ChatGPT 使用自然语言访问,因此 Dall-E 对广泛的用户群体可用。它不需要任何广泛的培训或特定的编程技能。
- 优化。用户可以通过后续提示在与原始提示相同的聊天会话中优化图像。用户还可以在启动新聊天会话时使用 Dall-E 生成的提示。Dall-E 还会在创建初始图像后建议优化提示。
- 灵活性。Dall-E 可以分析用户提交的图像,并基于用户的提示生成新图像。
Dall-E 的限制是什么?
虽然 Dall-E 有很多好处,但也存在一些重要的担忧:
- 版权。过去,人们对 Dall-E 创建的图像的版权以及它是否在受版权保护的图像上进行训练表示担忧。随着 Dall-E 3 的推出,OpenAI 已采取多项措施来解决这些担忧,但这些措施的有效性仍不清楚。
- 图像合法性。一些人质疑 AI 生成艺术的合法性和伦理性,以及它是否会取代人类。这种争议在可预见的未来将继续存在;对这些担忧没有明确的答案。然而,OpenAI 正在研究识别图像何时由 AI 创建的方法。
- 数据集。尽管 Dall-E 是使用大型数据集进行训练的,但大量图像和描述数据仍未被利用。因此,用户的提示可能无法生成预期的图像,因为模型缺乏基础信息。
- 现实性。尽管 Dall-E 3 显著提高了生成图像的质量,但某些图像可能对于一些用户而言看起来不够真实。
- 上下文。为了获得正确的图像,用户必须提交明确的提示。如果提示过于笼统或缺乏上下文,Dall-E 生成的图像可能不准确。即使后续的澄清提示也可能无法产生预期的图像。
- 偏见。尽管 OpenAI 正在采取措施减少 Dall-E 图像中的偏见,但在种族、阶级、性别、信仰体系或原籍国等问题上,仍然存在偏见的风险。
Dall-E 的使用案例
作为一种生成性人工智能技术,Dall-E 3 为个人和组织提供了广泛的潜在使用案例:
- 创意灵感。该技术可以用来帮助激励艺术家或其他个人创造新东西。Dall-E 还可以用于支持现有的创作过程。
- 娱乐。Dall-E 创建的图像可能用于书籍或游戏。Dall-E 可以超越传统的计算机生成图像,因为提示使得创建图形变得更容易。
- 教育。教师和教育工作者可以使用 Dall-E 生成图像来帮助解释不同的概念。
- 广告和营销。创建完全独特和新颖图像的能力对广告和营销非常有用。
- 产品设计。产品设计师可以使用 Dall-E 可视化新产品,这比使用传统的计算机辅助设计技术要快得多。
- 艺术。任何人都可以使用 Dall-E 创建新的艺术作品以供欣赏和展示。
- 时尚设计。作为现有工具的补充,Dall-E 可能帮助时尚设计师构思新概念。
Dall-E 可以根据用户的文本提示生成图像。
Dall-E 的费用是多少?
Dall-E 3 现在嵌入在 ChatGPT 中,并向拥有付费 ChatGPT 订阅计划的用户提供,包括 Plus、Team 和 Enterprise。计划起价为每用户每月 20 美元。使用免费版 ChatGPT 的个人用户每天只能生成两张 Dall-E 图像。OpenAI 不再接受新的 Dall-E 2 客户。
Dall-E 3 也可供 Microsoft Copilot 用户使用。Microsoft 不限制用户每天可以生成的图像数量。相反,该公司限制每个订阅计划可用的提升数量。提升是图像生成器每次创建图像时获得的性能提升。免费计划每天仅提供 15 次提升。随着付费订阅的增加,次数也会增加。
开发者还可以通过 OpenAI API 访问 Dall-E 2 和 Dall-E 3 的功能。API 使他们能够将 Dall-E 功能直接集成到他们的应用程序中。下表显示了 OpenAI 当前的 Dall-E 服务定价。
模型 | 质量 | 分辨率 | 价格 |
Dall-E 3 | 标准 | 1024×1024 | 每张图像 0.040 美元 |
标准 | 1024×1792, 1792×1024 | 每张图像 0.080 美元 | |
Dall-E 3 | 高清 | 1024×1024 | 每张图像 0.080 美元 |
高清 | 1024×1792, 1792×1024 | 每张图像 0.120 美元 | |
Dall-E 2 | 1024×1024 | 每张图像 0.020 美元 | |
512×512 | 每张图像 0.018 美元 | ||
256×256 | 每张图像 0.016 美元 |
Dall-E 2 的价格仅适用于现有客户。此处所有价格均可能变动。OpenAI 在其网站上维护价格页面。
阅读有关生成性人工智能与机器学习之间差异的文章。了解您需要了解的关于基础 AI 模型的一切,这些大型和可适应的 AI 模型正在重塑企业 AI。探索获取 AI 认证时需要考虑的因素。查看 AI 将如何影响内容营销的未来。
此内容最后更新于 2024 年 10 月。
继续阅读关于 Dall-E 的信息以及它是如何工作的?
- 顶级人工智能认证和课程
- 如何在生成性人工智能时代防止深度伪造
- 生成性人工智能伦理:最大担忧和风险
- AI 生成内容的利弊
- 值得探索的 AI 内容生成器