You dont have javascript enabled! Please enable it!

什么是生成对抗网络(GAN)?

生成对抗网络(GAN)是一种(ML)模型,其中两个神经网络通过使用方法进行竞争,以提高它们的预测准确性。GAN通常在无监督的情况下运行,并使用合作的零和博弈框架进行学习。

构成GAN的两个神经网络分别称为生成器和判别器。生成器是一个卷积神经网络,而判别器是一个反卷积神经网络。生成器的目标是人工制造输出,使其容易被误认为真实数据。判别器的目标是识别其接收的输出中哪些是人工创建的。

从本质上讲,生成模型创造自己的训练数据。当生成器被训练以产生虚假数据时,判别网络则被教导区分生成器制造的数据和真实示例。如果判别器迅速识别出生成器产生的假数据——例如一张不是人脸的图像——生成器就会受到惩罚。随着对抗网络之间反馈循环的持续,生成器开始产生更高质量和更可信的输出,而判别器在标记人工创建的数据方面也变得更为出色。例如,生成对抗网络可以被训练生成看起来真实的人脸图像,这些人脸并不属于任何真实的人。

GAN的工作原理

GAN通常分为以下几个部分:

  • 生成部分。这描述了如何通过概率模型生成数据。
  • 对抗部分。模型在对抗环境中进行训练。
  • 网络部分。深度神经网络可以用作训练目的的人工智能(AI)算法。

建立GAN的第一步是确定期望的最终输出,并根据这些参数收集初始训练数据集。然后将这些数据随机化并输入到生成器中,直到模型获得基本的输出准确性。

本文是

什么是生成AI?生成AI的解释

  • 还包括:
  • 2024年8大顶级生成AI工具类别
  • 人工智能会取代工作吗?17种可能受影响的职业类型
  • 2024年19种最佳大型语言模型

接下来,生成的样本或图像与来自原始概念的实际数据点一起输入到判别器中。在生成器和判别器模型处理完数据后,开始进行反向传播优化。判别器过滤信息并返回一个介于0和1之间的概率,以表示每个图像的真实性——1与真实图像相关,0与假图像相关。模型开发者手动检查这些值以确认成功,并重复该过程直到达到期望的结果。

一个GAN通常采取以下步骤:

  • 生成器在接收随机数后输出一张图像。
  • 判别器接收这张生成的图像以及来自真实数据集的一系列照片。
  • 判别器输入真实和虚假的图像,并输出概率——一个介于0和1之间的值,其中1表示真实性预测,0表示虚假。

这创造了一个双重反馈循环,其中判别器与图像的真实情况保持反馈循环,而生成器则与判别器保持反馈循环。

什么是生成对抗网络(GAN)?

GAN的工作原理。

GAN的类型

GAN有多种形式,可以用于各种任务。以下是最常见的GAN类型:

  • 基础GAN。这是所有GAN中最简单的一种。其算法试图使用随机梯度下降优化数学方程,这是一种通过逐个示例遍历整个数据集的学习方法。它由生成器和判别器组成。生成的图像的分类和创建是通过简单的多层感知器使用生成器和判别器完成的。判别器试图确定输入属于特定类别的可能性,而生成器则收集数据的分布。
  • 条件GAN。通过应用类别标签,这种GAN能够用新的特定信息对网络进行条件化。因此,在GAN训练过程中,网络接收带有实际标签的图像,例如“玫瑰”、“向日葵”或“郁金香”,以帮助它学习如何区分它们。
  • 深度卷积GAN。该GAN使用深度卷积神经网络生成高分辨率的可区分图像。卷积是一种从生成数据中提取重要信息的技术。它们在处理图像时尤其有效,使网络能够快速吸收基本细节。
  • 自注意GAN。该GAN是深度卷积GAN的一种变体,增加了残差连接的自注意模块。这种基于注意力的架构可以利用来自所有特征位置的线索生成细节,而不局限于空间局部点。其判别器还可以在图像中保持远离彼此的特征之间的一致性。
  • CycleGAN。这是最常见的GAN架构,通常用于学习如何在不同风格的图像之间进行转换。例如,可以教导一个网络如何将冬季图像转变为夏季图像,或将马转变为斑马。CycleGAN最著名的应用之一是FaceApp,它可以将人脸转换为不同的年龄组。
  • StyleGAN。Nvidia的研究人员在2018年12月发布了StyleGAN,并对原始生成器架构模型提出了重大改进。StyleGAN可以生成逼真的高质量人脸照片,用户可以修改模型以改变生成图像的外观。
  • 超分辨率GAN。通过这种类型的GAN,可以将低分辨率图像转换为更详细的图像。超分辨率GAN通过填补模糊区域来提高图像分辨率。
  • 拉普拉斯金字塔GAN。该GAN通过多个生成器和判别器网络构建图像,结合不同层次的拉普拉斯金字塔——一种包含频带通图像的线性图像,频带间隔为一个八度——从而实现高图像质量。

GAN的流行用例

由于GAN能够以越来越显著的准确性理解和重建视觉内容,因此它们正成为在线零售销售中一种流行的机器学习模型。它们可以用于多种任务,包括异常检测、数据增强、图像合成以及文本到图像和图像到图像的转换。

GAN的常见用例包括:

  • 根据轮廓填充图像。
  • 根据文本生成逼真图像。
  • 制作产品原型的逼真图像。
  • 将黑白图像转换为彩色。
  • 从图像草图或语义图像创建照片翻译,这在医疗行业的诊断中尤为有用。

在视频制作中,GAN可以执行以下操作:

  • 模拟人类行为和运动模式。
  • 预测后续视频帧。
  • 创建深度伪造。

GAN的其他用例包括生成真实语音声音的文本到语音。此外,基于GAN的生成AI模型可以为博客、文章和产品描述生成文本。这些AI生成的文本可以用于多种目的,包括广告、社交媒体内容、研究和沟通。

GAN的例子

GAN用于生成多种数据类型,包括图像、音乐和文本。以下是GAN的一些流行的现实世界例子:

  • 生成的人脸。GAN可以生成准确的人脸表示。例如,Nvidia的StyleGAN2可以生成不存在的人的逼真图像。这些图像如此逼真,以至于许多人认为它们是真实的个体。
  • 开发新的时尚设计。GAN可以用于创建反映现有设计的新时尚设计。例如,服装零售商H&M使用GAN为其商品创造新的服装设计。
  • 生成逼真的动物图像。GAN还可以生成逼真的动物图像。例如,谷歌研究人员开发的BigGAN可以生成高质量的动物图像,如鸟类和狗。
  • 创建视频游戏角色。GAN可以用于为视频游戏创建新角色。例如,Nvidia为著名视频游戏《最终幻想XV》使用GAN创建了新角色。
  • 生成逼真的3D物体。GAN还能够生成真实的3D物体。例如,麻省理工学院的研究人员使用GAN创建了看起来像人类创造的椅子和其他家具的3D模型。这些模型可以应用于建筑可视化或视频游戏。

GAN技术的未来

GAN技术发展迅速——GAN应用的产品效果显著且实用——这不仅是数字成像未来的决定性因素,也是生成AI技术整体发展的方向。

GAN模型的对抗网络特性使其成为数据增强的优秀方法,这在机器学习过程中至关重要。通过生成变体,GAN提高了训练集的数量和多样性,超越了现有数据集的内容。这反过来又提高了机器学习产品的泛化能力。它还缓解了大规模建模需求中日益严重的大数据不足问题。

GAN可能会成为制药研究中的核心技术,其生成现有数据配置变体的能力将成为基于现有生化数据设计新药的首选方法。这将缩短新治疗的上市时间,并使得在更短的时间内考虑和分析更多变体成为可能。

对于GAN的演变,另一个较边缘的预测是,它们的架构限制将抑制其在视频深度伪造演变中的作用。目前,GAN是领先的深度伪造技术中最先进的,尤其是在生成最具说服力的人脸深度伪造图像方面。然而,它们的波动性和有限的可控性使得GAN在深度伪造视频生成的未来发展中成为辅助技术,而非主要技术。

卷积神经网络和递归神经网络在的发展中发挥了重要作用。了解CNN和RNN之间的区别,并探索它们的优缺点。

© 版权声明

外贸建站推广

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...