VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法,它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型,以及2)一个新颖的基于扩散的架构,通过时间和空间控制增强文本到图像模型。这种方法能够生成长度可变的高质量视频,并且通过对人类面部和身体的高级表达方式轻松可控。与以前的工作不同,我们的方法不需要为每个人训练,也不依赖于人脸检测和裁剪,生成完整的图像(而不仅仅是面部或嘴唇),并考虑到正确合成交流人类所需的广泛场景(例如可见的躯干或多样性主体身份)。
需求人群:
适用于需要从单张静态图像生成动态视频的场景,如视频编辑、形象替换等。
使用场景示例:
生成真实人体视频
编辑现有视频内容
视频翻译
产品特色:
文本和音频驱动的视频生成
高质量视频生成
可控性高
身体运动模拟
面部和姿势控制
相关导航
暂无评论...