
VividTalk:基于3D混合先验的单次音频驱动说话头生成
VividTalk 是一款由南京大学、阿里巴巴集团、字节跳动和南开大学联合研发的先进AI应用,专注于从单张面部图像和音频信号生成高保真、唇形同步的说话头视频。该技术于2023年12月在arXiv上首次发布,代表了音频驱动虚拟人技术领域的前沿突破。
核心技术架构
VividTalk采用两阶段通用框架,将音频信号转换为生动的说话头视频:
第一阶段:音频到3D网格映射
该阶段学习两种运动:
– 非刚性表情运动:同时采用blendshape和顶点作为中间表示,最大化模型的表达能力
– 刚性头部运动:提出创新的可学习头部姿态码本,采用两阶段训练机制生成自然的头部转动
第二阶段:网格到视频生成
提出双分支运动VAE和生成器,将3D网格转换为密集运动场,并逐帧合成高质量视频。
核心功能特点
高精度唇形同步
VividTalk能够精确匹配音频中的语音内容,生成与发音完全同步的嘴唇运动,在客观和主观评估中均优于现有最先进方法。
丰富面部表情
通过3D混合先验,系统能够生成包括眉毛、眼睛、脸颊等在内的自然面部表情变化,使虚拟角色更具生命力。
自然头部姿态
创新的头部姿态码本使得生成的头部运动自然流畅,避免了机械感或抖动问题。
多风格支持
VividTalk支持多种面部图像风格,包括:
– 写实人物风格
– 卡通风格
– 艺术绘画风格
多语言兼容
系统能够根据各种语言的音频信号生成对应的说话头视频,支持跨语言应用场景。
应用场景
数字人创作
为虚拟主播、数字人客服、虚拟助手等应用提供高保真面部动画生成能力。
影视制作
辅助电影、动画制作中的角色配音对口型工作,降低后期制作成本。
教育领域
为在线教育、语言学习等场景生成逼真的教师形象或虚拟讲师。
社交娱乐
支持用户上传照片和音频,生成个性化的虚拟形象视频用于社交媒体分享。
技术优势
相比传统方法,VividTalk在以下方面实现突破:
– 单次学习:仅需一张参考图像即可生成高质量视频
– 高视觉质量:生成视频在清晰度、真实感方面表现优异
– 身份保持:在生成过程中有效保留原始人物的面部特征和身份信息
– 开放源代码:项目代码已在GitHub上公开发布,支持学术界和工业界进一步研究应用
研究团队与开源
VividTalk由Xusen Sun、Longhao Zhang、Hao Zhu等多位学者共同研发,相关论文、演示视频和源代码均已公开发布,为AI虚拟人领域的研究和应用提供了重要基础工具。
相关导航


CREAO

豹剪app

LiveReacting

HitPaw

Captions
pixverse


