高效解耦的可控对话人脸生成
智猩猩AI新青年讲座 2024/12/30 19:00:00
课程讲师
课程提纲
- 1、对话人脸生成技术当前存在的不足
- 2、高效解耦用于可控对话人脸生成的框架EDTalk
- 3、分解嘴型-姿势和表情的解耦策略
- 4、用于生成音频驱动对话人脸的音频动作模块
- 5、其他相关工作介绍
课程简介
如何让虚拟人物更加真实地传达情感,一直是AI数字人领域的研究重点。传统的说话头部动画技术虽然能够模拟人物的嘴型和基本表情,但在精细控制和情感表达上仍有局限。
为此,上海交通大学联合网易伏羲提出用于对话人脸生成的高效解耦框架EDTalk,现已开源。相关的论文成果收录于ECCV 2024并获得Oral。其中,上海交通大学计算机系在读博士谭帅为论文一作。
EDTalk能够实现对多种面部动作的分离控制,并适应不同的输入模式,提高对话人脸生成的应用性和娱乐性。它能确保面部特征的解耦空间独立操作,互不干扰;并保持与不同模态输入共享。EDTalk可以根据视频或音频输入,对嘴形、头部姿势和情感表达进行单独操作。具体来说,该框架采用三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、姿势和表情。每个空间都有一组可学习的基,这些基的线性组合定义了特定的动作。
为了确保独立性并加快训练速,该团队强制执行了基数之间的正交性,并设计了一种高效的训练策略,在不依赖外部知识的情况下给每个空间赋予其特定的运动方向。随后将学习到的基存储在相应的库中,从而实现与音频输入共享视觉先验。此外,考虑到每个空间的特性,该团队提出了音频到动作模块,用于音频驱动的对话人脸合成。
12月30日晚7点,智猩猩邀请到论文一作、上海交通大学计算机系在读博士谭帅参与「智猩猩AI新青年讲座」第262讲,主讲《高效解耦的可控对话人脸生成》。
精彩问答
提问
提问