绑定手机号
获取验证码
确认绑定
提问
0/255
提问
订阅开课提醒需关注服务号
回答成功
知道了
扫码关注智猩猩服务号登录
请使用微信扫描二维码
扫描二维码分享给微信好友
您已订阅成功,有新课程,我们将第一时间提醒您。
知道了
发送提问成功
回答可在
“我的——我的提问”中查看
知道了
失败
欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
高效解耦的可控对话人脸生成
智猩猩AI新青年讲座 2024/12/30 19:00:00
课程讲师
谭帅 上海交通大学 计算机系在读博士

主要研究方向是数字人驱动/Talking head generation/face animation,共发表论文11篇,其中以第一作者身份发表CVPR/ICCV/ECCV/AAAI/MICCAI等会议共6篇。 

谭帅
上海交通大学 计算机系在读博士

主要研究方向是数字人驱动/Talking head generation/face animation,共发表论文11篇,其中以第一作者身份发表CVPR/ICCV/ECCV/AAAI/MICCAI等会议共6篇。 

课程提纲
  • 1、对话人脸生成技术当前存在的不足
  • 2、高效解耦用于可控对话人脸生成的框架EDTalk
  • 3、分解嘴型-姿势和表情的解耦策略
  • 4、用于生成音频驱动对话人脸的音频动作模块
  • 5、其他相关工作介绍
课程简介

如何让虚拟人物更加真实地传达情感,一直是AI数字人领域的研究重点。传统的说话头部动画技术虽然能够模拟人物的嘴型和基本表情,但在精细控制和情感表达上仍有局限。

为此,上海交通大学联合网易伏羲提出用于对话人脸生成的高效解耦框架EDTalk,现已开源。相关的论文成果收录于ECCV 2024并获得Oral。其中,上海交通大学计算机系在读博士谭帅为论文一作。

EDTalk能够实现对多种面部动作的分离控制,并适应不同的输入模式,提高对话人脸生成的应用性和娱乐性。它能确保面部特征的解耦空间独立操作,互不干扰;并保持与不同模态输入共享。EDTalk可以根据视频或音频输入,对嘴形、头部姿势和情感表达进行单独操作。具体来说,该框架采用三个轻量级模块将面部动态分解为三个不同的潜在空间,分别代表嘴型、姿势和表情。每个空间都有一组可学习的基,这些基的线性组合定义了特定的动作。

为了确保独立性并加快训练速,该团队强制执行了基数之间的正交性,并设计了一种高效的训练策略,在不依赖外部知识的情况下给每个空间赋予其特定的运动方向。随后将学习到的基存储在相应的库中,从而实现与音频输入共享视觉先验。此外,考虑到每个空间的特性,该团队提出了音频到动作模块,用于音频驱动的对话人脸合成。

12月30日晚7点,智猩猩邀请到论文一作、上海交通大学计算机系在读博士谭帅参与「智猩猩AI新青年讲座」第262讲,主讲《高效解耦的可控对话人脸生成》。

精彩问答
提问
提问
目前还没有问题,可以点击右侧的“提问按钮”提问
更多问题...