如何让虚拟(ni)人物(wu)更加(jia)真实地传(chuan)(chuan)达(da)情感,一(yi)直是AI数字人领域的研究(jiu)重点。传(chuan)(chuan)统的说话(hua)头部动画技术虽(sui)然能够模拟(ni)人物(wu)的嘴型和基本表情,但在精(jing)细控制和情感表达(da)上仍(reng)有(you)局限。

为此,上海交通大学联合网易伏羲提出用于对话人脸生成的高效解耦框架EDTalk,现已开源。相关的论文成果收录于ECCV 2024并获得Oral。其中,上(shang)海交通(tong)大学计算机系在读博士谭帅为论文一(yi)作。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告

EDTalk能够实现对(dui)(dui)多(duo)种面部动作(zuo)的(de)(de)分离控制,并(bing)适应(ying)不(bu)同的(de)(de)输(shu)入模(mo)式(shi),提高对(dui)(dui)话人脸生(sheng)成的(de)(de)应(ying)用性(xing)(xing)和娱乐(le)性(xing)(xing)。它能确保(bao)面部特(te)征的(de)(de)解(jie)耦空间独立操作(zuo),互不(bu)干扰;并(bing)保(bao)持与不(bu)同模(mo)态(tai)输(shu)入共(gong)享。EDTalk可以根据视频或音频输(shu)入,对(dui)(dui)嘴(zui)形、头部姿(zi)势(shi)和情感表达进行单(dan)独操作(zuo)。具体来说(shuo),该框架采(cai)用三个(ge)轻量级(ji)模(mo)块(kuai)将(jiang)面部动态(tai)分解(jie)为三个(ge)不(bu)同的(de)(de)潜在空间,分别代表嘴(zui)型、姿(zi)势(shi)和表情。每个(ge)空间都有一组(zu)可学习(xi)的(de)(de)基(ji),这些基(ji)的(de)(de)线(xian)性(xing)(xing)组(zu)合(he)定(ding)义(yi)了特(te)定(ding)的(de)(de)动作(zuo)。

为(wei)了(le)确(que)保独立性并加快(kuai)训(xun)练速,该(gai)团队(dui)强制执行了(le)基数之间(jian)的(de)(de)正交(jiao)性,并设计了(le)一(yi)种高效的(de)(de)训(xun)练策略,在(zai)不依赖外(wai)部知识的(de)(de)情况下给(ji)每(mei)个(ge)空(kong)间(jian)赋予(yu)其特定的(de)(de)运动(dong)(dong)方向。随后将(jiang)学习到(dao)的(de)(de)基存(cun)储在(zai)相应的(de)(de)库(ku)中,从而实现与音频(pin)输入(ru)共享(xiang)视觉先验。此(ci)外(wai),考虑(lv)到(dao)每(mei)个(ge)空(kong)间(jian)的(de)(de)特性,该(gai)团队(dui)提(ti)出了(le)音频(pin)到(dao)动(dong)(dong)作模块,用于(yu)音频(pin)驱动(dong)(dong)的(de)(de)对话人脸合(he)成。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告

12月30日晚7点,智猩猩邀请到论文一(yi)作、上海交通(tong)大(da)学计算机系在(zai)读(du)博士谭帅参与「智猩猩AI新青年讲座」第262讲,主讲《高效解(jie)耦(ou)的(de)可(ke)控对话人(ren)脸(lian)生成(cheng)》。

讲者

谭帅(shuai),上海(hai)交(jiao)通(tong)大学计(ji)算机系在读博(bo)士

主要研(yan)究(jiu)方(fang)向是数字人驱动/Talking head generation/face animation,共发表论文11篇(pian),其中以第一作者身份发表CVPR/ICCV/ECCV/AAAI/MICCAI等会议共6篇(pian)。

第 262 讲

主 题

《高效解耦(ou)的(de)可(ke)控对话人脸生成》

提 纲

1、对话人脸生成技术当前存在的不足
2、高效解耦用于可控对话人脸生成的框架EDTalk
3、分解嘴型-姿势和表情的解耦策略
4、用于生成音频驱动对话人脸的音频动作模块
5、其他(ta)相关(guan)工(gong)作介(jie)绍

直 播 信 息

直播时(shi)间:12月30日19:00

成果

论文成果1

标题:
《EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis》

链接:
//arxiv.org/abs/2403.06363

项目地址:
//tanshuai0219.github.io/EDTalk/

收录情况:ECCV 2024 Oral

论文成果2

标题:
《EMMN: Emotional Motion Memory Network for Audio-driven Emotional Talking Face Generation》

链接:
//ieeexplore.ieee.org/document/10378627

收录情况:ICCV 2023 (CCF-A)

论文成果3

标题:
《Say anything with any style》

链接:
//arxiv.org/abs/2403.06363

收(shou)录情况(kuang):AAAI 2024 (CCF-A)

论文成果4

标题:
《Style2talker: High-resolution talking head generation with emotion style and art style》

链接:
//arxiv.org/abs/2403.06365

收录情(qing)况:AAAI 2024 (CCF-A)

论文成果5

标题:
《FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization》

链接:
//arxiv.org/abs/2403.06363

收录情(qing)况(kuang):AAAI 2024 (CCF-A)

入群申请

有讲座直播观看需求的朋友,可以添加小助手“米娅”进行报名。已添加过“米娅”的老朋友,可以给“米娅”私信,发送“ANY262”进行报名(ming)。对于通过(guo)报名(ming)的朋友,之后将邀请入群进行观(guan)看和(he)交流。

ECCV 2024 Oral!上交大联合网易伏羲开源用于对话人脸生成的高效解耦框架EDTalk | 一作谭帅博士主讲预告