清华新闻网11月26日电 近日,清华大学交叉信息研究院赵行研究组(MARS Lab)联合字节跳动首次提出了神经网络配音器(Neural Dubber)。影视配音是一项技术含量很高的专业技能,专业配音演员的声音演绎往往令人印象深刻。现在,人工智能(AI)也能够自动实现这种能力。这项研究能让AI根据配音脚本自动生成与画面节奏同步的高质量配音,有望让影视后期制作效率倍增。
配音(Dubbing)广泛用于电影和视频的后期制作,具体指的是在安静的环境(即录音室)中重新录制演员对话的后期制作过程。配音常见于两大应用场景:一是替换拍摄时录制的对话,如拍摄场景下录制的语音音质不佳,又或者出于某种原因演员只是对了口型,声音需要事后配上;二是对译制片配音,例如,为了便于中国观众欣赏,将其他语言的视频翻译并配音为中文。
图1:自动视频配音(AVD)任务示意图
此项研究主要关注第一个应用场景,即“自动对话替换(ADR)”。在这一场景下,专业的配音演员观看预先录制的视频中的表演,并用适当的韵律(例如重音、语调和节奏)重新录制每一句台词,使他们的讲话与预先录制的视频同步。为了实现上述目标,该研究团队定义了一个新的任务,自动视频配音(Automatic Video Dubbing, AVD), 从给定文本和给定视频中合成与该视频时序上同步的语音。此前,行业内的很多研究是根据给定语音生成与之同步的说话人的面部视频(Talking Face Generation)。而AVD任务正好相反,是用于生成与视频同步的语音,更加适用于真实的应用场景,因为影视作品拍摄的视频往往质量很高,并不希望再对其进行修改。
图 2:神经网络配音器(Neural Dubber)模型结构
该研究团队提出的神经网络配音器(Neural Dubber)旨在解决自动视频配音(AVD)任务。这是第一个解决AVD任务的神经网络模型:能够从文本中端到端地并行合成与给定视频同步的高质量语音。Neural Dubber是一种多模态文本到语音 (TTS) 模型,它利用视频中的嘴部运动来控制生成语音的韵律,以达到语音和视频同步的目的。此外,该工作还针对多说话人场景开发了基于图像的说话人嵌入(ISE)模块,该模块使神经网络配音器能够根据说话人的面部生成具有合理音色的语音。
神经网络配音器(Neural Dubber)将AVD任务具体建模成如下形式:给定音素序列和视频帧序列,模型需要预测与视频同步的梅尔频谱序列。神经网络配音器(Neural Dubber)的整体模型结构如图2所示。在单说话人数据集(Chemistry Lectures)和多说话人数据集(LRS2)上的实验表明,神经网络配音器(Neural Dubber)可以生成与SOTA的语音合成模型在音质方面相当的语音。最重要的是,定性和定量评估都表明,神经网络配音器可以通过视频控制合成语音的韵律,并生成与视频同步的高质量语音。
该成果的研究论文“神经网络配音器:根据文本为视频配音”(Neural Dubber: Dubbing for Videos According to Scripts)已被机器学习和计算神经科学领域顶级学术会议NeurIPS 2021接受。该论文的第一作者为交叉信息研究院2021级博士生胡晨旭,通讯作者为赵行助理教授。其他作者包括字节跳动的田乔、王玉平、王雨轩博士以及上海期智研究院研究助理黎庭乐。
论文链接:
https://arxiv.org/abs/2110.08243
项目主页:
https://tsinghua-mars-lab.github.io/NeuralDubber/
供稿:交叉信息研究院
标题图设计:梁晨
编辑:温兴煜
审核:吕婷
2021年11月26日 08:26:38
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
交叉信息研究院赵行课题组提出神经网络配音器模型 有望使影视后期制作效率倍增
本站小编 Free考研考试/2021-12-20
相关话题/论文 信息 序列 结构 人数
深圳国际研究生院师生多篇论文被第29届ACM国际多媒体会议接收
清华新闻网11月23日电近日,清华大学深圳国际研究生院信息科学与技术学部师生团队的八篇学术论文被第29届ACM国际多媒体会议(Proceedingsofthe29thACMInternationalConferenceonMultimedia,ACMMM2021)接收。图1:DASE网络先结合模态信 ...清华大学通知公告 本站小编 Free考研考试 2021-12-20生命学院张强锋课题组开发RNA结构测序数据缺失信号恢复的人工智能方法
清华新闻网11月22日电RNA结构是RNA发挥功能的基础。传统解析RNA结构的方法包括X射线、核磁共振和冷冻电子显微镜。这些方法无法做到高通量,更不能解析出细胞内高度动态的RNA结构。近年来,研究者们开发出了许多细胞内高通量探测RNA结构的技术,极大推动了RNA结构和功能的研究。但是这些技术探测到的 ...清华大学通知公告 本站小编 Free考研考试 2021-12-20清华大学主办第十六届量子信息处理国际会议
清华大学交叉信息院主办第十六届量子信息处理国际会议 清华新闻网1月23日电(通讯员吕厦敏)1月21日上午,第十六届量子信息处理国际会议(QuantumInformationProcessing2013,QIP2013)在清华大学召开。来自中国、美国、瑞士等多国的300余位****参加此次为期5天的 ...清华大学通知公告 本站小编 Free考研考试 2021-12-20计算机系师生在多媒体建模国际会议上获最佳论文奖
计算机系师生在多媒体建模国际会议上获最佳论文奖 清华新闻网3月1日电日前,在中国黄山举办的第19届多媒体建模(MultimediaModeling)国际会议上,清华大学计算机系博士生刘少伟与教师崔鹏、朱文武、杨士强联合发表的论文《社会-视觉信息感知的图像搜索排序》(SocialVisualImag ...清华大学通知公告 本站小编 Free考研考试 2021-12-20交叉信息研究院高阳课题组在强化学习领域取得新突破
清华新闻网11月15日电近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari)游戏数据上超过同等游戏时长的人类平均水平。EfficientZero的高效率学习能力为强化学习算法应用到现实世界场景提供了更大可能。Effic ...清华大学通知公告 本站小编 Free考研考试 2021-12-20深圳国际研究生院多篇论文被2021年国际医学图像计算与计算机辅助介入大会录用
清华新闻网11月2日电近日,跨医学影像计算(MIC)和计算机辅助介入(CAI)两个领域的综合性国际顶级学术会议——2021年国际医学图像计算与计算机辅助介入大会(InternationalConferenceonMedicalImageComputingandComputerAssistedInte ...清华大学通知公告 本站小编 Free考研考试 2021-12-20深圳国际研究生院多篇论文被2021国际计算机视觉与模式识别大会接收
清华新闻网10月26日电近日,深圳国际研究生院信息科学与技术学部未来媒体实验室和智能计算实验室三篇论文被国际计算机视觉与模式识别大会(IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR))2021接收。2019级控制工程专业硕士生 ...清华大学通知公告 本站小编 Free考研考试 2021-12-20清华计算机系师生论文在人机交互顶级国际会议获奖
清华计算机系师生论文在人机交互领域顶级国际会议获荣誉论文奖清华新闻网5月17日电日前,在法国巴黎举办的人机交互领域顶级国际会议ACMConferenceonHumanFactorsinComputingSystems(CHI2013)上,由清华大学计算机系教授史元春指导的 ...清华大学通知公告 本站小编 Free考研考试 2021-12-20自动化系教师获中国控制与决策会议最佳青年论文奖
清华自动化系教师获第25届中国控制与决策会议张嗣瀛最佳青年论文奖清华新闻网6月5日电5月25至27日,在中国贵阳举办的第25届中国控制与决策年会(CCDC)上,清华大学自动化系教师王薇(第一作者)与新加坡南洋理工大学博士生黄江帅共同撰写的论文《GloballyAdapti ...清华大学通知公告 本站小编 Free考研考试 2021-12-20自动化系博士毕业生胡瀚荣获2021年计算机视觉国际大会最佳论文奖
清华新闻网10月25日电近日,计算机视觉领域顶级国际会议2021年计算机视觉国际大会(ICCV2021)召开,自动化系博士毕业生、微软亚洲研究院主任研究员胡瀚作为唯一通讯作者和共同第一作者的论文《基于移动窗口的层次化视觉自注意力模型》(SwinTransformer:HierarchicalVisi ...清华大学通知公告 本站小编 Free考研考试 2021-12-20