1(中国科学技术大学信息科学技术学院 合肥 230027);2(模式识别国家重点实验室(中国科学院自动化研究所) 北京 100080);3(中国科学院大学人工智能学院 北京 100049) (chenglong.wang@nlpr.ia.ac.cn)
出版日期:
2021-07-01基金资助:
国家重点研发计划项目(2017YFC0820602);国家自然科学基金项目(61831022,61901473,61771472,61773379);法国国家信息与自动化研究所与中国科学院联合科研项目(173211KYSB20190049)Global and Temporal-Frequency Attention Based Network in Audio Deepfake Detection
Wang Chenglong1,2, Yi Jiangyan2, Tao Jianhua2,3, Ma Haoxin2, Tian Zhengkun2, Fu Ruibo21(College of Information Science and Technology, University of Science and Technology, Hefei 230027);2(National Laboratory of Pattern Recognition (Institute of Automation, Chinese Academy of Sciences), Beijing 100080);3(School of Artifical Intellgence, University of Chinese Academy of Sciences, Beijing 100049)
Online:
2021-07-01Supported by:
This work was supported by the National Key Research and Development Program of China (2017YFC0820602), the National Natural Science Foundation of China (61831022, 61901473, 61771472, 61773379), and Inria-CAS Joint Research Project (173211KYSB20190049).摘要/Abstract
摘要: 语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局-时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩.
参考文献
相关文章 15
[1] | 谢娟英, 鲁银圆, 孔维轩, 许升全. 基于改进RetinaNet的自然环境中蝴蝶种类识别[J]. 计算机研究与发展, 2021, 58(8): 1686-1704. |
[2] | 刘凡, 王君锋, 陈峙宇, 许峰. 基于并行注意力UNet的裂缝检测方法[J]. 计算机研究与发展, 2021, 58(8): 1718-1726. |
[3] | 亓鹏,曹娟,盛强. 语义增强的多模态虚假新闻检测[J]. 计算机研究与发展, 2021, 58(7): 1456-1465. |
[4] | 廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538. |
[5] | 张世琨, 谢睿, 叶蔚, 陈龙. 基于关键词的代码自动摘要[J]. 计算机研究与发展, 2020, 57(9): 1987-2000. |
[6] | 李梦莹, 王晓东, 阮书岚, 张琨, 刘淇. 基于双路注意力机制的学生成绩预测模型[J]. 计算机研究与发展, 2020, 57(8): 1729-1740. |
[7] | 陈彦敏, 王皓, 马建辉, 杜东舫, 赵洪科. 基于层级注意力机制的互联网用户信用评估框架[J]. 计算机研究与发展, 2020, 57(8): 1755-1768. |
[8] | 李若南, 李金宝. 一种无源被动室内区域定位方法的研究[J]. 计算机研究与发展, 2020, 57(7): 1381-1392. |
[9] | 张艺璇, 郭斌, 刘佳琪, 欧阳逸, 於志文. 基于多级注意力机制网络的app流行度预测[J]. 计算机研究与发展, 2020, 57(5): 984-995. |
[10] | 张莹莹, 钱胜胜, 方全, 徐常胜. 基于多模态知识感知注意力机制的问答方法[J]. 计算机研究与发展, 2020, 57(5): 1037-1045. |
[11] | 程艳, 尧磊波, 张光河, 唐天伟, 项国雄, 陈豪迈, 冯悦, 蔡壮. 基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J]. 计算机研究与发展, 2020, 57(12): 2583-2595. |
[12] | 尉桢楷, 程梦, 周夏冰, 李志峰, 邹博伟, 洪宇, 姚建民. 基于类卷积交互式注意力机制的属性抽取研究[J]. 计算机研究与发展, 2020, 57(11): 2456-2466. |
[13] | 张志昌,张珍文,张治满. 基于IndRNN-Attention的用户意图分类[J]. 计算机研究与发展, 2019, 56(7): 1517-1524. |
[14] | 石乐义,朱红强,刘祎豪,刘佳. 基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测[J]. 计算机研究与发展, 2019, 56(11): 2330-2338. |
[15] | 孙小婉,王英,王鑫,孙玉东. 面向双注意力网络的特定方面情感分析模型[J]. 计算机研究与发展, 2019, 56(11): 2384-2395. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4457