文本无关说话人识别的一种多尺度特征提取方法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-03

陈志高^{1, 2},
李鹏³,
肖润秋^{1, 2},
黎塔¹,
王文超^1,,
1.中国科学院声学研究所语言声学与内容理解重点实验室北京 100190
2.中国科学院大学北京 100049
3.国家计算机网络应急技术处理协调中心北京 100029
基金项目:国家自然科学基金(11590772, 11590774, 11590770)

详细信息

作者简介:陈志高：男，1994年生，博士生，研究方向为说话人识别、语音信号处理、语种识别等
李鹏：男，1983年生，高级工程师，研究方向为网络与信息安全等
肖润秋：男，1995年生，博士生，研究方向为鲁棒说话人识别、语音信号处理等
黎塔：男，1983年生，研究员，研究方向为语音信号处理、大词汇自然口语语音识别、关键词识别等
王文超：男，1991年生，助理研究员，研究方向为语音信号处理、说话人识别、语种识别等

通讯作者:王文超　wangwenchao@hccl.ioa.ac.cn

中图分类号:TN912.34

计量

文章访问数:294
HTML全文浏览量:86
PDF下载量:49
被引次数:0

出版历程

收稿日期:2020-10-26
修回日期:2021-03-13
网络出版日期:2021-03-25
刊出日期:2021-11-23

A Multiscale Feature Extraction Method for Text-independent Speaker Recognition

Zhigao CHEN^{1, 2},
Peng LI³,
Runqiu XIAO^{1, 2},
Ta LI¹,
Wenchao WANG^1,,
1. Key Laboratory of Speech Acoustics and Content Understanding, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. National Computer Network Emergency Response Technical Team/ Coordination Center of China, Beijing 100029, China
Funds:The National Natural Science Foundation of China (11590772, 11590774, 11590770)

摘要
摘要:近些年来，多种基于卷积神经网络(CNNs)的模型结构表现出越来越强的多尺度特征表达能力，在说话人识别的各项任务中取得了持续的性能提升。然而，目前大多数方法只能利用更深更宽的网络结构来提升性能。该文引入一种更高效的多尺度说话人特征提取框架Res2Net，并对它的模块结构进行了改进。它以一种更细粒化的工作方式，获得多种感受野的组合，从而获得多种不同尺度组合的特征表达。实验表明，该方法在参数量几乎不变的情况下，等错误率(EER)相较ResNet有20%的下降，并且在VoxCeleb, SITW等多种不同录制环境和识别任务中都有稳定的性能提升，证明了该方法的高效性和鲁棒性。改进后的全连接模块结构能更充分利用训练信息，在数据充足和任务复杂时性能提升明显。具体代码可以在https://github.com/czg0326/Res2Net-Speaker-Recognition获得。
关键词:说话人识别/
多尺度特征/
鲁棒性/
高效性
Abstract:Recently in speaker recognition tasks, consistent performance gains have been continually achieved by various Convolutional Neural Networks (CNNs), which have shown increasingly stronger multiscale representation abilities. However, most existing methods enhance their strength with more layers and deeper structures. In this paper, a unique multiscale backbone architecture, Res2Net, is introduced for speaker recognition tasks, and its blocks are modified for assessment. This architecture works at a more granular level than most layer-wise networks. It improves the system by combining many equivalent receptive fields, resulting in a combination of different feature scales. The experiments results demonstrate that this architecture steadily achieves a 20% improvement on the Equal Error Rate (EER) over the baseline without additional computational burden. Its effectiveness and robustness are also verified in different environments and tasks, such as VoxCeleb and Speakers In The Wild (SITW). The modified full-connection block can make sure a more sufficient use of information and improves the performance obviously in more complex tasks. The code is available at https://github.com/czg0326/Res2Net-Speaker-Recognition.
Key words:Speaker recognition/
Multiscale features/
Robustness/
Efficiency

PDF全文下载地址:

https://jeit.ac.cn/article/exportPdf?id=d53333bf-d69a-412c-97a5-e32bbee5c226

相关话题/结构 北京 网络 声学 博士生

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
面向方面级情感分析的交互图注意力网络模型
韩虎1,2,吴渊航1,,,秦晓雅11.兰州交通大学电子与信息工程学院兰州7300702.甘肃省人工智能与图形图像工程研究中心兰州730070基金项目:国家自然科学基金(62166024)，国家社会科学基金(17BXW071)详细信息作者简介:韩虎：男，1977年生，教授，研究方向为神经网络与深度学习 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于V-结构&对数似然函数定向与禁忌爬山的贝叶斯网络结构算法
刘浩然1,2,,,王念太1,2,王毅1,2,张力悦1,2,苏昭玉1,2,刘文3,赵旭丹31.燕山大学信息科学与工程学院秦皇岛0660042.河北省特种光纤与光纤传感重点实验室秦皇岛0660043.北京市机电研究院北京100027基金项目:国家重点研发计划(2019YFB1707301)，河北省人才工 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于自组织增量-图卷积神经网络的金相图半监督学习
李维刚,,谌竟成,谢璐,赵云涛武汉科技大学冶金自动化与检测技术教育部工程研究中心武汉430081基金项目:国家自然科学基金(51774219)详细信息作者简介:李维刚：1977年生，教授，博士生导师，研究方向为人工智能与机器学习算法谌竟成：1997年生，硕士生，研究方向为图像处理谢璐：1996年生， ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于互信息自编码和变分路由的胶囊网络结构优化
鲍静益1,徐宁2,,,尚蕴浩2,楚昕21.常州工学院常州2130322.河海大学常州校区常州213022基金项目:国家自然科学基金(61872199)，中央高校基本业务费(B210202083)详细信息作者简介:鲍静益：女，1984年生，讲师，研究方向为模式识别与现代信号处理徐宁：男，1981年生， ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于代价敏感结构化SVM的目标跟踪
袁广林,,孙子文,秦晓燕,夏良,朱虹中国人民解放军陆军炮兵防空兵学院信息工程系合肥230031基金项目:安徽省自然科学基金(2008085QF325)详细信息作者简介:袁广林：男，1973年生，博士，副教授，主要研究方向为图像处理、计算机视觉、机器学习及其应用等孙子文：男，1996年生，硕士生，研究 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
角度优化网络的印章文字检测与识别算法
肖进胜1,赵陶1,熊闻心1,杨天1,姚渭箐2,,1.武汉大学电子信息学院武汉4300722.国网湖北省电力有限公司信息通信公司武汉430077基金项目:国家自然科学基金(61471272)，国网湖北省电力有限公司2019年科技项目(52153318004G)详细信息作者简介:肖进胜：男，1975年生 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
局部有源忆阻器电路及其在HR耦合神经元网络中的应用
孙亮1,,,罗佳1,乔印虎21.池州职业技术学院机电与汽车系池州2470002.安徽科技学院机械工程学院凤阳233100基金项目:安徽省自然科学研究重点项目(KJ2017A728,KJ2019A1138)，安徽省教学研究一般项目(2016jyxm0714)详细信息作者简介:孙亮：男，1983年生，副 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
能量收集认知多跳中继网络中断性能分析及优化
罗轶1,孔静恬1,董健2,,,佘青青1,黄慧3,黄正宇11.湖南师范大学智能计算与语音信息处理湖南省重点实验室长沙4100812.中南大学计算机学院长沙4100753.华南理工大学电子与信息学院广州510641基金项目:国家自然科学基金(61971450)，湖南省科技计划项目(2018TP1018) ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于深度卷积神经网络的协作频谱感知方法
盖建新,,薛宪峰,吴静谊,南瑞祥哈尔滨理工大学测控技术与仪器黑龙江省高校重点实验室哈尔滨150080基金项目:国家自然科学基金(61501150)，黑龙江省自然科学基金(QC2014C074)，黑龙江省省属本科高校基本科研业务费科研项目(2018-KYYWF-1656)详细信息作者简介:盖建新：男， ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03
基于行为延迟共享网络的个性化商品推荐方法
张红霞,,董燕辉,肖军弼,杨勇进中国石油大学(华东)计算机科学与技术学院青岛266580基金项目:国家重点研发计划(2018YFC1406204)，国家自然科学基金(61872385)，中央高校基本科研业务费专项资金(18CX02140A)详细信息作者简介:张红霞：女，1981年生，博士，副教授，研 ...
中科院空天信息创新研究院本站小编 Free考研考试 2022-01-03