1(College of Command Information System, The Army Engineering University of PLA, Nanjing 210007); 2(Flight Training Base, Air Force Aviation University, Fuxin, Liaoning 123100); 3(Institute of Information Science and Engineering, Yanshan University, Qinhuangdao, Hebei 066004); 4(Institute of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang 050018); 5(College of Information and Communication, National University of Defense Technology, Xi’an 710106)
出版日期:
2018-11-01基金资助:
国家自然科学基金项目(61402519,61471394);江苏省自然科学基金项目(BK20140071,BK20140074);陕西省自然科学基金项目(2017JQ6033)Deep Neural Network Based Monaural Speech Enhancement with Sparse Non-Negative Matrix Factorization
Shi Wenhua1,2, Ni Yongjing3,4, Zhang Xiongwei1, Zou Xia1, Sun Meng1, Min Gang51(陆军工程大学指挥信息系统学院 南京 210007); 2(空军航空大学飞行训练基地 辽宁阜新 123100); 3(燕山大学信息科学与工程学院 河北秦皇岛 066004); 4(河北科技大学信息科学与工程学院 石家庄 050018); 5(国防科技大学信息通信学院 西安 710106) (whshi0919@163.com)
Online:
2018-11-01摘要/Abstract
摘要: 针对基于非负矩阵分解(non-negative matrix factorization, NMF)的语音增强方法在低信噪比部分和无结构特征的清音部分会引入失真这一问题,利用语音信号在时频域呈现的稀疏特性和深度神经网络在语音增强应用中表现出的谱重构特性,提出了一种联合稀疏非负矩阵分解和深度神经网络的单通道语音增强方法.首先对带噪语音的幅度谱进行非负矩阵分解得到与语音字典和噪声字典相对应的稀疏编码矩阵,其中语音字典和噪声字典通过对纯净语音和噪声进行训练预先得到,以维纳滤波方法恢复出语音成分的主要结构;然后利用深度神经网络在语音增强中表现出的时频保持特性,通过深层网络学习经维纳滤波分离出的语音的对数幅度谱和理想纯净语音对数幅度谱之间的非线性映射函数,进而恢复出语音结构的缺失成分.实验结果表明:所提方法可以有效抑制噪声且较好地恢复出语音成分,在语音感知质量和对数谱失真性能评价指标上均优于基线方法.
参考文献
相关文章 15
[1] | 蓝天, 彭川, 李森, 叶文政, 李萌, 惠国强, 吕忆蓝, 钱宇欣, 刘峤. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. |
[2] | 孙胜, 李叙晶, 刘敏, 杨博, 过晓冰. 面向异构IoT设备协作的DNN推断加速研究[J]. 计算机研究与发展, 2020, 57(4): 709-722. |
[3] | 马陈城, 杜学绘, 曹利峰, 吴蓓. 基于深度神经网络burst特征分析的网站指纹攻击方法[J]. 计算机研究与发展, 2020, 57(4): 746-766. |
[4] | 刘金硕, 冯阔, Jeff Z. Pan, 邓娟, 王丽娜. MSRD: 多模态网络谣言检测方法[J]. 计算机研究与发展, 2020, 57(11): 2328-2336. |
[5] | 赵洪科,吴李康,李徵,张兮,刘淇,陈恩红. 基于深度神经网络结构的互联网金融市场动态预测[J]. 计算机研究与发展, 2019, 56(8): 1621-1631. |
[6] | 王瑞琴,吴宗大,蒋云良,楼俊钢. 一种基于两阶段深度学习的集成推荐模型[J]. 计算机研究与发展, 2019, 56(8): 1661-1669. |
[7] | 张龙,王劲松. SDN中基于信息熵与DNN的DDoS攻击检测模型[J]. 计算机研究与发展, 2019, 56(5): 909-918. |
[8] | 武铮,安虹,金旭,迟孟贤,吕国锋,文可,周鑫. 基于Intel平台的Winograd快速卷积算法研究与优化[J]. 计算机研究与发展, 2019, 56(4): 825-835. |
[9] | 龚卫华,金蓉,裴小兵,梅建萍. LBSN中基于社区联合聚类的协同推荐方法[J]. 计算机研究与发展, 2019, 56(11): 2506-2517. |
[10] | 纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃. 深度神经网络压缩与加速综述[J]. 计算机研究与发展, 2018, 55(9): 1871-1888. |
[11] | 田泽,杨明,李爱师. 稀疏约束下快速低秩共享的字典学习方法及其人脸识别[J]. 计算机研究与发展, 2018, 55(8): 1760-1772. |
[12] | 周彧聪,刘轶,王锐. 互补学习:一种面向图像应用和噪声标注的深度神经网络训练方法[J]. 计算机研究与发展, 2017, 54(12): 2649-2659. |
[13] | 余国先,王可尧,傅广垣,王峻,曾安. 基于多网络数据协同矩阵分解预测蛋白质功能[J]. 计算机研究与发展, 2017, 54(12): 2660-2673. |
[14] | 杨帅锋,赵瑞珍. 基于低秩矩阵和字典学习的图像超分辨率重建[J]. 计算机研究与发展, 2016, 53(4): 884-891. |
[15] | 申国伟,杨武,王巍,于淼,董国忠. 基于非负矩阵分解的大规模异构数据联合聚类[J]. 计算机研究与发展, 2016, 53(2): 459-466. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3810