
太原理工大学 信息工程学院, 太原 030024
收稿日期:2017-09-30
基金项目:国家自然科学基金资助项目(61371193);国家级大学生创新创业训练项目(201610112007)
作者简介:张雪英(1964-), 女, 教授。E-mail:zhangxy@tyut.edu.cn
摘要:基于深度神经网络(deep neural network,DNN)的语音活动性检测(voice activity detection,VAD)忽略了声学特征在时间上的相关性,在带噪环境下性能会明显下降。该文提出了一种基于深度神经网络和长短时记忆单元(long-short term memory,LSTM)的混合网络结构应用于VAD问题。进一步对语音帧的动态信息加以分析利用,同时结合DNN-LSTM结构使用一种基于上下文信息的代价函数用于网络训练。实验语料基于TIDIGITS语音库,使用Noisex-92噪声库加噪。实验结果表明:在不同噪声环境下基于DNN-LSTM的VAD方法比基于DNN的VAD方法性能更好,新的代价函数比传统的代价函数更适用于该文提出的算法。
关键词:语音活动性检测(VAD)深度神经网络(DNN)长短时记忆单元(LSTM)
DNN-LSTM based VAD algorithm
ZHANG Xueying

College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China
Abstract: Voice activity detection (VAD) algorithms based on deep neural networks (DNN) ignore the temporal correlation of the acoustic features between speech frames which significantly reduces the performance in noisy environments. This paper presents a hybrid deep neural network with long-short term memory (LSTM) for VAD analyses which utilizes dynamic information from the speech frames. A context information based cost function is used to train the DNN-LSTM network. The noisy speech corpus used here was based on TIDIGITS and Noisex-92. The results show that the DNN-LSTM based VAD algorithm has better recognition accuracy than DNN-based VAD algorithms in noisy environment which shows that this cost function is more suitable than the traditional cost function.
Key words: voice activity detectiondeep neural networklong-short term memory
语音活动性检测(voice activity detection,VAD)是关于如何将语音在有背景噪声存在的情况下正确分出语音段与非语音段的问题。VAD在自动语音识别、语音增强、说话人识别等语音信号处理系统中是重要的预处理步骤。VAD的主要困难表现为现实情况下语音信号信噪比较低,不能较好地区分语音段和非语音段。
VAD主要包括2个方面:特征参数与判决算法。早期VAD有基于过零率特征[1]、基于能量特征[2]、基于Laplace统计模型[3]和基于支持向量机[4]等方法。近些年来,深度学习开始应用于VAD,基于深度神经网络(deep neural network,DNN)[5]的VAD方法显示出比传统方法的优越性。一方面,相比基于支持向量机的VAD模型,DNN具有更强的非线性变换能力,更适用于语音/非语音的分类问题;另一方面,DNN具有对声学特征再学习的能力,可以充分挖掘数据中的潜在信息,避免了专门设计VAD特征。然而当噪声的频谱特点与语音相似时,其性能也会显著下降。
实际上,一方面需要对每个语音帧的帧内信息进行判决;另一方面由于语音帧之间有很强的相关性,相邻帧的信息对当前帧的影响也应该被关注。最新研究表明,基于长时信号变化率参数[6]、长时Mel频谱特征[7]的VAD方法在带噪情形下有很好的鲁棒性,因为每帧长时特征的计算都综合了之前多帧的信息。
结合DNN与长时特征参数的特点,本文研究一种具有DNN特征变换能力,并且可以对输入信息随时间动态变化规律进行学习,将过去语音帧的判决信息作用于当前帧判决的算法。受循环神经网络(recurrent neural network,RNN)与长短时记忆单元(long-short term memory,LSTM)在自然语言处理、语音识别领域成功运用的启发[8-9],本文研究一种基于DNN-LSTM混合神经网络的VAD算法。它结合了DNN善于对数据进行非线性变换与LSTM善于对时间序列分析的能力。针对DNN-LSTM结构,本文使用一种基于上下文信息的代价函数用于DNN-LSTM网络训练。
1 基于DNN的VAD算法1.1 DNN-VAD标准DNN具有k个隐层,每个隐层具有n个神经元。每个隐层中神经元的输出通过一个激活函数σ得到。一个标准DNN具有L层网络模型的方程如下所示:
$\mathit{\boldsymbol{y}} = {\mathit{\boldsymbol{h}}_0}\left( {{\mathit{\boldsymbol{h}}_L}\left( { \cdots {\mathit{\boldsymbol{h}}_1}\left( { \cdots {\mathit{\boldsymbol{h}}_2}\left( {{\mathit{\boldsymbol{h}}_1}\left( {{\mathit{\boldsymbol{x}}_0}} \right)} \right)} \right)} \right)} \right),$ | (1) |
${\mathit{\boldsymbol{h}}_l} = \sigma \left( {{\mathit{\boldsymbol{w}}_l}{\mathit{\boldsymbol{h}}_{l - 1}} + {\mathit{\boldsymbol{b}}_l}} \right).$ | (2) |
文[5]提出的DNN-VAD结构中,最后一层使用softmax函数计算语音/非语音的后验概率:
$P\left( {{C_k}\left| \mathit{\boldsymbol{x}} \right.} \right) = \exp \left( {{\mathit{\boldsymbol{h}}_{Lk}}} \right)/{\Sigma _K}\exp \left( {{\mathit{\boldsymbol{h}}_{Lk}}} \right).$ | (3) |
1.2 BDNN-VAD文[10]提出一种基于BDNN的VAD算法,它考虑到了相邻帧信息与当前帧VAD判决的联系。给定一数据集{(xk, yk)}kN,这里N是语音帧总数,xk∈Rd是d维语音特征向量,yk∈(0,1)表示当前帧为语音帧或非语音帧。采用一个宽度W的窗将当前帧与相邻帧的特征向量连接起来,对应的判决标记也合并成一个长向量用于网络训练。因此,网络的输入为x0∈RW×d,网络最后一层输出yL∈RW被解释为对应W帧的语音/非语音概率。最后,判决概率
$\begin{array}{*{20}{c}}{{{\hat y}_L} = \frac{{\sum\limits_{W = - \left( {W - 1} \right)/2}^{\left( {W + 1} \right)/2} {y_L^W} }}{W},}\\{{{\bar y}_L} = \left\{ \begin{array}{l}1,\;\;\;{\rm{if}}\;{{\hat y}_L} \ge \eta ;\\0,\;\;\;{\rm{otherwise}}{\rm{.}}\end{array} \right.}\end{array}$ | (4) |
$\mathit{\boldsymbol{g}}_t^I = \sigma \left( {\mathit{\boldsymbol{w}}_t^I\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^I{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^I{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$ | (5) |
$\mathit{\boldsymbol{g}}_t^F = \sigma \left( {\mathit{\boldsymbol{w}}_t^F\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^F{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^F{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$ | (6) |
$\mathit{\boldsymbol{g}}_t^C = f\left( {\mathit{\boldsymbol{w}}_l^C\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^C{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^C{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$ | (7) |
${\mathit{\boldsymbol{s}}^t} = \mathit{\boldsymbol{g}}_t^F \cdot {\mathit{\boldsymbol{s}}^{t - 1}} + \mathit{\boldsymbol{g}}_t^I \cdot \mathit{\boldsymbol{g}}_t^C,$ | (8) |
$\mathit{\boldsymbol{g}}_t^O = \sigma \left( {\mathit{\boldsymbol{w}}_l^O\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^O{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^O{\mathit{\boldsymbol{s}}^t}} \right),$ | (9) |
${\mathit{\boldsymbol{h}}^{t - 1}} = \mathit{\boldsymbol{g}}_t^O \cdot \tanh \left( {{\mathit{\boldsymbol{s}}^t}} \right).$ | (10) |
![]() |
图 1 LSTM模型 |
图选项 |
LSTM单元包括记忆单元C和输入门I、输出门O、遗忘门F。其中:x表示LSTM网络的输入; g表示各个门的输出,h表示LSTM网络的输出; wl、wh分别表示输入权重矩阵和循环权重矩阵,wc作为记忆单元与门的连接矩阵,这被称为窥视孔(peephole)技术;f、σ为不同门使用的激活函数,σ一般为sigmoid函数。
2.2 DNN-LSTM VAD考虑到LSTM擅长序列结构分析,DNN擅长特征提取与变换,将低层声学特征信息映射为更适于VAD检测的特征信息。针对VAD问题,本文提出了DNN-LSTM结构。
不同于基于DNN的VAD模型,本文将语音逐帧提取的特征向量与标注看作长度为N的时间序列数据集{(xt, yt)}tN,这里N是语音帧总帧数,xt∈Rd是d维语音特征向量,yt∈(0,1)表示当前帧为语音帧或非语音帧。
由于LSTM是在时间上进行展开,是对一定时间长度的序列进行分析, 因此对网络输入的特征数据做如下处理:采用与语音的分帧操作类似的形式,假设LSTM时间分析长度为T=2k+1,对特征数据集每次按固定的时间窗T进行抽取,时间窗按步长u (1≤u≤T)移动。例如t时刻输入的特征序列[xt]1T以及对应的标记[yt]1T可表达为
$\begin{array}{*{20}{c}}{\left[ {{\mathit{\boldsymbol{x}}_t}} \right]_1^T = \left\{ {{\mathit{\boldsymbol{x}}_{t - k}}, \cdots ,{\mathit{\boldsymbol{x}}_t}, \cdots ,{\mathit{\boldsymbol{x}}_{t + k}}} \right\},}\\{\left[ {{\mathit{\boldsymbol{y}}_t}} \right]_1^T = \left\{ {{y_{t - k}}, \cdots ,{y_t}, \cdots ,{y_{t + k}}} \right\},}\\{\left( {t = {t_0} + n \times u,n = 1,2, \cdots } \right).}\end{array}$ | (11) |
![]() |
图 2 DNN-LSTM模型 |
图选项 |
特别指出,网络每个时刻的输入是Xtwin将当前帧与前后相邻几帧的特征参数连接起来,如下所示:
$x_t^{{\rm{win}}} = {\mathit{\boldsymbol{x}}_{t - {k_1}}} \oplus \cdots \oplus {\mathit{\boldsymbol{x}}_{t - {k_2}}}.$ | (12) |
3 基于上下文信息的DNN-LSTM网络训练本节将对优化算法的不同代价函数进行介绍。考虑到LSTM对序列信息进行分析的能力和按时间展开的结构,本文使用一种基于上下文信息的代价函数用于DNN-LSTM的训练。
3.1 基于交叉熵和均方误差的代价函数对DNN-LSTM每个时刻的输出,传统方式使用softmax函数进行判决概率计算,采用交叉熵(cross-entropy)形式的代价函数计算判决代价。对t时刻的输出计算代价函数并将函数值从t=1~T时刻进行累加,函数表达式如式(13)所示。在一些情形下神经网络完成的是输入向量与目标向量的映射,希望最后一层神经元的输出值与人为设定的目标值越接近越好,这时采用均方误差(mean square error)的形式计算每一时刻输出概率与标记的目标值误差的平方,同样在t=1~T时刻进行累加,代价函数的表达式如式(14)所示。
$L\left( {{\mathit{\boldsymbol{x}}_t},{\mathit{\boldsymbol{z}}_t}} \right) = - \sum\limits_{k = 1}^K {{\mathit{\boldsymbol{z}}_k}\ln {y_t}} ,$ | (13) |
$L\left( {{\mathit{\boldsymbol{x}}_t},{\mathit{\boldsymbol{z}}_t}} \right) = - \sum\limits_{k = 1}^K {{{\left( {\mathit{\boldsymbol{y}}_t^k - \mathit{\boldsymbol{z}}_t^k} \right)}^2}} .$ | (14) |
本文将T个时刻网络的输出也看作一段时间序列,进行基于序列的代价函数设计。对一时间序列[x]1T,神经网络(网络参数集为θ)经过softmax层后输出的序列为[z]1T=fθ([x]1T),对应的标记序列为[y]1T。类似于文[13]提出的方法,对T个时刻经过softmax层输出的序列按以下方式进行打分:
$S\left( {\left[ \mathit{\boldsymbol{x}} \right]_1^T,\left[ y \right]_1^T,\theta } \right) = \sum\limits_{t = 1}^T {{A_{{y^{\left( {t - 1} \right)}}{y^{\left( t \right)}}}} + z_{{y^{\left( t \right)}}}^{\left( t \right)}} .$ | (15) |
对S采用与交叉熵相同的方式计算代价,转移矩阵A和网络参数集θ通过网络训练进行优化。最后,采用Viterbi算法根据以下准则寻找最优标记序列:
$\left[ {\hat y} \right]_1^T = \arg \max \left[ \mathit{\boldsymbol{j}} \right]_1^Ts\left( {\left[ \mathit{\boldsymbol{x}} \right]_1^T,\left[ \mathit{\boldsymbol{j}} \right]_1^T,\theta } \right).$ | (16) |
![]() |
图 3 DNN-LSTM+模型 |
图选项 |
3.3 优化方式在本文中DNN层、LSTM层分别通过反向传导(backward propagation)和沿时反向传导(backward propagation through time)算法进行梯度计算。网络参数更新使用批量训练(minibatch)与自适应梯度调整(adagrad)[14]结合。
Dropout[15]是目前防止神经网络过拟合的有效方法,因此,在DNN-LSTM网络训练阶段除了输出层之外都使用Dropout技术。
4 实验4.1 数据集本文使用TIDIGITS数据库提供的纯净语音进行模型验证,纯音通过Noisex-92噪声库中的噪声进行加噪得到带噪语音。由于Noisex-92噪声的采样频率为8 kHz,TIDIGITS的语音采样频率为20 kHz,因此本文将TIDIGITS的语音采样频率先降到8 kHz,保证语音与噪声采样频率相同。本文只使用了TIDIGITS语料库中的成年男性与成年女性数据,数据集被分为训练集与测试集,本次实验从训练语料集中随机选取了800段发声作为训练数据集,100段发声作为验证数据集;同样地,从测试语料集中随机选取了800段发声作为测试数据集。实验选用了Noisex-92噪声库中的“factory”、“babble”、“white”,分别在0、5、10和15 dB 4种信噪比下加噪,最后得到了12组数据集,加噪方式使用与Aurora-2[16]带噪语音库相同的工具箱。本次实验所有的纯音均进行手工标注,不同信噪比以及不同背景噪声的语音使用与对应纯音相同的标记。
由于每个发声段持续时间较短,本文将每20段语音连接在一起去模拟实际VAD检测的应用情形。最后,每段合并语音的长度在10~20 s。对所有语音,其中非语音段占比52.4%,语音段占比47.6%。
在本文中,加噪语料的采样频率为8 kHz,帧长设置为25 ms,帧移为10 ms,即每帧包含200个采样点。对于每个语音帧,如果属于语音段标记的点数大于属于非语音段,该帧就标记为语音帧,反之标记为非语音帧。由于同时包含语音与非语音段采样点的帧数占总帧数的比例很小,因此这种方式不会对时间结果产生影响。
4.2 语音特征VAD通常作为语音识别系统的前端,因此本文使用了目前语音识别系统中主流的gammatone频率倒谱系数(gammatone frequency cepstrum coefficients,GFCC)[15]。根据文[17]中GFCC的计算步骤,首先使用gammtone滤波器得到64维的cochleagram,接着对cochleagram进行离散余弦变换,由于40维之后的离散余弦变换系数已经很小,因此本文只取前40维构成GFCC参数。
4.3 参数设置1) 网络结构参数。
DNN-LSTM网络输入是120维GFCC参数,它是当前帧与前后相邻两帧合并的结果。DNN层一共有4层,神经元数目依次为150、100、80、60,每层都采用漏整流线性单元(leaky rectified linear units)[18]作为激活函数。LSTM层神经元数为30,采用tanh作为输出与记忆单元的激活函数。输出层为2个神经元的softmax层。网络时间展开长度T=20。
DNN-LSTM+网络结构参数与DNN-LSTM网络完全相同,代价计算使用基于上下文信息的代价函数。
2) 训练参数。
本实验中,minibatch设置为1 000个样本,即1 000组长度为20的语音特征向量序列。自适应学习率初始化为0.05,dropout概率为0.2,最大迭代次数为1 000。
3) 对比实验设置。
为了验证提出的VAD方法的有效性,将DNN-VAD、BDNN-VAD、LSTM-VAD作为对比实验。考虑到网络规模不同引起的性能差异与计算复杂度的变化,不同网络的连接权重W与偏置b的总数大致相同。
4.4 实验结果1) DNN-LSTM结构优势分析。
表 1对3种VAD方法在不同噪声以及信噪比下的准确率进行了对比。
表 1 3种VAD方法在不同噪声条件下的对比
噪声 | |||||
Babble | 0 | 75.91 | 81.43 | 83.29 | 86.09 |
5 | 77.53 | 84.23 | 86.11 | 88.36 | |
10 | 79.76 | 85.51 | 87.06 | 89.60 | |
15 | 80.22 | 86.06 | 87.39 | 89.82 | |
Factory | 0 | 76.60 | 81.91 | 83.63 | 85.58 |
5 | 79.01 | 84.16 | 85.48 | 88.13 | |
10 | 80.61 | 85.79 | 87.93 | 89.62 | |
15 | 81.21 | 86.96 | 88.91 | 91.70 | |
White | 0 | 77.20 | 82.23 | 85.78 | 86.94 |
5 | 79.68 | 84.88 | 87.60 | 88.83 | |
10 | 80.36 | 86.70 | 89.16 | 91.41 | |
15 | 81.19 | 87.77 | 89.84 | 92.81 |
表选项
随着信噪比降低,在不同噪声环境下,3种方法的性能都有不同程度的下降,将每种信噪比下最优的识别结果加粗,结果显示DNN-LSTM在各种信噪比下性能高于DNN-VAD、BDNN-VAD。
为了说明DNN-LSTM混合结构相对于纯LSTM结构的优势,还进行了LSTM与DNN-LSTM的对比。可以看到,在网络参数总数接近的条件下,DNN-LSTM结构比多层LSTM结构的性能更好。这主要是因为输入的特征参数并非专门为VAD检测设计,是低层特征,所以神经网络需要完成特征参数的映射变换工作,使之适合VAD检测问题,而DNN网络相比于LSTM更适合这种任务。
为了直观显示DNN-LSTM相对于DNN方法的优势,对同一段语音本文对目标值、BDNN算法、DNN-LSTM算法输出,以及对应的语音波形进行了作图,如图 4所示。
![]() |
图 4 DNN-LSTM与BDNN输出对比 |
图选项 |
基于DNN的VAD在非语音区的输出结果不稳定,往往会出现一些持续时间较长的突起,同时对语音的开始与结束阶段的检测不灵敏,判决概率的输出在分界区不能及时地下降。基于DNN-LSTM的VAD尽管在非语音区有一定的波动,但大幅度的突起减少。同时,在语音区的概率基本保持在0.9以上,在分界区输出概率可以迅速地变化。
2) 基于上下文的代价函数优势分析。
为了直观的显示DNN-LSTM+相对于DNN-LSTM方法的优势,本文对同一段语音的目标值、DNN-LSTM算法、DNN-LSTM+算法输出进行了作图,如图 5所示。
![]() |
图 5 采用基于上下文信息的训练方式的输出结果 |
图选项 |
表 2 2种代价函数训练的DNN-LSTM网络正确率
噪声 | |||
Babble | 0 | 86.09 | 86.61 |
5 | 87.03 | 88.36 | |
10 | 89.37 | 89.60 | |
15 | 89.82 | 90.49 | |
Factory | 0 | 85.58 | 85.93 |
5 | 87.78 | 88.13 | |
10 | 89.62 | 90.39 | |
15 | 90.84 | 91.70 | |
White | 0 | 86.94 | 86.96 |
5 | 88.83 | 89.11 | |
10 | 91.41 | 91.75 | |
15 | 92.81 | 92.69 |
表选项
相比于DNN-LSTM,尽管DNN-LSTM+虽然在语音区内部有一定的波动,但幅度较大的突起数量明显减少,这部分解释了识别率的提升;同时,DNN-LSTM+对标记的变化更加灵敏,延迟或提前的长度更短,这也解释了识别率的提升。
5 结论本文提出了一种基于DNN-LSTM混合神经网络的VAD算法。不同于传统的DNN-VAD算法只关注局部信息,它对过去帧的信息加以利用并作用于当前帧的判决。同时,基于DNN-LSTM的结构,本文使用了一种基于上下文信息的代价函数用于网络训练。结果显示,基于混合结构的VAD算法比传统的VAD算法有更高的检测性能。而且本文研究了采用基于上下文信息的代价函数与传统交叉熵的代价函数对VAD算法性能的影响,结果表明基于上下文信息的代价函数更适用于DNN-LSTM结构。
参考文献
[1] | BENYASSINE A, SHLOMOT E, SU H Y, et al. A robust low complexity voice activity detection algorithm for speech communication systems[C]//Speech Coding for Telecommunications Proceeding. Pocono Manor, USA: IEEE, 1997: 97-98. |
[2] | CHO N, KIM E K. Enhanced voice activity detection using acoustic event detection and classification[J]. IEEE Transactions on Consumer Electronics, 2011, 57(1): 196–202. DOI:10.1109/TCE.2011.5735502 |
[3] | CHANG J H, KIM N S. Voice activity detection based on complex Laplacian model[J]. Electronics Letters, 2003, 39(7): 632–634. DOI:10.1049/el:20030392 |
[4] | RAMIREZ J, YELAMOS P, GORRIZ J M, et al. SVM-based speech endpoint detection using contextual speech features[J]. Institution of Engineering and Technology, 2006, 42(7): 426–428. |
[5] | ZHANG X L, WU J. Deep belief network based voice activity detection[J]. Audio, Speech, and Language Processing, 2013, 21(4): 691–710. |
[6] | GHOSH P K, TSIARTAS A, NARAYANAN S. Robust voice activity detection using long-term signal variability[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(3): 600–613. |
[7] | SALISHEV S, BARABANOV A, KOCHAROV D, et al. Voice activity detector (VAD) based on long-term Mel frequency band features[C]//International Conference on Text, Speech, and Dialogue. Brno, Czech Republic: Springer International Publishing, 2016: 352-358. |
[8] | ZHOU Q, MA L, ZHENG Z, et al. Recurrent neural word segmentation with tag inference[M]. Kunming, China: Natural Language Understanding and Intelligent Applications Springer International Publishing, 2016. |
[9] | HA?IM SAK, SENIOR A, RAO K, et al. Learning acoustic frame labeling for speech recognition with recurrent neuralnetworks[C]//International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia: IEEE, 2015: 4280-4284. |
[10] | ZHANG X L, WANG D. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection[J]. Speech and Signal Processing, 2014: 6645–6649. |
[11] | HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 2012, 9(8): 1735–1780. |
[12] | GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin, Germany: Springer-Verlag, 2012. |
[13] | COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493–2537. |
[14] | DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 2121–2159. |
[15] | SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout:A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929–1958. |
[16] | PEARCE D, HIRSCH H G. The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//The Proceedings of the 6th International Conference on Spoken Language Processing (Volume Ⅳ). Beijing, China: Interspeech, 2000: 29-32. |
[17] | SHAO Y, JIN Z, WANG D L, et al. An auditory-based feature for robust speech recognition[C]//International Conference on Acoustics, Speech and Signal Processing. Taipei, China: IEEE, 2009: 4625-4628. |
[18] | HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1026-1034. |