基于DNN-LSTM的VAD算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

$\mathit{\boldsymbol{y}} = {\mathit{\boldsymbol{h}}_0}\left( {{\mathit{\boldsymbol{h}}_L}\left( { \cdots {\mathit{\boldsymbol{h}}_1}\left( { \cdots {\mathit{\boldsymbol{h}}_2}\left( {{\mathit{\boldsymbol{h}}_1}\left( {{\mathit{\boldsymbol{x}}_0}} \right)} \right)} \right)} \right)} \right),$

(1)

${\mathit{\boldsymbol{h}}_l} = \sigma \left( {{\mathit{\boldsymbol{w}}_l}{\mathit{\boldsymbol{h}}_{l - 1}} + {\mathit{\boldsymbol{b}}_l}} \right).$

(2)

其中：输入特征向量x₀看作第0层，l=1，2，…，L代表网络第l层，h_l(·)为网络第l层的映射函数，w_l为l层与l-1层的连接权重矩阵，b_l为偏置向量，σ为神经元的激活函数。
文[5]提出的DNN-VAD结构中，最后一层使用softmax函数计算语音/非语音的后验概率：

$P\left( {{C_k}\left| \mathit{\boldsymbol{x}} \right.} \right) = \exp \left( {{\mathit{\boldsymbol{h}}_{Lk}}} \right)/{\Sigma _K}\exp \left( {{\mathit{\boldsymbol{h}}_{Lk}}} \right).$

(3)

其中：h_l∈R^k为最后一层的输出值，C_k(k=0，1，…，K-1)对应不同的分类，P(C_k|x)为给定输入x后第k类的后验概率。对于VAD问题k=2，C₁表示语音帧，C₀表示非语音帧。
1.2 BDNN-VAD文[10]提出一种基于BDNN的VAD算法，它考虑到了相邻帧信息与当前帧VAD判决的联系。给定一数据集{(x_k, y_k)}_k^N，这里N是语音帧总数，x_k∈R^d是d维语音特征向量，y_k∈(0，1)表示当前帧为语音帧或非语音帧。采用一个宽度W的窗将当前帧与相邻帧的特征向量连接起来，对应的判决标记也合并成一个长向量用于网络训练。因此，网络的输入为x₀∈R^W×d，网络最后一层输出y_L∈R^W被解释为对应W帧的语音/非语音概率。最后，判决概率 ${{\hat y}_L}$ 通过对W个网络输出取平均获得，根据是否大于门限η，判断y_L为语音或非语音。

$\begin{array}{*{20}{c}}{{{\hat y}_L} = \frac{{\sum\limits_{W = - \left( {W - 1} \right)/2}^{\left( {W + 1} \right)/2} {y_L^W} }}{W},}\\{{{\bar y}_L} = \left\{ \begin{array}{l}1,\;\;\;{\rm{if}}\;{{\hat y}_L} \ge \eta ;\\0,\;\;\;{\rm{otherwise}}{\rm{.}}\end{array} \right.}\end{array}$

(4)

2 基于DNN-LSTM的VAD算法2.1 长时记忆单元网络为了充分利用相邻语音帧的帧内信息，本文使用LSTM网络进行时序分析。LSTM网络是对RNN的改进，它克服了RNN固有的梯度消失问题，实现了对序列中有用信息的长时记忆^[11]，在语音识别、机器翻译等领域显示了比传统方法更优异的性能。图 1展示了一个完整的LSTM单元^[12]，不同于RNN，对于一个时间长度为T的序列x=(x¹，x²，…，x^T)，标准LSTM单元对以下方程按时间顺序从t=1~T进行计算：

$\mathit{\boldsymbol{g}}_t^I = \sigma \left( {\mathit{\boldsymbol{w}}_t^I\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^I{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^I{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$

(5)

$\mathit{\boldsymbol{g}}_t^F = \sigma \left( {\mathit{\boldsymbol{w}}_t^F\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^F{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^F{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$

(6)

$\mathit{\boldsymbol{g}}_t^C = f\left( {\mathit{\boldsymbol{w}}_l^C\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^C{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^C{\mathit{\boldsymbol{s}}^{t - 1}}} \right),$

(7)

${\mathit{\boldsymbol{s}}^t} = \mathit{\boldsymbol{g}}_t^F \cdot {\mathit{\boldsymbol{s}}^{t - 1}} + \mathit{\boldsymbol{g}}_t^I \cdot \mathit{\boldsymbol{g}}_t^C,$

(8)

$\mathit{\boldsymbol{g}}_t^O = \sigma \left( {\mathit{\boldsymbol{w}}_l^O\mathit{\boldsymbol{x}}_i^t + \mathit{\boldsymbol{w}}_h^O{\mathit{\boldsymbol{h}}^{t - 1}} + \mathit{\boldsymbol{w}}_c^O{\mathit{\boldsymbol{s}}^t}} \right),$

(9)

${\mathit{\boldsymbol{h}}^{t - 1}} = \mathit{\boldsymbol{g}}_t^O \cdot \tanh \left( {{\mathit{\boldsymbol{s}}^t}} \right).$

(10)

图 1 LSTM模型

图选项

LSTM单元包括记忆单元C和输入门I、输出门O、遗忘门F。其中：x表示LSTM网络的输入; g表示各个门的输出，h表示LSTM网络的输出; w_l、w_h分别表示输入权重矩阵和循环权重矩阵，w_c作为记忆单元与门的连接矩阵，这被称为窥视孔(peephole)技术；f、σ为不同门使用的激活函数，σ一般为sigmoid函数。
2.2 DNN-LSTM VAD考虑到LSTM擅长序列结构分析，DNN擅长特征提取与变换，将低层声学特征信息映射为更适于VAD检测的特征信息。针对VAD问题，本文提出了DNN-LSTM结构。
不同于基于DNN的VAD模型，本文将语音逐帧提取的特征向量与标注看作长度为N的时间序列数据集{(x_t, y_t)}_t^N，这里N是语音帧总帧数，x_t∈R^d是d维语音特征向量，y_t∈(0，1)表示当前帧为语音帧或非语音帧。
由于LSTM是在时间上进行展开，是对一定时间长度的序列进行分析, 因此对网络输入的特征数据做如下处理：采用与语音的分帧操作类似的形式，假设LSTM时间分析长度为T=2k+1，对特征数据集每次按固定的时间窗T进行抽取，时间窗按步长u (1≤u≤T)移动。例如t时刻输入的特征序列[x_t]₁^T以及对应的标记[y_t]₁^T可表达为

$\begin{array}{*{20}{c}}{\left[ {{\mathit{\boldsymbol{x}}_t}} \right]_1^T = \left\{ {{\mathit{\boldsymbol{x}}_{t - k}}, \cdots ,{\mathit{\boldsymbol{x}}_t}, \cdots ,{\mathit{\boldsymbol{x}}_{t + k}}} \right\},}\\{\left[ {{\mathit{\boldsymbol{y}}_t}} \right]_1^T = \left\{ {{y_{t - k}}, \cdots ,{y_t}, \cdots ,{y_{t + k}}} \right\},}\\{\left( {t = {t_0} + n \times u,n = 1,2, \cdots } \right).}\end{array}$

(11)

网络结构如图 2所示，这是一个多层DNN加一层LSTM的网络结构。输出层为一个具有2个神经元的softmax层。[x_t]₁^T中的元素按时间顺序每个时刻通过DNN层参与第t时刻LSTM网络的计算。每一时刻t的输出再通过预测层进行语音/非语音后验概率的输出。

图 2 DNN-LSTM模型

图选项

特别指出，网络每个时刻的输入是X_t^win将当前帧与前后相邻几帧的特征参数连接起来，如下所示：

$x_t^{{\rm{win}}} = {\mathit{\boldsymbol{x}}_{t - {k_1}}} \oplus \cdots \oplus {\mathit{\boldsymbol{x}}_{t - {k_2}}}.$

(12)

其中: k₁、k₂表示前后帧数，⊕表示连接操作。
3 基于上下文信息的DNN-LSTM网络训练本节将对优化算法的不同代价函数进行介绍。考虑到LSTM对序列信息进行分析的能力和按时间展开的结构，本文使用一种基于上下文信息的代价函数用于DNN-LSTM的训练。
3.1 基于交叉熵和均方误差的代价函数对DNN-LSTM每个时刻的输出，传统方式使用softmax函数进行判决概率计算，采用交叉熵(cross-entropy)形式的代价函数计算判决代价。对t时刻的输出计算代价函数并将函数值从t=1~T时刻进行累加，函数表达式如式(13)所示。在一些情形下神经网络完成的是输入向量与目标向量的映射，希望最后一层神经元的输出值与人为设定的目标值越接近越好，这时采用均方误差(mean square error)的形式计算每一时刻输出概率与标记的目标值误差的平方，同样在t=1~T时刻进行累加，代价函数的表达式如式(14)所示。

$L\left( {{\mathit{\boldsymbol{x}}_t},{\mathit{\boldsymbol{z}}_t}} \right) = - \sum\limits_{k = 1}^K {{\mathit{\boldsymbol{z}}_k}\ln {y_t}} ,$

(13)

$L\left( {{\mathit{\boldsymbol{x}}_t},{\mathit{\boldsymbol{z}}_t}} \right) = - \sum\limits_{k = 1}^K {{{\left( {\mathit{\boldsymbol{y}}_t^k - \mathit{\boldsymbol{z}}_t^k} \right)}^2}} .$

(14)

3.2 基于上下文信息的代价函数在基于DNN-LSTM的VAD算法中，网络的输入实际上为一段时间长度为T的时间序列。传统代价函数对每个时刻网络的输出计算代价，这种方式忽略了网络输出在时间上的相关性。
本文将T个时刻网络的输出也看作一段时间序列，进行基于序列的代价函数设计。对一时间序列[x]₁^T，神经网络(网络参数集为θ)经过softmax层后输出的序列为[z]₁^T=fθ([x]₁^T)，对应的标记序列为[y]₁^T。类似于文[13]提出的方法，对T个时刻经过softmax层输出的序列按以下方式进行打分：

$S\left( {\left[ \mathit{\boldsymbol{x}} \right]_1^T,\left[ y \right]_1^T,\theta } \right) = \sum\limits_{t = 1}^T {{A_{{y^{\left( {t - 1} \right)}}{y^{\left( t \right)}}}} + z_{{y^{\left( t \right)}}}^{\left( t \right)}} .$

(15)

其中：S代表分数，A代表转移分数矩阵，其中的元素A_ij代表从标记i∈(0，1)转移到j∈(0，1)的概率，z_y^(t)^(t)为t时刻softmax层输出标记y^(t)的概率。
对S采用与交叉熵相同的方式计算代价，转移矩阵A和网络参数集θ通过网络训练进行优化。最后，采用Viterbi算法根据以下准则寻找最优标记序列：

$\left[ {\hat y} \right]_1^T = \arg \max \left[ \mathit{\boldsymbol{j}} \right]_1^Ts\left( {\left[ \mathit{\boldsymbol{x}} \right]_1^T,\left[ \mathit{\boldsymbol{j}} \right]_1^T,\theta } \right).$

(16)

其中：[j]₁^T代表给定输入下所有可能的标记组合， $\left[ {\hat y} \right]_1^T$ 是使得分数最高的一个序列，即最优标记序列。采用新的代价函数后网络记为DNN-LSTM+，网络结构如图 3所示。

图 3 DNN-LSTM+模型

图选项

3.3 优化方式在本文中DNN层、LSTM层分别通过反向传导(backward propagation)和沿时反向传导(backward propagation through time)算法进行梯度计算。网络参数更新使用批量训练(minibatch)与自适应梯度调整(adagrad)^[14]结合。
Dropout^[15]是目前防止神经网络过拟合的有效方法，因此，在DNN-LSTM网络训练阶段除了输出层之外都使用Dropout技术。
4 实验4.1 数据集本文使用TIDIGITS数据库提供的纯净语音进行模型验证，纯音通过Noisex-92噪声库中的噪声进行加噪得到带噪语音。由于Noisex-92噪声的采样频率为8 kHz，TIDIGITS的语音采样频率为20 kHz，因此本文将TIDIGITS的语音采样频率先降到8 kHz，保证语音与噪声采样频率相同。本文只使用了TIDIGITS语料库中的成年男性与成年女性数据，数据集被分为训练集与测试集，本次实验从训练语料集中随机选取了800段发声作为训练数据集，100段发声作为验证数据集；同样地，从测试语料集中随机选取了800段发声作为测试数据集。实验选用了Noisex-92噪声库中的“factory”、“babble”、“white”，分别在0、5、10和15 dB 4种信噪比下加噪，最后得到了12组数据集，加噪方式使用与Aurora-2^[16]带噪语音库相同的工具箱。本次实验所有的纯音均进行手工标注，不同信噪比以及不同背景噪声的语音使用与对应纯音相同的标记。
由于每个发声段持续时间较短，本文将每20段语音连接在一起去模拟实际VAD检测的应用情形。最后，每段合并语音的长度在10~20 s。对所有语音，其中非语音段占比52.4%，语音段占比47.6%。
在本文中，加噪语料的采样频率为8 kHz，帧长设置为25 ms，帧移为10 ms，即每帧包含200个采样点。对于每个语音帧，如果属于语音段标记的点数大于属于非语音段，该帧就标记为语音帧，反之标记为非语音帧。由于同时包含语音与非语音段采样点的帧数占总帧数的比例很小，因此这种方式不会对时间结果产生影响。
4.2 语音特征VAD通常作为语音识别系统的前端，因此本文使用了目前语音识别系统中主流的gammatone频率倒谱系数(gammatone frequency cepstrum coefficients，GFCC)^[15]。根据文[17]中GFCC的计算步骤，首先使用gammtone滤波器得到64维的cochleagram，接着对cochleagram进行离散余弦变换，由于40维之后的离散余弦变换系数已经很小，因此本文只取前40维构成GFCC参数。
4.3 参数设置1) 网络结构参数。
DNN-LSTM网络输入是120维GFCC参数，它是当前帧与前后相邻两帧合并的结果。DNN层一共有4层，神经元数目依次为150、100、80、60，每层都采用漏整流线性单元(leaky rectified linear units)^[18]作为激活函数。LSTM层神经元数为30，采用tanh作为输出与记忆单元的激活函数。输出层为2个神经元的softmax层。网络时间展开长度T=20。
DNN-LSTM+网络结构参数与DNN-LSTM网络完全相同，代价计算使用基于上下文信息的代价函数。
2) 训练参数。
本实验中，minibatch设置为1 000个样本，即1 000组长度为20的语音特征向量序列。自适应学习率初始化为0.05，dropout概率为0.2，最大迭代次数为1 000。
3) 对比实验设置。
为了验证提出的VAD方法的有效性，将DNN-VAD、BDNN-VAD、LSTM-VAD作为对比实验。考虑到网络规模不同引起的性能差异与计算复杂度的变化，不同网络的连接权重W与偏置b的总数大致相同。
4.4 实验结果1) DNN-LSTM结构优势分析。
表 1对3种VAD方法在不同噪声以及信噪比下的准确率进行了对比。
表 1 3种VAD方法在不同噪声条件下的对比

噪声	$\frac{{信噪比}}{{{\rm{dB}}}}$	$\frac{{{\rm{DNN}}}}{\% }$	$\frac{{{\rm{BDNN}}}}{\% }$	$\frac{{{\rm{LSTM}}}}{\% }$	$\frac{{{\rm{DNN-LSTM}}}}{\% }$
Babble	0	75.91	81.43	83.29	86.09
	5	77.53	84.23	86.11	88.36
	10	79.76	85.51	87.06	89.60
	15	80.22	86.06	87.39	89.82
Factory	0	76.60	81.91	83.63	85.58
	5	79.01	84.16	85.48	88.13
	10	80.61	85.79	87.93	89.62
	15	81.21	86.96	88.91	91.70
White	0	77.20	82.23	85.78	86.94
	5	79.68	84.88	87.60	88.83
	10	80.36	86.70	89.16	91.41
	15	81.19	87.77	89.84	92.81

表选项

随着信噪比降低，在不同噪声环境下，3种方法的性能都有不同程度的下降，将每种信噪比下最优的识别结果加粗，结果显示DNN-LSTM在各种信噪比下性能高于DNN-VAD、BDNN-VAD。
为了说明DNN-LSTM混合结构相对于纯LSTM结构的优势，还进行了LSTM与DNN-LSTM的对比。可以看到，在网络参数总数接近的条件下，DNN-LSTM结构比多层LSTM结构的性能更好。这主要是因为输入的特征参数并非专门为VAD检测设计，是低层特征，所以神经网络需要完成特征参数的映射变换工作，使之适合VAD检测问题，而DNN网络相比于LSTM更适合这种任务。
为了直观显示DNN-LSTM相对于DNN方法的优势，对同一段语音本文对目标值、BDNN算法、DNN-LSTM算法输出，以及对应的语音波形进行了作图，如图 4所示。

图 4 DNN-LSTM与BDNN输出对比

图选项

基于DNN的VAD在非语音区的输出结果不稳定，往往会出现一些持续时间较长的突起，同时对语音的开始与结束阶段的检测不灵敏，判决概率的输出在分界区不能及时地下降。基于DNN-LSTM的VAD尽管在非语音区有一定的波动，但大幅度的突起减少。同时，在语音区的概率基本保持在0.9以上，在分界区输出概率可以迅速地变化。
2) 基于上下文的代价函数优势分析。
为了直观的显示DNN-LSTM+相对于DNN-LSTM方法的优势，本文对同一段语音的目标值、DNN-LSTM算法、DNN-LSTM+算法输出进行了作图，如图 5所示。

图 5 采用基于上下文信息的训练方式的输出结果

图选项

表 2 2种代价函数训练的DNN-LSTM网络正确率

噪声	$\frac{{信噪比}}{{{\rm{dB}}}}$	$\frac{{{\rm{DNN-LSTM}}}}{\% }$	$\frac{{{\rm{DNN-LSTM+}}}}{\% }$
Babble	0	86.09	86.61
	5	87.03	88.36
	10	89.37	89.60
	15	89.82	90.49
Factory	0	85.58	85.93
	5	87.78	88.13
	10	89.62	90.39
	15	90.84	91.70
White	0	86.94	86.96
	5	88.83	89.11
	10	91.41	91.75
	15	92.81	92.69

表选项

相比于DNN-LSTM，尽管DNN-LSTM+虽然在语音区内部有一定的波动，但幅度较大的突起数量明显减少，这部分解释了识别率的提升；同时，DNN-LSTM+对标记的变化更加灵敏，延迟或提前的长度更短，这也解释了识别率的提升。
5 结论本文提出了一种基于DNN-LSTM混合神经网络的VAD算法。不同于传统的DNN-VAD算法只关注局部信息，它对过去帧的信息加以利用并作用于当前帧的判决。同时，基于DNN-LSTM的结构，本文使用了一种基于上下文信息的代价函数用于网络训练。结果显示，基于混合结构的VAD算法比传统的VAD算法有更高的检测性能。而且本文研究了采用基于上下文信息的代价函数与传统交叉熵的代价函数对VAD算法性能的影响，结果表明基于上下文信息的代价函数更适用于DNN-LSTM结构。

参考文献

[1]	BENYASSINE A, SHLOMOT E, SU H Y, et al. A robust low complexity voice activity detection algorithm for speech communication systems[C]//Speech Coding for Telecommunications Proceeding. Pocono Manor, USA: IEEE, 1997: 97-98.
[2]	CHO N, KIM E K. Enhanced voice activity detection using acoustic event detection and classification[J]. IEEE Transactions on Consumer Electronics, 2011, 57(1): 196–202. DOI:10.1109/TCE.2011.5735502
[3]	CHANG J H, KIM N S. Voice activity detection based on complex Laplacian model[J]. Electronics Letters, 2003, 39(7): 632–634. DOI:10.1049/el:20030392
[4]	RAMIREZ J, YELAMOS P, GORRIZ J M, et al. SVM-based speech endpoint detection using contextual speech features[J]. Institution of Engineering and Technology, 2006, 42(7): 426–428.
[5]	ZHANG X L, WU J. Deep belief network based voice activity detection[J]. Audio, Speech, and Language Processing, 2013, 21(4): 691–710.
[6]	GHOSH P K, TSIARTAS A, NARAYANAN S. Robust voice activity detection using long-term signal variability[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(3): 600–613.
[7]	SALISHEV S, BARABANOV A, KOCHAROV D, et al. Voice activity detector (VAD) based on long-term Mel frequency band features[C]//International Conference on Text, Speech, and Dialogue. Brno, Czech Republic: Springer International Publishing, 2016: 352-358.
[8]	ZHOU Q, MA L, ZHENG Z, et al. Recurrent neural word segmentation with tag inference[M]. Kunming, China: Natural Language Understanding and Intelligent Applications Springer International Publishing, 2016.
[9]	HA?IM SAK, SENIOR A, RAO K, et al. Learning acoustic frame labeling for speech recognition with recurrent neuralnetworks[C]//International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia: IEEE, 2015: 4280-4284.
[10]	ZHANG X L, WANG D. Boosted deep neural networks and multi-resolution cochleagram features for voice activity detection[J]. Speech and Signal Processing, 2014: 6645–6649.
[11]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 2012, 9(8): 1735–1780.
[12]	GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin, Germany: Springer-Verlag, 2012.
[13]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493–2537.
[14]	DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 2121–2159.
[15]	SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout:A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
[16]	PEARCE D, HIRSCH H G. The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//The Proceedings of the 6th International Conference on Spoken Language Processing (Volume Ⅳ). Beijing, China: Interspeech, 2000: 29-32.
[17]	SHAO Y, JIN Z, WANG D L, et al. An auditory-based feature for robust speech recognition[C]//International Conference on Acoustics, Speech and Signal Processing. Taipei, China: IEEE, 2009: 4625-4628.
[18]	HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1026-1034.