基于迁移学习的噪声鲁棒语音识别声学建模

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

${\mathit{D}_{{\rm{KL}}}}{\rm{(}}\left. {{\mathit{P}_{\rm{c}}}} \right\|\mathit{Q}{\rm{) = }}\sum\limits_\mathit{i} {{\mathit{P}_{\rm{c}}}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{)}}} {\rm{ln}}\frac{{{\mathit{P}_{\rm{c}}}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{)}}}}{{\mathit{Q}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}\mathit{x}{\rm{)}}}}{\rm{.}}$

(1)

在学生模型训练的过程中，希望最小化式(1)，可以表示为

${\mathit{D}_{{\rm{KL}}}}{\rm{(}}\left. {{\mathit{P}_{\rm{c}}}} \right\|\mathit{Q}{\rm{) = }}\mathit{H}{\rm{(}}{\mathit{P}_{\rm{c}}}{\rm{, }}\mathit{Q}{\rm{) - }}\mathit{H}{\rm{(}}{\mathit{P}_{\rm{c}}}{\rm{)}}{\rm{.}}$

(2)

其中：

$\mathit{H}{\rm{(}}{\mathit{P}_{\rm{c}}}{\rm{, }}\mathit{Q}{\rm{) = }}\sum\limits_\mathit{i} {{\rm{ - }}{\mathit{P}_{\rm{c}}}} {\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{)ln}}\mathit{Q}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}\mathit{x}{\rm{), }}$

(3)

$\mathit{H}{\rm{(}}{\mathit{P}_{\rm{c}}}{\rm{) = }}\sum\limits_\mathit{i} {{\rm{ - }}{\mathit{P}_{\rm{c}}}} {\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{)ln}}{\mathit{P}_{\rm{c}}}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{), }}$

(4)

其中：i表示为三因子状态(senone)的下标；s_i为第i个三因子状态；x_c表示干净语音的特征；x表示带噪语音的特征；P_c(s_i|x_c)表示特征x_c被识别为第i个三因子状态的后验概率，该后验概率由老师模型采用前向算法计算得到；Q(s_i|x)表示特征x被识别为第i个三因子状态的后验概率。然而，式(4)只与老师模型的后验概率分布有关，而与学生模型的后验概率分布无关，因此可以忽略，由此可得

${\mathit{D}_{{\rm{KL}}}}{\rm{(}}\left. {{\mathit{P}_{\rm{c}}}} \right\|\mathit{Q}{\rm{)}} \equiv \sum\limits_\mathit{i} {{\rm{ - }}{\mathit{P}_{\rm{c}}}} {\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}{\mathit{x}_{\rm{c}}}{\rm{)ln}}\mathit{Q}{\rm{(}}{\mathit{s}_\mathit{i}}{\rm{|}}\mathit{x}{\rm{)}}{\rm{.}}$

(5)

可以看出，求式(5)的最小值也即求交叉熵(CE)的最小值，其优化过程等同于标准交叉熵的训练过程。式(5)与标准交叉熵唯一不同的是训练所需的分类标签。标准交叉熵训练准则中的分类标签是三因子状态的由0、1构成的向量(硬标签)，而式(5)中的分类标签为老师模型计算所得的后验概率分布(软标签)。因此，对式(5)进行优化时，只需将标准交叉熵准则中的硬标签替换为软标签即可。这一过程是对Hinton等^[22]提出的基于温度(temperature)知识提取方法的一种简化。
1.2 声学建模就本文所提方法而言，老师模型和学生模型均为基于HMM和神经网络的混合模型。GMM-HMM用于生成强制对齐信息(硬标签)，而神经网络则用于为给定输入特征预测其对应三因子状态的后验概率。老师模型指导学生模型的训练流程主要包括4个步骤：生成硬标签、训练老师模型、生成软标签和训练学生模型。具体训练流程如图 1所示。

图 1 老师模型指导学生模型的训练流程

图选项

生成硬标签时，本文仅用干净语音提取特征，训练一个GMM-HMM模型，然后通过帧级别的强制对齐得到每帧数据的硬标签t_hard。硬标签为由0、1构成的向量，比如某一帧数据的硬标签为[0 0 1 0 0 0], 此向量代表该帧属于标签3的概率为1，属于其他标签的概率均为0。
生成软标签时，本文用干净语音特征x_c作为老师模型的输入，利用前向算法计算其后验概率分布(软标签t_soft)。假设[0.02 0.1 0.83 0.03 0.01 0.01]为某一帧数据的软标签，此向量代表属于标签1的概率为0.02，属于标签2的概率为0.1，其他以此类推。
在训练学生模型阶段，其神经网络结构仅为DNN。本文首先利用干净语音和带噪语音的平行关系，将带噪语音提取的特征x和上述干净语音的软标签t_soft进行对齐，得到带噪语音特征x的软标签。而后，利用该特征x和其软标签训练学生模型，学生模型的优化准则为式(5)。在学生模型训练的过程中，老师模型的参数保持不变，仅更新学生模型的参数。
在语音识别系统的测试阶段，本文仅用学生模型计算噪声数据的后验概率。此后验概率与先验概率结合得到似然值，该似然值即为标准解码器的声学似然。
2 实验2.1 实验数据本文采用CHiME-2^[26]数据集进行实验，该数据集是带噪语音识别鲁棒性研究方面较为流行的数据集，它包含干净语音和带噪语音的平行数据，数据的采样率均为16 kHz。干净语音数据集来自华尔街日报(WSJ0)，其词汇量为5 000。带噪语音数据基于WSJ0数据集，随机叠加各种背景噪声生成。背景噪声的信噪比取值为6种：-6、-3、0、3、6、9 dB。干净语音和带噪语音各包含3个数据集：训练集、开发集和测试集。就干净语音而言，训练集包含84个说话人，共7 138句；开发集包含10个说话人，共1 206句；测试集包含8个说话人，共330句。就带噪语音而言，训练集包含84个说话人，共7 138句，噪声信噪比为-6到9 dB之间的6种；开发集包含10个说话人和6种信噪比，共2 460句；测试集包含8个说话人和6种信噪比，共1 980句。
2.2 实验设置本文在语音识别工具Kaldi^[27]的基础上进行开发和实验。实验共采用两种特征：mel频率倒谱系数(MFCC)和mel标度滤波器组特征(FBANK)。提取特征的窗长为25 ms，帧移为10 ms。MFCC特征为13维，加上其一阶和二阶差分统计量，共39维。FBANK特征为40维，加上其一阶和二阶差分统计量，共120维。特征的均值方差归一化以说话人为单位进行。所有GMM-HMM的输入为MFCC，所有神经网络模型的输入为FBANK。
就本文所涉神经网络模型而言，其损失函数为交叉熵，优化准则为随机梯度下降(SGD)。DNN和CNN模型采用反向传播(BP)算法进行训练。BLSTM模型采用随时间反向传播(BPTT)算法进行训练。LSTM模型采用截断的随时间反向传播(truncated BPTT)算法进行训练。本文实验所用语言模型为WSJ0提供的三元文法语言模型(lm_tgpr_5k)，词表大小为5 000。解码的搜索空间基于加权有限状态转换器(WFST)进行构建，搜索策略为束搜索(beam-search)算法。
2.3 基线模型就带噪语音而言，GMM-HMM模型的训练主要有3种方法：1)用干净语音和带噪语音训练GMM-HMM，表示为NC-GMM；2)仅用带噪语音训练GMM-HMM，表示为N-GMM；3)仅用干净语音训练GMM-HMM，表示为C-GMM。所有GMM-HMM的Gauss模型数为15 000，叶子节点数为2 500。NC-GMM的三因子状态数目为2 032，N-GMM的三因子状态数目为1 978，C-GMM的三因子状态数目为1 985。
由此，本文根据上述3种模型，用带噪语音训练3个DNN声学模型：NC-DNN、N-DNN和C-DNN。对于NC-DNN，首先用NC-GMM生成带噪语音的硬标签，然后训练DNN模型。对于N-DNN，首先用N-GMM生成带噪语音的硬标签，再训练DNN模型。对于C-DNN，首先用C-GMM生成干净语音的硬标签，再根据干净语音和带噪语音的平行关系，将干净语音的硬标签与带噪语音的硬标签进行对齐，而后训练DNN模型。所有DNN模型的参数设置参照CHiME-2的基线系统，均含有7个隐层，每个隐层有2 048个节点。以上模型在带噪语音测试集(eval92_5k)上关于6种信噪比(-6至9 dB)的WER如表 1所示。
表 1 不同声学模型在带噪语音测试集上的WER

%
模型	-6 dB	-3 dB	0 dB	3 dB	6 dB	9 dB	平均
NC-GMM	69.12	61.14	53.90	43.25	35.76	29.05	48.70
N-GMM	64.06	53.76	48.23	37.55	30.39	25.14	43.19
NC-DNN	56.42	45.45	36.73	28.69	23.28	19.82	35.06
N-DNN	55.33	45.36	36.41	27.44	23.05	20.33	34.65
C-DNN	49.11	38.93	31.53	24.17	20.27	17.37	30.23

表选项

从表 1可以看出，在各种信噪比下DNN中C-DNN的WER最低，NC-DNN的WER最高。通过对实验数据加以分析，可以发现训练集利用3个GMM-HMM模型生成硬标签的数目存在差异。NC-GMM模型生成的对齐信息中有634句(约8.88%)没有硬标签，原因在于带噪语音和NC-GMM的训练数据不太匹配，此外带噪语音中的音素特征亦被噪声干扰或破坏。N-GMM模型生成的对齐信息中有421句(约5.89%)没有硬标签，虽然带噪语音和N-GMM的训练数据很匹配，但是其中的音素特征被噪声干扰或破坏。C-GMM模型生成的对齐信息中只有2句没有硬标签，这是由于干净语音中的音素特征能被模型较好地感知。
为了与本文所提方法进行对比，本文选择WER最低的C-DNN模型作为学生模型的基线。
2.4 老师模型为了验证老师模型的WER对学生模型WER的影响，本节将尝试把老师模型设为不同结构的神经网络：CNN、DNN、LSTM和BLSTM。
CNN老师模型包含2个卷积层和5个全连接层；每个卷积层采用最大池化(max-pooling)进行处理，全连接层的节点数为2 048。DNN老师模型包含7个隐层，每个隐层有2 048个节点。LSTM老师模型包含5个隐层，每层640个单元。BLSTM老师模型包含5个隐层，每层320个单元。CNN和DNN老师模型的初始学习速率均设为0.008；LSTM和BLSTM的初始学习速率均设为0.000 01，冲量值均设为0.9。
对所有老师模型而言，干净语音的训练集用于更新模型参数，干净语音的开发集用于模型选择和超参数的确定；干净语音硬标签由C-GMM生成，共1 985个。C-GMM模型和老师模型在干净语音的开发集(dt_05)和测试集(eval92_5k)上的WER如表 2所示。
表 2 C-GMM和老师模型在干净语音数据集上的WER

%
模型	开发集	测试集
C-GMM	22.02	5.40
CNN	20.33	3.89
DNN	19.58	3.46
LSTM	18.89	2.97
BLSTM	18.30	2.65

表选项

从表 2可以看出，所有老师模型的WER都比C-GMM模型低。其中，BLSTM老师模型的WER最低，其次是LSTM。就BLSTM和LSTM的训练而言，本文尝试多种参数并实验多次，但是它们与DNN的WER差距不太明显。这是由于模型在测试集上的WER已较低，因此BLSTM和LSTM的WER的下降空间较小。
2.5 学生模型本文采用基于DNN的声学模型作为学生模型。此模型含有7个隐层，每个隐层有2 048个节点，输出层的节点数与老师模型的相同，即为1 985。所有学生模型的标签为老师模型计算所得的软标签，模型参数利用带噪语音的训练集进行更新，模型的选择和超参数的设置在带噪语音的开发集上进行。在节2.4老师模型的指导下，所有学生模型在带噪语音的测试集(eval92_5k)上关于6种信噪比(-6至9 dB)的WER如表 3所示。
表 3 学生模型在噪声测试集(eval92_5k)上的WER

%
模型	-6 dB	-3 dB	0 dB	3 dB	6 dB	9 dB	平均
Baseline	49.11	38.93	31.53	24.17	20.27	17.37	30.23
CHiME-2	44.12	35.42	28.12	21.20	17.34	14.83	26.86
CNN	43.70	34.00	25.87	20.12	17.21	14.68	25.93
DNN	41.92	31.35	25.33	19.26	15.73	14.38	24.66
LSTM	41.06	31.03	24.92	17.63	14.68	13.99	23.89
BLSTM	40.89	30.62	22.55	16.78	14.35	12.48	22.94

表选项

表 3中，Baseline表示本文设置的基线，即节2.3中的C-DNN；CHiME-2表示CHiME-2竞赛第一名的成绩^{[26, 28]}；CNN、DNN、LSTM和BLSTM分别表示CNN、DNN、LSTM和BLSTM老师模型指导的学生模型。CHiME-2竞赛第一名的系统采用了语音增强模块和多种模型融合的策略。
从表 3可以看出，相比本文基线和CHiME-2竞赛的第一名，所有学生模型的WER在测试集的6种信噪比下均有显著下降。其中，BLSTM老师模型指导的学生模型的WER最低。在带噪语音的测试集上，BLSTM老师模型指导的学生模型的平均WER比基线的绝对下降了7.29%，比CHiME-2竞赛第一名的绝对下降了3.92%。
从表 3还可以发现，相比高信噪比数据，低信噪比数据的WER降低幅度更为明显。就-6 dB信噪比的数据而言，BLSTM老师模型指导的学生模型的WER比基线的绝对下降了8.22%，比CHiME-2竞赛第一名的绝对下降了3.23%。就9 dB信噪比的数据而言，BLSTM老师模型指导的学生模型的WER比基线的绝对下降了4.89%，比CHiME-2竞赛第一名的绝对下降了2.35%。
3 讨论据上述实验结果可见，本文所提方法的WER在测试集的6种信噪比下均有显著下降。
在老师模型的指导下，学生模型在测试集各种信噪比下都能获得明显的性能提升，特别是对低信噪比数据的性能提升尤为显著。其原因有二：一是老师模型对干净语音中的音素特征能较好地感知和准确地建模；二是软标签含有更为丰富的信息。就原因一而论，干净语音中的音素特征能较好地被模型感知；而带噪语音的音素特征受到干扰甚至破坏，故不能被准确感知。与带噪语音相比，干净语音利用GMM-HMM生成的硬标签具有更高的正确率。就原因二而论，GMM-HMM生成硬标签为由0、1构成的向量。然而，老师模型的后验概率分布是一种软标签，它是概率值向量。该软标签含有更为丰富的排名信息，不仅含有每帧数据最有可能的标签，且包含潜在可能标签的概率信息。因此，学生模型不但能利用这些丰富的信息进行更好地建模，亦可依据这些信息纠正部分错误的标签。
总之，将老师模型中的后验概率信息迁移到学生模型中，能较为明显地降低学生模型的WER。此外，学生模型的WER与老师模型的WER成正相关。这是因为老师模型的WER越低，生成软标签正确率越高，从而使得学生模型对带噪语音的建模更为准确。
4 结论本文提出了基于迁移学习的方法对带噪语音进行声学建模，即利用老师模型指导学生模型进行训练。该方法能够有效地将老师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。在CHiME-2数据集上的实验结果表明，该方法的平均WER比基线的绝对下降了7.29%，比CHiME-2竞赛第一名的绝对下降了3.92%。实验结果亦表明，学生模型的WER与老师模型的WER成正相关。下一步将继续探讨利用组合老师模型指导学生模型进行训练等问题，并尝试改进该方法以适用于真实环境。

参考文献

[1]	HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82–97. DOI:10.1109/MSP.2012.2205597
[2]	GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: 2013: 6645-6649.
[3]	HA?IM S, ANDREW S, FRAN?OISE B. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition[J]. Computer Science, 2014(3): 338–342.
[4]	XIONG W, DROPPO J, HUANG X, et al. The microsoft 2016 conversational speech recognition system[R/OL]. (2016-09-12)[2017-02-25]. https://arxiv.org/abs/1609.03528.
[5]	SAON G, SERCU T, RENNIE S, et al. The IBM 2016 English conversational telephone speech recognition system[R/OL]. (2016-04-27)[2017-02-25]. https://arxiv.org/abs/1604.08242.
[6]	蔡尚, 金鑫, 高圣翔, 等. 用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数[J]. 声学学报, 2012(6): 667–672. CAI S, JIN X, GAO S X, et al. Noise robust speech recognition based on sub-band energy warping perception linear prediction coefficient[J]. Chinese Journal of Acoustics, 2012(6): 667–672. (in Chinese)
[7]	胡旭琰, 邹月娴, 王文敏. 基于MDT特征补偿的噪声鲁棒语音识别算法[J]. 清华大学学报(自然科学版), 2013(6): 753–756. HU X Y, ZOU Y X, WANG W M. Robust noise feature compensation method for speech recognition based on missing data technology[J]. Journal of Tsinghua University (Science and Technology), 2013(6): 753–756. (in Chinese)
[8]	GALES M J F, PYE D, WOODLAND P C. Variance compensation within the MLLR framework for robust speech recognition and speaker adaptation[C]//International Conference on Spoken Language. Philadelphia, USA, 1996: 1832-1835.
[9]	SIOHAN O, CHESTA C, LEE C H. Hidden Markov model adaptation using maximum a posteriori linear regression[C]//Workshop on Robust Methods for Speech Recognition in Adverse Conditions. Tampere, Finland, 1999: 147-150.
[10]	TRAN D T, DELROIX M, OGAWA A, et al. Factorized linear input network for acoustic model adaptation in noisy conditions[C]//Conference of the International Speech Communication Association. San Francisco, USA 2016: 3813-3817.
[11]	SELTZER M L, YU D, WANG Y. An investigation of deep neural networks for noise robust speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 7398-7402.
[12]	YU D, SELTZER M L, LI J, et al. Feature learning in deep neural networks:Studies on speech recognition tasks[J]. Computer Science, 2013(2): 329–338.
[13]	LI B, SIM K C. A spectral masking approach to noise-robust speech recognition using deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech & Language Processing, 2014, 22(8): 1296–1305.
[14]	王青, 吴侠, 杜俊, 等. 基于DNN特征融合的噪声鲁棒性语音识别[C]//全国人机语音通讯学术会议. 天津: 天津大学, 2015: 23-29. WANG Q, WU X, DU J, et al. DNN based feature fusion for noise robust speech recognition[C]//National Conference on Man-Machine Speech Communication. Tianjin: Tianjin University, 2015: 23-29. (in Chinese)
[15]	ABE A, YAMAMOTO K, NAKAGAWA S. Robust speech recognition using DNN-HMM acoustic model combining noise-aware training with spectral subtraction[C]//Conference of the International Speech Communication Association. Dresden, Germany, 2015: 2849-2853.
[16]	XU Y, DU J, DAI L, et al. Dynamic noise aware training for speech enhancement based on deep neural networks[C]//Conference of the International Speech Communication Association. Singapore, 2014: 2670-2674.
[17]	VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//International Conference on Machine Learning. Helsinki, Finland, 2008: 1096-1103.
[18]	KANG H L, KANG S J, KANG W H, et al. Two-stage noise aware training using asymmetric deep denoising autoencoder[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, 2016: 5765-5769.
[19]	MIMURA M, SAKAI S, KAWAHARA T. Joint optimization of denoising autoencoder and DNN acoustic model based on multi-target learning for noisy speech recognition[C]//Conference of the International Speech Communication Association. Dresden, Germany, 2016: 3803-3807.
[20]	QIAN Y, TAN T, YU D. An investigation into using parallel data for far-field speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, 2016: 5725-5729.
[21]	BUCILU C, CARUANA R, et al. Model compression[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia, USA, 2006: 535-541.
[22]	HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. Computer Science, 2015(7): 382–390.
[23]	LI J. Learning small-size DNN with output-distribution-based criteria[C]//Conference of the International Speech Communication Association, Singapore, 2014: 2650-2654.
[24]	CHAN W, KE N R, LANE I. Transferring knowledge from a RNN to a DNN[J]. Computer Science, 2015(7): 138–143.
[25]	CHEBOTAR Y, WATERS A. Distilling knowledge from ensembles of neural networks for speech recognition[C]//Conference of the International Speech Communication Association. Dresden, Germany, 2016: 3439-3443.
[26]	VINCENT E, BARKER J, WATANABE S, et al. The second "CHiME" speech separation and recognition challenge: Datasets, tasks and baselines[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 126-130.
[27]	POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]//IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. Big Island, USA, 2011.
[28]	TACHIOKA Y. Discriminative methods for noise robust speech recognition: A CHiME challenge benchmark[C]//CHiME Workshop. Vancouver, Canada, 2013: 6935-6939.