跨语言声学模型在维吾尔语语音识别中的应用

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 双向RNN声学模型示意图

图选项

由图 1可知，本文采用双向RNN结构对HMM中三音素的绑定状态进行建模。RNN输出层对多层的非线性特征变换进行Softmax处理。隐藏层$\mathit{\boldsymbol{\vec h}} $1和$\mathit{\boldsymbol{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} }} $分别表示双向RNN中前向层和后向层，并采用如图 2所示的LSTM结构。

图 2 LSTM结构示意图(包含1个记忆单元)

图选项

LSTM隐藏层由输入门、输出门和遗忘门控制信息的读入、写出和重置。当遗忘门的值为1时，可实现历史信息的无损记忆。LSTM中各门使用Sigmoid激活函数，而输入门和记忆单元通常会使用tanh函数来转换。LSTM的记忆单元和各门可以用下列等式来定义：

${\mathit{\boldsymbol{i}}_t} = \sigma \left( {{\mathit{\boldsymbol{W}}_{xi}}{\mathit{\boldsymbol{X}}_t} + {\mathit{\boldsymbol{W}}_{hi}}{\mathit{\boldsymbol{h}}_{t-1}} + {\mathit{\boldsymbol{W}}_{ci}}{\mathit{\boldsymbol{C}}_{t-1}} + {\mathit{\boldsymbol{b}}_i}} \right), $

(1)

${\mathit{\boldsymbol{f}}_t} = \left( {{\mathit{\boldsymbol{W}}_{xf}}{\mathit{\boldsymbol{X}}_t} + {\mathit{\boldsymbol{W}}_{hf}}{\mathit{\boldsymbol{h}}_{t-1}} + {\mathit{\boldsymbol{W}}_{cf}}{\mathit{\boldsymbol{C}}_{t-1}} + {\mathit{\boldsymbol{b}}_f}} \right), $

(2)

${\mathit{\boldsymbol{C}}_t} = {\mathit{\boldsymbol{f}}_t}{\mathit{\boldsymbol{C}}_{t-1}} + {\mathit{\boldsymbol{i}}_t}\tanh \left( {{\mathit{\boldsymbol{W}}_{xc}}{\mathit{\boldsymbol{X}}_t} + {\mathit{\boldsymbol{W}}_{hc}}{\mathit{\boldsymbol{h}}_{t-1}} + {\mathit{\boldsymbol{b}}_c}} \right), $

(3)

${\mathit{\boldsymbol{o}}_t} = \sigma \left( {{W_{xo}} + {\mathit{\boldsymbol{X}}_t} + {\mathit{\boldsymbol{W}}_{ho}}{\mathit{\boldsymbol{h}}_{t-1}} + {\mathit{\boldsymbol{W}}_{co}}{\mathit{\boldsymbol{C}}_t} + {\mathit{\boldsymbol{b}}_o}} \right), $

(4)

${\mathit{\boldsymbol{h}}_t} = {\mathit{\boldsymbol{O}}_t}\tanh \left( {{\mathit{\boldsymbol{C}}_t}} \right).$

(5)

输入门i、遗忘门f、输出门o这3个门的输入都是t时刻输入向量X_t。在t-1时刻，隐藏层向量为h_t-1, 记忆单元状态为C_t-1。W为网络参数矩阵，b为偏置向量，tanh()为转换函数，σ()为Sigmoid激活函数。
3 跨语言声学模型训练方法本文采用的跨语言声学模型训练方法的具体做法是：利用汉语庞大的训练数据训练神经网络声学模型，然后将神经网络的输出层权重去掉，用随机化的方式产生与维吾尔语输出层对应的权重值，再采用反向传播算法，利用维吾尔语语音数据进行重新训练。该方法的优点在于充分利用了汉语大数据来训练神经网络的隐藏层，使模型具有较好的初始权重，然后让维吾尔语声学模型能够在一个具有较好的初始权重的神经网络上进行训练，从而增强网络的鲁棒性。
4 实验结果与分析4.1 数据集本文使用两种数据集分别进行维吾尔语语音转写任务和语音听写任务。两种数据集分别是基于电话信道的口语语音数据集和来自手机输入法的语音数据集。电话信道数据集包含1个训练集和4个测试集，训练集总共425 h，测试集总共8 h。每个测试集有2 h有效语音，来自不同时间、不同群体，说话风格存在差异。电话信道数据主要取自新疆地区，以wav格式保存，所有数据通过人工进行了标注。来自手机语音输入法的语音数据集包含1个600 h的训练集和2个测试集，测试集共4 h。训练集和测试集都来自手机语音输入法数据，对所有数据通过人工进行了标注。
为了验证跨语言声学模型建模方法在维吾尔语语音识别中的应用效果，本文使用了汉语语音数据集。该数据集也分别来自电话信道和语音输入法，分别包括6 000 h和8 000 h的训练数据。
4.2 声学模型配置将本文方法与4种常用的声学模型的性能进行对比：1) GMM-HMM声学模型在建立时对训练语音数据提取39维mel频率倒谱系数(mel-frequency cepstral coefficient, MFCC)特征，基线声学模型将维吾尔语音素作为基元，使用最大似然估计(maximum likelihood estimation, MLE)准则训练，然后将训练出来的单音素模型扩展成上下文相关的三音素模型。2) DNN-HMM模型的输入为24维FBank特征加上一阶差分和二阶差分，将其前后各取9帧组成648维输入节点。此模型共有6个隐藏层，每层有2 048个节点。输出层对应的聚类后的状态标签有9 000个节点。3) LSTM-HMM声学模型中单向LSTM网络包含1个输入层，输入层的节点对应40维FBank特征，扩了5帧，共200个节点；3个隐藏层，每层有2 048个节点。4) BLSTM-HMM和Crosslingual声学模型采用的BLSTM网络结构为3层双向LSTM，每层前向有1 024个节点、后向有1 024个节点，每个节点包含一个记忆单元。Sigmoid函数作为隐藏层的激活函数，输出层分类用Softmax函数，其他配置与单向LSTM和DNN-HMM类似。BLSTM-HMM和Crosslingual声学模型的区别在于Crosslingual先采用汉语语音数据集进行网络训练，然后利用维吾尔语语音数据进行重新训练，而BLSTM-HMM只利用维吾尔语语音数据进行训练。
DNN-HMM、LSTM-HMM、BLSTM-HMM、Crosslingual声学模型采用minibatch随机梯度下降(stochastic gradient descent, SGD)算法进行训练，选用交叉熵和最小音素错误率作为目标函数。由于数据量比较充足，因此训练Crosslingual声学模型时没有进行预训练，每次迭代对整个网络的权重进行更新。解码时采用三元语法模型，使用基于加权有限状态转换器(weighted finite state transducer, WFST)的静态解码框架。
4.3 实验结果本文对不同声学模型利用基于电话信道数据集的4个测试集(T1、T2、T3、T4)进行了维吾尔语语音转写任务的性能对比，各模型的词识别错误率(WER)如表 1所示。转写不需要实时完成，而听写是有实时性要求的，一般BLSTM不满足实时性要求，因此在维吾尔语语音听写任务中没有考察BLSTM-HMM。本文对不同声学模型利用语音输入法的两个测试集(T5、T6)进行了维吾尔语语音听写任务的性能对比，结果如表 2所示。
表 1 各种声学模型在语音转写任务中的性能

声学模型	WER/%
声学模型	T1	T2	T3	T4	平均
GMM-HMM	41.04	41.68	49.44	48.83	45.25
DNN-HMM	37.13	38.84	45.79	46.31	42.02
LSTM-HMM	32.67	36.16	43.04	43.54	38.86
BLSTM-HMM	31.55	35.56	41.38	42.15	37.66
Crosslingual	30.40	34.04	39.12	40.46	36.01

表选项

表 2 各种声学模型在语音听写任务中的性能

声学模型	WER/%
声学模型	T5	T6	平均
GMM-HMM	27.33	28.75	28.04
DNN-HMM	23.52	24.39	23.96
LSTM-HMM	20.53	20.74	20.64
Crosslingual	18.99	19.65	19.32

表选项

由表 1和2可以看出，基于深度神经网络的声学建模方法的性能优于基于GMM-HMM的，从词识别错误率来看，Crosslingual模型比GMM-HMM在转写和听写任务中WER分别下降了20%和30%，这说明在大规模数据上基于深度神经网络的声学模型比GMM-HMM模型在性能上有很大提高。基于深度神经网络的声学模型中最好的LSTM-HMM比DNN-HMM的WER在转写和听写任务中分别下降了10%和13.8%，这说明LSTM对上下文建模能力更强，再次证明了LSTM声学模型在语音识别中具有较好的效果。采用汉语语音数据训练出来的Crosslingual声学模型比利用维吾尔语语音数据训练出来的LSTM-HMM性能好，在转写和听写任务中词识别错误率分别下降了4%和6%，这说明可以利用资源丰富的语言的语音数据来提高维吾尔语声学模型的性能。但是，该性能提高不是很大，这可能是因为维吾尔语语音数据量已经有几百小时了，数据量并不算很少，所以Crosslingual比LSTM-HMM的性能提升不是很显著。另一个可能的原因是维吾尔语和汉语属于不同语系，两种语言中发音相似的音素较少，这也限制了声学模型性能的进一步提高。
从整体实验结果来看，各模型在语音转写任务上的性能比听写任务要差，这是由于语音转写任务数据来自电话信道，语音质量比较差，语音内容中说话风格随意，并且口语化严重，因此导致识别错误率较高。
5 结束语本文针对维吾尔语语音数据不足的问题，研究了跨语言声学模型在维吾尔语语音识别中的应用，采用了基于长短期记忆网络的跨语言声学模型建模方法和跨语言声学模型训练方法，建立了GMM-HMM、DNN-HMM、LSTM-HMM、BLSTM-DNN、Crosslingual等声学模型，并对各声学模型在维吾尔语语音转写和语音听写测试任务上的识别性能进行了分析。从本文实验结果可以看出，跨语言声学模型建模方法提升了维吾尔语声学模型的性能，使用其他大语种大规模语料库数据训练声学模型能够获得比较稳定的发音描述模型，在此基础上基于维吾尔语训练数据进行自适应训练可以使该模型在维吾尔语上具有更好的区分能力。本文作者认为将汉语和维吾尔语的声学知识与跨语言声学模型的建模方法相结合可以进一步降低语音识别错误率。此外，本文方法不但对维吾尔语有效，而且对语音资源相对缺乏的哈萨克语、柯尔克孜语等的语音识别研究具有重要参考意义。

参考文献

[1]	麦麦提艾力·吐尔逊, 戴礼荣. 深度神经网络在维吾尔语大词汇量连续语音识别中的应用[J]. 数据采集与处理, 2015, 30(2): 365–371. MAIMAITIAILI T, DAI L R. Deep neural network based Uyghur large vocabulary continuous speech recognition[J]. Journal of Data Acquisition and Processing, 2015, 30(2): 365–371. (in Chinese)
[2]	其米克·巴特西, 黄浩, 王羡慧. 基于深度神经网络的维吾尔语语音识别[J]. 计算机工程与设计, 2015, 36(8): 2239–2244. QIMIKE B, HUANG H, WANG X H. Uyghur speech recognition based on deep neural network[J]. Computer Engineering and Design, 2015, 36(8): 2239–2244. (in Chinese)
[3]	刘林泉, 郑方, 吴文虎. 基于小数据量的方言普通话语音识别声学建模[J]. 清华大学学报(自然科学版), 2008, 48(4): 604–607. LIU L Q, ZHENG F, WU W H. Small dataset-based acoustic modeling for dialectal Chinese speech recognition[J]. Journal of Tsinghua University (Science and Technology), 2008, 48(4): 604–607. (in Chinese)
[4]	SCHULTZ T, WAIBEL A. Experiments on cross-language acoustic modeling[C]//The 7th European Conference on Speech Communication and Technology. Aalborg, Denmark, 2001: 2721-2724. http://www.researchgate.net/publication/2886711_Experiments_On_Cross-Language_Acoustic_Modeling
[5]	POVEY D, BURGET L, AGARWAL M, et al. The subspace Gaussian mixture model:A structured model for speech recognition[J]. Computer Speech & Language, 2011, 25(2): 404–439.
[6]	BURGET L, SCHWARZ P, AGARWAL M, et al. Multilingual acoustic modeling for speech recognition based on subspace Gaussian mixture models[C]//IEEE International Conference on Acoustics Speech and Signal Processing. Dallas, USA, 2010: 4334-4337. http://ieeexplore.ieee.org/document/5495646/
[7]	STOLCKE A, GREZL F, HWANG M Y, et al. Cross-domain and cross-language portability of acoustic features estimated by multilayer perceptron[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Toulouse, France, 2006: 321-324. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=1660022
[8]	VESELy K, KARAFIáT M, GRéZL F, et al. The language-independent bottleneck features[C]//2012 Workshop on Spoken Language Technology. Miami, USA, 2012: 336-341. http://ieeexplore.ieee.org/document/6424246/
[9]	SWIETOJANSKI P, GHOSHAL A, RENALS S. Unsupervised cross-lingual knowledge transfer in DNN-based LVCSR[C]//2012 Workshop on Spoken Language Technology. Miami, USA, 2012: 246-251. http://ieeexplore.ieee.org/document/6424230/
[10]	SIM K C, LI H. Context-sensitive probabilistic phone mapping model for cross-lingual speech recognition[C]//9th Annual Conference of the International Speech Communication Association. Brisbane, Australia, 2008: 2715-2718. https://www.researchgate.net/publication/221485145_Context-sensitive_probabilistic_phone_mapping_model_for_cross-lingual_speech_recognition
[11]	DO V H, XIAO X, CHNG E S, et al. Context dependant phone mapping for cross-lingual acoustic modeling[C]//20128th International Symposium on Chinese Spoken Language Processing. Hong Kong, China, 2012: 16-20. http://ieeexplore.ieee.org/document/6423496/
[12]	HUANG J T, LI J, YU D, et al. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 7304-7308. http://ieeexplore.ieee.org/document/6639081/
[13]	ROBINSON A J. An application of recurrent nets to phone probability estimation[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 298–305. DOI:10.1109/72.279192