应用于语种识别的加权音素对数似然比特征

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 WPLLR特征提取流程图

图选项

步骤1 ?使用语音端点检测(voice activity detector，VAD)技术去除输入音频信号中的非语音段。
步骤2 ?通过音素识别器将语音信号识别为帧级的音素后验概率向量。设每一帧识别为一个k维的音素后验概率向量[p(1), p(2)，…，p(k)]，其中p(k)∈[0,1]，且满足

$\sum\limits_{k = 1}^K {p\left( k \right) = 1.} $

(1)

步骤3 ?对每一帧的音素后验概率向量进行规整，即计算每个音素后验概率的对数似然比，得到最基本的PLLR特征向量。以l(k)表示如下：

$l\left( k \right) = \log \left( {\frac{{p\left( k \right)}}{{1-p\left( k \right)}}} \right).$

(2)

经过规整处理后，特征向量每一维的分布近似Gauss分布，更适合于建模^[8]。
步骤4 ?根据PLLR特征向量不同维所包含的语种鉴别性信息的多少，赋予其相应权重。设加权后的特征表示为r(k),

$r\left( k \right) = w\left( k \right)l\left( k \right).$

(3)

其中w(k)是特征向量第k维的权重。加权是WPLLR特征提取的关键，原PLLR特征可以看作在所有维的权重都为1。其中权重的计算将在下一节中详细介绍。
步骤5 ?应用主成分分析(principal component analysis，PCA)方法降低特征向量各维间的相关性及其维数。PCA降维不但可以节省识别系统的时间、空间消耗，同时还可以提升系统的性能^[12], 成为PLLR特征必不可少的后处理，在WPLLR特征提取中也同样得到了应用。
2 基于F比的权重计算特征向量各维的权重与其对语种鉴别性的贡献大小相对应。具体来讲，对拥有语种鉴别性信息较多的分量赋予较高权重，对拥有语种鉴别性信息较少的分量赋予较低权重。
为了分析PLLR特征向量各维对语种鉴别性的贡献, 用F比方法来分析特征每一维在训练集各语种间的分布情况。F比是一个分析特征对分类任务贡献的方法，如果特征在类间的差异较大，且在类内差异较小，其值会比较大，反之则较小^[9]。
假设训练集包含了M个语种的数据，第i个语种有N_i条语句，i∈[1，M]。设l_{i, t}^j(k)为第i个语种、第j条语句、第t帧中第k维PLLR特征的值，设s_i^j(k)是l_{i, t}^j(k)在该条语句所有帧上的和：

$s_i^j\left( k \right) = \sum\limits_{t = 1}^T {l_{i, t}^j\left( k \right).} $

(4)

其中T是该语句的总帧数。
再设s_i(k)为l_{i, t}^j(k)在第i个语种所有语句上的和，s(k)为l_{i, t}^j(k)在整个训练集所有语句上的和,

${s_i}\left( k \right) = \sum\limits_{j = 1}^{{N_i}} {s_i^j\left( k \right)}, $

(5)

$s\left( k \right) = \sum\limits_{i = 1}^M {{s_i}\left( k \right).} $

(6)

定义m_i^j(k)、m_i(k)和m(k)分别是s_i^j(k)、s_i(k)和s(k)在整个向量上的归一化值：

$m_i^j\left( k \right) = \frac{{s_i^j\left( k \right)}}{{\sum\limits_{q = 1}^K {s_i^j\left( q \right)} }}, $

(7)

${m_i}\left( k \right) = \frac{{{s_i}\left( k \right)}}{{\sum\limits_{q = 1}^K {{s_i}\left( q \right)} }}, $

(8)

$m\left( k \right) = \frac{{s\left( k \right)}}{{\sum\limits_{q = 1}^K {s\left( q \right)} }}.$

(9)

其中K是特征向量的维数。
则PLLR特征向量第k维F比的计算方式如下：

$F\left( k \right) = \frac{{\frac{1}{M}\sum\limits_{i = 1}^M {{{\left( {{m_i}\left( k \right)-m\left( k \right)} \right)}^2}} }}{{\frac{1}{M}\sum\limits_{i = 1}^M {\frac{1}{{{N_i}}}\sum\limits_{j = 1}^{{N_i}} {{{\left( {m_i^j\left( k \right)-{m_i}\left( k \right)} \right)}^2}} } }}.$

(10)

从F比的表达式可以看出，分子部分表示了PLLR特征向量第k维在各个语种间的差异，而分母部分表示了其在每个语种内部的分布情况。如果特征向量第k维在各个语种间差别较大，并且在同一语种内差异较小，则F比的值较大，即特征向量第k维包含了较多的语种鉴别性信息；反之，则F比的值较小，即特征向量在第k维包含的语种鉴别性信息较少。
得到PLLR特征向量每一维的语种鉴别性大小后，就可以计算WPLLR特征提取中的权重。在本文中，每一维的权重定义为对应F比值的x倍：

$\omega \left( k \right) = xF\left( k \right).$

(11)

其中x是一个经验参数。
需要指出，权重的计算是在模型训练阶段，在识别系统运行阶段，权重不需要重新计算，因此不会增加识别系统的时间消耗。
3 语种识别实验3.1 实验设置3.1.1 数据集为了比较本文所提出的WPLLR特征与原PLLR特征的性能，使用NIST 2007年语种识别评测数据集进行实验，该数据集包含14个语种的电话信道语音^[10]。测试数据为闭集条件下的30 s语音数据。
3.1.2 音素后验概率提取为了充分检验本文所提特征的有效性，实验中使用了3个BUT开发的音素识别器^[11]：俄语(Russian，RU)、匈牙利语(Hungarian，HU)和捷克语(Czech，CZ)音素识别器。这些识别器将每个音素分成3个状态，即每个音素有3个后验概率。用每个状态的音素后验概率作为特征的一维，而不是将3个状态加起来。这样既可以充分利用音素的信息，也可以利用状态提供的鉴别性信息^[13]。3个音素识别器所对应的特征向量维数分别为：159(RU)、186(HU)和138(CZ)。
3.1.3 语种识别系统使用GSV-SVM系统来对比2个特征的性能。在这个系统中，首先从每个语种的训练数据中随机挑选若干语句，训练一个256 Gauss的UBM (universal background model)。然后应用最大后验概率估计来得到每条语句的Gauss超向量，再以一对一与一对多融合的方式训练SVM模型^[14]。最后，以线性判别分析(linear discriminant analysis，LDA)后接单Gauss建模的方法作为分数端的处理。这个分数端处理方法首先将得分向量进行LDA变换，再用共用协方差矩阵的单Gauss对每个语种的得分向量建模。
3.2 F比的计算为了计算PLLR特征向量各维的F比，首先提取了NIST07训练集的数据的基本的PLLR特征(PCA降维之前)，然后利用节2所介绍步骤来计算F比的值。3个识别器分别对应的F比值如图 2所示。

图 2 3个识别器分别对应的F比值

图选项

从图 2可以看到，语种鉴别性信息在PLLR特征向量各维的分布是不均匀的。得到F比值之后，特征向量的权重就可以利用式(11) 计算得到，再用式(3) 进行加权得到WPLLR，最后进行PCA降维处理。在本文实验中，3个音素识别器的特征向量都降为56维。
3.3 实验结果本文给出2个特征在NIST07中30 s测试集上的实验结果。指标选用NIST定义的平均检测代价(average cost performance) C_avg^[10]和等错率(equal error rate，EER)，这2个指标都是越小越好。实验同时对比了PLLR特征与WPLLR特征在3个音素识别器上的性能，以及3个音素识别器得分融合的性能。为了使融合结果更可靠，实验中使用了等权重的线性融合方式。2个特征的测试结果对比如表 1和表 2所示。
表 1 EER结果对比

音素识别器	RU/%	HU/%	CZ/%	融合/%
PLLR	4.31	3.70	4.28	2.78
WPLLR	3.75	3.38	3.94	2.50
相对降低	12.99	8.65	7.94	10.07

表选项

表 2 C_avg结果对比

音素识别器	RU/%	HU/%	CZ/%	融合/%
PLLR	4.25	3.77	4.21	2.79
WPLLR	3.61	3.46	3.90	2.31
相对降低	15.06	8.22	7.36	17.20

表选项

如表 1和表 2所示，无论是单个音素识别的结果，还是3个音素识别器融合的结果，相比于PLLR特征，本文提出的WPLLR特征都取得了更优异的性能。从单个音素识别器的表现来看，俄语音素识别器(RU)的性能提升最大，匈牙利语音素识别器(HU)的性能最好。最好的识别结果为3个音素识别器得分融合的结果。可见，提高PLLR特征向量中含有较多语种鉴别性信息的分量的权重，可以提高特征的语种鉴别性，进而提高识别系统的性能。
4 结论本文分析了PLLR特征向量各维所含语种鉴别性的差异，提出了WPLLR特征，对PLLR特征向量中含有较多语种鉴别性的分量赋予较高的权重。在NIST07上的实验结果显示，本文所提出的WPLLR特征在各种情况下都比原PLLR特征性能更优异。

参考文献

[1]	Li H, Ma B, Lee K. Spoken language recognition:From fundamentals to practice[J]. Proceedings of the IEEE, 2013, 101(5): 1136–1159. DOI:10.1109/JPROC.2012.2237151
[2]	Torres-Carrasquillo P, Singer E, Kohler M, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features[C]//7th International Conference on Spoken Language Processing. Denver, CO, USA:IEEE, 2002:89-92. https://ll.mit.edu/mission/cybersec/publications/publication-files/full_papers/020916_Torres.pdf
[3]	Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Process, 2000, 10(1-3): 19–41. DOI:10.1006/dspr.1999.0361
[4]	Dehak N, Torres-Carrasquillo P A, Reynolds D A, et al. Language recognition via i-vectors and dimensionality reduction[C]//12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011:857-860. http://www.academia.edu/7704247/Speaker_Profiling_for_Forensic_Applications
[5]	Campbell W M, Sturim D E, Reynolds D A. Support vector machines using GMM supervectors for speaker verification[J]. IEEE Signal Process Letters, 2006, 13(5): 308–311. DOI:10.1109/LSP.2006.870086
[6]	Yan Y, Barnard E. An approach to automatic language identification based on language-dependent phone recognition[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Detroit, MI, USA:IEEE, 1995:3511-3514. http://doi.ieeecomputersociety.org/10.1109/ICASSP.1995.479743
[7]	Li H, Ma B, Lee C. A vector space modeling approach to spoken language identification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 271–284. DOI:10.1109/TASL.2006.876860
[8]	Diez M, Varona A, Penagarikano M, et al. On the use of phone log-likelihood ratios as features in spoken language recognition[C]//2012 IEEE Spoken Language Technology Workshop (SLT). Miami, FL, USA:IEEE, 2012:274-279.
[9]	LU Xugang, DANG Jianwu. An investigation of dependencies between frequency components and speaker characteristics for text-independent speaker identification[J]. Speech Communication, 2008, 50(4): 312–322. DOI:10.1016/j.specom.2007.10.005
[10]	Martin A F, Le A N. NIST 2007 language recognition evaluation[C]//Odyssey 2008:The Speaker and Language Recognition Workshop. Stellenbosch, South Africa:IEEE, 2008:16. https://link.springer.com/referenceworkentry/10.1007/978-0-387-73003-5_204
[11]	Matejka P, Schwarz P, Cernocky J, et al. Phonotactic language identification using high quality phoneme recognition[C]//9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005:2237-2240. https://www.researchgate.net/publication/221479948_Phonotactic_language_identification_using_high_quality_phoneme_recognition
[12]	Diez M, Varona A, Penagarikano M, et al. Dimensionality reduction of phone log-likelihood ratio features for spoken language recognition[C]//Conference of the InternationalSpeech Communication Association. Lyon, France, 2013:64-68. http://gtts.ehu.es/gtts/NT/fulltext/DiezInterspeech2013a.pdf
[13]	D'Haro L F, Cordoba R, Salamea C, et al. Extended phone log-likelihood ratio features and acoustic-basedi-vectors for language recognition[C]. International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2014:5342-5346. http://ieeexplore.ieee.org/document/6854623/
[14]	王宪亮, 吴志刚, 杨金超, 等. 基于SVM一对一分类的语种识别方法[J]. 清华大学学报(自然科学版), 2013, 53(6): 808–812.WANG Xianliang, WU Zhigang, YANG Jinchao, et al. Language recognition based on SVM 1 vs. 1 classification[J]. J Tsinghua Univ (Sci & Tech), 2013, 53(6): 808–812. (in Chinese)