删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

应用于语种识别的加权音素对数似然比特征

本站小编 Free考研考试/2020-04-15

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>张健 1 , 徐杰 2 , 包秀国 2 , 周若华 1 , 颜永红 1
1. 中国科学院 声学研究所, 北京 100190;
2. 国家计算机网络应急技术处理协调中心, 北京 100029

收稿日期:2016-06-22
基金项目:国家自然科学基金资助项目(11461141004,91120001,61271426);国家"八六三"高技术项目(2012AA012503);中国科学院战略性先导科技专项(XDA06030100,XDA06030500);中科院重点部署项目(KGZD-EW-103-2)
作者简介:张健(1988-), 男, 博士研究生
通信作者:周若华, 研究员, E-mail:zhouruohua@hccl.ioa.ac.cn

摘要:语种识别的关键问题之一是提取语音信号中的语种鉴别性信息。近期,音素对数似然比(phone log-likelihood ratio,PLLR)的新特征被引入语种识别领域,并表现出了优异的性能。该文利用F比方法分析了PLLR特征向量各维的语种鉴别性大小,提出了加权音素对数似然比(weighted PLLR,WPLLR)特征,赋予PLLR特征中含有较多语种鉴别性信息的分量较高的权重。在美国国家标准技术署(National Institute of Standards and Technology,NIST)2007年语种识别测试集上的实验结果表明:相比于原PLLR特征,该文所提出的WPLLR特征在平均检测代价和等错率2个指标上都显著降低。
关键词:语音信号处理语种识别语种鉴别性加权音素对数似然比(WPLLR)F
Weighted phone log-likelihood ratio feature for spoken language recognition
ZHANG Jian1, XU Jie2, BAO Xiuguo2, ZHOU Ruohua1, YAN Yonghong1
1.Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China;
2.National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China


Abstract: The extraction of linguistic discriminative features is one of the fundamental issues in spoken language recognition (SLR). The frame level phone log-likelihood ratio (PLLR) has been recently introduced to improve language recognition. In this paper, the F-ratio analysis method is used to analyze the contributions of different SLR feature vector dimensions. Then, a weighted phone log-likelihood ratio (WPLLR) feature is used to more heavily weight those dimensions with high F-ratio values. Tests on the National Institute of Standards and Technology (NIST) 2007 dataset for SLR show the effectiveness of this feature, with significant relative improvements in the average cost performance and equal error rate compared with the PLLR feature.
Key words: speech signal processingspoken language recognitionlinguistic discriminationweighted phone log-likelihood ratio (WPLLR)F-ratio
语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术,该技术可使大规模跨语言语音识别应用成为可能,可用于口语语言翻译、口语文件检索等,同时也是国家安全领域信息提取的研究重点。语种识别的关键问题之一是提取可以表征同一语言中语音的共性、不同语言间语音的差异的特征。认知学的实验表明:语种信息可以由不同层次的特征反映出来,包括声学层特征、音素层特征、韵律特征、词法特征和句法特征[1]。其中,声学层和音素层特征是最常用的语种识别特征。
声学层特征主要表征了不同语言的语音信号时频分布的差异,通常直接从语音信号分帧变换提取。常用的有美尔倒谱系数(mel-frequency cepstral coefficient,MFCC)及其衍生特征MSDC(MFCC-shifted delta cepstrum)[2]等。对声学层特征建模的方法有很多,常用的有Gauss混合模型-全局背景模型(Gaussian mixture model-universal background model,GMM-UBM)[3]、总变化量因子分析(total variability factor analysis)[4]和Gauss超向量-支持向量机(GMM super vector-support vector machines,GSV-SVM)[5]等。音素层特征主要以各语言间的音素不完全相同、各音素出现频率有差异以及各音素前后关系的不同作为识别依据,通常用音素识别器将语音信号解码为音素串或者音素网格,再以N元文法[6]或者向量空间模型[7]建模。
最近,一个名为音素对数似然比(phone log-likelihood ratio,PLLR)的新特征在语种识别领域取得了优秀的成果[8]。该特征首先利用音素识别器将输入语音识别为帧级的音素后验概率向量,但并不解码出音素串或者音素网格,而是将这些音素后验概率向量进行一系列变换处理,得到如同声学层特征一样的帧级形式。该特征既拥有高于声学层(音素层)的语种鉴别性信息,又可以使用声学层丰富的建模方法,大量实验证明该特征是目前最有效的语种识别特征之一。但是,PLLR特征没有考虑语种的鉴别性信息在特征向量各维的分布是不均匀的,即有些分量含有较多的语种鉴别性信息,而有些分量含有的语种鉴别性信息较少。
为了进一步提高PLLR特征的语种鉴别性,本文利用F比分析方法来估计PLLR特征向量各维的语种鉴别性大小。F比方法通常用在分类任务中,通过计算某一维特征在各类中的分布情况,分析该维特征对分类的贡献[9]。基于F比分析结果,本文提出了一个PLLR的扩展特征,即加权音素对数似然比(weighted phone log-likelihood ratio, WPLLR)特征,根据PLLR特征向量各维的语种鉴别性大小,赋予其不同的权重:对含有较多语种鉴别性信息的分量赋予较高的权重,对含有语种鉴别性信息较少的分量赋予较小的权重。
为了检验本文所提出的WPLLR特征的有效性,使用美国国家标准技术署(National Institute of Standards and Technology,NIST)2007年语种识别评测中30 s的测试数据[10],应用Brno科技大学(Brno University of Technology, BUT)开发的3个音素识别器[11],在GSV-SVM系统上比较了PLLR特征与WPLLR特征的性能。实验结果显示,无论在单个音素识别器情况下,还是在3个音素识别器结果融合的情况下,WPLLR特征的性能都明显优于PLLR特征。
1 WPLLR特征提取方法本文提出的WPLLR特征的提取流程共分为5个步骤,如图 1所示。
图 1 WPLLR特征提取流程图
图选项





步骤1 ?使用语音端点检测(voice activity detector,VAD)技术去除输入音频信号中的非语音段。
步骤2 ?通过音素识别器将语音信号识别为帧级的音素后验概率向量。设每一帧识别为一个k维的音素后验概率向量[p(1), p(2),…,p(k)],其中p(k)∈[0,1],且满足
$\sum\limits_{k = 1}^K {p\left( k \right) = 1.} $ (1)
步骤3 ?对每一帧的音素后验概率向量进行规整,即计算每个音素后验概率的对数似然比,得到最基本的PLLR特征向量。以l(k)表示如下:
$l\left( k \right) = \log \left( {\frac{{p\left( k \right)}}{{1-p\left( k \right)}}} \right).$ (2)
经过规整处理后,特征向量每一维的分布近似Gauss分布,更适合于建模[8]
步骤4 ?根据PLLR特征向量不同维所包含的语种鉴别性信息的多少,赋予其相应权重。设加权后的特征表示为r(k),
$r\left( k \right) = w\left( k \right)l\left( k \right).$ (3)
其中w(k)是特征向量第k维的权重。加权是WPLLR特征提取的关键,原PLLR特征可以看作在所有维的权重都为1。其中权重的计算将在下一节中详细介绍。
步骤5 ?应用主成分分析(principal component analysis,PCA)方法降低特征向量各维间的相关性及其维数。PCA降维不但可以节省识别系统的时间、空间消耗,同时还可以提升系统的性能[12], 成为PLLR特征必不可少的后处理,在WPLLR特征提取中也同样得到了应用。
2 基于F比的权重计算特征向量各维的权重与其对语种鉴别性的贡献大小相对应。具体来讲,对拥有语种鉴别性信息较多的分量赋予较高权重,对拥有语种鉴别性信息较少的分量赋予较低权重。
为了分析PLLR特征向量各维对语种鉴别性的贡献, 用F比方法来分析特征每一维在训练集各语种间的分布情况。F比是一个分析特征对分类任务贡献的方法,如果特征在类间的差异较大,且在类内差异较小,其值会比较大,反之则较小[9]
假设训练集包含了M个语种的数据,第i个语种有Ni条语句,i∈[1,M]。设li, tj(k)为第i个语种、第j条语句、第t帧中第k维PLLR特征的值,设sij(k)是li, tj(k)在该条语句所有帧上的和:
$s_i^j\left( k \right) = \sum\limits_{t = 1}^T {l_{i, t}^j\left( k \right).} $ (4)
其中T是该语句的总帧数。
再设si(k)为li, tj(k)在第i个语种所有语句上的和,s(k)为li, tj(k)在整个训练集所有语句上的和,
${s_i}\left( k \right) = \sum\limits_{j = 1}^{{N_i}} {s_i^j\left( k \right)}, $ (5)
$s\left( k \right) = \sum\limits_{i = 1}^M {{s_i}\left( k \right).} $ (6)
定义mij(k)、mi(k)和m(k)分别是sij(k)、si(k)和s(k)在整个向量上的归一化值:
$m_i^j\left( k \right) = \frac{{s_i^j\left( k \right)}}{{\sum\limits_{q = 1}^K {s_i^j\left( q \right)} }}, $ (7)
${m_i}\left( k \right) = \frac{{{s_i}\left( k \right)}}{{\sum\limits_{q = 1}^K {{s_i}\left( q \right)} }}, $ (8)
$m\left( k \right) = \frac{{s\left( k \right)}}{{\sum\limits_{q = 1}^K {s\left( q \right)} }}.$ (9)
其中K是特征向量的维数。
则PLLR特征向量第kF比的计算方式如下:
$F\left( k \right) = \frac{{\frac{1}{M}\sum\limits_{i = 1}^M {{{\left( {{m_i}\left( k \right)-m\left( k \right)} \right)}^2}} }}{{\frac{1}{M}\sum\limits_{i = 1}^M {\frac{1}{{{N_i}}}\sum\limits_{j = 1}^{{N_i}} {{{\left( {m_i^j\left( k \right)-{m_i}\left( k \right)} \right)}^2}} } }}.$ (10)
F比的表达式可以看出,分子部分表示了PLLR特征向量第k维在各个语种间的差异,而分母部分表示了其在每个语种内部的分布情况。如果特征向量第k维在各个语种间差别较大,并且在同一语种内差异较小,则F比的值较大,即特征向量第k维包含了较多的语种鉴别性信息;反之,则F比的值较小,即特征向量在第k维包含的语种鉴别性信息较少。
得到PLLR特征向量每一维的语种鉴别性大小后,就可以计算WPLLR特征提取中的权重。在本文中,每一维的权重定义为对应F比值的x倍:
$\omega \left( k \right) = xF\left( k \right).$ (11)
其中x是一个经验参数。
需要指出,权重的计算是在模型训练阶段,在识别系统运行阶段,权重不需要重新计算,因此不会增加识别系统的时间消耗。
3 语种识别实验3.1 实验设置3.1.1 数据集为了比较本文所提出的WPLLR特征与原PLLR特征的性能,使用NIST 2007年语种识别评测数据集进行实验,该数据集包含14个语种的电话信道语音[10]。测试数据为闭集条件下的30 s语音数据。
3.1.2 音素后验概率提取为了充分检验本文所提特征的有效性,实验中使用了3个BUT开发的音素识别器[11]:俄语(Russian,RU)、匈牙利语(Hungarian,HU)和捷克语(Czech,CZ)音素识别器。这些识别器将每个音素分成3个状态,即每个音素有3个后验概率。用每个状态的音素后验概率作为特征的一维,而不是将3个状态加起来。这样既可以充分利用音素的信息,也可以利用状态提供的鉴别性信息[13]。3个音素识别器所对应的特征向量维数分别为:159(RU)、186(HU)和138(CZ)。
3.1.3 语种识别系统使用GSV-SVM系统来对比2个特征的性能。在这个系统中,首先从每个语种的训练数据中随机挑选若干语句,训练一个256 Gauss的UBM (universal background model)。然后应用最大后验概率估计来得到每条语句的Gauss超向量,再以一对一与一对多融合的方式训练SVM模型[14]。最后,以线性判别分析(linear discriminant analysis,LDA)后接单Gauss建模的方法作为分数端的处理。这个分数端处理方法首先将得分向量进行LDA变换,再用共用协方差矩阵的单Gauss对每个语种的得分向量建模。
3.2 F比的计算为了计算PLLR特征向量各维的F比,首先提取了NIST07训练集的数据的基本的PLLR特征(PCA降维之前),然后利用节2所介绍步骤来计算F比的值。3个识别器分别对应的F比值如图 2所示。
图 2 3个识别器分别对应的F比值
图选项





图 2可以看到,语种鉴别性信息在PLLR特征向量各维的分布是不均匀的。得到F比值之后,特征向量的权重就可以利用式(11) 计算得到,再用式(3) 进行加权得到WPLLR,最后进行PCA降维处理。在本文实验中,3个音素识别器的特征向量都降为56维。
3.3 实验结果本文给出2个特征在NIST07中30 s测试集上的实验结果。指标选用NIST定义的平均检测代价(average cost performance) Cavg[10]和等错率(equal error rate,EER),这2个指标都是越小越好。实验同时对比了PLLR特征与WPLLR特征在3个音素识别器上的性能,以及3个音素识别器得分融合的性能。为了使融合结果更可靠,实验中使用了等权重的线性融合方式。2个特征的测试结果对比如表 1表 2所示。
表 1 EER结果对比
音素识别器 RU/% HU/% CZ/% 融合/%
PLLR 4.31 3.70 4.28 2.78
WPLLR 3.75 3.38 3.94 2.50
相对降低 12.99 8.65 7.94 10.07


表选项






表 2 Cavg结果对比
音素识别器 RU/% HU/% CZ/% 融合/%
PLLR 4.25 3.77 4.21 2.79
WPLLR 3.61 3.46 3.90 2.31
相对降低 15.06 8.22 7.36 17.20


表选项






表 1表 2所示,无论是单个音素识别的结果,还是3个音素识别器融合的结果,相比于PLLR特征,本文提出的WPLLR特征都取得了更优异的性能。从单个音素识别器的表现来看,俄语音素识别器(RU)的性能提升最大,匈牙利语音素识别器(HU)的性能最好。最好的识别结果为3个音素识别器得分融合的结果。可见,提高PLLR特征向量中含有较多语种鉴别性信息的分量的权重,可以提高特征的语种鉴别性,进而提高识别系统的性能。
4 结论本文分析了PLLR特征向量各维所含语种鉴别性的差异,提出了WPLLR特征,对PLLR特征向量中含有较多语种鉴别性的分量赋予较高的权重。在NIST07上的实验结果显示,本文所提出的WPLLR特征在各种情况下都比原PLLR特征性能更优异。

参考文献
[1] Li H, Ma B, Lee K. Spoken language recognition:From fundamentals to practice[J]. Proceedings of the IEEE, 2013, 101(5): 1136–1159. DOI:10.1109/JPROC.2012.2237151
[2] Torres-Carrasquillo P, Singer E, Kohler M, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features[C]//7th International Conference on Spoken Language Processing. Denver, CO, USA:IEEE, 2002:89-92. https://ll.mit.edu/mission/cybersec/publications/publication-files/full_papers/020916_Torres.pdf
[3] Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Process, 2000, 10(1-3): 19–41. DOI:10.1006/dspr.1999.0361
[4] Dehak N, Torres-Carrasquillo P A, Reynolds D A, et al. Language recognition via i-vectors and dimensionality reduction[C]//12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011:857-860. http://www.academia.edu/7704247/Speaker_Profiling_for_Forensic_Applications
[5] Campbell W M, Sturim D E, Reynolds D A. Support vector machines using GMM supervectors for speaker verification[J]. IEEE Signal Process Letters, 2006, 13(5): 308–311. DOI:10.1109/LSP.2006.870086
[6] Yan Y, Barnard E. An approach to automatic language identification based on language-dependent phone recognition[C]//IEEE International Conference on Acoustics, Speech, and Signal Processing. Detroit, MI, USA:IEEE, 1995:3511-3514. http://doi.ieeecomputersociety.org/10.1109/ICASSP.1995.479743
[7] Li H, Ma B, Lee C. A vector space modeling approach to spoken language identification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 271–284. DOI:10.1109/TASL.2006.876860
[8] Diez M, Varona A, Penagarikano M, et al. On the use of phone log-likelihood ratios as features in spoken language recognition[C]//2012 IEEE Spoken Language Technology Workshop (SLT). Miami, FL, USA:IEEE, 2012:274-279.
[9] LU Xugang, DANG Jianwu. An investigation of dependencies between frequency components and speaker characteristics for text-independent speaker identification[J]. Speech Communication, 2008, 50(4): 312–322. DOI:10.1016/j.specom.2007.10.005
[10] Martin A F, Le A N. NIST 2007 language recognition evaluation[C]//Odyssey 2008:The Speaker and Language Recognition Workshop. Stellenbosch, South Africa:IEEE, 2008:16. https://link.springer.com/referenceworkentry/10.1007/978-0-387-73003-5_204
[11] Matejka P, Schwarz P, Cernocky J, et al. Phonotactic language identification using high quality phoneme recognition[C]//9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005:2237-2240. https://www.researchgate.net/publication/221479948_Phonotactic_language_identification_using_high_quality_phoneme_recognition
[12] Diez M, Varona A, Penagarikano M, et al. Dimensionality reduction of phone log-likelihood ratio features for spoken language recognition[C]//Conference of the InternationalSpeech Communication Association. Lyon, France, 2013:64-68. http://gtts.ehu.es/gtts/NT/fulltext/DiezInterspeech2013a.pdf
[13] D'Haro L F, Cordoba R, Salamea C, et al. Extended phone log-likelihood ratio features and acoustic-basedi-vectors for language recognition[C]. International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2014:5342-5346. http://ieeexplore.ieee.org/document/6854623/
[14] 王宪亮, 吴志刚, 杨金超, 等. 基于SVM一对一分类的语种识别方法[J]. 清华大学学报(自然科学版), 2013, 53(6): 808–812.WANG Xianliang, WU Zhigang, YANG Jinchao, et al. Language recognition based on SVM 1 vs. 1 classification[J]. J Tsinghua Univ (Sci & Tech), 2013, 53(6): 808–812. (in Chinese)

相关话题/信息 实验

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 轴向变密度铝泡沫件的动态和静态压缩实验与有限元模拟分析
    吕振华,孙靖譞清华大学汽车工程系,北京100084收稿日期:2016-07-23作者简介:吕振华(1961—),男,教授。E-mail:lvzh@tsinghua.edu.cn摘要:针对工程中常见的厚度方向变密度的闭孔铝泡沫材料,该文通过动态和静态压缩实验与模拟分析,探讨了大尺度变密度铝泡沫部件变形 ...
    本站小编 Free考研考试 2020-04-15
  • 基于实验经济学的中介价格信息掌握对二手房议价效率影响
    张红1,2,李林峻1,2,李维娜31.清华大学恒隆房地产研究中心,北京100084;2.清华大学城镇化与产业发展研究中心,北京100084;3.香港恒生管理学院会计系,香港999077收稿日期:2016-02-25基金项目:国家自然科学基金资助项目(71373143);清华大学自主科研计划项目(20 ...
    本站小编 Free考研考试 2020-04-15
  • 二手房市场非居间化对中介信息服务的挑战
    张红1,2,陈嘉伟1,2,李维娜31.清华大学恒隆房地产研究中心,北京100084;2.清华大学城镇化与产业发展研究中心,北京100084;3.香港恒生管理学院会计系,香港999077收稿日期:2016-01-24基金项目:国家自然科学基金资助项目(71373143);清华大学自主科研计划项目(20 ...
    本站小编 Free考研考试 2020-04-15
  • 高温下防护服热阻和湿阻的暖体假人实验
    付明,翁文国,韩雪峰清华大学工程物理系,公共安全研究院,北京100084收稿日期:2016-12-20基金项目:国家自然科学基金资助项目(51076073);国家“九七三”重点基础研究项目(2012CB719705)作者简介:付明(1988-),男,博士研究生通信作者:翁文国,研究员,E-mail: ...
    本站小编 Free考研考试 2020-04-15
  • 数字化车间信息模型及其建模与标准化
    张兆坤1,邵珠峰1,王立平1,赵钦志2,张云峰21.清华大学机械工程系,摩擦学国家重点实验室,精密超精密制造装备及控制北京市重点实验室,北京100084;2.国家机床质量监督检验中心,北京100102收稿日期:2016-07-02基金项目:工信部智能制造专项(2015ZXFB02001);国家自然科 ...
    本站小编 Free考研考试 2020-04-15
  • 基于高层信息特征的重叠语音检测
    马勇1,2,鲍长春11.北京工业大学电子信息与控制工程学院,北京100124;2.江苏师范大学物理与电子工程学院,徐州221009收稿日期:2016-06-18基金项目:国家自然科学基金资助项目(61471014)作者简介:马勇(1977-),男,博士研究生通信作者:鲍长春,教授,E-mail:ba ...
    本站小编 Free考研考试 2020-04-15
  • 水平前向插入式流速仪对流速场影响的实验研究
    王浩1,陈槐2,李丹勋1,王兴奎11.清华大学水沙科学与水利水电工程国家重点实验室,北京100084;2.南京水利科学研究院水文水资源与水利工程科学国家重点实验室,南京210029收稿日期:2015-01-07基金项目:“十二五”国家科技支撑计划项目(2012BAB04B01)作者简介:王浩(198 ...
    本站小编 Free考研考试 2020-04-15
  • 基于脸部骨骼位置信息的唇凸度计算方法
    潘晓声1,张梦翰2,LiewWeeChung31.上海师范大学信息与机电工程学院,上海200234,中国;2.复旦大学生命科学学院,上海200438,中国;3.格里菲斯大学信息与通讯技术学院,昆士兰,澳大利亚收稿日期:2016-06-29基金项目:社科基金重大项目(13&ZD132);国家社科青年基 ...
    本站小编 Free考研考试 2020-04-15
  • 电控单缸柴油机燃烧室设计与实验研究
    兰旭东1,潘春雨2,周明11.清华大学航天航空学院,北京100084;2.中航工业金城南京机电液压工程研究中心,南京211106收稿日期:2015-12-11作者简介:兰旭东(1980-),男,讲师。E-mail:lanxd@tsinghua.edu.cn摘要:为了满足发动机动力性、经济性和排放的要 ...
    本站小编 Free考研考试 2020-04-15
  • 氨水溶液同时吸收烟气中SO2和CO2的实验及模拟
    齐国杰,王淑娟,高巨宝,刘今朝,赵博,禚玉群,陈昌和清华大学热能工程系,热科学与动力工程教育部重点实验室,二氧化碳资源化利用与减排技术北京市重点实验室,北京100084收稿日期:2012-08-25基金项目:国家自然科学基金资助项目(50876051);国际科技合作计划项目(2013DFB60140 ...
    本站小编 Free考研考试 2020-04-15