删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

全变量系统和支持向量机结合的说话人确认

本站小编 Free考研考试/2020-04-15

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>郭武 1 , 张圣 1 , 徐杰 2 , 胡国平 3 , 马啸空 1
1. 中国科学技术大学 电子工程与信息科学系, 合肥 230026;
2. 国家计算机网络应急技术处理协调中心, 北京 100029;
3. 科大讯飞股份有限公司, 合肥 230088

收稿日期:2016-06-21
作者简介:郭武 (1973-), 男, 副教授。E-mail:guowu@ustc.edu.cn


摘要:基于全变量因子分析和概率线性区分性分析的算法是目前与文本无关的说话人确认的主流算法。该文将全变量分析和支持向量机结合起来,把低维的全变量因子作为支持向量机的输入特征,并采用余弦核函数来增强低维特征的区分性,该系统取得了与当前主流算法相当的性能;进一步,将此系统得分和概率线性鉴别分析系统得分融合起来可以取得明显的性能提升。在NIST 2012说话人评测通用测试条件的女声部分,融合后的系统在情境一和三的检测代价函数相对最好的单系统分别下降了25.1%和25.2%。
关键词:说话人确认全变量系统支持向量机核函数
Speaker verification based on SVM and total variability
GUO Wu1, ZHANG Sheng1, XU Jie2, HU Guoping3, MA Xiaokong1
1.Department of Electronic Engineering and Information Science, University of Science and Technology of China, Hefei 230026, China;
2.National Computer Network Emergency Response Technical Team Coordination Center of China, Beijing 100029, China;
3.IFLYTEK Corporation, Hefei 230088, China


Abstract: The total variability factor extractor and the probability linear discriminant analysis (PLDA) algorithms have been the state-of-the-art for text-independent speaker verification. This study combines a support vector machine (SVM) with the PLDA. The low dimensional i-vectors of the total variability system are used as the inputs to the support vector machine, with the cosine kernel function used to achieve better discrimination. This method achieves considerable performance improvement with the PLDA system. Furthermore, the score fusion of the SVM with the PLDA give even better results. Tests were conducted on the female part of the interview section of the NIST 2012 core test corpus. The detection cost function (DCF) of the fusion system was reduced by 25.1% for common condition 1 and 25.2% for condition 3 compared with the best results for a single system.
Key words: speaker verificationtotal variabilitysupport vector machinekernel function
Reynolds等[1]提出的Gauss混合模型—通用背景模型 (Gaussian mixture model-universal background model,GMM-UBM) 技术是说话人识别方法发展的基础系统。近年来,一个主要的技术突破是联合因子分析[2](joint factor analysis,JFA),该方法通过对说话人空间和信道空间进行建模来去除信道差异性,获得了明显的性能提升。在此基础上,文[3]提出采用基于因子分析载荷矩阵投影获得的低维因子i-vector来进行说话人识别,即全差异空间的方法,获得了巨大的成功,文[3]中采用余弦得分对i-vector进行得分计算。近年来,由于概率线性区分性分析 (probabilistic linear discriminant analysis, PLDA) 在图像识别中的成功应用[4],研究者将其成功引入到说话人识别中[5-8],取得明显优于余弦得分计算的性能,在说话人识别研究中成为主流算法。
支持向量机 (support vector machine,SVM) 作为一种区分性的模式识别算法在说话人识别领域也获得了研究者的认可[9-10]。最初的研究者提出Gauss均值超矢量[11](GMM super vector,GSV) 作为GMM-UBM似然度得分计算的一种有益补充,获得了与GMM-UBM相当的识别结果。为了解决信道不匹配的问题,Solomonoff等[12]提出了扰动属性投影技术 (nuisance attribute projection,NAP),并成功地改善了支持向量机的性能。
本文的系统与以往的基于支持向量机的说话人确认系统有以下几个不同:1) 考虑到全变量空间在训练过程中已经通过数据的匹配对信道差异补偿,在特征域和模型域将不采用任何去除信道影响的算法,即直接采用i-vector因子作为输入特征向量,不进行NAP、线性鉴别分析 (linear discriminant analysis,LDA) 和类内协方差规整 (within class covariance normalization,WCCN) 等信道补偿;2) 由于i-vector维度较低,为了提高区分性,采用余弦函数作为SVM的核函数;3) 进一步研究发现,SVM系统和PLDA系统具有很强的互补性,并且将两者得分融合后,在单系统的基础上性能有很大的提升。
1 全变量系统全变量系统类似于联合因子分析系统,不同点在于:在全变量系统中,仅仅含有一个全变量空间,而不再区分说话人空间和信道空间。研究表明:在信道空间中也包含有说话人的个性化信息,这部分说话人信息也能用来进行说话人识别[3]
在全变量系统中,某个说话人的一段语料可由一个均值超矢量M表示
M=m+Tw.
其中:m是混合Gauss数为C、声学特征维数为F的UBM均值超矢量,T表示全变量空间,w是满足Gauss分布N(0, I) 的随机矢量,称之为全变量因子i-vector。在这里,m的维数是CF×1, T的维数是CF×RT(RT是说话人因子数), w的维数是RT×1。本文描述的系统中,取RT=400。T在数学上是因子分析的载荷矩阵,一般通过大量训练数据驱动,用期望最大化算法 (expectation maximization,EM) 获得。在获得T之后,对于说话人识别中的每句语音文件,通过最大后验概率 (maximum a posterior,MAP) 的算法获得每句话对应的全变量因子w应用于后面的说话人确认。
2 基于支持向量机的说话人确认支持向量机作为模式识别领域的一项区分性分类技术,如何将其成功地应用到说话人确认中一直是国内外相关研究者研究的热点。本文将全变量分析系统的i-vector作为输入特征向量,并通过选择合适的核函数来实现与目前主流技术相当的性能。
2.1 支持向量机系统概述SVM的基本模型是工作在高维特征空间的基于分离超平面的二类分类器,这个高维特征空间是从低维输入空间非线性映射得到。给定训练集合xX和核函数K,那么SVM决策函数可表示为
$f\left( x \right) = \sum\limits_{i = 1}^N {{a_i}{y_i}K\left( {x, {\boldsymbol{x}_i}} \right) + b.} $
其中:xiyi以及αi(αi > 0) 都是训练得到;xi是支持向量;yi是类别标记,+1代表正例,-1代表负例;K(x, y)=φ(x)φ(y) 表示核函数,φ: $x \mapsto y \in Y$,也就是说φ是从输入空间到特征空间的一种映射。本文最终通过把SVM的输出和阈值做比较来进行分类决策。
2.2 核函数的选择选择全变量分析系统的i-vector作为输入特征向量。相比其他特征向量如传统的Gauss均值超矢量,i-vector有明显的优势:1) 由于i-vector是从载荷矩阵投影得到,载荷矩阵在训练过程中数据是平衡的,因此在投影时语音声学特征中的信道影响被抑制,具有更高的信道鲁棒性;2) 由于i-vector维度较低,得到每句话对应的i-vector时,对声学参数的数据量要求较少,因此在实际中更有应用价值。
正是由于i-vector的低维特性,也决定了其在线性空间上区分性不是很强。在基于GSV的说话人确认系统中,采用的是基于KL (Kullback-Leibler) 距离的一种核函数,可以近似认为是一种线性核,这是因为均值超矢量一般是几万维的特征,只需要选择线性核函数就具有很高的区分能力。对于2个GSV矢量xixj,线性核函数如下:
$K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}.$
然而,对于低维的i-vector,一般矢量的维度是400~800,考虑全世界有几十亿人,说话人空间是一个非常大的空间,简单的线性核相对而言区分能力不够。在基于i-vector的快速运算中,得分计算采用的是余弦核函数,本文也选择余弦函数作为SVM的核函数如下:
$K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \frac{{\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}}}{{\sqrt {\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_i}} \sqrt {\mathit{\boldsymbol{x}}_j^{\rm{T}}{\mathit{\boldsymbol{x}}_j}} }}, $
从而避免线性核对于低维空间区分性不强的问题。
3 得分规整及多系统融合在说话人识别系统测试过程中,由于每次测试的得分差异性很大,因此门限的稳定性非常难以确定。通过得分规整,可以达到减小同一说话人的不一致性、扩大不同说话人的不一致性的目的。更重要的是可以方便地划分门限,对于测试得分s,经过规整后,冒认者的得分分布是一个标准正态分布。
本文中采用零规整 (zero normalization, znorm) 技术将原始得分s进行规整得到snorm
${s_{{\text{norm}}}} = \frac{{s - \mu }}{\sigma }.$
其中μσ是每个特定说话人由大量冒认测试得分获得的均值和标准差。
另外,有互补作用的系统通过得分融合可以有效地提高识别率。SVM是一种区分性的模型,PLDA是一种产生性的模型,这2种模型之间具有非常强的互补作用。因此,本文中将2种不同的系统得分通过线性回归的方法进行融合,从而实现更高的识别率。由于仅仅是证明SVM和PLDA之间的互补性,因此给予SVM系统和PLDA系统的得分各0.5的权重进行加权平均,并根据此得分进行最终的评测。
${s_{new}} = \frac{1}{2}{s_{{\text{svm}}}} + \frac{1}{2}{s_{{\text{plda}}}}.$
其中:ssvm表示SVM系统的得分,splda表示PLDA系统的得分,snew表示两者加权平均的得分。
4 实验配置和结果4.1 数据库及评测方法本文采用NIST 2012年的核心测试集中的女声部分情境一和三作为实验测试集,这部分测试语音的长度从20 s到5 min不等且伴有噪声,同时对话双方的语音夹杂在一个信道中,很难进行分离,因此被认为是NIST 2012核心测试集中难度最大的一部分。这个测试集中总计有1 155个目标说话人,有2万多句话作为测试语句,去除无效的测试外,总计有231万多次测试。
UBM训练数据包含NIST 2004—2010年电话语音数据的18 000多句语音,全差异空间的训练挑选了NIST 2004—2010年的所有长度超过3 min的电话、面试 (interview) 和麦克风 (microphone) 数据。
4.2 特征参数提取本文采用的是39维的PLP参数,语音信号先去直流,预加重 (因子为0.97),经过帧宽20 ms、帧移10 ms的Hamming窗。在抽取PLP特征参数的同时,采用基于能量的活动语音检测 (voice activity detection,VAD) 算法去除静音帧。抽取0~12维PLP参数,通过一阶差分、二阶差分总计构成39维,最后特征通过短时Gauss化以提高识别率。
4.3 系统描述首先采用EM算法训练一个1 024个Gauss混合度的UBM模型,然后训练一个400维的全差异空间,对所有的语音抽取400维的i-vector。
在SVM模型训练中,对于每个特定说话人,属于这个人的所有语音作为正例,其余所有语音作为负例。在测试中,对得分采用znorm进行规整。考虑到NIST 2012以前的语音长度都是3 min以上,与NIST 2012语音的时长不匹配,因此选择2012年测试集中的所有测试语句当作冒认语句来进行znorm规整。
在PLDA模型训练中,根据经验选择200个说话人因子和5个信道因子,采用Gauss先验分布的PLDA系统即GPLDA (Gaussian probabilistic linear discriminant analysis,GPLDA)。GPLDA中说话人空间以及信道空间的训练数据的选择与SVM模型训练相同。最后通过znorm规整技术将GPLDA得分进行规整,规整的冒认语句的选择也与SVM系统的相同。
4.4 实验结果采用NIST定义的等错误率 (equal error rate,EER) 和最小检测代价函数 (minimum detection cost function,MinDCF) 来衡量系统的性能。
表 1列出了不同输入特征矢量的对比。采用i-vector作为输入特征矢量的系统性能远优于采用GSV的,这是由于语音时长不定,导致均值超矢量分布不均匀 (其中Con表示通用评测情境)。
表 1 不同输入特征矢量实验对比
SVM系统 特征矢量 EER/%MinDCF
Con-1 Con-3 Con-1 Con-3
线性核 GSV 11.60 6.38 0.773 0.605
线性核 i-vector 5.35 4.20 0.409 0.411


表选项






表 2列出了在不同情况下SVM系统的性能对比,其中得分均没有经过规整处理。采用余弦核的支持向量机系统性能大大优于采用线性核和Gauss核的,能够取得4%左右的EER,这与目前的主流算法性能相当。本文也列出了说话人识别在SVM领域常用的NAP信道补偿算法的性能,在加入NAP算法之后,性能反而有下降,这是因为NAP要求特征向量线性可分,而低维的i-vector显然是不满足的。后面的实验结果中,只采用原始的i-vector作为特征矢量,核函数选择余弦函数。
表 2 SVM系统一系列实验对比
SVM系统 EER/%MinDCF
Con-1 Con-3 Con-1 Con-3
线性核 5.35 4.20 0.409 0.411
Gauss核 9.93 9.45 0.985 0.809
余弦核 4.38 3.67 0.316 0.328
余弦核+NAP 5.48 4.69 0.379 0.378


表选项






表 3列出了不同规整方法对识别性能的影响,本实验对比了znorm、测试规整 (test normalization) tnorm、结合零规整和测试规整 (ztnorm) 这3种规整方法,可以看出,znorm相对最稳定,尤其表现在MinDCF上。
表 3 余弦核SVM下不同规整方法对比
规整方法 EER/%MinDCF
Con-1 Con-3 Con-1 Con-3
znorm 4.41 3.60 0.334 0.259
tnorm 4.14 3.97 0.715 0.753
ztnorm 4.47 3.73 0.776 0.695


表选项






表 4是GPLDA系统与SVM系统在得分域进行融合后的实验结果,可以看出,融合之后取得了接近3%的EER,而且minDCF相对最好的单系统分别下降了25.1%和25.2%。
表 4 系统得分融合前后的性能对比
系统 EER/%MinDCF
Con-1 Con-3 Con-1 Con-3
SVM 4.41 3.60 0.334 0.259
GPLDA 3.44 3.05 0.358 0.246
SVM+GPLDA 3.14 3.02 0.250 0.184


表选项






5 结论本文采用低维的i-vector描述说话人的信息,与GSV矢量或者JFA说话人因子不同,不需要通过NAP等算法进行信道补偿,既减少了运算量,也提升了系统的稳定性。这很可能是在全变量空间训练过程中,由于数据信道的多样性,通过EM迭代过程把语音中的信道影响中和了,这在PLDA的实验中也得到了验证,本文的PLDA中信道因子为5时性能最好。本文提出的系统的性能要优于目前的主流说话人识别系统的。

参考文献
[1] Journal of Central South University(Science and Technology), 41(2):649-654.-->Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19–41.
[2] Journal of Central South University(Science and Technology), 41(2):649-654.-->Kenny P, Boulianne G, Ouellet P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435–1447. DOI:10.1109/TASL.2006.881693
[3] Journal of Central South University(Science and Technology), 41(2):649-654.-->Dehak N, Kenny P J, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788–798. DOI:10.1109/TASL.2010.2064307
[4] Journal of Central South University(Science and Technology), 41(2):649-654.--> Prince S J D, Elder J H. Probabilistic linear discriminant analysis for inferences about identity[C]//2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil:IEEE Press, 2007:1-8.
[5] Journal of Central South University(Science and Technology), 41(2):649-654.--> Burget L, Plchot O, Cumani S, et al. Discriminatively trained probabilistic linear discriminant analysis for speaker verification[C]//2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). Prague, Czech Republic:IEEE Press, 2011:4832-4835.
[6] Journal of Central South University(Science and Technology), 41(2):649-654.-->Jiang Y, Kong A L, Wang L. PLDA in the i-supervector space for text-independent speaker verification[J]. Eurasip Journal on Audio Speech and Music Processing, 2014, 2014(1): 1–13. DOI:10.1186/1687-4722-2014-1
[7] Journal of Central South University(Science and Technology), 41(2):649-654.--> Kenny P, Stafylakis T, Ouellet P, et al. PLDA for speaker verification with utterances of arbitrary duration[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia:IEEE Press, 2013:7649-7653.
[8] Journal of Central South University(Science and Technology), 41(2):649-654.-->Li N, Mak M W. SNR-invariant PLDA modeling in nonparametric subspace for robust speaker verification[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23(10): 1648–1659. DOI:10.1109/TASLP.2015.2442757
[9] Journal of Central South University(Science and Technology), 41(2):649-654.-->Bourouba H, Korba C A, Djemili R. Novel approach in speaker identification using SVM and GMM[J]. Control Engineering & Applied Informatics, 2013, 15(3): 87–95.
[10] Journal of Central South University(Science and Technology), 41(2):649-654.-->Ding I J, Yen C T, Ou D C. A method to integrate GMM, SVM and DTW for speaker recognition[J]. International Journal of Engineering and Technology Innovation, 2014, 4(1): 38–47.
[11] Journal of Central South University(Science and Technology), 41(2):649-654.--> Campbell W M, Sturim D E, Reynolds D A, et al. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]//2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings. Brisbane, Australia:IEEE Press, 2006, 1:Ⅰ-Ⅰ.
[12] Journal of Central South University(Science and Technology), 41(2):649-654.--> Solomonoff A, Quillen C, Campbell W M. Channel compensation for SVM speaker recognition[C]//ICASSP 2005, Acoustics, Speech, and Signal Processing Proceedings. Philadelphia, PA, USA:IEEE Press, 2010:629-632.

相关话题/系统 空间

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于时空特征的中继卫星系统业务模型
    王磊1,3,匡麟玲2,黄惠明31.清华大学航天航空学院,北京100084;2.清华大学宇航技术研究中心,北京100084;3.北京空间信息中继传输技术研究中心,北京100094收稿日期:2016-03-30基金项目:国家自然科学基金重点项目(91438206,91338108)作者简介:王磊(198 ...
    本站小编 Free考研考试 2020-04-15
  • 多小区分布式天线系统高能效协同传输方案
    王璟1,王燕敏2,冯伟1,肖立民1,周世东11.清华大学电子工程系,北京100084;2.中国电子科技集团公司电子科学研究院,北京100041收稿日期:2016-04-19基金项目:国家“九七三”重点基础研究项目(2012CB316002);国家“八六三”高技术项目(2015AA01A701);国家 ...
    本站小编 Free考研考试 2020-04-15
  • 微型涡喷发动机推进系统的试验建模
    李颖杰,李环宇,吴林峰,李春文清华大学自动化系,北京100084收稿日期:2016-06-08基金项目:国家自然科学基金面上项目(61174068)作者简介:李颖杰(1984-),男,博士研究生通信作者:李春文,教授,E-mail:lcw@tsinghua.edu.cn摘要:先进战机的研制过程中,缩 ...
    本站小编 Free考研考试 2020-04-15
  • 基于深度神经网络和Bottleneck特征的说话人识别系统
    田垚,蔡猛,何亮,刘加清华大学电子工程系,清华信息科学与技术国家实验室(筹),北京100084收稿日期:2016-06-20基金项目:国家自然科学基金资助项目(61273268,61370034,61403224)作者简介:田垚(1989-),男,博士研究生通信作者:刘加,教授,E-mail:liu ...
    本站小编 Free考研考试 2020-04-15
  • 基于北向陀螺零偏自观测的捷联惯性导航系统双位置初始对准方法
    彭卓1,2,郭美凤1,张嵘1,罗寿红11.清华大学精密仪器系,导航工程中心,北京100084;2.中国航天员科研训练中心,北京100094收稿日期:2015-12-01基金项目:总装惯性技术预先研究项目(51309010301)作者简介:彭卓(1986-),男,博士研究生通信作者:张嵘,研究员,E- ...
    本站小编 Free考研考试 2020-04-15
  • ADN基液体推进剂空间发动机工作过程模拟
    景李玥1,霍佳龙1,姚兆普2,游小清1,朱民11.清华大学热能工程系,北京100084;2.北京控制工程研究所,北京100190收稿日期:2015-12-02基金项目:国家自然科学基金青年项目(51506007)作者简介:景李玥(1989-),男,博士研究生通信作者:朱民,教授,E-mail:zhu ...
    本站小编 Free考研考试 2020-04-15
  • Suomi-NPP夜间灯光数据与GDP的空间关系分析
    郭永德1,高金环2,马洪兵11.清华大学电子工程系,北京100084;2.北京大学政府管理学院,北京100871收稿日期:2015-10-27基金项目:清华大学自主科研计划资助项目(20131089381)作者简介:郭永德(1988-),男,博士研究生通信作者:马洪兵,副研究员,E-mail:hbm ...
    本站小编 Free考研考试 2020-04-15
  • 基于自适应迭代学习控制的MPC系统经济性能设计
    王振雷1,刘学彦1,王昕21.华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海200237;2.上海交通大学电工与电子技术中心,上海200240收稿日期:2015-08-25基金项目:国家自然科学基金重点基金资助项目(61134007);国家自然科学基金面上基金资助项目(61174118 ...
    本站小编 Free考研考试 2020-04-15
  • 小型仿人足球机器人MOS-7的系统设计及局部优化
    张继文,刘莉,陈恳清华大学机械工程系,摩擦学国家重点实验室,精密超精密制造装备及控制北京市重点实验室,北京100084收稿日期:2015-08-26基金项目:清华大学摩擦学国家重点实验室项目(SKLT09A03);国家自然科学基金资助项目(61403225);中国博士后科学基金资助项目(2015M5 ...
    本站小编 Free考研考试 2020-04-15
  • 嵌入式系统中断服务可靠性评估方法
    崔凯,王洁,周宽久,梁浩然,潘杰,李明楚大连理工大学软件学院,嵌入式系统工程系,大连116620收稿日期:2016-01-24基金项目:国家自然科学基金资助项目(61572095,61472100,61402073,61402078);中央高校基本科研业务费专项资金(DUT14QY32,DUT14R ...
    本站小编 Free考研考试 2020-04-15