全变量系统和支持向量机结合的说话人确认

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

$f\left( x \right) = \sum\limits_{i = 1}^N {{a_i}{y_i}K\left( {x, {\boldsymbol{x}_i}} \right) + b.} $

其中：x_i、y_i以及α_i(α_i > 0) 都是训练得到；x_i是支持向量；y_i是类别标记，+1代表正例，-1代表负例；K(x, y)=φ(x)φ(y) 表示核函数，φ: $x \mapsto y \in Y$，也就是说φ是从输入空间到特征空间的一种映射。本文最终通过把SVM的输出和阈值做比较来进行分类决策。
2.2 核函数的选择选择全变量分析系统的i-vector作为输入特征向量。相比其他特征向量如传统的Gauss均值超矢量，i-vector有明显的优势：1) 由于i-vector是从载荷矩阵投影得到，载荷矩阵在训练过程中数据是平衡的，因此在投影时语音声学特征中的信道影响被抑制，具有更高的信道鲁棒性；2) 由于i-vector维度较低，得到每句话对应的i-vector时，对声学参数的数据量要求较少，因此在实际中更有应用价值。
正是由于i-vector的低维特性，也决定了其在线性空间上区分性不是很强。在基于GSV的说话人确认系统中，采用的是基于KL (Kullback-Leibler) 距离的一种核函数，可以近似认为是一种线性核，这是因为均值超矢量一般是几万维的特征，只需要选择线性核函数就具有很高的区分能力。对于2个GSV矢量x_i和x_j，线性核函数如下：

$K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}.$

然而，对于低维的i-vector，一般矢量的维度是400~800，考虑全世界有几十亿人，说话人空间是一个非常大的空间，简单的线性核相对而言区分能力不够。在基于i-vector的快速运算中，得分计算采用的是余弦核函数，本文也选择余弦函数作为SVM的核函数如下：

$K\left( {{\mathit{\boldsymbol{x}}_i}, {\mathit{\boldsymbol{x}}_j}} \right) = \frac{{\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_j}}}{{\sqrt {\mathit{\boldsymbol{x}}_i^{\rm{T}}{\mathit{\boldsymbol{x}}_i}} \sqrt {\mathit{\boldsymbol{x}}_j^{\rm{T}}{\mathit{\boldsymbol{x}}_j}} }}, $

从而避免线性核对于低维空间区分性不强的问题。
3 得分规整及多系统融合在说话人识别系统测试过程中，由于每次测试的得分差异性很大，因此门限的稳定性非常难以确定。通过得分规整，可以达到减小同一说话人的不一致性、扩大不同说话人的不一致性的目的。更重要的是可以方便地划分门限，对于测试得分s，经过规整后，冒认者的得分分布是一个标准正态分布。
本文中采用零规整 (zero normalization, znorm) 技术将原始得分s进行规整得到s_norm，

${s_{{\text{norm}}}} = \frac{{s - \mu }}{\sigma }.$

其中μ，σ是每个特定说话人由大量冒认测试得分获得的均值和标准差。
另外，有互补作用的系统通过得分融合可以有效地提高识别率。SVM是一种区分性的模型，PLDA是一种产生性的模型，这2种模型之间具有非常强的互补作用。因此，本文中将2种不同的系统得分通过线性回归的方法进行融合，从而实现更高的识别率。由于仅仅是证明SVM和PLDA之间的互补性，因此给予SVM系统和PLDA系统的得分各0.5的权重进行加权平均，并根据此得分进行最终的评测。

${s_{new}} = \frac{1}{2}{s_{{\text{svm}}}} + \frac{1}{2}{s_{{\text{plda}}}}.$

其中：s_svm表示SVM系统的得分，s_plda表示PLDA系统的得分，s_new表示两者加权平均的得分。
4 实验配置和结果4.1 数据库及评测方法本文采用NIST 2012年的核心测试集中的女声部分情境一和三作为实验测试集，这部分测试语音的长度从20 s到5 min不等且伴有噪声，同时对话双方的语音夹杂在一个信道中，很难进行分离，因此被认为是NIST 2012核心测试集中难度最大的一部分。这个测试集中总计有1 155个目标说话人，有2万多句话作为测试语句，去除无效的测试外，总计有231万多次测试。
UBM训练数据包含NIST 2004—2010年电话语音数据的18 000多句语音，全差异空间的训练挑选了NIST 2004—2010年的所有长度超过3 min的电话、面试 (interview) 和麦克风 (microphone) 数据。
4.2 特征参数提取本文采用的是39维的PLP参数，语音信号先去直流，预加重 (因子为0.97)，经过帧宽20 ms、帧移10 ms的Hamming窗。在抽取PLP特征参数的同时，采用基于能量的活动语音检测 (voice activity detection，VAD) 算法去除静音帧。抽取0~12维PLP参数，通过一阶差分、二阶差分总计构成39维，最后特征通过短时Gauss化以提高识别率。
4.3 系统描述首先采用EM算法训练一个1 024个Gauss混合度的UBM模型，然后训练一个400维的全差异空间，对所有的语音抽取400维的i-vector。
在SVM模型训练中，对于每个特定说话人，属于这个人的所有语音作为正例，其余所有语音作为负例。在测试中，对得分采用znorm进行规整。考虑到NIST 2012以前的语音长度都是3 min以上，与NIST 2012语音的时长不匹配，因此选择2012年测试集中的所有测试语句当作冒认语句来进行znorm规整。
在PLDA模型训练中，根据经验选择200个说话人因子和5个信道因子，采用Gauss先验分布的PLDA系统即GPLDA (Gaussian probabilistic linear discriminant analysis，GPLDA)。GPLDA中说话人空间以及信道空间的训练数据的选择与SVM模型训练相同。最后通过znorm规整技术将GPLDA得分进行规整，规整的冒认语句的选择也与SVM系统的相同。
4.4 实验结果采用NIST定义的等错误率 (equal error rate，EER) 和最小检测代价函数 (minimum detection cost function，MinDCF) 来衡量系统的性能。
表 1列出了不同输入特征矢量的对比。采用i-vector作为输入特征矢量的系统性能远优于采用GSV的，这是由于语音时长不定，导致均值超矢量分布不均匀 (其中Con表示通用评测情境)。
表 1 不同输入特征矢量实验对比

SVM系统	特征矢量	EER/%		MinDCF
SVM系统	特征矢量	Con-1	Con-3	Con-1	Con-3
线性核	GSV	11.60	6.38	0.773	0.605
线性核	i-vector	5.35	4.20	0.409	0.411

表选项

表 2列出了在不同情况下SVM系统的性能对比，其中得分均没有经过规整处理。采用余弦核的支持向量机系统性能大大优于采用线性核和Gauss核的，能够取得4%左右的EER，这与目前的主流算法性能相当。本文也列出了说话人识别在SVM领域常用的NAP信道补偿算法的性能，在加入NAP算法之后，性能反而有下降，这是因为NAP要求特征向量线性可分，而低维的i-vector显然是不满足的。后面的实验结果中，只采用原始的i-vector作为特征矢量，核函数选择余弦函数。
表 2 SVM系统一系列实验对比

SVM系统	EER/%		MinDCF
SVM系统	Con-1	Con-3	Con-1	Con-3
线性核	5.35	4.20	0.409	0.411
Gauss核	9.93	9.45	0.985	0.809
余弦核	4.38	3.67	0.316	0.328
余弦核+NAP	5.48	4.69	0.379	0.378

表选项

表 3列出了不同规整方法对识别性能的影响，本实验对比了znorm、测试规整 (test normalization) tnorm、结合零规整和测试规整 (ztnorm) 这3种规整方法，可以看出，znorm相对最稳定，尤其表现在MinDCF上。
表 3 余弦核SVM下不同规整方法对比

规整方法	EER/%		MinDCF
规整方法	Con-1	Con-3	Con-1	Con-3
znorm	4.41	3.60	0.334	0.259
tnorm	4.14	3.97	0.715	0.753
ztnorm	4.47	3.73	0.776	0.695

表选项

表 4是GPLDA系统与SVM系统在得分域进行融合后的实验结果，可以看出，融合之后取得了接近3%的EER，而且minDCF相对最好的单系统分别下降了25.1%和25.2%。
表 4 系统得分融合前后的性能对比

系统	EER/%		MinDCF
系统	Con-1	Con-3	Con-1	Con-3
SVM	4.41	3.60	0.334	0.259
GPLDA	3.44	3.05	0.358	0.246
SVM+GPLDA	3.14	3.02	0.250	0.184

表选项

5 结论本文采用低维的i-vector描述说话人的信息，与GSV矢量或者JFA说话人因子不同，不需要通过NAP等算法进行信道补偿，既减少了运算量，也提升了系统的稳定性。这很可能是在全变量空间训练过程中，由于数据信道的多样性，通过EM迭代过程把语音中的信道影响中和了，这在PLDA的实验中也得到了验证，本文的PLDA中信道因子为5时性能最好。本文提出的系统的性能要优于目前的主流说话人识别系统的。

参考文献

[1]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19–41.
[2]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Kenny P, Boulianne G, Ouellet P, et al. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1435–1447. DOI:10.1109/TASL.2006.881693
[3]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Dehak N, Kenny P J, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788–798. DOI:10.1109/TASL.2010.2064307
[4]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Prince S J D, Elder J H. Probabilistic linear discriminant analysis for inferences about identity[C]//2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil:IEEE Press, 2007:1-8.
[5]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Burget L, Plchot O, Cumani S, et al. Discriminatively trained probabilistic linear discriminant analysis for speaker verification[C]//2011 IEEE international conference on acoustics, speech and signal processing (ICASSP). Prague, Czech Republic:IEEE Press, 2011:4832-4835.
[6]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Jiang Y, Kong A L, Wang L. PLDA in the i-supervector space for text-independent speaker verification[J]. Eurasip Journal on Audio Speech and Music Processing, 2014, 2014(1): 1–13. DOI:10.1186/1687-4722-2014-1
[7]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Kenny P, Stafylakis T, Ouellet P, et al. PLDA for speaker verification with utterances of arbitrary duration[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane, Australia:IEEE Press, 2013:7649-7653.
[8]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Li N, Mak M W. SNR-invariant PLDA modeling in nonparametric subspace for robust speaker verification[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23(10): 1648–1659. DOI:10.1109/TASLP.2015.2442757
[9]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Bourouba H, Korba C A, Djemili R. Novel approach in speaker identification using SVM and GMM[J]. Control Engineering & Applied Informatics, 2013, 15(3): 87–95.
[10]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Ding I J, Yen C T, Ou D C. A method to integrate GMM, SVM and DTW for speaker recognition[J]. International Journal of Engineering and Technology Innovation, 2014, 4(1): 38–47.
[11]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Campbell W M, Sturim D E, Reynolds D A, et al. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]//2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings. Brisbane, Australia:IEEE Press, 2006, 1:Ⅰ-Ⅰ.
[12]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Solomonoff A, Quillen C, Campbell W M. Channel compensation for SVM speaker recognition[C]//ICASSP 2005, Acoustics, Speech, and Signal Processing Proceedings. Philadelphia, PA, USA:IEEE Press, 2010:629-632.