
浙江大学 计算机学院, 杭州 310027
收稿日期: 2016-07-05
基金项目: 国家“九七三”重点基础研究项目(2013CB329504);国家自然科学基金面上项目(60970080)
作者简介: 杨莹春(1973-),女,副教授。E-mail:yyc@zju.edu.cn
摘要:该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话人识别方法。基于GMM-UBM(通用背景模型)识别框架,在自适应训练和测试阶段计算并保存自适应训练语句和测试语句在UBM上使特征帧得分最高的Gauss分量编号(GMM token)出现的比例(配比),然后在测试阶段计算测试语句和自适应训练语句的GMM托肯分布的配比的相似度GTRS,当GTRS小于某阈值时对测试得分乘以一个惩罚因子,将结果作为测试语句的最终得分。在MASC数据库上进行的实验表明,该方法能够使系统识别性能有一定的提升。
关键词: 说话人识别 GMM托肯配比(GTR) 得分校正
Score regulation based on GMM token ratio similarity for speaker recognition
YANG Yingchun

College of Computer Science & Technology, Zhejiang University, Hangzhou 310027, China
Abstract:A GMM token ratio similarity based score regulation approach for speaker recognition is presented in this paper to judge the reliability of a test score based on the GMM token ratio similarity. In the GMM-UBM (universal background model) method, the GMM token which is the index of the UBM component giving the highest score is saved for each frame to form a vector called the GMM token ratio (GTR) of an utterance during the training and testing phases. In the test phase, the test utterance GTR is compared to the training utterance GTR to compute the similarity for a target speaker. When the similarity is less than a threshold, the original likelihood score is regulated by multiplying by a penalty factor as the final score of this test utterance. Tests on MASC show that this method improves the speaker recognition performance.
Key words: speaker recognitionGMM token ratio (GTR)score regulation
文本无关的说话人识别的研究已有几十年的历史,Reynolds首次将Gauss混合模型(Gaussian mixture model,GMM)应用于说话人识别[1]。为了解决训练数据稀疏导致的模型训练不完备问题,Reynolds 在GMM的基础上提出通用背景模型(universal background model,UBM)即GMM-UBM [2-3]。尽管后来的研究者们陆续提出了SVM、JFA、I-vector等模型[4-5],但基础均为GMM-UBM。Reynolds认为GMM的每个Gauss分量可以理解为是对隐性声学类别进行建模,即与包括诸如元音、鼻音或摩擦音等广义音素事件(broad phonetic events)相关的声学类别。这些声学类别的统计特性能够反映出说话人的声道特性,因而具有说话人的区分度。
GMM 托肯是指在GMM中使得每一帧语音似然得分最高的Gauss分量的索引,可以理解为最有可能产生该帧语音的Gauss分量的索引。传统的语种识别和方言识别首先进行音素识别,然后利用N-gram模型统计音素搭配关系,由于需要对音素进行标注,代价非常大[6]。Reynolds等[7]提出用GMM托肯替代音素识别器进行语种识别,顾明亮等[8]又将GMM托肯用于方言识别,均取得了不错的实验效果。由此可以推测,GMM托肯蕴涵了音素搭配信息。
近几年,GMM 托肯还被用于说话人识别[9-10]。一般采用二元文法模型,统计二元GMM 托肯的概率,作为一种辅助系统与基准系统进行融合后提升基准识别系统性能。例如在文[10]中,GMM托肯说话人识别系统在 NIST 2006的8conv4w-1conv4w 数据上的等错误率(equal error rate,EER)为17.27%,虽然性能不如基准系统GMM-UBM(EER为5.73%),但2个系统融合后的 EER 下降到 4.56%。将GMM视为一种生成模型,本文假设一段语音的 GMM托肯序列表示这段语音的动态生成模式,进一步地,用GMM托肯配比(GTR)来量化表示这种动态生成模式。一段语音的 GTR 向量表明了生成语音过程中各Gauss分量的贡献程度。而同一个说话人的特征在空间上分布模式是一定的,即从统计意义上看同一说话人的不同语音的特征在空间上生成模式是趋于一致的,因此当2段语音的 GTR 向量差异性比较大时,则说明生成这2段语音过程中各Gauss分量贡献不同,来自不同说话人的语音的可能性较大。目前在 GMM-UBM 的说话人识别方法的测试阶段,通过直接比较测试语音在各个目标模型上的似然得分给出识别结果。然而由于每段语音的生成模式不同,测试语音在不同目标模型上的似然得分来源也不尽相同,那么这些似然得分之间实际上不具备绝对的可比性。
本文提出一种基于测试语音与训练语音的 GTR 向量相似度校正得分的说话人识别方法,以校正测试得分来源不一致的影响。当测试语音与训练语音 GTR 向量相似度较高时,测试语音和训练语音特征在空间上分布一致性较高,得分来源比较可靠,因此给得分一个较大的权重; 而当相似度较小时,得分来源与训练语音的特征来源不一致,则给得分一个较小的权重[11]。 在基于GMM-UBM说话人识别方法上提出了一种基于GMM 托肯配比相似度对得分进行加权校正的说话人识别方法,根据测试语句与模型训练语句的GMM 托肯配比的相似度对得分进行校正,有效地降低部分冒认者(impostor)语音的测试得分,从而提高系统的识别性能。
2 GMM 托肯配比(GTR)每一帧语音特征都对应一个托肯,而每一个托肯代表GMM中该特征帧获得最高得分的Gauss分量的索引值,依此可将一段语音转换为一个GMM 托肯序列。即对于一帧特征向量xi,它的GMM托肯 ti为[7]
$\begin{align} & {{t}_{i}}=\underset{1\le m\le M}{\mathop{\text{argmax}}}\,\text{ }p({{x}_{i}}|{{\lambda }_{m}})\text{ }= \\ & \underset{1\le m\le M}{\mathop{\text{argmax}}}\,\frac{{{\omega }_{m}}{{p}_{m}}({{x}_{i}})}{p({{x}_{i}}|{{\lambda }_{m}})}=\underset{1\le m\le M}{\mathop{\text{argmax}}}\,{{\omega }_{m}}{{p}_{m}}({{x}_{i}}). \\ \end{align}$ | (1) |
$\begin{align} & {{p}_{m}}({{x}_{i}})= \\ & \frac{1}{{{(2\pi )}^{D/2}}|{{\Sigma }_{m}}{{|}^{1/2}}}~\text{exp}\left\{ -\frac{1}{2}{{({{x}_{i}}-{{\mu }_{m}})}^{\text{T}}}\Sigma _{m}^{-1}({{x}_{i}}-{{\mu }_{m}}) \right\}. \\ \end{align}$ | (2) |
${{f}_{i}}=\frac{{{N}_{i}}}{T}.$ | (3) |
$~\text{GTR}={{[{{f}_{1}},{{f}_{2}},\ldots ,{{f}_{M}}]}^{\text{T}}}.$ | (4) |
3 基于GMM托肯配比相似度校正得分的说话人识别(GTRDSR)在计算出一段语音的GMM 托肯配比向量之后,可以用来在测试阶段对似然得分进行校正。本文提出了一种基于GMM托肯配比校正似然得分(GMM token ratio similarity based score regulation,GTRSR)的说话人识别方法。该方法的基本流程如图 1所示。
![]() |
图 1 基于GMM托肯配比的得分校正流程图 |
图选项 |
从图 1中可以看到,基于GTRSR的说话人识别方法的流程与传统的基于GMM-UBM的说话人识别方法相同,同样需要经过特征提取、基于UBM自适应生成目标模型以及得分计算及决策等步骤。不同之处主要体现在得到GTR后对似然得分的修正过程。 GTRSR的具体过程如下:
1) 目标说话人模型训练。除了利用训练语料经UBM自适应得到N个目标说话人模型之外,还需同时按照式(4)计算并存储相应训练语料在UBM上的GMM托肯配比向量GTRt1,GTRt2,…,GTRtN。
2) 测试得分计算。
首先根据式(3)和(4)计算测试语句X=(x1,x2,…,xT)在UBM上的GMM托肯配比向量GTRe,以及在N个目标说话人模型上的得分Scoret1,Scoret2,…,ScoretN:
$\begin{align} & \text{Scor}{{\text{e}}_{\text{ti}}}=\sum\limits_{i=1}^{T}{\text{ln}p({{x}_{i}}|{{\lambda }^{j}})}= \\ & \sum\limits_{i=1}^{T}{\text{ln}}\sum\limits_{m=1}^{M}{{{\omega }_{m}}^{j}{{p}_{m}}^{j}({{x}_{i}})}. \\ \end{align}$ | (5) |
本文采用Euclid距离和夹角余弦距离这2种方式来计算GTR相似度GTRS:
Euclid距离为
$\begin{align} & \text{GTRS}_{\text{eti}}^{\text{eu}}=1-\sqrt{\sum\limits_{j=1}^{M}{{{\left( \text{GT}{{\text{R}}_{e,j}}-\text{GT}{{\text{R}}_{ti,j}} \right)}^{2}}}} \\ & i=1,2,\ldots ,N, \\ \end{align}$ | (6) |
$\begin{align} & \text{GTRS}_{\text{eti}}^{\text{cos}}=\frac{\sum\limits_{j=1}^{M}{\left( GT{{R}_{e,j}}\times GT{{R}_{ti,j}} \right)}}{\|GT{{R}_{e}}\|\times \|GT{{R}_{ti}}\|}, \\ & i=1,2,\ldots ,N, \\ \end{align}$ | (7) |
本文将根据式(6)或(7)计算的GTRS来估计测试语音来源是否可靠并给出对应的得分可靠度权值,即惩罚因子C。 当两个GTR向量的空间偏差越大,则由式(6)或式(7)计算得到的距离值越小,表明对应的两句语音特征在空间分布上的一致性较低,得分来源的可靠性较低,应给得分一个较小的权重。反之则给得分一个较大的权重。由于GTR相似度GTRSeti∈[0,1],所以惩罚因子C取值为GTRSeti。
3) 测试得分校正。
根据GTRSet1,GTRSet2,…,GTRSetN,按照式(8)对测试语句在各目标说话人模型上的测试得分进行校正后得到校正得分Scorert1,Scorert2,…,ScorertN。
$\begin{align} & \text{Scor}{{\text{e}}_{\text{rti}}}=\left\{ \begin{array}{*{35}{l}} \text{Scor}{{\text{e}}_{\text{ti}}}, & \text{GTR}{{\text{S}}_{\text{eti}}}>\text{threshold;} \\ C\times \text{Scor}{{\text{e}}_{\text{ti}}}, & \text{GTR}{{\text{S}}_{\text{eti}}}\le \text{threshold} \\\end{array} \right. \\ & i=1,2,\ldots ,N \\ \end{align}$ | (8) |
4) 决策。
决策跟传统的说话人识别方法一样依据最大似然原理,即将最大的目标说话人模型校正得分所对应的模型ID输出为身份识别结果。
4 实 验4.1 实验数据集及参数配置本文实验使用MASC数据库[12]。 MASC是一个普通话情感语音数据库,其中包括了68个人(23名女性和45名男性)的语音数据。涉及5种情感(愤怒、高兴、中性、惊慌及悲伤),每个说话人分别以这5种情感将5个词和10个句子读3遍,在中性情绪下朗读2个段落。本文选用MASC库的1—18号说话人的所有中性情绪下的句子和段落语音数据作为开发集,语音总时长约为61 min,用于训练UBM; 19—68号说话人的中性情绪段落语音作为目标说话人模型的自适应训练语料。
特征采用的是13维Mel倒谱系数(Mel frequency cepstrum coefficient,MFCC),然后加上了1维能量特征,最后加上一阶Δ特征,共28维特征。窗长为20 ms,窗移位10 ms,由于MASC数据库中的语音录制环境比较理想,因而没有对特征进行滤波及规整等操作。模型采用64阶的GMM。
4.2 基于GMM 托肯配比的说话人识别为了验证GMM 托肯配比包含的说话人信息,以及两种相似度判断方法的优劣,首先在MASC数据库上的中性情绪段落语音数据上进行了说话人鉴别实验。实验步骤如下:
步骤1用1—18号说话人的中性情绪段落语音训练得到一个64阶的UBM; 19—68号说话人的段落语句分别作为训练语料,计算其在训练得到的UBM上的GTRt19,…,GTRt68;
步骤2计算19—68号说话人的所有情绪下的测试语句的GTRe19,i,…,GTRe68,i,i=1,…,60。每种情绪下每个说话人有60句中性测试语句。
步骤3分别采用如下5种方法计算测试得分:
1) 基准: 利用传统的GMM-UBM方法,将测试语句在模型上的似然得分直接作为最终测试语句的测试得分;
2) 基于Euclid距离相似度: 按照式(6)依次计算GTRt19,GTRt20,…,GTRt68和GTRe19,i,GTRe20,i,…,GTRe68,i,i=1,2,…,60的Euclid距离相似度GTRSetieu,将GTRSetieu作为测试语句在对应模型上的得分。
3) 基于夹角余弦距离相似度: 按照式(7)依次计算GTRt19,GTRt20…,GTRt68和GTRe19,i,GTRe20,i,…,GTRe68,i,i=1,2,…,60的夹角余弦距离相似度GTRSeticos,将GTRSeticos作为测试语句在对应模型上的得分。
4) Euclid距离GTRDSR: 根据式(6)计算得到GTRSetieu,根据式(8)对测试语句在模型上的似然得分进行加权,加权后的得分作为测试语句在对应模型上的测试得分;
5) 夹角余弦距离GTRDSR: 根据式(7)计算得到GTRSeticos,根据式(8)对测试语句在模型上的似然得分进行加权,加权后的得分作为测试语句在对应模型上的测试得分。
步骤4将测试语句按情绪分类,分别计算5种情绪按以上5种得分计算方法的EER和准确率(identification rate,IR)。
表 1为方法1、2和3的实验结果对比,利用测试语句和模型自适应训练语句的GTR向量相似度进行说话识别时,具有一定的效果。且在所有情绪下,向量夹角余弦方法的性能均优于Euclid距离的方法,这是因为无论是冒认者(impostor)还是目标说话人(target)语句,GTR向量的Euclid距离均集中于0.6~1.0之间,导致其对冒认者和目标说话人语句区分度很小。而利用夹角余弦方法时,冒认者语句的GTRS要总体分布上要明显小于目标说话人语句的GTRS,从而它更能区分冒认者和目标说话人语句。但是,方法2和3性能相比方法1的有很大的差距,这是由于方法2和3单纯利用GTRS只统计了使得特征帧得分最高的GMM 托肯的比例,并不关注特征帧在该托肯代表的Gauss分量下的得分大小,从而导致信息的损失。
表 1 方法1、2和3的EER及IR
情绪 | EER/% | IR/% | ||||
方法1 | 方法2 | 方法3 | 方法1 | 方法2 | 方法3 | |
愤怒 | 25.83 | 43.03 | 40.20 | 33.38 | 9.04 | 9.33 |
高兴 | 22.67 | 42.17 | 38.67 | 36.10 | 8.60 | 9.00 |
中性 | 4.87 | 27.93 | 23.67 | 94.43 | 28.94 | 30.34 |
惊慌 | 24.47 | 40.80 | 36.50 | 35.31 | 12.10 | 12.34 |
悲伤 | 13.30 | 35.23 | 30.23 | 60.92 | 17.71 | 18.23 |
表选项
表 2为GTRSDR方法4和5的实验结果对比,其中基于夹角余弦的得分校正方法的阈值为0.2,基于欧式距离的得分校正方法的阈值为0.65。从表中可以看出,当采用GTRDSR方法,将测试语句和自适应训练语句的GTRS信息融合,在所有的情绪下EER和IR都相对于基准的方法1有所提升,其中在利用夹角余弦作为相似度衡量方法时,性能提升明显要好于Euclid距离方法。在利用夹角余弦作为相似度衡量方法的GTRDSR中,惊慌情绪下的EER得到了0.87个百分点的提升(从24.47%下降为23.6%),而愤怒和高兴情绪下的EER也有0.6个百分点的提升(分别从25.83%和22.67%下降为25.2%和22.07%)。这充分说明了GTRS中包含了说话人相关信息,当利用这些信息对得分进行校正时,能够有效地提升系统性能。
表 2 方法4、5的EER及IR
情绪 | EER/% | IR/% | ||
方法4 | 方法5 | 方法4 | 方法5 | |
愤怒 | 25.73 | 25.20 | 33.39 | 33.41 |
高兴 | 22.83 | 22.07 | 36.13 | 36.15 |
中性 | 4.87 | 4.83 | 94.43 | 94.45 |
惊慌 | 24.30 | 23.6 | 35.32 | 35.37 |
悲伤 | 13.40 | 13.13 | 60.96 | 61.15 |
表选项
为了观察阈值大小对实验结果的影响,在表 3给出了在MASC库惊慌情绪数据集下,不同阈值下方法5的实验结果,其中还包含了在每种阈值下,低于阈值的冒认者语句和目标说话人语句的比例。
表 3 阈值对方法5的影响
阈值 | 低于阈值冒认者语句比例/% | 低于阈值目标说话人语句比例/% | EER/% |
0.1 | 1.07 | 0.07 | 24.20 |
0.2 | 6.39 | 1.87 | 23.60 |
0.3 | 15.85 | 5.53 | 23.87 |
0.4 | 27.80 | 12.73 | 25.83 |
0.5 | 44.45 | 22.47 | 29.13 |
0.6 | 64.80 | 38.07 | 30.20 |
0.7 | 84.59 | 61.17 | 27.30 |
0.8 | 97.08 | 87.70 | 26.67 |
0.9 | 99.93 | 99.17 | 26.60 |
1.0 | 100 | 100 | 26.60 |
表选项
从表 3中可以看到,当阈值从0.1逐渐增加到1.0时,EER是先降低然后当阈值超过0.4时,EER开始出现明显的上升。之后,当阈值继续增大时,EER首先是出现明显的上升然后又开始下降。而且随着阈值的增大,受到惩罚的语句数也随之增多,当阈值较低时,得分受到惩罚的大部分是冒认者语句的测试得分,而此时目标说话人语句的测试得分很少会受到惩罚,所以等错误率此时会有一定的下降; 而当阈值越来越高时,越来越多的目标说话人语句的测试得分也受到惩罚,从而降低了目标说话人语句的测试得分,导致了等错误率的明显上升。最后当阈值超过一定大小时,真实的目标说话人语句和冒认者语句会同时受到惩罚,导致所有的得分都偏低,但整体上目标说话人语句得分仍然高于冒认者语句得分,所以等错误率会下降。综上,在利用这种方法对测试得分进行校正时,阈值不宜取的过大,一般控制在0.2~0.4之间。
5 结 论本文提出了一种基于GMM 托肯配比相似度对说话人识别中测试得分加权校正的方法。基于GMM-UBM的说话人识别系统,根据测试语句和自适应训练语句在UBM上的GTR向量相似度对测试语句的得分进行加权校正,能够在一定程度上提升系统的识别性能。
参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Reynolds D. A Gaussian Mixture Modeling Approach to Text-Independent Speaker Identification[D]. Atlanta, GA, USA:Georgia Institute of Technology, 1992. |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Reynolds D. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19–41. |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->吴朝晖, 杨莹春. 说话人识别模型与方法[M]. 北京: 清华大学出版社, 2009.WU Zhaohui, YANG Yingchun. Speaker Recognition:Models and Methods[M]. Beijing: Tsinghua University Press, 2009. (in Chinese) |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Tomi K, LI Haizhou. An overview of text-independent speaker recognition:From features to supervectors[J]. Speech Communication, 2010, 52(1): 12–40. DOI:10.1016/j.specom.2009.08.009 |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->XIANG Bing. Text-independent speaker verification with dynamic trajectory model[J]. IEEE Signal Processing Letters, 2003, 10(5): 141–142. DOI:10.1109/LSP.2003.810913 |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Zissman M. Comparison of four approaches to automatic language identification of telephone speech[J]. IEEE Transaction on Speech and Audio Processing, 1996, 4(1): 31–44. DOI:10.1109/TSA.1996.481450 |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Torres-Carrasquillo P, Reynolds D. Language identification using Gaussian mixture model tokenization[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Orlando, FL, USA:IEEE Press, 2002:757-760. |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.-->顾明亮, 沈兆勇. 基于语音配列的汉语方言自动辨识[J]. 中文信息学报, 2006, 20(5): 77–82.GU Mingliang, SHEN Zhaoyong. Phonotatics based Chinese dialects identification[J]. Journal of Chinese Information Processing, 2006, 20(5): 77–82. (in Chinese) |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.--> MA Bin, ZHU Donglai, TONG Rong, et al. Speaker cluster based on GMM Tokenization for speaker recognition[C]//Proceedings of Interspeech, Pittsburgh, PA, USA, 2006:505-508. |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.--> TONG Rong, MA Bin, LEE Kong-Aik, et al. Fusion of acoustic and tokenization features for speaker recognition[C]//Proceedings of the 5th International Symposium on Chinese Spoken Language Processing. Kentridge, Singapore:Springer Press, 2006:566-577. |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.-->邓立才. GMM说话人建模的关键问题研究[D]. 杭州:浙江大学, 2014. DENG Licai, Research on Key Problems of GMM Speaker Modeling[D]. Hanzghou:Zhejiang University, 2014. (in Chinese) |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.--> WU Tian, YANG Yingchun, WU Zhaohui, et al. MASC:A speech corpus in Mandarin for emotion analysis and affective speaker recognition[C]//Proceedings of IEEE Odyssey Speaker and Language Recognition Workshop, Puerto Rico:IEEE Press, 2006:1-5. |