基于高层信息特征的重叠语音检测

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

${{\lambda }_{\text{UBM}}}=\{{{w}_{i}},{{\mu }_{i}},{{\Sigma }_{i}}\},\text{ }i=1,2,\ldots ,M.$

(1)

其中： w、μ和σ分别表示模型的权重、均值和方差，M表示UBM的Gauss分布个数。
然后，计算每帧语音对UBM每个子分布的后验概率，并寻找后验概率最大的子分布的标号作为该帧语音的类音素标号：

${{l}_{j}}=\arg \underset{1\le l\le M}{\mathop{\text{max}}}\,p(\lambda _{\text{UBM}}^{l}|{{x}_{j}}),\text{ }j=1,2,\ldots ,N.$

(2)

其中： l为UBM模型中的子分布标号，j为语音帧标号，N表示语音帧的个数，x_j为第j帧语音，l_j为第j帧语音标号。
最后，计算类音素标号的变化率：

${{r}_{\text{hops}}}={{N}_{\text{hops}}}/{{N}_{\text{all}}}.$

(3)

其中： N_hops为语音中所有帧对应的子分布标号变化次数；而N_all为语音中所有帧的数目； r_hops为类音素符号变化率，等于1时表示语音中相邻帧的标号完全不同，等于0时表示语音中相邻帧的标号完全相同。
图 1显示重叠语音中说话人数目和r_hops之间的关系，语音中混合的说话人数目从1到5，UBM的Gauss分布数分别为64、128和256，UBM模型采用TIMIT语音数据库的数据训练，重叠语音也由TIMTI语音库的数据生成。可以看出，随着重叠语音中说话人数目和UBM的Gauss分布数的增加，r_hops在不断增加。这说明r_hops特征可以用于区分重叠语音和非重叠语音。

图 1 不同数目说话人重叠语音r_hops的值

图选项

1.2 子分布似然打分比子分布似然打分比是UBM每个子分布对语音帧的似然打分的比值，可以衡量语音的混淆程度，从而区分重叠语音和非重叠语音。在具体计算中，本文提取UBM的Gauss子分布对已知语音的最高对数似然打分与次高似然打分比值的对数作为特征：

$\begin{align} & r_{\text{ls}}^{j}\text{=}\lg \left( {{p}^{\max }}\left( {{x}_{j}}\text{ }\!\!|\!\!\text{ }\lambda _{\text{UBM}}^{l} \right)/{{p}^{\text{sub }\!\!\_\!\!\text{ max}}}\left( {{x}_{j}}\text{ }\!\!|\!\!\text{ }\lambda _{\text{UBM}}^{l} \right) \right)\text{=} \\ & \lg {{p}^{\max }}\left( {{x}_{j}}\text{ }\!\!|\!\!\text{ }\lambda _{\text{UBM}}^{l} \right)-\lg {{p}^{\text{sub }\!\!\_\!\!\text{ max}}}\left( {{x}_{j}}\text{ }\!\!|\!\!\text{ }\lambda _{\text{UBM}}^{l} \right), \\ & j=1,2,\ldots ,N,\text{ }l=1,2,\ldots ,M. \\ \end{align}$

(4)

其中： p^max(x_j|λ_UBM^l)为UBM的Gauss子分布对第j帧语音x_j打分的最大值，p^sub_max(x_j|λ_UBM^l)为UBM的Gauss子分布对x_j打分的次大值，N表示语音帧数，M表示Gauss分布数，r_ls^j为第j帧语音的似然打分比。
图 2显示重叠语音中说话人数目和r_ls之间的关系，UBM模型训练和重叠语音的生成如节1.1所述。可以看出随着混叠说话人数和UBM Gauss分布数的增加，r_ls在不断下降，因此r_ls特征也可以用于区分重叠语音和非重叠语音。

图 2 不同数目说话人重叠语音r_ls的值

图选项

1.3 重叠和非重叠语音的高层信息特征对比为了进一步验证节1.1和1.2所提特征对重叠语音检测的有效性，本文分析连续语音中重叠语音和非重叠语音的高层信息特征r_hops和r_ls对比情况。由于r_hops为基于语音段的特征，本文提出对应第j帧的r^j_hops特征可以通过以该帧为中心的窗对应的r_hops特征来表示，如图 3所示。

图 3 基于帧的类音素符号转换率提取

图选项

重叠和非重叠语音的高层信息特征对比的实验结果见图 4，其中r_ls的值经过了归一化处理。每个窗内表示的是重叠语音部分。可以看出，重叠语音的r_hops要高于非重叠语音的，而r_ls要低于对应的非重叠语音的，因此本文所提的高层信息特征适合用于重叠语音检测。

图 4 重叠语音和非重叠语音的高层信息特征对比

图选项

2 重叠语音检测系统重叠语音检测系统主要包括2个部分： HMM模型训练过程(见图 5中虚线流程)和重叠语音检测过程(见图 5中实线流程)。

图 5 重叠语音检测的原理框图

图选项

2.1 HMM模型训练在训练阶段，首先对训练语音进行预处理(包括分帧、预加重和语音激活检测等)，去除静音段。然后分别提取语音的MFCC、 r_hops和r_ls，其中r_hops和r_ls的提取过程需要根据UBM模型计算，具体过程见节1。最后通过融合高层信息特征和MFCC特征训练两状态的HMM模型，每个状态由1个GMM模型表示，GMM_s和GMM_o分别表示非重叠语音状态和重叠语音状态。
2.2 重叠语音检测在重叠语音检测阶段，首先待检测语音经过预处理和特征提取过程，然后利用训练好的HMM模型进行解码，判别重叠语音和非重叠语音。在解码过程中，为了降低重叠语音误检率，本文根据文^[8]设定一个重叠插入惩罚因子(overlap insertion penalty，OIP)，当重叠语音的HMM模型由单一说话人状态向重叠语音状态转移时，增加OIP项作为惩罚，反之则不增加，通过调整OIP可以改变重叠语音检测的结果。
3 实验3.1 实验数据和评价指标本文的实验是在TIMIT语音数据库上进行的。TIMIT数据库有630个说话人的数据，每个人有10段语音。首先随机选取4 000段语音数据，提取每段语音的13维MFCC特征和其一阶、二阶差分特征用于训练UBM模型，UBM的Gauss分布数为256。然后选取1 000段语音训练HMM模型，每段语音分别提取39维MFCC、 r_hops和r_ls。最后利用剩余的语音生成若干带有重叠语音的多说话人音段，分别作为发展集和测试集的数据，每个生成语音段的时长约60 s，其中重叠语音的长度占每段语音总长度的15%左右。
在重叠语音检测的实验中，本文在HMM模型框架下，对比分析MFCC特征和它与高层信息特征融合的特征对重叠语音的检测情况。采用准确率(precision，PRC)、召回率(recall，RCL)、 F₁率和错误率(error，ERR)等指标评价重叠语音检测的性能。PRC反映检测到的真实重叠语音占所有检测结果的比例，RCL反映检测到的真实重叠语音占实际重叠语音的比例，F₁为PRC和RCL的综合评价指标，ERR为重叠语音检测的虚警率和漏判率之和。因为重叠语音占每个音段总长度比例较小，所以ERR的比率可能大于100%。
在说话人分割实验中，本文以基于BIC(Bayesian information criterion，BIC)的说话人分割系统^[12]作为基线系统，对比分析重叠语音检测对说话人分割性能影响。采用虚警率(false alarm rate，FAR)、漏检率(miss detection rate，MDR)和F₁率等指标衡量说话人分割的性能。FAR是指虚警的变换点占检测到的所有变换点的比率，反映了说话人分割中过度切分的情况； MDR是指未检测到的变换点占所有真实变换点的比率，反映了说话人分割的准确程度。
3.2 实验结果和分析实验1是在发展集的数据上，通过组合不同特征和调整OIP值比较系统对重叠语音检测的各项性能。实验中分别提取了MFCC、MFCC+r_hops、 MFCC+r_ls、 MFCC+r_hops+r_ls等特征，OIP的值从0到100区间以10为间隔调整，通过ERR、 F₁、 RCL和PRC等指标对比来分析重叠语音检测的性能，具体的实验结果见图 6。因为重叠语音检测错误率可能会超过100%，所以纵坐标的最大值设为1.4。可以看出，随着OIP的增加，PRC不断增加，RCL不断下降，ERR在OIP为10时达到最低点，然后不断提高，F₁在OIP为10时达到最高点，然后不断下降。在说话人分割的任务中，一般要求重叠语音检测的错误率尽量的低，因此本文选择OIP等于10作为最佳工作点。

图 6 四种特征的重叠语音检测性能对比

图选项

实验2在测试集中分析重叠语音检测对说话人分割的影响，所参照的基线系统(baseline system)采用经典的基于BIC的说话人分割方法^[12]，重叠语音检测(overlapping speech detection，OSD)采用基于HMM的方法，具体的实验结果见表 1。
表 1 重叠语音检测对说话人分割性能的影响

说话人分割方法	MDR/%	FAR/%	F₁
基线系统	26.5	30.2	65.8
基线系统+OSD(MFCC)	23.9	28.1	69.2
基线系统+OSD(MFCC+r_hops+r_ls)	22.5	27.4	71.8

表选项

可以看出，使用重叠语音检测对说话人分割的正确率有明显的提高。采用MFCC特征的重叠语音检测系统，说话人分割性能比基线系统在F₁指标上有5.2%的相对提升，而融合本文所提出的高层信息特征后，说话人分割性能在F₁指标上又相对提升了3.8%，因此本文提出的基于高层信息特征的重叠语音检测能有效地提高带重叠语音的说话人分割性能。
4 结论本文提出了基于UBM模型的语音高层信息特征提取方法，利用这种方法所提取的r_hops和r_ls特征具有语言学信息、提取简单、不受噪声干扰的影响，能够有效区分重叠和非重叠的语音。实验表明：在基于HMM模型的重叠语音检测系统中，融合高层信息特征和MFCC特征可以降低重叠语音检测的错误率。在说话人分割实验中，利用本文所提方法检测重叠语音后，说话人分割性能也得到明显提高。

参考文献

[1]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Shriberg E, Stolcker A, Baron D. Observations on overlap:Finding and implications for automatic processing of multi-party conversation[C]//Proc 7th European Conference on Speech Communication and Technology. Aalborg, Denmark:ISCA, 2001:1359-1362.
[2]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Sinclair M, King S. Where are the challenges in speaker diarization[C]//Proc International Conference on Acoustics, Speech, Signal and Signal Processing. Vancouver, Canada:IEEE, 2013:7741-7745.
[3]	Journal of Central South University(Science and Technology), 41(2):649-654.-->马勇, 鲍长春. 说话人分割聚类研究进展[J]. 信号处理, 2013, 29(9): 1190–1199.MA Yong, BAO Changchun. Advance in speaker segmentation and clustering[J]. Journal of Signal Processing, 2013, 29(9): 1190–1199. (in Chinese)
[4]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Kotti M, Moschou V, Kotropoulos C. Speaker segmentation and clustering[J]. Signal Processing, 2008.
[5]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Otterson S, Ostendorf M. Efficient use of overlap information in speaker diarization[C]//Proc Conference Automatic Speech Recognition & Understanding, Kyoto, Japan:IEEE, 2007:683-686.
[6]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Roakye K, Hornero B, Vinyals O, et al. Overlapped speech detection for improved diarization in multi-party meetings[C]//Proc International Conference on Acoustics, Speech, Signal and Signal Processing. Las Vegas, NV, USA:IEEE, 2008:4353-4356.
[7]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Roakye K, Vinyals O, Friedland G. Improved overlapped speech handling for speaker diarization[C]//Proc International Speech Communication Association. Florence, Italy:ISCA, 2011:941-944.
[8]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Zelenak M, Segura C, Luque J, et al. Simultaneous speech detection with spatial features for speaker diarization[J]. IEEE Transaction on Audio, Speech and Language Processing, 2012, 20(2): 436–446. DOI:10.1109/TASL.2011.2160167
[9]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Geiger J T, Eyben F, Evans N, et al. Using linguistic information to detect overlapping speech[C]//Proc International Speech Communication Association. Lyon, France:ISCA, 2013:941-944.
[10]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Yella S H, Bourlard H. Overlapping speech detection using long-term conversational features for speaker diarization in meeting room conversations[J]. IEEE Transaction on Audio, Speech and Language Processing, 2014, 22(12): 1688–1700. DOI:10.1109/TASLP.2014.2346315
[11]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Reynolds D, Quatieri T, Dunn R. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19–41.
[12]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Delacourt P, Wellekens C J. DISTBIC:A speaker-based segmentation for audio data indexing[J]. Speech Communication, 2000, 32(1): 111–126.