删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

改进的用于口语处理的基频提取算法

本站小编 Free考研考试/2020-04-15

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>陈萧 , 徐波
中国科学院 自动化研究所, 数字内容技术与服务中心, 北京 100190

收稿日期: 2016-07-09
基金项目: 国家“九七三”重点基础研究项目(2013CB329302)
作者简介: 陈萧(1981-),男,博士研究生
通信作者: 徐波,研究员,E-mail:xubo@ia.ac.cn

摘要:针对口语语音处理中的基频提取,提出了一种改进的自相关函数基频提取算法。该算法在原始自相关函数方法的基础上,通过利用语音频谱的纹理特征来提高正确基频值的权重,利用增加候选基频的个数来增大搜索空间,以及利用可靠种子来限制搜索路径这3项措施增加了正确基频值在搜索空间中的出现比例和权重,优化了搜索空间,从而改善了原有基频提取算法的性能。在数据集Keele和FDA上的实验结果显示:与原始算法相比,本文算法的有声错误率相对减少28.74%,总体错误率相对减少5.53%,更适合于口语处理。
关键词: 语音信号处理 基频提取 自相关函数
Improved pitch extraction algorithm for speech processing
CHEN Xiao, XU Bo
Interactive Digital Media Technology Research Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China


Abstract:This paper presents an improved pitch extraction algorithm based on an auto-correlation function for speech processing. The original auto-correlation function algorithm is optimized by increasing the weights of the right pitch values by the texture feature, enlarging the search space by using more candidate pitch values, and restricting the search path to reliable pitch values. These three measures control the weight and proportion of the right pitch values in the search space and then optimize the search space. The algorithm was evaluated on the Keele and FDA databases. The results show that the voiced error is reduced by 28.74% and the pitch tract error is reduced by 5.53% relative to the original algorithm. Thus, this algorithm is more suitable for speech processing.
Key words: speech signal processingpitch extractionauto-correlation function
在音频信号处理和语音信号处理中,基频提取非常重要,是这些应用中必不可少的一个步骤。目前,主要的基频提取算法大致有3种: 时域法[1-3]、频域法[4-8]和统计法[9-11]等。其中,时域法的代表是自相关函数法,其基本原理是: 语音信号中的浊音部分具有准周期性,其自相关函数在基音周期的整数倍处取得最大值,因此通过计算相邻2个最大峰值之间的距离,并将这个距离参数即时间参数转换为频率参数就可以计算出基频值。频域法的代表是倒谱法,其基本思路是: 利用语音信号的倒谱特性,提取基频。因为在倒谱中,激励信息和声道信息可以近似认为是相对分离的,通过简单的滤波操作就可以提取出激励信息,从而求出基频值。而统计方法的基本思路是: 通过机器学习方法自动学习语音波形数据和基频值之间的对应关系,对新输入的语音波形数据根据已经学习到的对应关系就可求出基频值。
虽然目前的基频提取算法非常多,但大都是相对通用的算法不太适合某些特定应用。例如,在中文口语语音处理的声调识别和语气识别中,常见的一种做法是先进行强制对齐过程,然后利用强制对齐提供的时间信息,提取有声段的基频并加以使用,而无声段的基频则被抛弃了。显然,在这类应用中,有声错误(voiced error,VE)比无声错误(unvoiced error,UE)对应用的影响更大,更值得注意和解决。这也就是说,在表示整体性能的基频提取错误(pitch tracking error,PTE)相同的情况下,VE越少的算法越适用于这类应用。
基于这种考虑,本文研究的出发点就是在保证PTE不变或者减少的前提下,减少VE。 这样得到的基频提取算法不仅能满足一般应用的性能要求,而且还能提高基频提取算法与特定后续应用需求之间的匹配程度,从而提高这些应用的性能。
本文以原始自相关函数方法为基础,通过增加正确基频值在搜索空间中的出现比例和权重来优化搜索空间,提出了一种改进的自相关函数基频提取算法,并通过实验验证了该算法的性能。
1 算 法1.1 问题分析对于中文语气识别和声调识别来说,现有的基频提取算法主要存在以下2个问题:
1) 基频缺失太多,即在语音段没有检测出基频值,称为有声无声错误(voice to unvoice error,V2UE)。这会导致某个音节可用的基频值的数量减小,增加判断该音节的基频特性的难度,使得在声调识别时难以判断声调,在语气识别时难以判断句子尾部的边界调趋势。
2) 非零基频值的计算不够准确,即在该语音段检测出了基频值,但是该值偏离参考值太多,称为粗差(gross error,GE)。通常偏差大于参考值的20%以上就认为是粗差。这种错误会影响音节的声调趋势,影响句子的语调走势,从而影响声调识别和语气识别的性能。
1.2 改进措施本文在现有的Praat(ac)自相关函数算法[12]基础上进行改进,通过克服节1.1的2个问题来尽量提高基频提取的性能。基本思想是: 增加正确基频值在搜索空间中的出现比例和权重,优化搜索空间的性能,实现基频提取性能的改善。具体方法是: 利用语音频谱的纹理特征来提高正确基频值的权重,利用增加候选基频个数来增大搜索空间,利用可靠种子来限制搜索路径,如图 1所示。
图 1 基频提取算法的改进措施
图选项





下面分别介绍3项改进措施的具体内容。
1) 利用频谱的纹理信息提高正确基频值的权重,以此辅助有声无声判断。
该措施的主要目的是解决问题1。 与噪声信号相比,语音信号具有明显的谐波结构(见图 23),因此可以利用其谐波结构的参数来判断有声无声。除了谐波结构分析外,还可以通过将语音频谱的谐波结构看做一般的纹理结构,利用纹理结构分析来表示有声无声的频谱差异。更进一步可以把分析得到的纹理特征作为一种辅助信息用于提取基频,通过比较语音频谱和噪声频谱的纹理结构信息的差异来提供额外的一种语音活动检测的辅助信息。将基于频谱纹理检测的参数和通常的基于能量检测的参数加权融合,以提供更加鲁棒和准确的语音活动检测,从而解决问题1,降低V2UE的发生。为了得到比较稳定的结果,本文在频谱的包络上进行纹理分析。
图 2 语音信号频谱及其包络
图选项





图 3 噪声信号频谱及其包络
图选项





对于频谱结构的纹理信息分析,本文借鉴了图像处理中较为简单的纹理结构参数游程长度统计值(run length statistics)中的长游程加权参数(long run emphasis,LRE)[13]。该参数的计算较为简单且可以有效描述语音频谱纹理结构,满足本文的性能续需求。本文的纹理参数LRE定义为
$\text{LRE}=\frac{\sum \left( \text{lengt}{{\text{h}}^{2}}\times p\left( \text{length} \right) \right)}{\sum p\left( \text{length} \right)}.$ (1)
其中: length是语音信号频谱中两相邻频谱值之间的差值的绝对值,p(length)是length出现的概率。
2) 利用低阈值增加候选基频个数,以此增大搜索空间。
该措施主要针对问题1和2。 通常,错误出现的原因是由于语音质量不太理想,正确基频值对应的候选的权重较低,被排斥在门限阈值之外。
该措施通过降低阈值,增加了正确候选值在搜索空间中出现的比例,既可以缓解V2UE的发生,又可以缓解GE的发生。
3) 利用高质量的种子限制搜索路径,以此进行启发搜索。
该措施的主要目的是解决问题2。 利用原始基频提取算法,在严格的参数条件下,将输出中具有较高置信度的基频结果作为后续搜索的种子。在后续的基于动态规划的平滑处理中,以这些高质量的种子为参考进行平滑,就可以去除一些错误的候选基频,降低GE的发生。
1.3 计算流程整个过程的详细处理步骤如图 4所示。
图 4 改进的基频提取算法的流程图
图选项





首先,输入语音数据。
第1路语音数据利用原始的自相关函数方法在严格参数的条件下得到置信度较高的基频值,将这些基频值作为后续搜索的种子(见图 4中模块 1、2、4)。
第2路语音数据利用频谱包络求取对应帧语音的纹理特征(见图 4中模块1、3)。可直接利用第1路数据在自相关函数的计算过程中保存的频谱数据,以节约计算量。
第3路语音数据利用原始的自相关函数方法在较低阈值的条件下得到一个较大的搜索空间(见图 4中模块5)。可直接利用第1路数据在自相关函数的计算过程中保存的频谱数据,以节约计算量。
最后,基于第3路搜索空间,并根据第1和2路提取的种子和每一帧数据的纹理信息,利用动态规划融合3种措施的结果,得到准确的基频(见图 4中模块6)。
2 实 验2.1 实验设置1) 数据集。
Keele数据集[14]包含了10个发音人,其中男性5人,女性5人,每个人都朗读一段音子平衡的文本(英语)。该数据库的数据包含语音数据、声门数据和标准基频数据。语音数据的格式是16 b有符号整数,采样率是20 kHz。 标准基频数据是在声门数据上用自相关方法估计并经过人工检查得到的。估计时所使用的参数为窗长25.6 ms,帧移10 ms。
FDA数据集[15]包含了2个发音人,其中男女各1人,每个人都朗读相同的50个短句(英语),每句的长度大约为3 s。 该数据库的数据包含语音数据、声门数据和标准基频数据。语音数据的格式是16 b有符号整数,采样率是20 kHz。
2) 对比的算法。
Praat(ac)是一种基于自相关函数的方法,包含在Praat工具[12]中。
YIN是基频估计最有效和最流行的方法之一。它是在基于自相关函数方法的基础上,使用多个步骤的组合来降低原始算法中错误的产生,提高基频提取性能[1]
Get F0实现了RAPT算法[2],包含在ESPS工具包中,可以从Wavesurfer[16]中获得。
3) 参数设置。
表 1中所示参数外,各个算法的其余参数均使用其默认最优参数值。
表 1 算法参数设置
参数参数值
帧长10 ms
窗长25.6 ms
最小基频75 Hz
最大基频600 Hz


表选项






4) 评估指标。
本文实验的评估指标使用文[9]中提出的VE、UE和PTE这3个指标。
VE是指在有声段提取的基频为0,或者提取的基频值与标准基频值相差20%以上的错误率,其计算公式为
$\text{VE}=\frac{{{E}_{f0}}+{{E}_{v\to u}}}{{{N}_{v}}},$ (2)
其中: Nv是参考基频中非零的基频值的个数(发音帧的数目),Evu指在发音帧计算的基频值为零的个数,Ef0是计算的基频值与参考值相差20%以上的个数。
UE是指在无声段提取了非零值基频的错误率,其计算公式为
$\text{UE}=\frac{{{E}_{u\to v}}}{{{N}_{u}}},$ (3)
其中: Eu→v指无声段计算出非零值基频的个数; Nu是无声帧的总数(根据参考基频确定)即(NNv),N是所有帧的个数。
PTE是用来评估算法的总体错误率,是VE和UE两种错误率的简单平均,其计算公式为
$\text{PTE}=\frac{\text{VE}+\text{UE}}{2}.$ (4)
2.2 实验结果1) Keele数据集上的算法性能。
首先来看基频提取的整体性能。从表 2中可以看出,与Praat(ac)算法相比,本文算法的PTE相对减小了5.48%。整体的性能得到一定的提高。此外与YIN和Get F0两种算法相比,本文算法的整体性能也有明显优势。
表 2 算法在Keele数据集上的性能
算法VE/%UE/%PTE/%
本文7.995.826.90
Praat(ac)11.832.777.30
YIN20.152.2011.17
Get F014.144.759.45


表选项






其次,与Praat(ac)算法相比,本文算法的VE相对减小了32.46%,有非常大的改进。此外与YIN和Get F0相比,本文的VE也具有明显优势。从VE的定义可以知道,它不仅包含了问题1的V2UE,还包含了问题2的GE,因此能够对2个问题的错误进行衡量。从VE可以看出,本文算法能够有效解决这2个问题,主要原因是纹理信息的加入优化了搜索网络的参数。
最后,虽然本文算法的UE有一些增加,但是在本文的应用背景(声调识别和语调识别)下,并不使用无声段对应的数据,因此该类错误的增加对性能没有太大的影响。
2) FDA数据集上的算法性能。
FDA数据集上的结果与Keele数据集上的相似。首先来看基频提取的整体性能。从表 3中可以看出,与Praat(ac)算法相比,本文算法的PTE相对减小了5.65%。整体的性能得到一定的提高。
表 3 算法在FDA数据集上的性能
算法VE/%UE/%PTE/%
本文8.114.586.35
Praat(ac)10.812.646.73
YIN21.682.5912.14
Get F012.993.438.21


表选项






其次,与Praat(ac)算法相比,本文算法的VE相对减小了25.00%,有非常大的改进。同样可见,本文算法能够有效解决问题1和2。
虽然本文算法的UE有一些增加,但是在本文的应用背景下,对性能没有太大的影响。
3 结 论针对口语语音处理中的基频提取,本文提出了一种改进的自相关函数基频提取算法。在原始自相关函数方法的基础上,利用语音频谱的纹理特征来提高正确基频值的权重,利用增加候选基频的个数来增大搜索空间,以及利用可靠种子来限制搜索路径。实验结果表明,经过搜索空间优化之后,VE和PTE明显减少,性能得到了改善。
下一步将在实际的口语处理(声调识别和语调识别等)以及噪声环境中评估该基频提取算法的性能。

参考文献
[1] Journal of Central South University(Science and Technology), 41(2):649-654.-->De Cheveigné A, Kawahara H. YIN, a fundamental frequency estimator for speech and music[J]. The Journal of the Acoustical Society of America, 2002, 111(4): 1917–1930. DOI:10.1121/1.1458024
[2] Journal of Central South University(Science and Technology), 41(2):649-654.-->Talkin D. A robust algorithm for pitch tracking (RAPT)[J]. Speech coding and synthesis, 1995, 1(1): 495–518.
[3] Journal of Central South University(Science and Technology), 41(2):649-654.--> Kasi K, Zahorian S A. Yet another algorithm for pitch tracking[C]//2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Kyoto, Kyoto-fu, Japan:IEEE, 2002:361-364.
[4] Journal of Central South University(Science and Technology), 41(2):649-654.-->Klapuri A. Multipitch analysis of polyphonic music and speech signals using an auditory model[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(2): 255–266. DOI:10.1109/TASL.2007.908129
[5] Journal of Central South University(Science and Technology), 41(2):649-654.-->Gonzalez S, Brookes M. PEFAC-A pitch estimation algorithm robust to high levels of noise[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(2): 518–530. DOI:10.1109/TASLP.2013.2295918
[6] Journal of Central South University(Science and Technology), 41(2):649-654.-->Huang F, Lee T. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(1): 99–109. DOI:10.1109/TASL.2012.2215589
[7] Journal of Central South University(Science and Technology), 41(2):649-654.-->Hajimolahoseini H, Amirfattahi R, Soltanian-Zadeh H, et al. Instantaneous fundamental frequency estimation of non-stationary periodic signals using non-linear recursive filters[J]. IET Signal Processing, 2015, 9(2): 143–153. DOI:10.1049/iet-spr.2014.0120
[8] Journal of Central South University(Science and Technology), 41(2):649-654.-->Hajimolahoseini H, Amirfattahi R, Gazor S, et al. Robust estimation and tracking of pitch period using an efficient Bayesian filter[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(7): 1219–1229. DOI:10.1109/TASLP.2016.2551041
[9] Journal of Central South University(Science and Technology), 41(2):649-654.--> Lee B S, Ellis D P W. Noise robust pitch tracking by subband autocorrelation classification[C]//Interspeech. Portland, Oregon, USA:ICSA, 2012:707-710.
[10] Journal of Central South University(Science and Technology), 41(2):649-654.-->Chu W, Alwan A. SAFE:A statistical approach to F0 estimation under clean and noisy conditions[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(3): 933–944. DOI:10.1109/TASL.2011.2168518
[11] Journal of Central South University(Science and Technology), 41(2):649-654.-->Han K, Wang D L. Neural network based pitch tracking in very noisy speech[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12): 2158–2168. DOI:10.1109/TASLP.2014.2363410
[12] Journal of Central South University(Science and Technology), 41(2):649-654.--> Boersma P, Weenink D. Praat:Doing phonetics by computer[Z/OL].[2016-06-26]. http://www.praat.org/.
[13] Journal of Central South University(Science and Technology), 41(2):649-654.-->Weszka J S, Dyer C R, Rosenfeld A. A comparative study of texture measures for terrain classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1976.
[14] Journal of Central South University(Science and Technology), 41(2):649-654.--> Plante F, Meyer G F, Ainsworth W A. A pitch extraction reference database[C]//Eurospeech. Madrid, Spain:ICSA, 1995:18-21.
[15] Journal of Central South University(Science and Technology), 41(2):649-654.--> Bagshaw P C, Hiller S M, Jack M A. Enhanced pitch tracking and the processing of f0 contours for computer aided intonation teaching[C]//Eurospeech. Berlin, Germany:ICSA, 1993:1003-1006.
[16] Journal of Central South University(Science and Technology), 41(2):649-654.--> Royal Institute of Technology. WaveSurfer[Z/OL].[2016-06-26]. http://www.speech.kth.se/wavesurfer/.

相关话题/数据 空间

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • ADN基液体推进剂空间发动机工作过程模拟
    景李玥1,霍佳龙1,姚兆普2,游小清1,朱民11.清华大学热能工程系,北京100084;2.北京控制工程研究所,北京100190收稿日期:2015-12-02基金项目:国家自然科学基金青年项目(51506007)作者简介:景李玥(1989-),男,博士研究生通信作者:朱民,教授,E-mail:zhu ...
    本站小编 Free考研考试 2020-04-15
  • Suomi-NPP夜间灯光数据与GDP的空间关系分析
    郭永德1,高金环2,马洪兵11.清华大学电子工程系,北京100084;2.北京大学政府管理学院,北京100871收稿日期:2015-10-27基金项目:清华大学自主科研计划资助项目(20131089381)作者简介:郭永德(1988-),男,博士研究生通信作者:马洪兵,副研究员,E-mail:hbm ...
    本站小编 Free考研考试 2020-04-15
  • 基于IFC的绿色性能分析数据转换与共享
    林佳瑞,张建平清华大学土木工程系,北京100084收稿日期:2016-05-16基金项目:国家“八六三”高技术项目(2013AA041307);国家自然科学基金面上项目(51278274);清华大学—广联达BIM中心项目(RCBIM)作者简介:林佳瑞(1987-),男,博士研究生.通讯作者:张建平, ...
    本站小编 Free考研考试 2020-04-15
  • 考虑交通大数据的交通检测器优化布置模型
    孙智源,陆化普清华大学土木工程系,交通研究所,北京100084收稿日期:2015-05-20基金项目:“十二五”国家科技支撑计划资助项目(2014BAG01B04);清华大学苏州汽车研究院(吴江)返校经费课题(2015WJ-B-02)摘要:为了提高城市交通信息采集的准确性、可靠性和经济性,提出了一种 ...
    本站小编 Free考研考试 2020-04-15
  • LBS大数据中基于固定网格划分四叉树索引的查询验证
    宁博,裴晓霞,李玉居,裴新宇大连海事大学信息科学技术学院,大连116026收稿日期:2015-09-28基金项目:国家自然科学基金青年基金项目(61202083)国家自然科学基金面上项目(61272369)辽宁省教育厅一般项目(L2014055)辽宁省电力有限公司科技项目(2015YF-67)中央高 ...
    本站小编 Free考研考试 2020-04-15
  • 单颗粒煤焦在大空间中燃烧的数值模拟方法及实验验证
    刘雨廷,何榕清华大学热能工程系,热科学与动力工程教育部重点实验室,北京100084收稿日期:2015-06-08基金项目:国家自然科学基金面上项目(51176096)作者简介:刘雨廷(1988—),男,博士研究生。通讯作者:何榕,教授,E-mail:rhe@mail.tsinghua.edu.cn摘 ...
    本站小编 Free考研考试 2020-04-15
  • 谁在中国股票市场中“博彩”?——基于个人投资者交易数据的实证研究
    廖理1,梁昱2,张伟强11.清华大学五道口金融学院,北京100083;2.清华大学经济管理学院,北京100084收稿日期:2015-10-13基金项目:国家自然科学基金重点项目(71232003);国家自然科学基金面上项目(71271214,71573147);高等学校博士学科点专项科研基金(201 ...
    本站小编 Free考研考试 2020-04-15
  • 基于多分支路径树的云存储数据完整性验证机制
    李勇1,2,姚戈1,雷丽楠1,张晓菲3,杨鲲41.北京交通大学电子信息工程学院,北京100044;2.福建师范大学福建省网络安全与密码技术重点实验室,福州350007;3.中国信息安全测评中心,北京100085;4.中国计量科学研究院,北京100029收稿日期:2016-01-22基金项目:中央高校 ...
    本站小编 Free考研考试 2020-04-15
  • 历年数据
    提问问题:历年数据学院:提问人:18***11时间:2019-09-1914:11提问内容:山东大学研究生招生信息网首页历年数据那里硕士自命题和硕士报录比,写的2019点进去是2018年的数据。回复内容:近期就会公布。 ...
    本站小编 山东大学 2019-11-26
  • 专业课859数据结构
    提问问题:专业课859数据结构学院:提问人:15***98时间:2018-09-2115:47提问内容:专业课859数据结构c语言和c加加只需掌握一门语言就可以了吧?回复内容:这个专业问题研招办无从回答,请电询我校计通学院0532-86981339 ...
    本站小编 中国石油大学(华东) 2019-11-26