矢量半径驱动的汉语普通话立体声道模型

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

、[i]、[u]、[y]、[e]的声道边缘、中线和矢量半径数据，并沿着声道中线从唇到声门等间距截取声道的36个截面，对于每个截面，根据矢量半径的大小使同一个位置的截面形状作线性过渡，从而建立用矢量半径驱动的汉语普通话立体声道模型。计算模型的共振峰并合成语音样本，在与自然语音对比的听辨实验中，该模型取得了较好的语音合成效果。
关键词：汉语普通话声道建模矢量半径
Radius vector-driven 3-D Mandarin vocal tract model
YAO Yun¹, WU Xiyu², KONG Jiangping²
1.College of Chinese Language and Literature, Henan University, Kaifeng 475001, China;
2.Department of Chinese Language and Literature, Peking University, Beijing 100871, China

Abstract: Analyses of the vocal tract resonant characteristics need accurate models of the vocal tract shape. This article presents a three-dimensional Mandarin vocal tract model using vocal tract shape data and midsagittal radius vector data from MRI images for seven Mandarin sustained vowels[a], [o],

, [i], [u], [y] and[e]. The vocal tracts images were cut into 36 sections of equal distances along the midline of the vocal tract. The Mandarin vocal tract model for each section is then driven by the length of the radius vector in the cross-sectional images. The sound synthesized by this model sounds very much like natural speech.
Key words: Mandarinvocal tract modelradius vector
声道形状决定了语音的共鸣特性(音色)，尝试建立人类声道的模型并模拟人自然说话成为众多科学家和工程技术专家不懈追求的目标。18世纪末Kratzenstein和Von Kempelen设计的模型已经能够准确模拟人类语言中几个最基本的单元音^[1]，然而受当时技术水平的限制，人们很难获得精确的声道数据合成语音。文[2-3]将声道抽象为若干段横截面面积不同的均匀声管，从研究这种理想的均匀腔体出发来研究人类的声道。文[4-5]利用α-β模型推测声道截面面积，计算声道的传递函数，利用有限元方法估计声道的声学性质。
使用α-β模型，需要采集真实的声道中央矢状面并提取矢量半径来提高精度，众多****利用医学成像设备获取发音过程中的声道形状。起初X光断层扫描技术被广泛应用，Chiba等^[6]利用X光照相技术获得口腔若干截面信息，研究元音的共振峰参数。由于X光对身体有害，不能大剂量长时间地多次扫描，渐渐被磁共振成像(magnetic resonance imaging，MRI)所代替。Baer等^[7]用MRI数据重建声道形状，获得声道面积函数，计算元音共振峰，并研究声道不同位置的矢状面宽度和截面面积之间的关系。文[8-11]利用MRI数据进一步分析了元音、辅音以及卷舌音。Story等^[12-13]建立了声道面积正交系数与元音共振峰之间的映射关系，并构造了一种基于声道面积函数的立体声道模型，可以动态地演示声道面积的变化。Dang等^[14-15]建立了2.5维生理发音模型并利用语音共振峰F1、F2的(对数)差异与舌面位置在日语中成负相关关系这一特点，用语音来逆推声道形状。
立体MRI声道数据显示，发音时口腔的腔体结构不只是单一的1个管道，还包括梨状窝、牙缝、喉管、舌下腔等这些随发音而变化的小腔体。Dang等^[16-18]发现鼻腔旁支的不对称性在共振峰的谱包络上会产生额外的零极点对，元音由[i]到[a]动态调音过程中，牙缝会影响高次共振峰的位置并导致共振峰的谱包络中出现零点。以上研究表明：发音模型研究应该考虑鼻腔旁支、梨状窝和牙缝等声道旁支对共振峰的影响。
汉语的声道模型研究始于上世纪中叶，但发展缓慢，直到近期才逐渐得到学界的重视。利用α-β模型合成语音只考虑声道面积而忽略声道形状，因此很难精确计算出声道的共鸣特性。为了更好地研究人类声道特性及其对语音的影响，建立一个形状更加精确的声道模型十分必要。此外，鉴于目前磁共振设备已经能够实时采集声道中央矢状面的数据，用中央矢状面的数据驱动立体声道模型已成为可能，因此该文尝试建立保留声道形状细节特征的汉语普通话静态立体声道模型，并用截面半径参数驱动该声道模型，使该模型能够较好地模拟言语发音时的声道变化情况。
1 立体声道数据与建模1.1 实验设计本文使用的MRI图像是在日本国际电气通信基础技术研究所脑活动成像中心扫描获得。磁共振设备是Shimadzu-Marconi ECLIPSE 1.5 T PowerDrive 250 scanner，设定扫描区域为256 mm×256 mm的正方形区域，每1.5 mm厚度生成一张图像，图像间距为1.5 mm，用同步采样法获得MRI图像，所成图像为DICOM格式，图像高512像素，宽512像素，详细参数见表 1。录制的元音包括汉语普通话7个单元音[a]、[o]、

、[i]、[u]、[y]、[e]。发音人年龄在50岁左右，普通话纯正，发音时固定发音姿态，每遍持续3 s，中间有1 s呼吸时间。重复发音时，口腔形状尽量保持不变，必要时可用嘴呼吸来减少对软腭的影响。
表 1 磁共振设备扫描参数列表

参数	数值
回波时间/ms	3.4
弛豫时间/ms	10
切片数目	44~51矢状截面
切片厚度/mm	1.5
切片间隔/mm	1.5
视域/mm×mm	256×256
图片尺寸	512像素×512像素
图像数据格式	DICOM

表选项

由于MRI不能准确显示牙齿的形状，为了得到完整的声道形状，应把牙齿部分补充完整。具体做法是让发音人口含一种含铁量高的果汁或者果冻，确保口中的果冻把口腔中的空间都填满，不留气泡，并且上下牙齿不能接触，再进行磁共振成像，这样就可以得到牙齿边缘的轮廓。把牙齿的图像取出，用图像处理软件平移旋转之后叠加到原始的图像上。经过上述处理后的图像，声道轮廓就变得更加准确、清晰。
1.2 实验数据与建模为提取声道形状数据，需要对图像做进一步处理，只保留MRI图像中的声道部分，并沿声道中线，在垂直于中线的方向上截出36个截面，同时记录垂线与中线的交点坐标以及垂线与水平面的夹角，随后搜索并记录每个截面的边缘点，并对边缘点按顺时针方向排序，边缘点的第一个点定在图像中心正上方的位置。由于每张图的边缘线点数不同，将边缘线上的点归一化，对每一个截面只采集边缘上36个点，这样既能很好地显示截面的形状，又能比较好地建立模型。图 1是汉语普通话单元音[a]的声道截面数据图。图 1a中粗线是声道中央矢状面边缘线，声道中间灰色的线条是从唇中间到声门的声道中线，垂直于声道中线的细线代表声道截面方向；图 1b展示了从唇到声门等间距截取声道的36个截面，截面7~9下方的2个黑点是被上下牙、舌头和脸颊封闭起来的牙缝。硬腭是一个圆形穹顶结构，加上舌面中间有条凹槽，所以截面6~16的主体呈现扇面结构。整体上，汉语普通话元音[a]的声道口腔区域的截面面积较大，咽腔位置的截面面积较小。

图 1 汉语普通话元音[a]的声道截面

图选项

成年人的声道是一个拐角接近直角的复杂腔体。在汉语普通话的7个单元音中，牙缝的形状也会随着元音的不同而改变，并且整个声道的形状差别巨大。图 2是采集MRI 3-D声道边缘点重建出的汉语普通话单元音[a]、[i]、[u]立体声道模型，图中每个模型右侧彼此分离的部分是上下唇的表面，向左分别是口腔、咽腔，向下连接着喉管和气管。当发元音[a]时，开口度较大，因此声道前腔大、后腔小且牙缝相对较宽，而且前端与声道主体连接在一起，在声道下端，舌根和会厌软骨距离较近，因此元音[a]的声道模型垂直段腔体粗细较均匀，过渡平稳；发元音[i]时，开口度较小，声道前腔变得狭窄，后腔较大，牙缝变成了细长的条状，只在接近唇的位置与声道主体相连，在声道下端会厌软骨与舌根彼此分离，在舌根处形成一个明显的凹槽，因此元音[i]的声道模型咽腔段比元音[a]粗，且下端向右突出；发元音[u]时，嘴唇突起，声道前腔和后腔都比较大，中间部分狭窄，牙缝细长并且有较长的部分与声道主体相连，会厌软骨与舌根彼此分离，声道模型在舌根处形成一个明显的凹槽，但又与元音[i]的声道模型不同。

图 2 汉语普通话单元音[a]、[i]、[u]的立体声道

图选项

图 2为建立矢量半径驱动的立体声道模型提供参照，也是建立动态声道模型的前提和基础。建立矢量半径驱动的立体声道模型的关键环节是获得声道截面的矢量半径和截面边缘线数据。
表 2列出了汉语普通话7个单元音从唇到声门的36个截面的矢量半径的长度。36个截面足以区分不同的平舌单元音，不会存在36个矢量半径相同而元音不同的情况，这就为实现用矢量半径驱动立体声道提供可能，至少可以用这种方法来预测汉语普通话平舌元音的声道形状。
表 2 汉语普通话声道从唇到声门36个截面矢量半径

单位：cm
截面序号	[a]	[o]		[i]	[u]	[y]	[e]
1	0.90	0.70	0.85	0.85	0.25	0.20	0.80
2	1.05	0.60	0.80	0.65	0.25	0.20	0.65
3	0.80	0.80	0.70	1.05	0.45	0.45	1.00
4	1.40	1.45	1.60	0.90	0.90	0.90	0.80
5	1.25	1.65	1.50	0.45	1.35	0.75	0.70
6	1.30	1.90	1.40	0.35	2.05	0.55	0.45
7	1.55	1.80	1.70	0.30	1.75	0.35	0.40
8	1.75	2.15	1.80	0.35	1.65	0.30	0.40
9	1.90	2.25	1.85	0.35	1.65	0.30	0.55
10	1.60	1.65	1.55	0.30	1.60	0.35	0.30
11	1.80	1.50	1.10	0.20	1.10	0.20	0.25
12	1.95	1.50	1.50	0.30	0.85	0.40	0.40
13	1.45	1.50	1.40	0.25	0.80	0.45	0.40
14	1.00	1.90	0.85	0.25	0.85	0.35	0.25
15	0.85	1.10	0.75	0.40	0.45	0.50	0.30
16	0.85	1.00	0.50	0.55	0.40	0.55	0.55
17	0.70	0.80	0.50	0.90	0.30	0.50	0.75
18	0.75	0.55	0.40	1.30	0.30	1.05	1.15
19	0.70	0.50	0.35	1.45	0.20	2.25	1.40
20	0.55	0.50	0.55	2.15	0.55	2.60	1.70
21	0.55	0.40	0.70	2.85	0.85	2.75	2.00
22	0.45	0.30	0.60	2.55	0.75	2.65	1.80
23	0.50	0.75	1.05	2.75	0.95	2.75	1.95
24	0.80	0.80	1.15	2.70	1.40	2.75	1.95
25	1.10	0.65	1.10	2.65	1.10	2.70	1.75
26	1.15	0.80	1.20	2.65	1.25	2.55	1.65
27	1.20	0.90	1.50	2.75	1.45	2.55	1.80
28	1.20	1.15	1.30	2.75	1.90	2.65	1.90
29	1.00	0.90	1.15	2.95	2.35	2.80	1.30
30	1.50	1.25	1.60	2.20	1.55	1.80	1.40
31	0.95	1.45	2.00	2.05	1.60	1.85	0.75
32	0.65	1.05	0.65	0.90	2.00	0.65	0.55
33	0.65	0.50	0.40	0.70	0.35	0.50	0.70
34	1.05	0.60	0.75	1.00	0.45	0.75	1.15
35	1.00	0.55	1.25	1.45	1.20	1.15	1.05
36	0.80	0.90	0.65	1.50	0.70	0.70	0.80

表选项

卷舌音

、[ar]和舌尖前高元音

、

在舌尖下出现一个舌下腔，针对卷舌元音的立体声道模型以后再讨论，目前只研究平舌元音。
将图 1b中各个截面边缘线等分，就可以得到36个截面的边缘点数据，如果在声道边缘线与矢量半径之间建立一组映射关系，那么只要给定一组矢量半径，就可以得到一组声道边缘线，这样就可以组成一个立体网格声道模型。当矢量半径改变时，可以根据已有的7个单元音的截面，让截面形状作线性过渡。当边缘线上的点作线性渐变时，截面与水平面的夹角也自然做了调整，于是就得到了用矢量半径驱动的汉语普通话立体声道模型。
图 3中的6幅图分别是根据矢量半径做线性变化的截面3、6、12、18、24、28的边缘线，实线是从MRI中获得的7个单元音原始截面边缘，虚线是相邻边缘做线性变化得到的边缘线。

图 3 声道不同位置的截面边缘线

图选项

截面3是在舌尖附近，从图形上看，最大的边缘像一个倒扣的月牙，水平宽度大约有4 cm，垂直宽度大约1 cm。
截面6在舌面前-硬腭部位，边缘线多半像倒扣的元宝，中间隆起部位是硬腭部位，下边是舌面，其中最大的边缘线水平宽度接近6 cm，垂直宽度大约2 cm。
截面12在舌面后-软腭附近，最大的边缘像一个贝壳或是一把打开的扇子，线条逐渐向中心收缩为半圆形或椭圆形。其中最大的边缘线水平宽度大约4 cm，垂直宽度大约2 cm。
截面18在软腭附近，边缘线近似菱形，在这个区域声道的变化比较小，最大的边缘线水平宽度才1.5 cm左右，垂直宽度也只有1 cm左右。
截面24和截面28都在咽腔部位，截面24较靠上一些，截面28较靠下一些。这2个截面中，最大的边缘线接近圆形，直径大约3 cm。
根据声道截面的矢量半径和截面边缘线数据，就可以建立矢量半径驱动的立体声道模型，该声道模型可以简单记作：

$\text{ShapeVT=}\sum\limits_{i=1}^{n}{\text{SectionLin}{{\text{e}}_{i}}\text{(}{{R}_{i}}\text{)}\text{.}}$

(1)

其中：ShapeVT是声道形状，R是矢量半径，SectionLine是截面边缘线，SectionLine是矢量半径R的函数，SectionLine的形状与[a]、[o]、

、[i]、[u]、[y]、[e]这7个单元音声道截面边缘的形状有关。该文沿声道中线截取了36个截面，所以式(1) 中n为36。这里的求和符号并不是数字的累加，而是表示一组边缘线。
图 4是汉语普通话单元音[a]和[i]的声道三维网格模型及模拟双元音韵母[ai]的起始状态[a]和结束状态[i]的三维立体声道模型。左边开口处是唇的位置，下端开口处是声门。

图 4 汉语普通话立体声道网格模型

图选项

从图 4c中可以获得发音时声道变化的细节信息，而且这些信息是很难直接观察到的：从单元音[a]到[i]渐变过程中，口腔体积逐渐收缩，咽腔体积逐渐扩大。而且在从[a]到[i]的发音过程中，硬腭相应地向下运动，因此可以看到[a]和[i]硬腭部位的边缘线并不重合，虚线网格([a])在实线网格([i])上方，而在软腭部位，虚线网格([a])在实线网格([i])下方，这说明在发汉语单元音[i]时，舌面向硬腭方向运动，软腭上抬，因此单元音[i]的咽腔体积比单元音[a]大得多。
改变矢量半径便可生成一组从[a]到[i]过渡状态的立体声道，进而获得相应的声道面积函数和共振峰模式。
图 5a是汉语普通话单元音[a]到[i]过渡的声道面积函数，从图上看，元音[a]前腔大，后腔小，而元音[i]前腔小，后腔大，这与图6一致。图 5b是汉语普通话单元音[a]到[i]过渡的声道传递函数。

图 5 汉语普通话[a]到[i]过渡声道面积函数和声道传递函数

图选项

2 模型评估为了评价该声道模型，需要对比磁共振同步录制的自然语音与用声道面积函数计算的前4个共振峰的频率数据(见表 3)，并对合成语音进行听辨。
表 3 自然语音与计算模拟的语音共振峰数据

单位：kHz
	nF1	nF2	nF3	nF4	cF1	cF2	cF3	cF4
[a]	0.87	1.30	3.00	3.70	0.70	1.40	2.55	3.50
[o]	0.68	1.05	2.86	3.47	0.60	1.05	2.55	3.25
	0.68	1.12	2.86	3.58	0.50	1.25	2.90	3.45
[i]	0.35	2.55	3.12	4.06	0.20	2.55	2.95	3.80
[u]	0.35	0.61	2.60	3.70	0.25	0.55	2.9	3.45
[y]	0.32	2.18	2.80	3.08	0.20	1.30	2.50	3.25
[e]	0.47	2.15	2.80	3.55	0.30	2.30	2.75	3.40

表选项

表中nF1—4是MRI同步录音的前4个共振峰频率，cF1—4是由声道面积推算出来的前4个共振峰频率。从表中可以看出元音[y]前2个共振峰频率的计算结果与自然语音差别较大。
听辨实验的结果表明：除[y]听起来与MRI同步录音存在差别外，其他6个单元音都能很清晰地辨认，其中元音[a]、[o]从听感上靠后，因此可以说该声道模型还是比较可靠的。
3 讨论与结论本文构建了一个用矢量半径驱动的汉语普通话立体声道模型，只要有实时的中央矢状面的声道数据，就可以对人们说话时口腔的形状变化进行实时仿真。根据矢量半径驱动的立体声道模型，不但可以比较清晰地展示声道形状的具体细节，而且可以动态展示声道的变化过程，有利于汉语普通话语音的教学和研究，甚至可以用模型得到精确的声道特性，并用它来合成语音，进行说话人识别，该模型也可以为将来仿真机器人的设计和研究提供参考。
本文实现了从MRI 3-D图像数据提取声道边缘，建立立体声道模型，并获得牙缝、梨状窝等声道细节信息，但是在利用声道形状计算传递函数方面，暂时还没有很好的算法将牙缝、梨状窝等腔体的共鸣计算进来，而且声道壁不是一种均匀材质，不同位置的壁阻抗不同，这会影响腔体的共鸣特性，这也是合成的语音与自然语音存在误差的一个重要原因。此外，该模型对舌头的运动处理能力不足，暂时不能模拟卷舌元音。因此研究复杂声道结构的声道特性，添加舌下腔模块等，都是下一步工作的研究内容。

参考文献

[1]	马大猷. 说话的科学技术[M]. 北京: 清华大学出版社, 2004.MA Dayou. Talking Science and Technology[M]. Beijing: Tsinghua University Press, 2004. (in Chinese)
[2]	Stevens K N, House A S. Development of a quantitative description of vowel articulation[J]. Journal of the Acoustical Society of America, 1955, 27: 484–493. DOI:10.1121/1.1907943
[3]	Fant G. The Acoustic Theory of Speech Production[M]. Hague: Mouton, 1960.
[4]	Heinz J M, Stevens K N. On the derivation of area functions and acoustic spectra from cineradiographic films of speech[J]. Journal of the Acoustical Society of America, 1964, 36: 1037.
[5]	Sundberg J. On the problem of obtaining area functions from lateral X-ray pictures of the vocal tract[J]. Royal Inst Technol STL-QPSR, 1969, 1: 43–45.
[6]	Chiba T, Kajiyama M. The Vowel:Its Nature and Structure[M]. Tokyo: Kaiseikan Publishing Company, 1942.
[7]	Baer T, Gore J C, Gracco L C, et al. Analysis of vocal tract shape and dimensions using magnetic resonance imaging:vowels[J]. Journal of the Acoustical Society of America, 1991, 90(2): 799–828. DOI:10.1121/1.401949
[8]	Story B H, Hoffman E A, Titze I R. Vocal tract imaging:A comparison of MRI and EBCT[J]. Medical Imaging Physiology and Function from Multidimensional Images, Hoffman, 1996, 2709: 209–222.
[9]	Narayanan S S, Alwan A A, Haker K. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part Ⅰ. The laterals[J]. Journal of the Acoustical Society of America, 1997, 101(2): 1064–1077. DOI:10.1121/1.418030
[10]	Alwan A, Narayanan S, Haker K. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part Ⅱ. The rhotics[J]. Journal of the Acoustical Society of America, 1997, 101(2): 1078–1089. DOI:10.1121/1.417972
[11]	Espy-Wilson C Y, Boyce S E, Jackson M, et al. Acoustic modeling of American English vertical bar r vertical bar[J]. Journal of the Acoustical Society of America, 2000, 108(1): 343–356. DOI:10.1121/1.429469
[12]	Story B H, Titze I R. Parameterization of vocal tract area functions by empirical orthogonal modes[J]. Journal of Phonetics, 1998, 26(3): 223–260. DOI:10.1006/jpho.1998.0076
[13]	Story B H. A parametric model of the vocal tract area function for vowel and consonant simulation[J]. Journal of the Acoustical Society of America, 2005, 117(5): 3231–3254. DOI:10.1121/1.1869752
[14]	Dang J W, Honda K. Construction and control of a physiological articulatory model[J]. Journal of the Acoustical Society of America, 2004, 115(2): 853–870. DOI:10.1121/1.1639325
[15]	Dang J W, Honda K. Estimation of vocal tract shapes from speech sounds with a physiological articulatory model[J]. Journal of Phonetics, 2002, 30(3): 511–532. DOI:10.1006/jpho.2002.0167
[16]	Dang J W, Honda K, Suzuki H. Morphological and acoustical analysis of the nasal and the paranasal cavities[J]. Journal of the Acoustical Society of America, 1994, 96(4): 2088–2100. DOI:10.1121/1.410150
[17]	Dang J W, Honda K. Acoustic characteristics of the piriform fossa in models and humans[J]. Journal of the Acoustical Society of America, 1997, 101(1): 456–465. DOI:10.1121/1.417990
[18]	Dang J W, Shadle C H, Kawanishi Y, et al. An experimental study of the open end correction coefficient for side branches within an acoustic tube[J]. Journal of the Acoustical Society of America, 1998, 104(2): 1075–1084. DOI:10.1121/1.423324