基于磁共振成像的汉语普通话舌尖调音建模

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 普通话元音“a”的MRI图像和处理后得到的发音器官形状

图选项

2 舌头形状的主成分分析2.1 对舌头整体的因子分析本文对MRI数据库的舌形数据进行主成分分析，得到的结果如图 2所示。图 2a是MRI的声道正中矢状面图。图 2b则是主成分分析的贡献图，以柱状图的形式列出了各个主成分的贡献率(图 2b中只画出了前10个主成分)。

图 2 MRI静态数据的舌形分布和前10个主成分的贡献率

图选项

本文用14个点来描述舌形，每个点有横纵2个坐标，数据空间为28维。为方便讨论，把每个点的坐标用复数表示，例如(123, 200) 转成123+200i，这样数据就转为复数空间中的14维，然后再进行主成分分析。由于舌形复杂，难以无损降维，因此得到14个主成分。各个成分的贡献率依次是：61.36%, 25.98%, 6.97%, 3.20%, 1.01%, 0.47%, 0.32%, 0.23%, 0.14%, 0.10%, 0.08%, 0.07%, 0.04%, 0.03%；累积贡献率是：61.36%, 87.34%, 94.31%, 97.51%, 98.52%, 98.99%, 99.31%, 99.54%, 99.68%, 99.78%, 99.86%, 99.93%, 99.97%, 100.00%，如表 1所示。可见，用前4个主成分就可以描述97.51%的舌形变化，平均误差为1.0 mm。用前6个主成分就可以描述98.99%的舌形变化，平均误差为0.6 mm。仅从误差角度来看，若要求舌形误差不超过1 mm (在数据图像中对应于1个像素点的大小)，则至少要用4个主成分来描述舌形。
图 3是前4个主成分分量的变化图。以图 3a为例，实线是舌形的平均值，是舌头的初始形状，也就是主成分1分量为0时舌头的形状。虚线是主成分1分量变化为5个单位，也即5 mm (+5 mm和-5 mm) 的时候舌头的形状，点线是变化为10 mm (+10 mm和-10 mm) 的时候舌头的形状，可以看出主成分1代表的是舌头的前后运动。同样，主成分2代表的主要是舌体不动、舌尖前伸的运动，主成分3代表的是舌根前移同时舌尖前伸并上翘的运动，主成分4代表是舌体拱起、舌尖上翘的运动。虽然本文已经尽量寻找这些主成分动作的调音意义，但有些地方仍不太尽如人意。例如，后3个主成分都有舌尖前伸的运动成分，这样改变主成分分量调节舌形的时候，就难以独立控制。本文希望各个主成分之间的相关性尽量小，对应的调音运动也比较独立和容易操作。

图 3 舌形的前4个主成分的运动趋势示意图

图选项

最后, 用这4个主成分来重构舌形，并考察重构的误差。对误差要求最高的是塞音和塞擦音，因为对于成阻的地方，误差稍微大一些，重构的舌形就无法形成阻塞，就达不到语音学上区别对立的要求。这也是目前不少主成分研究不足的地方，这些研究只注意前几个主成分重构在统计上的误差大小，较少讨论这些误差分布在什么部位，对语音的区别有没有关键的影响。例如对于p (i)、t (e)、z (a)、r (u) 等，虽然重构舌形的整体误差不大，但不该成阻的地方与硬腭紧贴有了阻塞，而在该与硬腭形成阻塞的地方没有阻塞，这就说明用4个主成分来描述舌形还是不够。经过计算，只有用6个主成分才可以满足要求，使得重构的舌形能区分所有阻塞细微差别的音素，例如b (i) 和p (i)、z (a) 和s (a) 等。
2.2 对舌尖和舌体分开的因子分析用6个主成分描述舌形，可以满足区别普通话不同音素的要求，但为了简化模型，在控制重构舌形误差的前提下，应尽量减少主成分(也即控制参数) 的数量。可以观察到，舌体和舌尖的运动具有相对的独立性。舌体是由颏舌肌、下纵肌、舌垂直肌、舌横肌和上纵肌组成，而舌尖主要是上纵肌延伸而成，两者的结构不同。舌尖附着在舌体上，运动特别灵活，很多音素特别是舌尖元音和辅音都是由舌尖的运动产生。这就提示把舌尖和舌体分开来分析可以简化参数。如图 4所示，小圈所示为舌尖部分，大圈所示为舌体部分。

图 4 口腔示意图(把舌尖和舌体分开来分析)

图选项

首先对舌体进行主成分分析，得到各个成分的累积贡献率分别是：78.59%, 90.40%, 95.87%, 98.55%, 99.21%, 99.55%, 99.72%, 99.86%, 99.94%, 100.00%，如表 1所示。如果用前3个主成分来重构舌体，其平均误差为1.2 mm。然后，再对舌尖进行主成分分析，得到各个成分的累积贡献率分别是：92.66%, 98.84%, 99.69%, 100.00%。如果用前2个主成分来重构舌体，平均误差为0.3 mm。图 5所示为舌尖运动的前两个主成分，可以看出，舌尖的这两个主成分的调音意义是很明显的：主成分1代表的是舌尖上翘，对应着翘舌音和卷舌音的动作；主成分2代表的是舌尖前突。

图 5 舌尖的前2个主成分的运动趋势示意图

图选项

下面根据这两个主成分重构舌尖，重点关注重构出的舌尖曲线能否满足同部位塞音与擦音的区分。图 6是舌体重构误差最大的几个音位变体(限于篇幅，只列出4个辅音)。可以看到，对于舌尖前塞擦音z，其重构的舌形能够成阻。对于舌尖前擦音s，重构的舌形也能够留出通道，与z形成对立。舌尖后塞擦音zh和擦音sh也是如此。因此，用这2个主成分来描述舌尖是足够的。

图 6 舌尖重构误差最大的4个辅音的口腔示意图

图选项

本文把舌头分为舌体和舌尖两个部分，用3个主成分来描述舌体，用2个主成分来描述舌尖。这样做有3点进步：1)?基于解剖生理，把舌头分为舌体和舌尖，使得各自主成分对应的动作具有更明确的调音意义。2)?与用6个主成分重构舌形相比，用3个主成分重构舌体、2个主成分重构舌尖，在保证能够区别各个音素变体的前提下，降低了参数的维度，使模型更加简洁。3)?从表 1可以看出，这样做减小了重点部位也就是舌尖的重构误差。
表 1 整个舌头、舌体、舌尖的主成分重构误差

整个舌头			舌体			舌尖
主成分	累积贡献率/%	重构误差/mm	主成分	累积贡献率/%	重构误差/mm	主成分	累积贡献率/%	重构误差/mm
1	61.36	4.1	1	78.59	2.8	1	92.66	0.5
2	87.34	2.3	2	90.40	1.8	2	98.84	0.3
3	94.31	1.5	3	95.87	1.2	3	99.69	0.0
4	97.51	1.0	4	98.55	0.7	4	100.00	0.0
5	98.52	0.8	5	99.21	0.5	5	100.00	0.0
6	98.99	0.6	6	99.55	0.4
7	99.31	0.5	7	99.72	0.3
8	99.54	0.4	8	99.86	0.2
9	99.68	0.4	9	99.94	0.1
10	99.78	0.3	10	100.00	0.0
11	99.86	0.2
12	99.93	0.2
13	99.97	0.1
14	100.00	0.0

表选项

3 舌尖的调音建模结果从先验角度预定义舌头模型，往往用一段弧线或直线表示舌体或舌尖，舌形跟真实数据差距较大，而且往往缺少对舌尖下表面的描述。例如，把舌体建模为半径为20 mm的圆弧，把舌面和舌尖上表面建模为一条顺着舌体圆弧的弧形切线^[10]。
本文先根据普通话发音数据的主成分分析，发现舌头分为舌体和舌尖两部分建模会更准确简洁，而且舌尖下表面也包含在内。对于舌尖部位，由于包含了舌尖上下表面，先初步选择用半边椭圆曲线来模拟舌尖的原始形状，较为直观方便。然后，参考主成分分析得到的因子(主成分1和主成分2)，用两个更为直观的调音参数(舌尖前伸和舌尖上翘) 来控制舌尖椭圆曲线。
设椭圆长轴a，短轴b，则舌尖边缘曲线方程为：

$\begin{array}{*{20}{c}}{{{\left( {x/a} \right)}^2} + {{\left( {y/b} \right)}^2} = 1}\{ - a < x < 0, - b < y < b.}\end{array}$

(1)

经测量，舌尖在休息状态下，其长度为8~20 mm，厚度为6~12 mm。这里不妨假设舌尖模型椭圆曲线的长轴a=10 mm，短轴b=5 mm。从生理上看，由于舌尖肌肉体积保持不变，因此假设在正中矢状面上舌尖的面积也保持不变，则方程(1) 还要加上一个限制条件，即椭圆面积保持不变πab=π×10 mm×5 mm=50π mm²。
如图 7所示，从身体左侧看过去，以舌尖椭圆曲线的中心为坐标原点，以x轴表示舌尖的长度，以y轴表示舌尖的厚度。设置舌尖前伸调音参数为TTP (tongue tip protrude)，当其数值为正，则舌尖椭圆长轴增加，舌尖变扁前伸，负值则舌尖变厚缩回。舌尖上翘调音参数为TTR (tongue tip raise)，若其数值为正，则椭圆变斜，舌尖上翘。根据祖暅原理(等幂等积定理)，舌尖中剖面面积不变。两个调音参数可以同时变化调节，使得舌尖前伸的同时也可以上翘，能够产生更大的舌尖运动范围。得到舌尖曲线的最终方程为

$\begin{array}{*{20}{c}}{{{\left( {\frac{x}{{a + {\rm{TTP}}}}} \right)}^2} + }\{{{\left( {\frac{{y - \frac{{{\rm{TTP}}}}{{a + {\rm{TTP}}}}x - \frac{{b \cdot {\rm{TTP}}}}{{a + {\rm{TTP}}}}}}{{\frac{{ab}}{{a + {\rm{TTP}}}}}}} \right)}^2} = 1.}\end{array}$

(2)

其中，-a-TTP < x < 0。

图 7 正中矢状面上(从身体左侧看舌头) 舌尖前伸、舌尖上翘参数对舌尖形状的影响

图选项

4 结论首先，本文发现把舌尖和舌体分开建模更为简洁，控制因子(调音参数) 从6个降为5个(舌体3个，舌尖2个)，舌尖敏感部位的重构误差从0.6 mm降为0.3 mm。其次，利用椭圆曲线初步建立了舌头模型的舌尖部分，由两个调音参数控制曲线方程。下一步的工作需要对舌体部分进行类似的建模，从而得到整个舌头的模型，以最终建立整个的汉语普通话声道调音模型，并根据整个舌头的重构效果、声道的声学特性以及合成语音的质量来衡量建模质量，以改进或选择更好的曲线方程和控制参数。另外，本文使用的汉语普通话MRI数据库目前只有静态的发音数据，若要更加全面地建立和衡量发音模型，还需要补充动态的发音数据。

参考文献

[1]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Fant G. Acoustic Theory of Speech Production[M]. 2nd Ed. Hague: Mouton, 1970: 328.
[2]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Hardcastle W J, Laver J. The Handbook of Phonetic Sciences[M]. Oxford: Blackwell Publishing, 1999.
[3]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Story B H. A parametric model of the vocal tract area function for vowel and consonant simulation[J]. J Acoust Soc Am, 2005, 117(5): 3231–3254. DOI:10.1121/1.1869752
[4]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Flanagan J. Speech Analysis Synthesis and Perception[M]. New York: Spinger, 1972.
[5]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Wilhelms-Tricarico R. A biomechanical and physiologically-based vocal tract model and its control[J]. J Phonetics, 1996, 24(1): 23–38. DOI:10.1006/jpho.1996.0003
[6]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Dang J W, Honda K. Construction and control of a physiological articulatory model[J]. J Acoust Soc Am, 2004, 115(2): 853–870. DOI:10.1121/1.1639325
[7]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Iskarous K. Patterns of tongue movement[J]. J Phonetics, 2005, 33(4): 363–381. DOI:10.1016/j.wocn.2004.09.001
[8]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Badin P, Bailly G, Reveret L, et al. Three-dimensional linear articulatory modeling of tongue, lips and face, based on MRI and video images[J]. J Phonetics, 2002, 30(3): 533–553. DOI:10.1006/jpho.2002.0166
[9]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Engwall O. Combining MRI, EMA and EPG measurements in a three-dimensional tongue model[J]. Speech Comm, 2003, 41(2/3): 303–329.
[10]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Mermelstein P. Articulatory model for the study of speech production[J]. J Acoust Soc Am, 1973, 53(4): 1070–1082. DOI:10.1121/1.1913427
[11]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Coker C H. A model of articulatory dynamics and control[J]. Proceedings of the IEEE, 1976, 64(4): 452–460. DOI:10.1109/PROC.1976.10154
[12]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Lindblom B, Sundberg J. Acoustical consequences of lip, tongue, jaw, and larynx movement[J]. J Acoust Soc Am, 1971, 50(4): 1166–1179.
[13]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Harshman R, Ladefoged P, Goldstein L. Factor analysis of tongue shapes[J]. J Acoust Soc Am, 1977, 62(3): 693–707. DOI:10.1121/1.381581
[14]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Beautemps D, Badin P, Bailly G. Linear degrees of freedom in speech production:Analysis of cineradio-and labio-film data and articulatory-acoustic modeling[J]. J Acoust Soc Am, 2001, 109(5): 2165–2180. DOI:10.1121/1.1361090
[15]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Wang G, Kitamura T, Lu X G, et al. MRI-based study of morphological and acoustical properties of Mandarin sustained steady vowels[J]. J Signal Process, 2008, 12(4): 311–314.
[16]	Journal of Central South University(Science and Technology), 41(2):649-654.--> Wang Y, Wang H, Gao J, et al. Detailed morphological analysis of mandarin sustained steady vowels[C]//International Symposium on Chinese Spoken Language Processing (ISCSLP). Hong Kong, 2012:413-416.