基于磁共振成像的汉语普通话舌尖调音建模
汪高武 1 , 党建武 2 , 孔江平 3     
1. 北京师范大学 文学院, 北京 100875;
2. 天津大学 计算机科学与技术学院, 天津 300072;
3. 北京大学 中国语言文学系, 北京 100871
摘要:通过对汉语普通话磁共振成像数据的分析,对舌尖的形状和运动进行调音建模。建立了汉语普通话磁共振成像调音数据库,包括9个单元音和75个辅音变体。提取了发音器官在正中矢状面上的形状边缘;对舌头的形状边缘进行主成分分析,发现舌尖和舌体分开建模更为简洁;针对舌尖调音动作,用舌尖前伸(TTP)和舌尖上翘(TTR)两个调音参数来控制舌尖形状和动作,建立了舌尖的调音模型。
关键词磁共振成像     汉语普通话     舌尖     调音模型    
Modeling of the tongue tip in Standard Chinese using MRI
WANG Gaowu1, DANG Jianwu2, KONG Jiangping3     
1. School of Chinese Language and Literature, Beijing Normal University, Beijing 100875, China;
2. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China;
3. Department of Chinese Language and Literature, Peking University, Beijing 100871, China
Abstract:The tongue tip motion in Standard Chinese was modeled based on articulatory data from magnetic resonance imaging (MRI) images. An MRI articulatory database was developed for Standard Chinese, including 9 vowels and 75 consonant variants. Principle component analysis (PCA) of the tongue shape was then used to find articulatory factors. The results show that the tongue should be divided as the tongue tip and tongue body and modeled separately for more precise results. The tongue tip motion is modeled with two articulatory parameters for tongue tip protrude and tongue tip raise which represent the protruding/advancing and raising/retroflexing movements of the tongue tip.
Key words: magnetic resonance imaging (MRI)     Standard Chinese     tongue tip     articulatory model    

为了更好地理解言语产生的过程,即如何从音位输入到调音器官的动作,再到声学输出,需要建立相应的声道模型。目前对于言语产生的声学建模,多采用把嗓音发声和声道调音分开的声源-滤波模型[1-2]。声带振动产生的声源信号经过声道的调制,再经过唇的辐射,成为语音的声波信号。在此理论基础上,针对发音器官的形状和运动,人们建立了很多声道模型,可以大致分为以下3类:面积参数模型、几何调音模型和生理调音模型。

面积参数模型直接以声管的截面积为变化参数,而不用关注各个发音器官的形状[3-4]。这类模型的缺点在于只关注声管面积的变化,难以跟生理结构和调音动作对应起来,也难以进一步研究发音器官各自的运动规律和相互之间的协调动作。生理调音模型则深入到生理层面,对发音器官的骨骼肌肉等组织进行建模,并关注肌肉结构和生理机能的限制(如体积守恒、组织形变)[5-6],是最为深入的模型;但由于技术限制,目前尚缺乏建模所需的肌肉力量和肌电信号的经验数据。几何调音模型则介于这两类模型之间,把声道分解成各个调音器官,分别研究其形状变化和运动规律,但又不需要获取肌肉结构组织的生理数据,因此成为目前研究最多的模型。

在调音模型里,舌头是最为灵活的器官,在语音产生中的地位最为关键。因此,对其进行建模,找出其在发声过程中运动的基本规律,有利于理解协同发音和音系学现象的内在机制[7]。目前已经有很多对舌头建模的分析,有解析的、统计的,有2维的、3维的,有实时的和非实时的[8-9]

对舌头建模的难点在于,如何用最精简的参数去产生和控制灵活的舌头模型,因为从舌头的言语任务来看,只需要较少自由度便能发出各种语音[7]。舌面曲线虽然复杂,但有着系统的特定模式,需要关注如何去提取哪些参量来表征舌面形状。为了寻找这些参量,一般可从两个角度进行:先验和后验。先验是指预先指定一套参数来描述舌头的形状,例如舌体轮廓线圆心坐标及弧线、舌体最高点的坐标等,再用数据来训练模型参数[10-11]。后验是指用统计的方法分析舌头形状的数据,找到影响运动的因子[12],把这些因子作为参量控制舌头的形状,常见的方法有平行因子分析(parallel factor analysis, PFA)[13]、主成分分析(principal component analysis, PCA)[14]、线性成分分析(linear component analysis, LCA)[9]等。

本文将结合先验和后验两种角度,先用主成分法分析舌头的形状,再参考得到的因子来设置舌体形状曲线的参数,建立相应的调音模型。以前的研究[13-14]都是把舌头作为一个整体分析,而本文发现把舌头分为舌尖和舌体两部分,可以使得控制参数更为精简,调音意义更为明显。

本文的研究目的在于最终建立汉语普通话声道调音模型。在理论方面,加深对汉语普通话的言语产生和调音生理特性的认识;在应用方面,模型对普通话的语言合成参数设定、虚拟说话人和普通话辅助教学,特别是聋哑儿童的可视化辅助教学,都有着实用价值。

1 汉语普通话磁共振成像发音数据库

磁共振成像(magnetic resonance imaging, MRI) 是近来应用到声道研究领域的先进技术,已用于研究英语、法语、日语等多种语言,但目前还缺乏针对汉语普通话的系统研究[15-16]。为了进行汉语普通话声道生理和调音模型的研究,本文建立了相应的普通话声道MRI发音数据库。

实验中使用的MRI设备是Shimadzu-Marconi ECLIPSE 1.5 T PowerDrive 250 Scanner。主要参数设置为:图像实际尺寸256 mm×256 mm,分辨率256×256像素,每个像素点的大小为1 mm2

语料选取了普通话中的9个单元音,例如a、o、e、i、u等;75个辅音变体,例如b (a)、b (i)、b (u)、b (o)、d (a)、d (i)、d (u)、d (e) 等(先考虑所有声母后接单韵母的情况)。在拍摄声母的辅音变体时,要求发音人假想辅音后面接着元音,但这个元音不读出声音。例如b (a),就让发音人假想要发出“疤”字,但并不发出元音的声响,保持成阻状态。本实验的发音人为一名成年男性。

图 1所示为普通话元音“a”的MRI图像和处理后所得到的正中矢状面上的发音器官形状。其中舌头的边缘是用14个点插值生成的曲线。

图 1 普通话元音“a”的MRI图像和处理后得到的发音器官形状

2 舌头形状的主成分分析 2.1 对舌头整体的因子分析

本文对MRI数据库的舌形数据进行主成分分析,得到的结果如图 2所示。图 2a是MRI的声道正中矢状面图。图 2b则是主成分分析的贡献图,以柱状图的形式列出了各个主成分的贡献率(图 2b中只画出了前10个主成分)。

图 2 MRI静态数据的舌形分布和前10个主成分的贡献率

本文用14个点来描述舌形,每个点有横纵2个坐标,数据空间为28维。为方便讨论,把每个点的坐标用复数表示,例如(123, 200) 转成123+200i,这样数据就转为复数空间中的14维,然后再进行主成分分析。由于舌形复杂,难以无损降维,因此得到14个主成分。各个成分的贡献率依次是:61.36%, 25.98%, 6.97%, 3.20%, 1.01%, 0.47%, 0.32%, 0.23%, 0.14%, 0.10%, 0.08%, 0.07%, 0.04%, 0.03%;累积贡献率是:61.36%, 87.34%, 94.31%, 97.51%, 98.52%, 98.99%, 99.31%, 99.54%, 99.68%, 99.78%, 99.86%, 99.93%, 99.97%, 100.00%,如表 1所示。可见,用前4个主成分就可以描述97.51%的舌形变化,平均误差为1.0 mm。用前6个主成分就可以描述98.99%的舌形变化,平均误差为0.6 mm。仅从误差角度来看,若要求舌形误差不超过1 mm (在数据图像中对应于1个像素点的大小),则至少要用4个主成分来描述舌形。

图 3是前4个主成分分量的变化图。以图 3a为例,实线是舌形的平均值,是舌头的初始形状,也就是主成分1分量为0时舌头的形状。虚线是主成分1分量变化为5个单位,也即5 mm (+5 mm和-5 mm) 的时候舌头的形状,点线是变化为10 mm (+10 mm和-10 mm) 的时候舌头的形状,可以看出主成分1代表的是舌头的前后运动。同样,主成分2代表的主要是舌体不动、舌尖前伸的运动,主成分3代表的是舌根前移同时舌尖前伸并上翘的运动,主成分4代表是舌体拱起、舌尖上翘的运动。虽然本文已经尽量寻找这些主成分动作的调音意义,但有些地方仍不太尽如人意。例如,后3个主成分都有舌尖前伸的运动成分,这样改变主成分分量调节舌形的时候,就难以独立控制。本文希望各个主成分之间的相关性尽量小,对应的调音运动也比较独立和容易操作。

图 3 舌形的前4个主成分的运动趋势示意图

最后, 用这4个主成分来重构舌形,并考察重构的误差。对误差要求最高的是塞音和塞擦音,因为对于成阻的地方,误差稍微大一些,重构的舌形就无法形成阻塞,就达不到语音学上区别对立的要求。这也是目前不少主成分研究不足的地方,这些研究只注意前几个主成分重构在统计上的误差大小,较少讨论这些误差分布在什么部位,对语音的区别有没有关键的影响。例如对于p (i)、t (e)、z (a)、r (u) 等,虽然重构舌形的整体误差不大,但不该成阻的地方与硬腭紧贴有了阻塞,而在该与硬腭形成阻塞的地方没有阻塞,这就说明用4个主成分来描述舌形还是不够。经过计算,只有用6个主成分才可以满足要求,使得重构的舌形能区分所有阻塞细微差别的音素,例如b (i) 和p (i)、z (a) 和s (a) 等。

2.2 对舌尖和舌体分开的因子分析

用6个主成分描述舌形,可以满足区别普通话不同音素的要求,但为了简化模型,在控制重构舌形误差的前提下,应尽量减少主成分(也即控制参数) 的数量。可以观察到,舌体和舌尖的运动具有相对的独立性。舌体是由颏舌肌、下纵肌、舌垂直肌、舌横肌和上纵肌组成,而舌尖主要是上纵肌延伸而成,两者的结构不同。舌尖附着在舌体上,运动特别灵活,很多音素特别是舌尖元音和辅音都是由舌尖的运动产生。这就提示把舌尖和舌体分开来分析可以简化参数。如图 4所示,小圈所示为舌尖部分,大圈所示为舌体部分。

图 4 口腔示意图(把舌尖和舌体分开来分析)

首先对舌体进行主成分分析,得到各个成分的累积贡献率分别是:78.59%, 90.40%, 95.87%, 98.55%, 99.21%, 99.55%, 99.72%, 99.86%, 99.94%, 100.00%,如表 1所示。如果用前3个主成分来重构舌体,其平均误差为1.2 mm。然后,再对舌尖进行主成分分析,得到各个成分的累积贡献率分别是:92.66%, 98.84%, 99.69%, 100.00%。如果用前2个主成分来重构舌体,平均误差为0.3 mm。图 5所示为舌尖运动的前两个主成分,可以看出,舌尖的这两个主成分的调音意义是很明显的:主成分1代表的是舌尖上翘,对应着翘舌音和卷舌音的动作;主成分2代表的是舌尖前突。

图 5 舌尖的前2个主成分的运动趋势示意图

下面根据这两个主成分重构舌尖,重点关注重构出的舌尖曲线能否满足同部位塞音与擦音的区分。图 6是舌体重构误差最大的几个音位变体(限于篇幅,只列出4个辅音)。可以看到,对于舌尖前塞擦音z,其重构的舌形能够成阻。对于舌尖前擦音s,重构的舌形也能够留出通道,与z形成对立。舌尖后塞擦音zh和擦音sh也是如此。因此,用这2个主成分来描述舌尖是足够的。

图 6 舌尖重构误差最大的4个辅音的口腔示意图

本文把舌头分为舌体和舌尖两个部分,用3个主成分来描述舌体,用2个主成分来描述舌尖。这样做有3点进步:1) 基于解剖生理,把舌头分为舌体和舌尖,使得各自主成分对应的动作具有更明确的调音意义。2) 与用6个主成分重构舌形相比,用3个主成分重构舌体、2个主成分重构舌尖,在保证能够区别各个音素变体的前提下,降低了参数的维度,使模型更加简洁。3) 从表 1可以看出,这样做减小了重点部位也就是舌尖的重构误差。

表 1 整个舌头、舌体、舌尖的主成分重构误差
整个舌头 舌体 舌尖
主成分 累积贡献率/% 重构误差/mm 主成分 累积贡献率/% 重构误差/mm 主成分 累积贡献率/% 重构误差/mm
1 61.36 4.1 1 78.59 2.8 1 92.66 0.5
2 87.34 2.3 2 90.40 1.8 2 98.84 0.3
3 94.31 1.5 3 95.87 1.2 3 99.69 0.0
4 97.51 1.0 4 98.55 0.7 4 100.00 0.0
5 98.52 0.8 5 99.21 0.5 5 100.00 0.0
6 98.99 0.6 6 99.55 0.4
7 99.31 0.5 7 99.72 0.3
8 99.54 0.4 8 99.86 0.2
9 99.68 0.4 9 99.94 0.1
10 99.78 0.3 10 100.00 0.0
11 99.86 0.2
12 99.93 0.2
13 99.97 0.1
14 100.00 0.0

3 舌尖的调音建模结果

从先验角度预定义舌头模型,往往用一段弧线或直线表示舌体或舌尖,舌形跟真实数据差距较大,而且往往缺少对舌尖下表面的描述。例如,把舌体建模为半径为20 mm的圆弧,把舌面和舌尖上表面建模为一条顺着舌体圆弧的弧形切线[10]

本文先根据普通话发音数据的主成分分析,发现舌头分为舌体和舌尖两部分建模会更准确简洁,而且舌尖下表面也包含在内。对于舌尖部位,由于包含了舌尖上下表面,先初步选择用半边椭圆曲线来模拟舌尖的原始形状,较为直观方便。然后,参考主成分分析得到的因子(主成分1和主成分2),用两个更为直观的调音参数(舌尖前伸和舌尖上翘) 来控制舌尖椭圆曲线。

设椭圆长轴a,短轴b,则舌尖边缘曲线方程为:

$\begin{array}{*{20}{c}} {{{\left( {x/a} \right)}^2} + {{\left( {y/b} \right)}^2} = 1}\ { - a < x < 0, - b < y < b.} \end{array}$ (1)

经测量,舌尖在休息状态下,其长度为8~20 mm,厚度为6~12 mm。这里不妨假设舌尖模型椭圆曲线的长轴a=10 mm,短轴b=5 mm。从生理上看,由于舌尖肌肉体积保持不变,因此假设在正中矢状面上舌尖的面积也保持不变,则方程(1) 还要加上一个限制条件,即椭圆面积保持不变πab=π×10 mm×5 mm=50π mm2

图 7所示,从身体左侧看过去,以舌尖椭圆曲线的中心为坐标原点,以x轴表示舌尖的长度,以y轴表示舌尖的厚度。设置舌尖前伸调音参数为TTP (tongue tip protrude),当其数值为正,则舌尖椭圆长轴增加,舌尖变扁前伸,负值则舌尖变厚缩回。舌尖上翘调音参数为TTR (tongue tip raise),若其数值为正,则椭圆变斜,舌尖上翘。根据祖暅原理(等幂等积定理),舌尖中剖面面积不变。两个调音参数可以同时变化调节,使得舌尖前伸的同时也可以上翘,能够产生更大的舌尖运动范围。得到舌尖曲线的最终方程为

$\begin{array}{*{20}{c}} {{{\left( {\frac{x}{{a + {\rm{TTP}}}}} \right)}^2} + }\ {{{\left( {\frac{{y - \frac{{{\rm{TTP}}}}{{a + {\rm{TTP}}}}x - \frac{{b \cdot {\rm{TTP}}}}{{a + {\rm{TTP}}}}}}{{\frac{{ab}}{{a + {\rm{TTP}}}}}}} \right)}^2} = 1.} \end{array}$ (2)

其中,-a-TTP < x < 0。

图 7 正中矢状面上(从身体左侧看舌头) 舌尖前伸、舌尖上翘参数对舌尖形状的影响

4 结论

首先,本文发现把舌尖和舌体分开建模更为简洁,控制因子(调音参数) 从6个降为5个(舌体3个,舌尖2个),舌尖敏感部位的重构误差从0.6 mm降为0.3 mm。其次,利用椭圆曲线初步建立了舌头模型的舌尖部分,由两个调音参数控制曲线方程。下一步的工作需要对舌体部分进行类似的建模,从而得到整个舌头的模型,以最终建立整个的汉语普通话声道调音模型,并根据整个舌头的重构效果、声道的声学特性以及合成语音的质量来衡量建模质量,以改进或选择更好的曲线方程和控制参数。另外,本文使用的汉语普通话MRI数据库目前只有静态的发音数据,若要更加全面地建立和衡量发音模型,还需要补充动态的发音数据。

参考文献
[1] Fant G. Acoustic Theory of Speech Production[M]. 2nd Ed. Hague: Mouton, 1970: 328.
[2] Hardcastle W J, Laver J. The Handbook of Phonetic Sciences[M]. Oxford: Blackwell Publishing, 1999.
[3] Story B H. A parametric model of the vocal tract area function for vowel and consonant simulation[J]. J Acoust Soc Am, 2005, 117(5): 3231–3254. DOI:10.1121/1.1869752
[4] Flanagan J. Speech Analysis Synthesis and Perception[M]. New York: Spinger, 1972.
[5] Wilhelms-Tricarico R. A biomechanical and physiologically-based vocal tract model and its control[J]. J Phonetics, 1996, 24(1): 23–38. DOI:10.1006/jpho.1996.0003
[6] Dang J W, Honda K. Construction and control of a physiological articulatory model[J]. J Acoust Soc Am, 2004, 115(2): 853–870. DOI:10.1121/1.1639325
[7] Iskarous K. Patterns of tongue movement[J]. J Phonetics, 2005, 33(4): 363–381. DOI:10.1016/j.wocn.2004.09.001
[8] Badin P, Bailly G, Reveret L, et al. Three-dimensional linear articulatory modeling of tongue, lips and face, based on MRI and video images[J]. J Phonetics, 2002, 30(3): 533–553. DOI:10.1006/jpho.2002.0166
[9] Engwall O. Combining MRI, EMA and EPG measurements in a three-dimensional tongue model[J]. Speech Comm, 2003, 41(2/3): 303–329.
[10] Mermelstein P. Articulatory model for the study of speech production[J]. J Acoust Soc Am, 1973, 53(4): 1070–1082. DOI:10.1121/1.1913427
[11] Coker C H. A model of articulatory dynamics and control[J]. Proceedings of the IEEE, 1976, 64(4): 452–460. DOI:10.1109/PROC.1976.10154
[12] Lindblom B, Sundberg J. Acoustical consequences of lip, tongue, jaw, and larynx movement[J]. J Acoust Soc Am, 1971, 50(4): 1166–1179.
[13] Harshman R, Ladefoged P, Goldstein L. Factor analysis of tongue shapes[J]. J Acoust Soc Am, 1977, 62(3): 693–707. DOI:10.1121/1.381581
[14] Beautemps D, Badin P, Bailly G. Linear degrees of freedom in speech production:Analysis of cineradio-and labio-film data and articulatory-acoustic modeling[J]. J Acoust Soc Am, 2001, 109(5): 2165–2180. DOI:10.1121/1.1361090
[15] Wang G, Kitamura T, Lu X G, et al. MRI-based study of morphological and acoustical properties of Mandarin sustained steady vowels[J]. J Signal Process, 2008, 12(4): 311–314.
[16] Wang Y, Wang H, Gao J, et al. Detailed morphological analysis of mandarin sustained steady vowels[C]//International Symposium on Chinese Spoken Language Processing (ISCSLP). Hong Kong, 2012:413-416.