2. 天津大学 计算机科学与技术学院, 天津 300072;
3. 北京大学 中国语言文学系, 北京 100871
2. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China;
3. Department of Chinese Language and Literature, Peking University, Beijing 100871, China
为了更好地理解言语产生的过程,即如何从音位输入到调音器官的动作,再到声学输出,需要建立相应的声道模型。目前对于言语产生的声学建模,多采用把嗓音发声和声道调音分开的声源-滤波模型[1-2]。声带振动产生的声源信号经过声道的调制,再经过唇的辐射,成为语音的声波信号。在此理论基础上,针对发音器官的形状和运动,人们建立了很多声道模型,可以大致分为以下3类:面积参数模型、几何调音模型和生理调音模型。
面积参数模型直接以声管的截面积为变化参数,而不用关注各个发音器官的形状[3-4]。这类模型的缺点在于只关注声管面积的变化,难以跟生理结构和调音动作对应起来,也难以进一步研究发音器官各自的运动规律和相互之间的协调动作。生理调音模型则深入到生理层面,对发音器官的骨骼肌肉等组织进行建模,并关注肌肉结构和生理机能的限制(如体积守恒、组织形变)[5-6],是最为深入的模型;但由于技术限制,目前尚缺乏建模所需的肌肉力量和肌电信号的经验数据。几何调音模型则介于这两类模型之间,把声道分解成各个调音器官,分别研究其形状变化和运动规律,但又不需要获取肌肉结构组织的生理数据,因此成为目前研究最多的模型。
在调音模型里,舌头是最为灵活的器官,在语音产生中的地位最为关键。因此,对其进行建模,找出其在发声过程中运动的基本规律,有利于理解协同发音和音系学现象的内在机制[7]。目前已经有很多对舌头建模的分析,有解析的、统计的,有2维的、3维的,有实时的和非实时的[8-9]。
对舌头建模的难点在于,如何用最精简的参数去产生和控制灵活的舌头模型,因为从舌头的言语任务来看,只需要较少自由度便能发出各种语音[7]。舌面曲线虽然复杂,但有着系统的特定模式,需要关注如何去提取哪些参量来表征舌面形状。为了寻找这些参量,一般可从两个角度进行:先验和后验。先验是指预先指定一套参数来描述舌头的形状,例如舌体轮廓线圆心坐标及弧线、舌体最高点的坐标等,再用数据来训练模型参数[10-11]。后验是指用统计的方法分析舌头形状的数据,找到影响运动的因子[12],把这些因子作为参量控制舌头的形状,常见的方法有平行因子分析(parallel factor analysis, PFA)[13]、主成分分析(principal component analysis, PCA)[14]、线性成分分析(linear component analysis, LCA)[9]等。
本文将结合先验和后验两种角度,先用主成分法分析舌头的形状,再参考得到的因子来设置舌体形状曲线的参数,建立相应的调音模型。以前的研究[13-14]都是把舌头作为一个整体分析,而本文发现把舌头分为舌尖和舌体两部分,可以使得控制参数更为精简,调音意义更为明显。
本文的研究目的在于最终建立汉语普通话声道调音模型。在理论方面,加深对汉语普通话的言语产生和调音生理特性的认识;在应用方面,模型对普通话的语言合成参数设定、虚拟说话人和普通话辅助教学,特别是聋哑儿童的可视化辅助教学,都有着实用价值。
1 汉语普通话磁共振成像发音数据库磁共振成像(magnetic resonance imaging, MRI) 是近来应用到声道研究领域的先进技术,已用于研究英语、法语、日语等多种语言,但目前还缺乏针对汉语普通话的系统研究[15-16]。为了进行汉语普通话声道生理和调音模型的研究,本文建立了相应的普通话声道MRI发音数据库。
实验中使用的MRI设备是Shimadzu-Marconi ECLIPSE 1.5 T PowerDrive 250 Scanner。主要参数设置为:图像实际尺寸256 mm×256 mm,分辨率256×256像素,每个像素点的大小为1 mm2。
语料选取了普通话中的9个单元音,例如a、o、e、i、u等;75个辅音变体,例如b (a)、b (i)、b (u)、b (o)、d (a)、d (i)、d (u)、d (e) 等(先考虑所有声母后接单韵母的情况)。在拍摄声母的辅音变体时,要求发音人假想辅音后面接着元音,但这个元音不读出声音。例如b (a),就让发音人假想要发出“疤”字,但并不发出元音的声响,保持成阻状态。本实验的发音人为一名成年男性。
图 1所示为普通话元音“a”的MRI图像和处理后所得到的正中矢状面上的发音器官形状。其中舌头的边缘是用14个点插值生成的曲线。
2 舌头形状的主成分分析 2.1 对舌头整体的因子分析
本文对MRI数据库的舌形数据进行主成分分析,得到的结果如图 2所示。图 2a是MRI的声道正中矢状面图。图 2b则是主成分分析的贡献图,以柱状图的形式列出了各个主成分的贡献率(图 2b中只画出了前10个主成分)。
本文用14个点来描述舌形,每个点有横纵2个坐标,数据空间为28维。为方便讨论,把每个点的坐标用复数表示,例如(123, 200) 转成123+200i,这样数据就转为复数空间中的14维,然后再进行主成分分析。由于舌形复杂,难以无损降维,因此得到14个主成分。各个成分的贡献率依次是:61.36%, 25.98%, 6.97%, 3.20%, 1.01%, 0.47%, 0.32%, 0.23%, 0.14%, 0.10%, 0.08%, 0.07%, 0.04%, 0.03%;累积贡献率是:61.36%, 87.34%, 94.31%, 97.51%, 98.52%, 98.99%, 99.31%, 99.54%, 99.68%, 99.78%, 99.86%, 99.93%, 99.97%, 100.00%,如表 1所示。可见,用前4个主成分就可以描述97.51%的舌形变化,平均误差为1.0 mm。用前6个主成分就可以描述98.99%的舌形变化,平均误差为0.6 mm。仅从误差角度来看,若要求舌形误差不超过1 mm (在数据图像中对应于1个像素点的大小),则至少要用4个主成分来描述舌形。
图 3是前4个主成分分量的变化图。以图 3a为例,实线是舌形的平均值,是舌头的初始形状,也就是主成分1分量为0时舌头的形状。虚线是主成分1分量变化为5个单位,也即5 mm (+5 mm和-5 mm) 的时候舌头的形状,点线是变化为10 mm (+10 mm和-10 mm) 的时候舌头的形状,可以看出主成分1代表的是舌头的前后运动。同样,主成分2代表的主要是舌体不动、舌尖前伸的运动,主成分3代表的是舌根前移同时舌尖前伸并上翘的运动,主成分4代表是舌体拱起、舌尖上翘的运动。虽然本文已经尽量寻找这些主成分动作的调音意义,但有些地方仍不太尽如人意。例如,后3个主成分都有舌尖前伸的运动成分,这样改变主成分分量调节舌形的时候,就难以独立控制。本文希望各个主成分之间的相关性尽量小,对应的调音运动也比较独立和容易操作。
最后, 用这4个主成分来重构舌形,并考察重构的误差。对误差要求最高的是塞音和塞擦音,因为对于成阻的地方,误差稍微大一些,重构的舌形就无法形成阻塞,就达不到语音学上区别对立的要求。这也是目前不少主成分研究不足的地方,这些研究只注意前几个主成分重构在统计上的误差大小,较少讨论这些误差分布在什么部位,对语音的区别有没有关键的影响。例如对于p (i)、t (e)、z (a)、r (u) 等,虽然重构舌形的整体误差不大,但不该成阻的地方与硬腭紧贴有了阻塞,而在该与硬腭形成阻塞的地方没有阻塞,这就说明用4个主成分来描述舌形还是不够。经过计算,只有用6个主成分才可以满足要求,使得重构的舌形能区分所有阻塞细微差别的音素,例如b (i) 和p (i)、z (a) 和s (a) 等。
2.2 对舌尖和舌体分开的因子分析用6个主成分描述舌形,可以满足区别普通话不同音素的要求,但为了简化模型,在控制重构舌形误差的前提下,应尽量减少主成分(也即控制参数) 的数量。可以观察到,舌体和舌尖的运动具有相对的独立性。舌体是由颏舌肌、下纵肌、舌垂直肌、舌横肌和上纵肌组成,而舌尖主要是上纵肌延伸而成,两者的结构不同。舌尖附着在舌体上,运动特别灵活,很多音素特别是舌尖元音和辅音都是由舌尖的运动产生。这就提示把舌尖和舌体分开来分析可以简化参数。如图 4所示,小圈所示为舌尖部分,大圈所示为舌体部分。
首先对舌体进行主成分分析,得到各个成分的累积贡献率分别是:78.59%, 90.40%, 95.87%, 98.55%, 99.21%, 99.55%, 99.72%, 99.86%, 99.94%, 100.00%,如表 1所示。如果用前3个主成分来重构舌体,其平均误差为1.2 mm。然后,再对舌尖进行主成分分析,得到各个成分的累积贡献率分别是:92.66%, 98.84%, 99.69%, 100.00%。如果用前2个主成分来重构舌体,平均误差为0.3 mm。图 5所示为舌尖运动的前两个主成分,可以看出,舌尖的这两个主成分的调音意义是很明显的:主成分1代表的是舌尖上翘,对应着翘舌音和卷舌音的动作;主成分2代表的是舌尖前突。
下面根据这两个主成分重构舌尖,重点关注重构出的舌尖曲线能否满足同部位塞音与擦音的区分。图 6是舌体重构误差最大的几个音位变体(限于篇幅,只列出4个辅音)。可以看到,对于舌尖前塞擦音z,其重构的舌形能够成阻。对于舌尖前擦音s,重构的舌形也能够留出通道,与z形成对立。舌尖后塞擦音zh和擦音sh也是如此。因此,用这2个主成分来描述舌尖是足够的。
本文把舌头分为舌体和舌尖两个部分,用3个主成分来描述舌体,用2个主成分来描述舌尖。这样做有3点进步:1) 基于解剖生理,把舌头分为舌体和舌尖,使得各自主成分对应的动作具有更明确的调音意义。2) 与用6个主成分重构舌形相比,用3个主成分重构舌体、2个主成分重构舌尖,在保证能够区别各个音素变体的前提下,降低了参数的维度,使模型更加简洁。3) 从表 1可以看出,这样做减小了重点部位也就是舌尖的重构误差。
整个舌头 | 舌体 | 舌尖 | ||||||||
主成分 | 累积贡献率/% | 重构误差/mm | 主成分 | 累积贡献率/% | 重构误差/mm | 主成分 | 累积贡献率/% | 重构误差/mm | ||
1 | 61.36 | 4.1 | 1 | 78.59 | 2.8 | 1 | 92.66 | 0.5 | ||
2 | 87.34 | 2.3 | 2 | 90.40 | 1.8 | 2 | 98.84 | 0.3 | ||
3 | 94.31 | 1.5 | 3 | 95.87 | 1.2 | 3 | 99.69 | 0.0 | ||
4 | 97.51 | 1.0 | 4 | 98.55 | 0.7 | 4 | 100.00 | 0.0 | ||
5 | 98.52 | 0.8 | 5 | 99.21 | 0.5 | 5 | 100.00 | 0.0 | ||
6 | 98.99 | 0.6 | 6 | 99.55 | 0.4 | |||||
7 | 99.31 | 0.5 | 7 | 99.72 | 0.3 | |||||
8 | 99.54 | 0.4 | 8 | 99.86 | 0.2 | |||||
9 | 99.68 | 0.4 | 9 | 99.94 | 0.1 | |||||
10 | 99.78 | 0.3 | 10 | 100.00 | 0.0 | |||||
11 | 99.86 | 0.2 | ||||||||
12 | 99.93 | 0.2 | ||||||||
13 | 99.97 | 0.1 | ||||||||
14 | 100.00 | 0.0 |
3 舌尖的调音建模结果
从先验角度预定义舌头模型,往往用一段弧线或直线表示舌体或舌尖,舌形跟真实数据差距较大,而且往往缺少对舌尖下表面的描述。例如,把舌体建模为半径为20 mm的圆弧,把舌面和舌尖上表面建模为一条顺着舌体圆弧的弧形切线[10]。
本文先根据普通话发音数据的主成分分析,发现舌头分为舌体和舌尖两部分建模会更准确简洁,而且舌尖下表面也包含在内。对于舌尖部位,由于包含了舌尖上下表面,先初步选择用半边椭圆曲线来模拟舌尖的原始形状,较为直观方便。然后,参考主成分分析得到的因子(主成分1和主成分2),用两个更为直观的调音参数(舌尖前伸和舌尖上翘) 来控制舌尖椭圆曲线。
设椭圆长轴a,短轴b,则舌尖边缘曲线方程为:
$\begin{array}{*{20}{c}} {{{\left( {x/a} \right)}^2} + {{\left( {y/b} \right)}^2} = 1}\ { - a < x < 0, - b < y < b.} \end{array}$ | (1) |
经测量,舌尖在休息状态下,其长度为8~20 mm,厚度为6~12 mm。这里不妨假设舌尖模型椭圆曲线的长轴a=10 mm,短轴b=5 mm。从生理上看,由于舌尖肌肉体积保持不变,因此假设在正中矢状面上舌尖的面积也保持不变,则方程(1) 还要加上一个限制条件,即椭圆面积保持不变πab=π×10 mm×5 mm=50π mm2。
如图 7所示,从身体左侧看过去,以舌尖椭圆曲线的中心为坐标原点,以x轴表示舌尖的长度,以y轴表示舌尖的厚度。设置舌尖前伸调音参数为TTP (tongue tip protrude),当其数值为正,则舌尖椭圆长轴增加,舌尖变扁前伸,负值则舌尖变厚缩回。舌尖上翘调音参数为TTR (tongue tip raise),若其数值为正,则椭圆变斜,舌尖上翘。根据祖暅原理(等幂等积定理),舌尖中剖面面积不变。两个调音参数可以同时变化调节,使得舌尖前伸的同时也可以上翘,能够产生更大的舌尖运动范围。得到舌尖曲线的最终方程为
$\begin{array}{*{20}{c}} {{{\left( {\frac{x}{{a + {\rm{TTP}}}}} \right)}^2} + }\ {{{\left( {\frac{{y - \frac{{{\rm{TTP}}}}{{a + {\rm{TTP}}}}x - \frac{{b \cdot {\rm{TTP}}}}{{a + {\rm{TTP}}}}}}{{\frac{{ab}}{{a + {\rm{TTP}}}}}}} \right)}^2} = 1.} \end{array}$ | (2) |
其中,-a-TTP < x < 0。
4 结论
首先,本文发现把舌尖和舌体分开建模更为简洁,控制因子(调音参数) 从6个降为5个(舌体3个,舌尖2个),舌尖敏感部位的重构误差从0.6 mm降为0.3 mm。其次,利用椭圆曲线初步建立了舌头模型的舌尖部分,由两个调音参数控制曲线方程。下一步的工作需要对舌体部分进行类似的建模,从而得到整个舌头的模型,以最终建立整个的汉语普通话声道调音模型,并根据整个舌头的重构效果、声道的声学特性以及合成语音的质量来衡量建模质量,以改进或选择更好的曲线方程和控制参数。另外,本文使用的汉语普通话MRI数据库目前只有静态的发音数据,若要更加全面地建立和衡量发音模型,还需要补充动态的发音数据。
[1] | Fant G. Acoustic Theory of Speech Production[M]. 2nd Ed. Hague: Mouton, 1970: 328. |
[2] | Hardcastle W J, Laver J. The Handbook of Phonetic Sciences[M]. Oxford: Blackwell Publishing, 1999. |
[3] | Story B H. A parametric model of the vocal tract area function for vowel and consonant simulation[J]. J Acoust Soc Am, 2005, 117(5): 3231–3254. DOI:10.1121/1.1869752 |
[4] | Flanagan J. Speech Analysis Synthesis and Perception[M]. New York: Spinger, 1972. |
[5] | Wilhelms-Tricarico R. A biomechanical and physiologically-based vocal tract model and its control[J]. J Phonetics, 1996, 24(1): 23–38. DOI:10.1006/jpho.1996.0003 |
[6] | Dang J W, Honda K. Construction and control of a physiological articulatory model[J]. J Acoust Soc Am, 2004, 115(2): 853–870. DOI:10.1121/1.1639325 |
[7] | Iskarous K. Patterns of tongue movement[J]. J Phonetics, 2005, 33(4): 363–381. DOI:10.1016/j.wocn.2004.09.001 |
[8] | Badin P, Bailly G, Reveret L, et al. Three-dimensional linear articulatory modeling of tongue, lips and face, based on MRI and video images[J]. J Phonetics, 2002, 30(3): 533–553. DOI:10.1006/jpho.2002.0166 |
[9] | Engwall O. Combining MRI, EMA and EPG measurements in a three-dimensional tongue model[J]. Speech Comm, 2003, 41(2/3): 303–329. |
[10] | Mermelstein P. Articulatory model for the study of speech production[J]. J Acoust Soc Am, 1973, 53(4): 1070–1082. DOI:10.1121/1.1913427 |
[11] | Coker C H. A model of articulatory dynamics and control[J]. Proceedings of the IEEE, 1976, 64(4): 452–460. DOI:10.1109/PROC.1976.10154 |
[12] | Lindblom B, Sundberg J. Acoustical consequences of lip, tongue, jaw, and larynx movement[J]. J Acoust Soc Am, 1971, 50(4): 1166–1179. |
[13] | Harshman R, Ladefoged P, Goldstein L. Factor analysis of tongue shapes[J]. J Acoust Soc Am, 1977, 62(3): 693–707. DOI:10.1121/1.381581 |
[14] | Beautemps D, Badin P, Bailly G. Linear degrees of freedom in speech production:Analysis of cineradio-and labio-film data and articulatory-acoustic modeling[J]. J Acoust Soc Am, 2001, 109(5): 2165–2180. DOI:10.1121/1.1361090 |
[15] | Wang G, Kitamura T, Lu X G, et al. MRI-based study of morphological and acoustical properties of Mandarin sustained steady vowels[J]. J Signal Process, 2008, 12(4): 311–314. |
[16] | Wang Y, Wang H, Gao J, et al. Detailed morphological analysis of mandarin sustained steady vowels[C]//International Symposium on Chinese Spoken Language Processing (ISCSLP). Hong Kong, 2012:413-416. |