2. 天津大学 计算机科学与技术学院, 天津 300350
2. School of Computer Science and Technology, Tianjin University, Tianjin 300350, China
语音的一些个性化差异受到口腔内部发音器官的影响,如硬腭、软腭、舌体、声道、下颌等,也受到被试性别差异的影响。很多研究者研究了不同发音器官及其运动情况在发音过程中的作用,例如Kuehn等[1]和Riely等[2]研究了声道、Honda等[3]研究了发音空间(A-space)、Rudy等[4]研究了硬腭形状对发音的影响。Simpson等[5]研究了不同性别的发音差异。Kuehn等[1]在研究声道和舌头运动的关系时发现,在音节过渡时,被试口腔结构越大,发音器官移动距离越大。
声道以及其他发音器官位于人体内部,不易被观察到,但目前已经有各种成像技术帮助人们观测口腔内部,例如核磁共振图像(magnetic resonance imaging, MRI)技术。1996年,Masaki等提出一种基于同步采样方法(synchronized sampling method, SSM)的cine-MRI成像技术,利用发音人重复发音的方法来减少每次发音所持续的时间[6]。tagged-MRI是由Zerhouni等[7]提出的,在射频脉冲作用下,将磁信息模式加到要成像的机体上,这个过程有一定时延,经过一段时间之后对机体成像,磁体信息模式会随着机体运动而运动,可以用网格标记线追踪软组织的运动。
Iida-Kondo等在阻塞性睡眠呼吸暂停综合征(obstructive sleep apnea syndrome, OSAS)研究中,基于MRI数据对每个横截面的切片面积进行叠加得到近似体积,用舌头的体积与口腔的体积的比例作为诊断阻塞性睡眠呼吸暂停综合征的一个指标,结果发现患有OSAS的被试组相对于正常人,舌头的体积与口腔的体积的比值明显要高[8]。
静态3-D扫描是对静态2-D数据在单一方向上的叠加,该数据是一次呼吸后,持续发元音时扫描的数据,这样扫描的时间会受到限制,因为人持续发音的时间有限,所以切片数量少。同步扫描是另一种扫描方式,在重复发音情况下,期间会有多次呼吸,被试发音时间不再受限,但每次都应该尽量保持相同的发音动作。同步扫描切片数量大,能良好重建3-D模型。
本文采取了cine-MRI[9]和tagged-MRI[10]相结合的方法[11],使所合成的数据既有各个发音器官的轮廓信息,又有发音器官上某些特定标示点的运动信息。cine-MRI的优势在于可以在发音过程中清楚地观测到发音器官运动的细节。tagged-MRI技术通过检测舌体表面轮廓和软组织标示线的交叉点,可以在舌体表面上标定标示点,从而实现对软组织形变的追踪。通过将cine-MRI和tagged-MRI在每一帧图像上融合,本文可以获得具有标示点的舌体运动图像,进而实现对舌体运动的动态追踪。
本文采用的量化方法是在正中矢面上将舌体和声道提取出来,并且根据解剖学标示点,即上颏结节,来确定声道和舌体的共同下边界,之后计算舌体和声道的面积大小,并将相对舌体大小定义为舌体面积与舌体面积和声道面积之和的比值[12]。
1 数据处理和方法 1.1 研究对象本实验数据是2013年在日本京都先进通信研究所脑活动成像中心(Brain Activity Imaging Center,Advanced Telecommunication Research Institute,ART-BAIC)采集的。所有被试都没有发音或语言障碍,母语都是汉语。此次实验选取了5名被试,舌体大小研究选取元音/i/,舌体运动研究选取汉语单词/mune/。参与此次实验的被试的一些基本信息如表 1所示。
录取数据时,每名被试平躺在核磁共振仪中,并且头部枕在海绵橡胶上,以避免头部移动。
1.2 数据标准化由于被试在核磁共振仪中头部方向不同,对被试之间的数据进行分析必须有一个既定的标准。本文所有数据处理是先将医学图片由DICOM格式导出成BMP格式,然后利用MATLAB程序将BMP格式图片转换为TIFF格式图片,所有研究都是用TIFF格式的图片进行分析。然后,对数据进行标准化,本文所采用的标准平面是正中矢面的核磁共振图像所提供的标准平面——腭平面(palatal plane),使前鼻棘和后鼻棘在一条水平线上。数据标准化的第1步是图片的旋转,使其保持腭平面水平。使用腭平面矫正前后的图像如图 1所示。具体步骤如下:
1) 得到每一位被试的cine-MRI正中矢面灰度图像。
2) 测量前鼻棘和后鼻棘连线与水平线之间的夹角。
3) 根据测得的夹角对图像进行旋转,使腭平面保持水平。
4) 对图像进行裁剪,裁剪的图像要能显示被试完整的声道。
本文将cine-MRI和tagged-MRI数据结合到一起进行研究,尽管tagged-MRI是二维的正中矢面图像,但cine-MRI是三维的数据,需要根据一些解剖学标示点选取出cine-MRI数据正中的正中矢面图像。图 2所示为正中矢面上的解剖学标示点,其中声带只有在发音时才会凸起。
1.3 结合cine-MRI和tagged-MRI数据
将cine-MRI和tagged-MRI数据结合处理的目的是为了合成一个新的核磁共振图像,这个图像既能显示cine-MRI数据中舌体和咽腔结构的信息,又能显示tagged-MRI数据中标示点的运动信息。首先,手动将tagged-MRI上的标记线与舌头轮廓的交叉点标记出来;然后,将这些标记点映射到相应的cine-MRI图像上。对每个被试发音过程中的所有数据重复这个操作,就可以得到既包含舌体轮廓又具有标示点运动信息的图像集。具体流程如图 3所示。
1.4 相对舌体大小的计算
本小节选取被试发元音/i/时的静态3-D扫描数据。选择元音/i/的原因是发元音/i/时,舌体容易接触到腭,舌体更容易保持稳定。另外,本文计算的相对舌体大小主要受牙齿到咽腔距离和下颌开度的影响,由于发元音/a/时下颌开度不确定,个体间差异太大,不适合用来计算相对舌体大小,而发元音/u/时,舌尖卷曲,正中矢面显示的舌体信息会缺失,因此本文选取元音/i/。
选取被试发元音/i/的正中矢面图,再从专门扫描的牙齿的MRI图像中提取出牙模,加上牙模之后再进行计算。每名被试录取牙模数据时,舌体紧紧顶住牙齿,力求舌体和牙齿之间没有空隙。这样才能更好地提取出牙模数据。手动在MRI图像上标记牙齿的轮廓信息,并将牙齿信息保存成白色,通过平移和旋转后,将牙齿准确地添加到被试发元音/i/的图像上,如图 4所示,白色的部分就是手动提取出的牙模。图 4是加完牙模之后的元音/i/的正中矢面图。
在定义相对舌体大小时,声道和舌体的下边界难以确定,本文采用的下边界是一条穿过上颏结节并平行于腭平面的直线。图 4中横线就是下边界。
定义了下边界后,手动在MRI图像上标出舌体和声道信息。将其背景保存成黑色,舌体和声道保存成白色,以方便用MATLAB程序计算其面积,如图 5所示。
标注出舌体和声道后,用式(1)计算相对舌体大小——舌体的面积与舌体和声道面积之和的比值。Atongue表示正中矢面舌体的面积,Avt表示正中矢面声道的面积,Rtongue表示相对舌体大小(以百分数表示)。
$ {R_{{\rm{tongue}}}} = \frac{{{A_{{\rm{tongue}}}}}}{{{A_{{\rm{tongue}}}} + {A_{{\rm{vt}}}}}}. $ | (1) |
在计算舌体运动速度时,5个被试的发音为/mune/。根据舌体的运动状态和方向变化,选取每个被试16帧cine-MRI和16帧tagged-MRI数据,先将每个被试tagged-MRI上舌体表面所有交叉点标记出来,然后分别在被试的口腔和咽腔表面选取合适的点。图 6给出一个被试标记点的信息,正方形表示在口腔表面选取的点,多边形表示咽腔表面选取的点。这样选取点的原因主要是为了去除舌尖运动快的地方和舌根运动慢的地方,而Stone提到舌头上有个“枢轴(pivot)”点基本不动[13],因此在选取标记点时,要尽量避开这个区域,也就是图 6中箭头标示的位置。
计算舌体运动速度时,先计算连续两帧之间同一个标记点的位移。由于标记点是手动标注的,需要平滑后才能计算速度,因此在计算标示点的坐标信息后,将标示点的坐标信息基于3点平均计算,所使用的公式如下:
$ x{'_{i, j}} = \left( {{x_{i, j-1}} + {x_{i, j}} + {x_{i, j + 1}}} \right)/3, \;\;\;j = 2, 3, \cdots, 15; $ | (2) |
$ y{'_{i, j}} = \left( {{y_{i, j-1}} + {y_{i, j}} + {y_{i, j + 1}}} \right)/3, \;\;\;j = 2, 3, \cdots, 15. $ | (3) |
其中:xi, j和yi, j表示原始的第j帧合成的核磁共振图像中第i个标记点圆心的横坐标和纵坐标,x′i, j和y′i, j表示3点平滑后的第j帧合成的核磁共振图像中第i个标记点的横坐标和纵坐标。利用平滑后的坐标信息计算位移和速度。
2 结果使用1.4节中计算相对舌体大小的方法计算的结果如表 2所示。
被试 | 相对舌体大小/% | 口腔部分标记点平均速度/(mm·s-1) | 咽腔部分标记点平均速度/(mm·s-1) |
S.C. (女) | 54.17 | 26.38 | 18.58 |
Z.Y. (女) | 60.76 | 22.42 | 22.29 |
Z.C. (女) | 65.57 | 26.06 | 12.04 |
W.J. (男) | 55.56 | 31.55 | 24.68 |
W.S. (男) | 62.68 | 23.61 | 19.56 |
在女性和男性组分别选取一名被试,下面以被试S.C. (女)和W.S. (男)的数据为例,展示舌体运动速度的变化。图 7-10为两位被试发音过程中舌体运动速度的变化。横轴为帧号,第n帧对应的速度为从第n帧到第n+1帧过程中标记点的运动速度。
此外,分别计算每个被试口腔部分和咽腔部分标记点的平均速度,结果如表 2所示。
将口腔部分和咽腔部分的标记点放到一起计算,分析被试舌体的整体运动速度的平均值与相对舌体大小之间的关系。舌体运动速度与舌体相对大小的信息如表 3所示。可见,相对舌体越小,舌体运动速度越快。
被试 | 相对舌体大小/% | 平均速度/(mm·s-1) |
S.C. | 54.17 | 22.48 |
Z.Y. | 60.76 | 22.35 |
Z.C. | 65.57 | 19.05 |
W.J. | 55.56 | 28.11 |
W.S. | 62.68 | 21.58 |
3 讨论
当相对舌体较小时,口腔内舌体活动的空间就相对较大,音节过渡时,口腔结构大的被试移动发音器官的距离更大,在时间相对一样的情况下,速度就会更快。
本文研究的相对舌体大小是发音个性化差异和发音灵活性、清晰性的一个指标,可以利用这个指标研究发音障碍的类型以及舌体大小的异常。通常所说的“大舌头”、发音不清,有些就是由于发音器官异常导致发音气流与正常人不同,从而引起发音障碍,此类异常可以参考本文的指标加以判断。
4 结论由第2节所得数据可知,本研究中5名被试的相对舌体大小分布为54.17%~65.57%,舌体口腔部分标记点平均速度分布为22.42~31.55 mm/s,咽腔部分标记点平均速度分布为12.04~24.68 mm/s。从表 2的结果来看,所有被试咽腔部分平均速度比口腔部分平均速度要低。从表 3所示的结果来看,5名被试舌体表面两部分标记点的平均速度分布为19.05~28.11 mm/s,相对舌体越小,舌体运动速度越快。这些结果说明相对舌体大小可以预测舌体在口腔内运动的灵活性。在研究发音变化时,需要考虑相对舌体大小这个指标造成发音的个性化差异。
[1] | KUEHN D P, MOLL K L. A cineradiographic study of VC and CV articulatory velocities[J]. Journal of Phonetics, 1976, 4: 303–320. |
[2] | RIELY R R, SMITH A. Speech movements do not scale by orofacial structure size[J]. Journal of Applied Physiology, 2003, 94(6): 2119–2126. |
[3] | HONDA K, MAEDA S, HASHI M, et al. Human palate and related structures: Their articulatory consequences[C]//Proceedings of International Conference on Spoken Language. Philadelphia, USA, 1996: 784-787. http://www.researchgate.net/publication/3703505_Human_palate_and_related_structures_their_articulatoryconsequences?ev=auth_pub |
[4] | RUDY K, YUNUSOVA Y. The effect of anatomic factors on tongue position variability during consonants[J]. Journal of Speech Language & Hearing Research, 2013, 56(1): 137–149. |
[5] | SIMPSON A P. Dynamic consequences of differences in male and female vocal tract dimensions[J]. Journal of the Acoustical Society of America, 2001, 109(1): 2153–2164. |
[6] | MASAKI S, TIEDE M K, HONDA K, et al. MRI-based speech production study using a synchronized sampling method[J]. Journal of the Acoustical Society of Japan, 1999, 20(5): 375–379. |
[7] | ZERHOUNI E A, PARISH D M, ROGERS W J, et al. Human heart:Tagging with MR imaging-A method for noninvasive assessment of myocardial motion[J]. Radiology, 1988, 169(1): 59–63. DOI:10.1148/radiology.169.1.3420283 |
[8] | IIDA-KONDO C, YOSHINO N, KURABAYASHI T, et al. Comparison of tongue volume/oral cavity volume ratio between obstructive sleep apnea syndrome patients and normal adults using magnetic resonance imaging[J]. Journal of Medical & Dental Sciences, 2006, 53(2): 119–126. |
[9] | TAKEMOTO H, HONDA K, MASAKI S, et al. Measurement of temporal changes in vocal tract area function from 3D cine-MRI data[J]. Journal of the Acoustical Society of America, 2006, 119(2): 1037–1049. DOI:10.1121/1.2151823 |
[10] | LEE J, WOO J, XING F X, et al. Semi-automatic segmentation for 3D motion analysis of the tongue with dynamic MRI[J]. Computerized Medical Imaging & Graphics, 2014, 38(8): 714–724. |
[11] | BAO H H, LU W H, HONDA K, et al. Combined cine-and tagged-MRI for tracking landmarks on the tongue surface[C]//Proceedings of Conference of the International Speech Communication Association. Dresden, Germany, 2015: 359-363. http://www.zentralblatt-math.org/ioport/en/?q=an%3A10279440 |
[12] | HONDA K, BAO H H, LU W H. Articulatory idiosyncrasy inferred from relative size and mobility of the tongue[J]. Journal of the Acoustical Society of America, 2016, 139(4): 2192. |
[13] | STONE M. A three-dimensional model of tongue movement based on ultrasound and X-ray microbeam data[J]. Journal of the Acoustical Society of America, 1998, 87(5): 2207–2217. |