语速对三合元音共振峰动态特征的影响
曹洪林 1,2,3 , 王宇靖 4 , 李敬阳 3,5     
1. 司法文明协同创新中心, 北京 100088;
2. 证据科学教育部重点实验室(中国政法大学), 北京 100088;
3. 智能语音技术公安部重点实验室, 北京 100038;
4. 北京市朝阳区监察委员会, 北京 100026;
5. 公安部物证鉴定中心, 北京 100038
摘要:该文以30位18至28岁的男性被试为对象,在快速、中速和慢速3种语速条件下,对汉语普通话中4个三合元音(/iau/、/iou/、/uai/、/uei/)共振峰的动态特征进行了量化分析。运用三次多项式拟合方法描述前3条共振峰的动态轨迹,以拟合系数为自变量,对共振峰的动态特征进行了判别分析。结果表明:相同语速语音比对时,语速不同,判别能力也不同,快速发音的判别能力最高(平均为76.7%),中速和慢速发音的判别能力相对较低(分别为69.5%、70.3%)。不同语速语音组合比对时,各三合元音的判别能力均有所下降,其中"快+慢"组合的判别效果最差(平均为48.0%)。所有的语速条件下,判别能力最高的三合元音均为/iau/。由此可知,语速相同或相近时,三合元音的共振峰动态特征可以有效区分不同说话人。
关键词三合元音    共振峰动态特征    多项式拟合    判别分析    语速    
Effect of speaking rate on the formant dynamics of triphthongs
CAO Honglin1,2,3, WANG Yujing4, LI Jingyang3,5     
1. Collaborative Innovation Center of Judicial Civilization, Beijing 100088, China;
2. Key Laboratory of Evidence Science China University of Political Science and Law, Ministry of Education, Beijing 100088, China;
3. Key Laboratory of Intelligent Speech Technology, Ministry of Public Security, Beijing 100038, China;
4. Control Commission of Chaoyang District, Beijing 100026, China;
5. Ministry of Public Security Evidence Identification Center, Beijing 100038, China
Abstract: This study investigates the individual differences in the formant dynamics for four Chinese triphthongs/iau/, /iou/, /uai/and/uei/produced by thirty male subjects aged 18 to 28 years old at three different speaking rates (fast/normal/slow). The formant dynamics are described by cubic polynomial fits. The objective is to be able to discriminate between different speakers. The results show that the discriminant abilities vary for different speaking rates. Specifically, the fast speech has the best discrimination (76.7%), followed by the normal (69.5%) and slow (70.3%) speech. The triphthong discrimination ability decreases when the speaking speeds are differ, with "fast + slow" speeds giving the worst discrimination (48.0%). In all cases, /iau/more easily identifies different speakers than the other three triphthongs. Therefore, the formant dynamics of triphthongs with the same or similar speaking rates can be used to more easily distinguish different speakers.
Key words: triphthong     formant dynamics     polynomial fitting     discriminant analysis     speaking rate    

元音共振峰是声纹鉴定中最重要的声学参数,目前可以从定性和定量2个层面对元音共振峰进行分析。定性分析主要是利用语图观察共振峰的动态分布特点,如音节内和音节间的过渡音征等[1];定量分析则主要关注共振峰的静态特征,即对元音共振峰稳定段的频率值进行测量,或者计算一段语料中全部元音的长时共振峰分布特征[2]。文[3-5]研究发现,共振峰的动态特征不仅能反映说话人的声道形态,而且还能体现出说话人发音器官的运动情况,在区分不同说话人方面具有很高的潜在价值。

测量和描述共振峰动态特征的主要方法有3种:一是点对点测量法[6],该方法是早期以说话人比对为目的量化元音固有变化特性的方法;二是N等分点测量法[4, 7-9],是指将元音(或元音序列、响音等)在时间轴上划分为N等份,以每条共振峰的N等分点测量值代表该条共振峰的动态特征;三是曲线拟合法[5, 10-12],通过对实际测量值进行拟合来描述共振峰动态轨迹。其中曲线拟合法最为常用,该方法又可分为多项式拟合法[5, 12]和离散余弦变换法[10, 11]。虽然N等分点测量法简单且能真实准确地描绘共振峰动态轨迹,但缺点是参数太多,鉴定实用性不高。曲线拟合法则在大大减少参数量的同时,还能较好地反映共振峰动态特征,并可有效区分不同说话人。多项式拟合与离散余弦变换作为2种常用的曲线拟合方法,二者的判别表现差异较小[10]。将共振峰轨迹按时间轴进行N等分与不进行N等分时,多项式拟合的判别表现基本无明显变化[13]。在获取共振峰动态参数的基础上,研究大多采用判别分析方法来评价参数在区分说话人方面的价值大小。

研究对象多为复合元音(包括二合元音[13-16]和三合元音[11])和元音序列[17]等,也有长元音[12]、短元音[18]以及填声停顿元音[19]等。研究多以英语及其他欧洲语言(如维也纳语[13]、捷克语[18, 20])为对象,近年来也相继出现了一些关于泰语[14]、汉语[21]等语言的研究。

实际案件中经常出现检材语音和样本语音语速不同的情况,而语速对共振峰形态有较大的影响。如文[22]指出,慢速伪装改变讲话速率,很难做到按音节中各音段平均拉长,这样就会使共振峰形态特征等频谱特征发生一定程度的变化。因语速不同而引起的同一说话人个体自身变化小于不同说话人之间的群体差异。不同语速的语音具有一定的可比性。

目前,尚未有针对汉语普通话4个三合元音的系统性研究,且均未考虑语速等因素的影响。因此,本文选取汉语普通话4个三合元音/iau/、/iou/、/uai/和/uei/作为研究对象,对其共振峰的动态特征进行定量分析,并探究不同语速条件对该特征的影响。

1 实验方法 1.1 被试

年龄18~28岁(平均年龄24岁,标准差为1.87) 的30位男性被试,均为在校大学生或研究生,普通话标准。录音时,无嗓音疾病、感冒等症状。

1.2 语料

发音内容为:我说“ ___ ”这个字。划线处分别为阴平[55]音节“敲/tɕhiau/” “秋/tɕhiou/” “乖/kuai /”和“亏/khuei /”。

1.3 录音

在北京大学中文系语言学录音室中,使用SONY ECM-44B领夹式电容话筒录音,录音软件为Cool Edit Pro 2.1,采样频率22 kHz,精度16 b。

每位被试各录音2次,2次录音时间间隔2~4周。在正式录音前,让被试先阅读录音文稿,熟悉语料内容并进行适当练习。录音时,要求被试以正常音量自然发音。为保证录音质量,减缓疲劳,录音过程中被试可适当休息。每个被试每次录音,分别以快速、中速(正常)、慢速3种不同语速复述上述指定语料内容各6遍。3种语速是相对的,由被试自行控制。对于部分被试的发音不流畅或不能正确区分语速的情况,录音人及时提示被试按要求补充发音。

1.4 测量

由于被试的部分发音中多存在语图不清晰的情况,因此为了便于测量和统计,本文对所有被试统一取8遍语图相对更为清晰的发音进行分析。

使用WaveSurfer软件[23]进行切音并提取元音共振峰数据。元音段起始位置选在波形周期开始处,结束位置选在宽带语图上前3条共振峰中最短的共振峰稳定段结尾处,如图 1所示。提取共振峰参数时,采用软件默认的参数设置,即共振峰条数4,线性预测系数12,截止采样频率10 000 Hz,帧间隔时间0.01 s。若默认设置下不能准确提取前3条共振峰(F1-F3),则适当修改共振峰条数和线性预测系数,必要时进行手动调整。提取选定段中所有帧的共振峰数据并保存至xlsx文件。

图 1 三合元音/iau/的宽带语图及其起始和结束点位置

1.5 数据处理与分析

1) 曲线拟合。

用Matlab软件对xlsx文件中的F1-F3的频率值进行三次多项式曲线拟合(通过比较二次、三次和四次拟合的拟合优度以及判别结果发现,3种拟合的判别效果差距很小,其中三次拟合的判别效果最好),得出拟合系数。三次多项式拟合方程式如下:

y=a0+a1x1+a2x2+a3x3.

其中a0a1a2a3为拟合系数。

2) 判别分析。

采用MATLAB软件的classify函数,以F1、F2和F3的全部拟合系数(共12个参数)为自变量,对三合元音共振峰动态特征进行判别分析。

2 实验结果 2.1 定性分析

通过定性观察可以发现,三合元音共振峰轨迹表现出随时间变化而变化的动态特征。不同语速条件下,共振峰轨迹的时长不同, 每个说话人对于语速的把握不同,即语速习惯不同。不同说话人的共振峰多点实际测量值和整个共振峰轨迹的走向以及变化幅度都存在明显差异。

图 234分别为说话人M1快速、M3快速和M3中速发/iau/的F1-F3共振峰动态轨迹。其中,圆点代表共振峰实际测量值,曲线代表多项式拟合曲线,从上至下分别为F1、F2、F3。F1的动态轨迹不如F2和F3的动态轨迹变化显著。比较图 23可以发现,M1和M3快速发音的共振峰轨迹长短不一。M1各遍发音时长均小于11帧,M3则均大于13帧。二人各自8遍发音的自身差异,小于二人之间的差异。2位说话人F1的变化幅度均相对较小,呈平滑下降趋势;F2和F3的动态轨迹则较为明显且更具个人特征。M1的F2先下降后上升,M2的F2则先下降后趋于平稳。M1的F3走向是平稳后下降,M3的F3则先下降后上升。结合图 4还可以看出,M3快速发音与中速发音的共振峰动态轨迹时长不同,但走向大体一致。

图 2 M1/iau/ (快速)的共振峰动态轨迹

图 3 M3/iau/(快速)的共振峰动态轨迹

图 4 M3/iau/(中速)的共振峰动态轨迹

2.2 定量分析

1) 相同语速语音比对。

以拟合系数为自变量,对每种语速条件下每个三合元音共振峰的动态特征分别进行判别分析,得出相同语速语音比对时各元音各语速的判别能力,具体如图 5所示。可以看出,快速发音时,三合元音的判别能力在70.8%至85.4%之间,按照判别能力由高到低的顺序排列,依次为/iau/>/uai/> /uei/>/iou/;中速发音时,判别能力介于65.4%至71.7%之间,排名依次为/iau/>/uai/ >/iou/> /uei/;慢速发音时,判别能力在63.3%至78.3%之间,由高到低排名顺序为/iau/>/uei/>/uai/>/iou/。3种语速条件下,判别效果最好的三合元音均为/iau/。比较各三合元音3种语速发音的判别结果可知,快速发音的判别能力都是最高的。其中:/iou/和/uai/的3种语速判别能力高低顺序均为快速>中速>慢速;/iau/和/uei/的语速判别能力由高到低均为快速>慢速>中速。

图 5 相同语速比对时的判别能力

对每种语速条件下的所有三合元音判别结果进行平均,得出快速、中速和慢速3组发音各自判别能力的均值,分别为76.7%、69.5%和70.3%,快速发音的判别能力最高。

2) 不同语速语音比对。

将每个三合元音的不同语速发音组合在一起进行比对分析时,得到各元音“快+中” “快+慢” “中+慢” “快+中+慢”组合比对的判别能力见图 6。对比图 5图 6可以看出,与相同语速语音比对时相比,不同语速语音比对的判别能力均有所下降。而且,除/iau/的“快+中” “中+慢”以及/uai/的“快+中”外,其余大部分组合比对时的判别能力都低于60.0%。就不同元音而言,不同语速语音比对的判别表现也不尽相同。例如,/iau/的“快+中”判别能力达69.0%,依然能有效区分不同说话人,而/iou/的“快+中”判别能力则仅为54.6%。不难发现,不同语速组合比对时,判别能力最低的均为“快+慢”组合。

图 6 不同语速比对时的判别能力

图 7显示的是不同语速语音比对时判别能力的均值。由此也可看出,“快+慢”语速语音组合比对时的判别能力最差,仅为48.0%,比机会水平还低。

图 7 不同语速比对时的判别能力均值

3 讨论

本文研究发现,对相同语速条件比较时,3种语速发音的三合元音共振峰动态特征的判别能力各不相同。快速发音的判别能力最高,这意味着快速发音时共振峰动态特征的个体差异性最大,也就是说,此时发音器官在不同元音之间过渡时的运动轨迹和协调配合程度上的差异会相对更大;中速和慢速发音的判别能力相对较低,但相差不大,说明在这2种条件下,共振峰动态特征的个体差异性有所降低,发音器官的运动更加趋同。将不同语速语音进行组合比对时,各三合元音的判别能力均有所降低,其中“快+慢”组合的判别效果最差, 这表明:快速与慢速发音的元音共振峰动态特征差异,比快速与中速、中速与慢速发音的差异更大。在声纹鉴定实践中,如有需要,可以选取一些语速差别不大的语音进行比对, 但尽量不要直接将语速差别过大的语音放在一起比对。在使用不同语速语音定量比对时,应先通过定性观察比较其共振峰动态轨迹是否具有明显差异。

本文结果支持文[22]的观点,然而文[22]只是定性观察语图中共振峰的形态特征,而本文则将共振峰动态特征予以量化,从定量层面分析了语速对共振峰动态特征的影响。另外,本文从不同语速语音组合比对的判别结果来直接考察二者是否具有可比对性,对于鉴定实践具有更直接的现实意义。与文[5, 16]等不同的是,本文未对元音共振峰进行N等分并提取等分点处各条共振峰的频率值,而是直接对元音段所有帧的共振峰频率值进行曲线拟合。该方法简化了分析流程、提高了效率,同样能有效地区分不同说话人。

文[21]利用具有一定时间间隔的非同次录音进行分析时发现,同一说话人非同次语音的个人变化比不同说话人同次语音之间的差异要大。因此,考虑到鉴定实践中,检材语音和样本语音的获得往往具有一定的时间间隔,为了更加贴近鉴定实践,本文实验选用非同次语音进行比对。除此之外,影响共振峰动态特征的因素还有很多,如辅音环境、重音、焦点、信道等。在今后研究中,有必要对这些问题展开进一步的探讨。

4 结论

本文利用三次多项式拟合方法并结合判别分析,对30位男性被试不同语速条件下的4个三合元音共振峰的动态特征进行了量化研究。结果发现:相同语速语音比对时,语速不同,判别能力也不同,其中快速发音的判别能力最高;不同语速语音组合比对时,各三合元音的判别能力均有所下降。另外,所有的语速条件下,判别能力最高的三合元音均为/iau/。由此可知,语速相同或相近时,三合元音的共振峰动态特征可以有效区分不同说话人。

参考文献
[1] 王英利. 论声纹鉴定中复合韵母和鼻韵母中音素间连接形态特征[J]. 警察技术, 2001, 5: 25–27. WANG Yingli. Connection morphological characteristic between phonemes of compound vowels and nasal terminal vowels in forensic phonesic[J]. Police Technology, 2001, 5: 25–27. DOI:10.3969/j.issn.1009-9875.2001.02.012 (in Chinese)
[2] 曹洪林, 孔江平. 长时共振峰分布特征在声纹鉴定中的应用[J]. 中国司法鉴定, 2013, 66(1): 62–67. CAO Honglin, KONG Jiangping. Forensic speaker comparison by using long-term formant distribution[J]. Chinese Journal of Forensic Sciences, 2013, 66(1): 62–67. (in Chinese)
[3] McDougall K. Speaker characterising properties of formant dynamics:a case study[C]//Proc of 9th Australasian International Conference on SST. Melbourne, Australia, 2002:403-408.
[4] McDougall K. Speaker-specific formant dynamics:An experiment on Australian English/aı/[J]. Int J Speech Lang La, 2004, 11(1): 103–130. DOI:10.1558/sll.2004.11.issue-1
[5] McDougall K. Dynamic features of speech and the characterization of speakers:Towards a new approach using formant frequencies[J]. Int J Speech Lang La, 2006, 13(1): 89–126. DOI:10.1558/sll.2006.13.issue-1
[6] Goldstein U G. Speaker identifying features based on formant tracks[J]. J Acoust Soc Am, 1976, 59(1): 176–182. DOI:10.1121/1.380837
[7] Clermont F. Speaker variance ratios in forensically realisatic vowel formant data:Normalising for consonantal context[C]//Proc of 20th IAFPA. Vienna, Austria, 2011.
[8] Ingram J C L, Prandolini R, Ong S. Formant trajectories as indices of phonetic variation for speaker identification[J]. Int J Speech Lang La, 1996, 3(1): 129–145.
[9] Greisbach R, Esser O, Weinstock C. Speaker identification by formant contours[J]. Beiträge Zur Phonetik Und Linguistik, 1995, 64: 49–55.
[10] Morrison G S. Likelihood-ratio forensic voice comparison using parametric representations of the formant trajectories of diphthongs[J]. J Acoust Soc Am, 2009, 125(4): 2387–2397. DOI:10.1121/1.3081384
[11] Zhang C, Morrison G S, Thiruvaran T. Forensic voice comparison using Chinese/iau/[C]//Proc of 17th ICPhS. Hong Kong, China, 2011:2280-2283. http://www.mendeley.com/research/forensic-voice-comparison-using-chinese-iau/
[12] McDougall K, Nolan F. Discrimination of speakers using the formant dynamics of/u:/in British English[C]//Proc of 16th ICPhS. Saarbrücken, German, 2007:1825-1828. http://www.mendeley.com/research/discrimination-speakers-using-formant-dynamics-u-british-english/
[13] Enzinger E. Characterizing formant tracks in Viennese diphthongs for forensic speaker comparison[C]//Proc of 39th AES Conferences. Santander, Spain, 2010:47-52. http://www.aes.org/e-lib/browse.cfm?elib=15488
[14] Taitechawat S, Foulkes P. Discrimination of speakers using tone and formant dynamics in Thai[C]//Proc of 17th ICPhS. Hong Kong, China, 2011:1975-1981. http://pure.york.ac.uk/portal/en/publications/discrimination-of-speakers-using-tone-and-formant-dynamics-in-thai(156f9f25-10c4-4e03-bd2f-d9f4b145ccf1).html
[15] Zuo D, Mok P P K. Formant dynamics of/ua/in the speech of Mandarin-Shanghainese bilingual identical twins[C]//Proc of 17th ICPhS. Hong Kong, China, 2011:2332-2335.
[16] 李敬阳, 王莉, 崔杰, 等. 说话人汉语普通话二合元音共振峰动态特征分析[C]//公安部物证鉴定中心. 第一届全国声像资料检验鉴定技术交流会论文选. 北京: 中国人民公安大学出版社, 2011: 612-615. LI Jingyang, WANG Li, CUI Jie, et al. Formant dynamic features in Chinese diphthong[C]//The Ministry of Public Security Material Evidence Identification Center. The 1st National Audio-visual Materials Appraisal Technical Forums. Beijing:People's Public Security University of China Press, 2011:612-615. (in Chinese) http://d.g.wanfangdata.com.cn/Conference_8140262.aspx
[17] Pitermann M. Effect of speaking rate and contrastive stress on formant dynamics and vowel perception[J]. J Acoust Soc Am, 2000, 107(6): 3425–3437. DOI:10.1121/1.429413
[18] Fejlová D, Lukeš D, Skarnitzl R. Formant contours in Czech vowels:Speaker discriminating potential[C]//Proc of Interspeech. Lyon, France, 2013:3182-3186. http://www.zentralblatt-math.org/ioport/en/?q=an%3A11541531
[19] Wood S, Hughes H, Foulkes P. Filled pauses as variables in speaker comparison:Dynamic formant analysis and duration measurements improve performance for um[C]//Proc of 23th IAFPA. Zürich, Switzerland, 2014:81-82.
[20] Skarnitzl R, Vaňková J, Weingartová L. Speaker discrimination using short-and long-term segmental information in vowels[C]//Proc of 21th IAFPA. Santander, Spain, 2012:3-4.
[21] Zuo D, Mok P P K. Formant dynamics of bilingual identical twins in non-contemporaneous speech[C]//Proc of 14th Australasian International Conference on SST. Sydney, Australia, 2012:89-92.
[22] 王英利. 声纹鉴定技术[M]. 北京: 群众出版社, 2013. WANG Yingli. Forensic Phonetics[M]. Beijing: Masses Press, 2013. (in Chinese)
[23] Sjölander K, Beskow J. Wavesurfer-an open source speech tool[C]//Proc of 6th ICSLP. Beijing, China, 2000:464-467. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-OGSM200010003117.htm