汉语无标记疑问句的语调分析与建模
许小颖 1,2 , 赖玮 1,2 , 李雅 2 , 丁星光 2 , 陶建华 2     
1. 北京师范大学 文学院, 普通话水平培训测试研究中心, 北京 100875;
2. 中国科学院 自动化研究所, 模式识别国家重点实验室, 北京 100190
摘要:语音工程中疑问句基频的生成有赖于对疑问句语调走势的全局把握与量化建模。该文以疑问句和陈述句的音高曲线的回归线代表语调走势,结合实验语料和自然语料对二者语调进行分析。发现音高曲线的回归斜率是区别陈述句与疑问句语调的重要韵律特征,该特征受句子长度、时域范围等因素影响,在2种句型中有不同的表现。用反函数对疑问句语调斜率的变化规则进行建模,取得了较高的拟合优度,为疑问句语调走势的预测与生成提供了可靠依据。
关键词语调    韵律    无标记疑问句    语调建模    
Analysis and modeling of the intonation of Chinese unmarked questions
XU Xiaoying1,2, LAI Wei1,2, LI Ya2, DING Xingguang2, TAO Jianhua2     
1. Putonghua Shuiping Ceshi Research Center, School of Chinese Language and Literature, Beijing Normal University, Beijing 100875, China;
2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Abstract: The identification of questions in speech needs a good understanding and accurate quantification of the intonation trends of questions. This paper uses a regression line of the pitch contour as an indicator of the intonation trend to analyze the intonation of experimental and natural questions. The slope of pitch contour regression line is an important prosodic feature for distinguishing questions from statements. This feature is influenced by factors such as sentence length and temporal domain of the sentence and differs for questions and statements. The inverse was then used to model changes of the intonation trend slope with a high goodness of fit as a reliable reference to predict and generate interrogative intonation.
Key words: intonation     prosody     unmarked questions     intonation model    

疑问语调的分析与合成一直是人机交互与对话系统领域中的重要问题。以往的汉语疑问句韵律研究成果众多,且结论较为成熟,例如疑问句整体音高大于陈述句[1-3],音高起点更高[4],边界调向上倾斜[3, 5],句调起伏度更大[6],句末能量更强[2, 7]等。以上要素是疑问句在产出与感知方面的重要特征,也是疑问句识别与合成的重要依据。

然而,前人研究更多是对句子局部的韵律特征进行离散的分析,而对整句基频如何发生即时的、连续的变化却关注较少。江海燕[8]观察不同类型疑问句的音高中线,发现其走势由高到低分别为:无标记疑问句、副词疑问句、语气词疑问句、代词疑问句、陈述句、选择疑问句和X不X疑问句。Yuan[7]将疑问句与陈述句相应音节的音高相减,发现疑问句音高在陈述句基础上有整体提升,但越接近句末升幅更大。Liu等[9]分别用线性函数与指数函数对疑问句与陈述句的音高差进行拟合,认为疑问句的音高上升不是线性,而是成指数的。Lai等[10]观察不同句型疑问句的韵律词最大值的连线,认为有标记的疑问句语调走势与陈述句相似,表现为整句下倾与终端下倾的叠加。

以往针对疑问句句内音高趋势的研究相对薄弱,且多以陈述句音高为基准来分析疑问句与陈述句的音高之差,缺乏对疑问句的音高变化全貌的直接展现。此外,研究大多采用同声调音节组成的实验语料,所得结论与自然声调组合状态下的疑问句语调还有一定差别。

本文的研究对象是无标记的疑问句,即不具备任何文本的疑问标记的、与陈述句同形的疑问句。这类疑问句由于缺乏表达疑问的词汇或语法手段,只能凭借韵律手段表达疑问语气,是承载疑问语调的典型句型。在方法上,本文将自然语料与实验语料相结合、定性分析与定量分析相结合,试图弥补以往研究中自然语料的缺失,更精确地对疑问句语调走势进行量化,为提高疑问句合成语音的自然度与表现力提供思路。

1 实验材料 1.1 相同调型组合的实验语料

为排除不同声调组合对音高曲线的干扰,更直观、清晰地观察语调走势,采用沈炯[1]设计的4个声调的音节分别组成的实验语料:

1) 该孙英开飞机;2)由国华来完成;

3) 请小宝逮老鼠;4)让树庆去种菜。

以上语料由3名男发音人与2名女发音人分别朗读,发音人年龄20~30岁, 实验语料共80句。

1.2 不同调型组合的自然语料

为观察自然声调组合状态下疑问句与陈述句语调走势的区别,实验还采用了由不同声调的音节组合而成的同形疑问句和陈述句共100句。其中:有8句语料少于5字,17句多于10字,余下75句长度在6~9字之间,句子在各长度段分布均匀。

以上语料由3名男发音人与2名女发音人分别朗读,共有自然语料1 000句。由于发音人在说出某些句子时的嘎裂声过于严重,某些句子缺失中间音节的音高,无法计算回归斜率,所有声音文件的数据中有30句不可用,缺失率为3%。

2 疑问句、陈述句语调走势归一化实验

采用同调型组合的实验语料,以经验的方式观察同形的疑问句与陈述句在语调走势上的差异,测量、对比二者的音高回归线斜率;并在消除斜率差异后,考察二者音高的重合度,从而检验语调回归线斜率在疑问句音高预测方面的作用。

2.1 实验方法

所有声音文件在Praat中用文[11]的脚本文件对声带的振动周期进行手工校对,该脚本文件根据振动周期自动转化为基频值并存为文本文件。每个音节的边界也结合共振峰及声带振动变化手工标记出来。脚本自动为每个音节均匀提取10个音高Hertz值及这10个音高点所对应的时间点。

为消除不同发音人基频的音阶差异,所提取的Hertz值利用式(1)并以发音人的音高最低点为参考值将Hz转为半音(st)。

$ {\mathit{f}_{{\rm{st}}}}{\rm{ = 12}}\;{\rm{lo}}{{\rm{g}}_{\rm{2}}}\left( {\frac{{{\mathit{f}_{\rm{0}}}}}{{{\mathit{f}_{{\rm{0\_base}}}}}}} \right){\rm{.}} $ (1)

其中:f0代表发音人以Hz为单位的原始音高值,f0_base代表发音人的音高最低点,fst代表归一化后以半音为单位的音高值。

用疑问、陈述语气分别朗读4个目标句所得的音高半音曲线见图 1a1d。由于疑问句与陈述句的时域分布模式不同,在图中加入音节的绝对时长的因素反而不利于语调曲线的对比, 因此在每个音节内均匀地提取10个音高值,以便将时长归一化。图 1中横坐标上的每个音节都由均匀的10个时间点组成,纵坐标对应10个发音人朗读该句子的音高平均值。

图 1 4个声调的句子的疑问句与陈述句的音高曲线及语调走势归一化

以归一后的时间点为自变量,以音高值为因变量做线性回归。

$ \mathit{y}{\rm{ = }}\mathit{kx}{\rm{ + }}\mathit{b}{\rm{.}} $ (2)

其中:x代表时间点,y代表音高值,k代表语调走势的斜率,b代表截距。

用句子音高半音值减去其回归线上对应点的值,即可得到消除语调走势差异之后的音高值。

$ {{\mathit{F'}}_\mathit{x}}{\rm{ = }}{\mathit{F}_\mathit{x}}{\rm{ - }}\left( {\mathit{kx}{\rm{ + }}\mathit{b}} \right){\rm{.}} $ (3)

其中:Fx代表时间点x处所对应的原始音高值,减去回归线上相应的值(kx+b),即得到新的水平状态下x处的音高值Fx。消除语调走势差异之后的陈述句与疑问句音高曲线的对比结果见图 1e1h

2.2 实验结果

图 1a1d中疑问句与陈述句的原始音高对比可以看出,疑问句的音高总体在陈述句之上;起点音高有的比陈述句高,有的与陈述句差别不大。在音高变化趋势方面,越接近句末,疑问句与陈述句的音高差异越大。但这样的变化趋势并不是由于疑问句句末音高加速上升导致的,而是由陈述句句末音高加速下降导致的,结合k的取值,发现疑问句的音高只呈缓慢的上升或下降,而陈述句音高下倾较为陡峭,而且还包括了降阶与句末音高下降等多重效应。

而由图 1e1h可见,当消除了疑问句与陈述句的语调差异后,二者音高曲线的一致性与重合度是比较高的,基本只在高点、低点或句末处略有出入。表 1展示了语调走势归一化前后疑问句与陈述句音高曲线Pearson相关系数,可以看出,将语调走势归一化后,第1、2、4声的疑问句与陈述句音高曲线相关度都有提高,并达到了0.85以上。

表 1 语调走势归一化前后疑问句与陈述句音高曲线的Pearson相关系数
句子声调 tone 1 tone 2 tone 3 tone 4
归一化前 0.621** 0.724** 0.752** 0.641**
归一化后 0.948** 0.851** 0.739*** .911***
注:* sig<0.05, ** sig<0.01, *** sig<0.001。

此外,不同的声调组合对疑问句与陈述句的语调走势也有一定影响。例如,在图 1c中,第3声组成的疑问句音高曲线在低音点处与陈述句较为接近,这与Yuan[7]所观察到的结论一致;而在语调走势归一化之后,疑问句与陈述句反倒在低音点处形成了较大的音高差异,如图 1g中所示;另外,由于受到了边界处连读变调不一致的影响,“宝”字在2个句子中的声调形态区别较大,这些因素导致第三声的两条音高曲线在消除语调走势后相关度反而降低了(r=0.739)。

3 疑问句、陈述句语调分析与建模实验

采用不同声调音节组合而成的自然语料,通过音高回归线斜率这一参数将疑问句与陈述句在语调走势方面的区别进行量化,分析其在不同长度的句子中与不同时域范围内的表现,并对2种句型的音高回归线斜率变化规律进行建模。

3.1 参数提取

对于每个句子,提取下列参数。

1) fst_initialfst_final:每个句子的句首音节、句末音节的平均音高值。

2) fst_SYLmax:句内每个音节的音高最大值。

3) d:每个句子的时长。

此外,将每个句子的每个音节提取10个音高点,并提取每个音高点所对应的时间点,以时间点值为自变量、音高值为因变量做线性回归,回归系数k代表语调的斜率,具体参数如下。

4) k:整句的音高回归线斜率。

5) kinitialkfinalkmiddle:句首二音节、句末二音节以及中间剩余音节的音高回归线斜率。

6) kii=2,3,…,10:句子前x个音节的音高回归线斜率。

3.2 实验结果

1) 疑问句、陈述句语调斜率与句子长度。

图 2a为1 000个疑问句与陈述句的音高回归线斜率误差条形图,图 2b为不同句长条件下的疑问句与陈述句音高回归线斜率误差条形图(按句长最接近的横坐标值归类)。由图 2a可见,疑问句的语调回归线接近水平稍稍下倾,语调下倾斜率为0~1 st/s;而陈述句的语调下倾斜率为3~4 st/s左右,比疑问句陡得多。由图 2b可见,对陈述句而言,句子越长,语调下倾坡度越缓,句子越短,语调下倾坡度越陡,这与文[12-13]一致。而这一规则并不适用于疑问句。句长为0.5 s左右的疑问句,其语调可上倾也可下倾,且斜率变化范围较大;当句长大于1.0 s时,疑问句的语调开始出现下倾现象,且随着句长增长下倾坡度稍有变陡,但变化不大。

图 2 疑问句与陈述句语调回归线斜率及句长影响

在SPSS中测量句子长度与语调回归线斜率之间的Pearson相关系数发现:在陈述句中,句长与语调斜率呈现出显著的正相关(r=0.324, sig<0.001),而在疑问句中二者没有显著的相关性。

相关性检验还表明:语调斜率与句首、句末音高之间关系密切,不论疑问句和陈述句,其语调斜率都与句首音高成显著负相关(r=-0.171、-0.154,sig<0.001),与句末音高成显著正相关(r=0.467、0.357,sig<0.001)。因此,本实验又分析了句长对疑问句与陈述句句首、句末平均音高的影响。由图 3可见,随着句子长度的增加,疑问句与陈述句的句首音高都有一定上升,其中疑问句的句首音高变化更加明显,而陈述句的句首音高则变化不大;时长对句末音高没有太大影响,疑问句的句末音高比陈述句高7~8 st,但二者的句末音高都没有因受句长影响而出现非常规则的上升或下降。

图 3 句长对疑问句、陈述句首和句末音节音高的影响

相关性检验表明:疑问句的句首音高与句长之间有显著的正相关性(r=0.324, sig<0.001),而陈述句中二者没有显著的相关性。不论疑问句和陈述句,句长与句末音高之间也没有显著的的相关性。

2) 疑问句、陈述句语调斜率的时域分布。

句子音高的变化是灵活多样的,语调走势在句中不同的时域范围内也会呈现出不同的特点。一般而言,在陈述句的音高最大值连线上能观察到3个时序性的组成部分:句首持平/上倾(initial plateau/ heightening)、句中下倾(middle inclination)和终端下降(final lowering)[12]

图 4以6音节的句子为例,展现了疑问句与陈述句的音高最大值连线(N=20)。

图 4 不音节个数的疑问句与陈述句的音高线

图 4可见,图中陈述句的高线总体轮廓由句首持平、句中下倾、终端下降3部分构成;而同形的无标记疑问句也较为明显地分为3部分,具体表现为句首音高的快速上升,句中音高微微下倾,句末处音高在出现一个小幅回升后缓缓下降。

对1 000句疑问句、陈述句前2个音节、后2个音节及中间剩余音节分别计算语调回归线斜率,图 5为2个句型在3段时域范围内的音高回归线斜率的误差条形图。由图 5可见,陈述句句首语调走势接近水平略有上升,斜率平均值为1.8 st/s,中间部分呈下倾趋势,音高下降4.2 st/s左右,句末部分音高下降速率加剧到9.8 st/s左右,形成终端下倾;而疑问句中句首音高呈上倾趋势(k=7.91 st/s),句中开始下倾,斜度比陈述句稍缓,每秒下降2.5 st左右,句末由于边界音高升高,语调回归线也向水平位置回调(k=-1.38 st/s)。将2种句型的语调斜率变化情况对比来看,最大区别处的在于句末,其次在于句首,句中下倾部分二者的语调斜率则趋于接近。

图 5 疑问句与陈述句句内不同时域范围内的语调斜率

3) 疑问句、陈述句语调走势斜率变化建模。

图 6以10音节句子为例,呈现了疑问句与陈述句语调回归线斜率的变化。图 6中疑问句与陈述句语调回归线斜率随时间变化与上一小节有呼应处,开头上倾,在句中渐落,越接近句末越趋于平稳。以k=0时语调回归线的水平状态为参照可见,疑问句的前5个音节处语调回归线由上倾缓缓变为水平,此后则一直保持或接近水平状态;陈述句的语调回归线则大概在第4个音节处由上倾降为水平,其后则开始下倾。

图 6 疑问句与陈述句句内不同位置的语调回归线斜率变化

为了将疑问句与陈述句的语调回归线斜率的变化规律进行量化,提高这一结论的预测性与应用性,本文选取每个ki值95%置信区间内的数据,以i为自变量,分别采用线性函数、对数函数与反函数对因变量ki进行拟合,所得模型的R2、常数与系数见表 2

表 2 三种模型的R2、常数与系数
句型 模型 R2 系数 常数
疑问句 线性函数 0.762*** -1.120 7.986
对数函数 0.901*** -6.073 11.573
反函数 0.942*** 25.061 -3.841
陈述句 线性函数 0.537*** -0.485 0.947
对数函数 0.723*** -2.843 2.867
反函数 0.855*** 12.740 -4.566
注:* sig<0.05, ** sig<0.01, *** sig<0.001

比较R2大小可以看出,不论疑问句还是陈述句,都在用采用反函数进行拟合时达到了最优效度;根据反函数模型的系数与常数,可以得到根据音节数预测语调斜率的反函数模型,疑问句和陈述句分别如下:

$ \mathit{y}{\rm{ = 25}}{\rm{.061/}}\mathit{x}{\rm{ - 3}}{\rm{.841, }} $ (4)
$ \mathit{y}{\rm{ = 12}}{\rm{.740/}}\mathit{x}{\rm{ - 4}}{\rm{.566}}{\rm{.}} $ (5)

上式的R2分别达到了0.942与0.855,ANOVA检验结果均为显著(sig<0.001),说明拟合达到了良好效果,根据音节数量预测疑问句与陈述句前若干个音节的语调回归线是可行的。

4 讨论

文[7]和[9]认为,无标记疑问句语调上倾,且在接近句末处音高上升加速,这样的结论却较难得到生理发声上的支持。从发声的角度来说,降低基频伴随声门张开与声带松弛,是较为省力的发声活动;反之,提高基频伴随声门闭合与声带紧张,则较为费力;维持基频不变居于两者之间。若需加速音高上升来表达疑问似乎是一种低效的交流方式。此外,如果句子够长,音高上升不断加速,也很容易达到生理极限。

本文认为,以往疑问句语调上倾、句末音高上升加速等结论,是以陈述句的基频为参照得出的,因而忽视了陈述句自身的音高下倾与终端下降是导致二者音高差变大的主要原因。本文经测量发现,无标记疑问句的语调走势在大部分情况下是水平或者微降的,这更容易获得生理发声上省力原则的支持。此外,本文发现当句子较长时,疑问句语调走势保持不变或者稍有下倾,这也符合声带振动频率随时长衰减的生理规律。

然而在听感上,无标记疑问句的语调的确是上升的,这是人们获得疑问句语调上倾这一印象的经验基础。正如疑问句的音高下倾容易被感知为水平状态,人们倾向于将疑问句趋于水平的语调感知为上倾,这说明语调的产出与感知的关系是非线性的,无标记问句语调的感知机制还需进一步探讨。

5 结论

本文结合实验语料与自然语料对无标记疑问句语调回归线斜率进行分析,所得结论如下:语调的回归线斜率是衡量陈述句与疑问句语调区别的重要韵律特征,也是疑问句语调生成的重要依据;在句长对语调的影响方面,随着句子增长,陈述句语调下倾变缓,而疑问句语调则一直保持水平或稍稍下倾,与句长的关系不大;在语调走势的时域分布方面,陈述句语调句首接近水平略有上升,中间呈下倾趋势,句末形成终端下倾;而疑问句语调在句首呈上倾趋势,句中开始下倾,到句末又向水平状态回调。用反函数对疑问句、陈述句的语调斜率随音节数变化的规则进行建模,取得了较高的拟合优度,为语音工程根据文本预测句内不同音节处的语调走势提供了依据。

参考文献
[1] 沈炯. 北京话声调的音域和语调[C]//北京语音实验录. 中国, 北京: 北京大学出版社, 1985: 73-130.
SHEN J. The pitch range of tone and intonation in Beijing Mandarin[C]//Beijing Yuyin Shiyanlu. Beijing, China: Beijing University Press, 1985: 73-130. (in Chinese)
[2] YUAN J H, SHIH C, KOCHANSKI G P. Comparison of declarative and interrogative intonation in Chinese[C]//Proceedings of Speech Prosody 2002 International Conference. Aix-en-Provence, France, 2002: 711-714.
[3] 伍艳红, 陶建华, 路继伦. 汉语疑问语调的韵律分析[C]//第七届中国语音学学术会议暨语音学前沿问题国际论坛论文集. 中国, 北京: 北京大学出版社, 2006: 1-4.
WU Y H, TAO J H, LU J L. A prosodic analysis of intonation of Chinese interrogative sentences[C]//Proceedings of the 7th National Conference on Modern Phonetics. Beijing, China: Beijing University Press, 2006: 1-4. (in Chinese)
[4] SHEN X S. The prosody of mandarin Chinese[M]. Berkeley: University of California Press, 1990.
[5] 林茂灿. 疑问和陈述语气与边界调[J]. 中国语文, 2006(4): 364–376.
LIN M C. Interrogative vs. declarative and the boundary tone in standard Chinese[J]. Chinese Language, 2006(4): 364–376. (in Chinese)
[6] 王萍, 石锋. 汉语北京话疑问句语调的起伏度[J]. 南开语言学刊, 2010(2): 14–22, 185.
WANG P, SHI F. The undulating scale of interrogative sentence intonation of Beijing Mandarin[J]. Nankai Linguistics, 2010(2): 14–22, 185. (in Chinese)
[7] YUAN J H. Mechanisms of question intonation in Mandarin[C]//Proceedings of the 5th International Conference on Chinese Spoken Language Processing. Singapore: Springer, 2006: 19-30.
[8] 江海燕. 汉语陈述、疑问基本语调的调位表现[J]. 南开语言学刊, 2009(1): 79–84, 182.
JIANG H Y. The intonation toneme of statement sentence and interrogative sentence of Mandarin Chinese[J]. Nankai Linguistics, 2009(1): 79–84, 182. (in Chinese)
[9] LIU F, XU Y. Parallel encoding of focus and interrogative meaning in Mandarin intonation[J]. Phonetica, 2005, 62(2-4): 70–87. DOI:10.1159/000090090
[10] LAI W, LI Y, CHE H, et al. The discovery of final lowering effect in questions and statements of Chinese Mandarin based on a large-scale natural dialogue corpus[C]//Proceedings of the Speech Prosody 2014 International Conference. Dublin, Ireland, 2014: 653-657.
[11] XU Y. ProsodyPro-a tool for large-scale systematic prosody analysis[C]//Proceedings of Tools and Resources for the Analysis of Speech Prosody. Aix-en-Provence, France: Laboratoire Parole et Langage, 2013: 7-10.
[12] YUAN J H, LIBERMAN M. F0 declination in English and Mandarin broadcast news speech[J]. Speech Communication, 2014, 64: 67–74.
[13] LADD D R. Declination.:A review and some hypotheses[J]. Phonology, 1984, 1: 53–74.