不同共振峰分布下元音对声调感知的影响
曹冲 , 解焱陆 , 张劲松     
北京语言大学 信息科学学院, 北京 100083
摘要:已有研究表明元音会影响声调感知。元音音色主要由共振峰决定,因此,该文在已有研究的基础上进一步考察不同共振峰分布下元音对声调感知的影响。合成1个从低元音到高元音的元音连续统,连续统中的每一个刺激承载3个不同的声调连续统进行感知听辨实验。实验结果表明:1)随着元音连续统内刺激的共振峰分布逐步从低元音靠近高元音,该元音也越来越倾向感知成声调连续统中调值较低的声调;2)元音对声调感知的影响和声调有关,其在阳平-上声连续统的感知中影响更大;3)元音对声调感知的影响主要体现在范畴边界,而不是范畴宽度。
关键词声调感知    元音    共振峰    连续统    
Influence on tone perception from vowels with different formant distributions
CAO Chong, XIE Yanlu, ZHANG Jinsong     
College of Information Science, Beijing Language and Culture University, Beijing 100083, China
Abstract: Previous studies have demonstrated the important effect of vowels on tone perception. The vowels qualities are mainly determined by formants. Existing studies were surveyed to investigate the effect of vowel formant distribution on tone perception. A continuum of vowel sounds from low to high vowels were investigated with stimuli based on three different tone continua to evaluate the tone identification. The results show that higher vowel formant distributions are more likely to be perceived as relatively low tones in the tone continuum. This effect varies with the tones with stronger effects on second and third tones. The tone perception effect is mainly reflected in the category boundary instead of the category width.
Key words: tone perception     vowels     formants     continua    

汉语是一种典型的声调语言,声调作为一种能够区分语义的音高模式,在汉语中表达了重要的词汇信息。已有研究表明:基频是声调感知的关键声学线索[1-3]。除了基频以外,其他因素也会影响声调感知。例如,Chuang等[4]发现在同等基频参数的情况下,低元音/a/比高元音/i/、/u/具有更高的音高感知,从而揭示了元音对音高感知的影响。

汉语普通话声调的感知是范畴感知[5]。通过经典的音高范畴感知实验,有研究发现元音对声调感知的范畴边界也存在影响。杨玉芳[6]通过合成高、低元音(/au/、/i/)负载的阴平_阳平(T1_T2)、阳平_上声(T2_T3)声调连续统进行感知听辨实验,结果发现元音对T1_T2连续统的感知没有影响,对T2_T3连续统的感知有显著影响:高元音倾向感知成调值较低的上声,低元音倾向感知成调值较高的阳平。Fox[7]等合成/pa/、/ta/、/pi/ 3个音节承载的T1_T2连续统,通过感知听辨实验发现音节/pa/和/ta/倾向感知成阴平,而/pi/倾向感知成阳平。郑秋晨[8]采用6个单元音(/a/、/ɔ/、/ɣ /、/i/、/u/、/y/)承载的T1_T2连续统,使用相同的实验范式,结果发现:低元音/a/的范畴边界显著小于其他5个元音,即倾向感知成阴平,后5个元音的范畴边界虽然有差异,但并未达到统计上的显著性。武波[9]、王星等[10]采用同样的方法也得到了相似的结果。以上研究揭示了在声调范畴感知中,高元音和低元音表现存在差异,高元音倾向感知成调值较低的声调,低元音倾向感知成调值较高的声调。

共振峰尤其是前3个共振峰(F1、F2、F3),对元音音色有质的规定性[11]。已有的关于元音对声调感知影响的研究主要基于自然音节,且集中在高、低元音两类,其共振峰差异较大:低元音/a/属于典型的“集聚元音”,F1和F2非常接近;而高元音/i/属于“分散元音”,F1和F2相隔较远[12]。元音对声调感知的影响是否与元音的共振峰分布有关?元音之间细微的共振峰变化是否会影响声调的感知?如逐步改变低元音/a/的共振峰分布直至和高元音/i/一样,其对声调感知的影响会呈现怎样的变化?这些问题都需要进一步探索。另外,已有研究一般只考虑一对声调连续统(即T1_T2),这样无法比较元音对声调感知的影响在不同声调之间是否存在差异。

因此,本文在已有研究的基础上,基于汉语声调感知是范畴感知这一结论[5],采用Zhang等[13]研究声调对元音感知影响的方法,通过合成逐步修改共振峰的元音连续统,元音连续统中的每个刺激承载3对不同的声调连续统进行感知听辨实验,考察不同共振峰分布下元音对声调感知的影响,并比较该影响在不同声调对感知之间的差异。

在声调适应性知觉训练中,往往通过语音合成技术,合成基于音段的声学连续刺激,训练学习者依靠关键声学线索感知第二语言声调的能力。由于声调感知会受到不同音段(例如元音)的影响,从而导致其范畴感知结果有所差异。本文的研究结果有助于我们在声调知觉训练中建立汉语母语者基于不同音段的声调范畴感知常模。同时,将音段的影响纳入到音高识别和音高合成中,也能提高识别的准确度和合成的自然度。

1 实验方法 1.1 元音连续统合成

本文合成了一个从低元音/a/到高元音/i/的元音连续统,之所以选择这2个元音,是因为/a/和/i/在元音舌位图里相距较远,共振峰分布差异较大,有利于逐步修改共振峰。前3个共振峰是元音区分的重要声学线索[11],因此本文主要修改F1、F2和F3来合成元音连续统。

本文从北京语言大学单音节语料库中选取一位男性发音人的发音(声调连续统的合成也是基于该发音人)。目标音节/a/和/i/的F1、F2、F3在人工标注的基础上均匀提取10个点的共振峰,每一个点的值都经过人工的检查和校正。元音/a/被选为起始音节,即元音连续统中的第1个刺激为典型的低元音/a/,之后的刺激都从元音/a/上同时且等步长修改前3个共振峰得到,直至第10个刺激为典型的高元音/i/。每个刺激的时长被归一为400 ms。

1.2 声调连续统合成

本文合成了3个声调连续统:阴平_阳平(T1_T2)、阴平_去声(T1_T4)和阳平_上声(T2_T3)。每个连续统包含10个刺激,每个刺激的时长为400 ms。T1被定为T1_T2与T1_T4连续统的起始声调,T2被定为T2_T3连续统的起始声调。以连续统两端声调的平均音高作为基准,确定连续刺激起始音节和终点音节的音高。根据对该男性发音人产出T2和T3单音节拐点位置的统计,选取位于基频曲线25%处的点作为T2的拐点,位于基频曲线40%处的点作为T3的拐点。T1_T2和T2_T3连续统的合成采用3个特征点,分别是起点、拐点和末点,前者保持末点不变(采用T1的末点),同时且等步长改变起点和拐点,后者保证起点不变(采用T2的起点),同时且等步长改变拐点和末点。T1_T4连续统则是同时等步长改变起点和末点。

1.3 听辨流程

实验分为3个阶段,每1个阶段听辨一个声调连续统。每个刺激重复播放3遍,一共900个刺激(10个元音刺激×10个声调刺激×3个声调连续统×3次重复)。确保被试理解实验过程并阅读实验步骤后开始实验。每个阶段内的刺激随机播放,每次呈现一个刺激,要求被试对所听到的刺激进行二择一的强迫选择。

1.4 被试

18名汉语母语者参加了此次听辨实验,年龄在22~30岁之间,他们均没有语言、听力以及说话障碍。

1.5 数据分析

主要分析听辨曲线的范畴边界和范畴宽度。采用Logistic回归的方法,构造Logistic回归模型进一步描述声调连续统的范畴感知结果与语音连续样本之间的关系:

$ {{\rm{L}}_n}\left( {\frac{{{P_i}}}{{1-{P_i}}}} \right) = {b_0} + {b_1}x. $ (1)

其中:Pi为声调感知的正确率(本文统计的是连续统中起始声调的正确率),x为刺激编号。当Pi=0.5时,对应的x值即为范畴边界的位置,如式(2)中的xcb。当Pi=0.25或Pi=0.75时,对应的xcb即为左边界或右边界,左边界和右边界之间的距离即为范畴宽度。

$ \begin{array}{l} {b_0} + {b_1}{x_{{\rm{cb}}}} = {{\rm{L}}_n}\left( {\frac{{0.5}}{{1-0.5}}} \right) = 0, \\ \;\;\;\;\;\; \to {x_{{\rm{cb}}}} = \frac{{-{b_0}}}{{{b_1}}}. \end{array} $ (2)
2 实验结果 2.1 T1_T2连续统感知听辨结果

图 1描绘了元音连续统中10个元音刺激的范畴边界。横坐标代表元音刺激,纵坐标代表范畴边界,单杠代表误差线(下同)。每个值都是18名被试3次重复感知听辨结果的平均。从图 1可以看出,从刺激1到刺激2,范畴边界出现了急剧下降,但刺激2之后,范畴边界相对比较稳定。总的来说,前6个刺激的范畴边界比后4个刺激大。

图 1 范畴感知边界

以范畴边界为因变量,元音刺激为自变量做了配对样本t检验。当p < 0.05时,实验结果被定义为有显著性影响(下同)。检验结果显示刺激1与其他9个刺激均存在显著差异,而后9个刺激中除了刺激5和刺激9存在显著差异外(t=2.362、p=0.03),其他刺激两两之间均没有显著差异。本文也对T1_T2连续统感知范畴宽度做了统计检验,结果发现范畴宽度的主效应并不显著。

为了进一步揭示不同共振峰分布下元音对T1_T2连续统感知的影响,绘制了元音刺激与范畴边界之间的回归曲线,如图 2所示。从图 2可以看出,虽然中间会有部分波动,但是10个元音刺激的范畴边界整体上呈现下降的趋势,元音刺激与范畴边界的相关性是0.77(r=0.77)。

图 2 元音刺激与范畴边界的相关性

T1是T1_T2连续统中的起始声调,低元音/a/是第1个元音刺激,图 1图 2的结果表明随着元音连续统中元音的共振峰分布越来越靠近高元音/i/,其范畴边界越来越小,倾向感知成调值相对较低的T2。

2.2 T1_T4连续统感知听辨结果

图 3描绘了元音连续统中10个刺激的范畴边界。从图 3可以看出,前4个刺激的范畴边界虽然呈现略有下降的趋势,但下降幅度很小。刺激4之后,范畴边界出现了急剧下降,一直持续到刺激7。从刺激8开始,范畴边界值出现回升,后3个刺激的范畴边界又趋于稳定,但其值仍小于前4个刺激。配对样本t检验结果显示前4个刺激的范畴边界没有显著性差异,后3个刺激之间也没有,刺激1和刺激5-7中的任意一个刺激存在显著差异,刺激7和任意一个刺激也存在显著差异。总的来说,范畴边界之间的显著性差异主要来源于刺激5-7。

图 3 范畴感知边界

为了进一步揭示不同共振峰分布下元音对T1_T4连续统感知的影响,绘制了元音刺激与范畴边界之间的回归曲线,如图 4所示。从图 4可以看出,虽然中间有部分元音刺激存在一定的波动,如刺激5、6和7,但仍可以看出元音刺激越往后,范畴边界越小这一趋势,即元音的共振峰分布越接近高元音/i/,越倾向感知成T4。元音刺激与范畴边界间的相关性r=0.58,略小于T1_T2连续统(r=0.77)。

图 4 元音刺激与范畴边界的相关性

同时,统计检验结果显示元音之间的范畴宽度也存在显著影响(F(9,153)=2.704, p=0.006)。配对样本t检验显示大部分元音刺激的范畴宽度相差不大,显著差异主要来自于刺激2、4和10,不排除是个体差异或别的偶然因素导致的结果。

2.3 T2_T3连续统感知听辨结果

在孤立音节中,阳平和上声都属于降升调,起点音高也非常接近。这样的特征导致不少汉语母语者在区分阳平和上声的时候也会发生混淆[14]。本文的18位被试中有6位经2位语音学专业的研究生确定,在T2_T3连续统的辨认中出现了阳平上声混淆的情况,主要表现为几乎所有刺激均听成阳平(或上声),或者阳平和上声的辨认呈现随机选择的模式,因此这部分的结果去除了该6位听辨人的数据。图 5描绘了元音连续统中10个刺激的范畴边界。

图 5 范畴感知边界

可以看出,范畴边界呈现了一个很明显的下降趋势:元音刺激越靠后,范畴边界越小,具体来说,共振峰分布越靠近高元音/i/,越倾向感知成T3。配对样本t检验结果显示前4个刺激的范畴边界没有显著差异;刺激1和刺激5-10中的任意一个刺激有显著差异;刺激2和刺激8-10中的任意一个刺激有显著差异;刺激3和刺激2一样;刺激5-10两两之间没有显著差异,但刺激对7和9(t=2.33, p=0.04)除外。同时本文对范畴宽度进行了统计检验,发现元音刺激间的范畴宽度并没有显著差异。

图 6表示元音刺激与范畴边界之间的相关性。T2_T3连续统中元音刺激与感知范畴边界间的相关性r=0.93比T1_T2(r=0.77)、T1_T4(r=0.58)连续统都大。

图 6 元音刺激与范畴边界的相关性

3 分析讨论

本文通过合成1个元音连续统和3个声调连续统进行感知听辨实验,考察不同共振峰分布下元音对声调感知的影响。实验结果表明:1)虽然元音连续统内的10个刺激在3个声调连续统中的范畴边界均存在幅度大小不等的波动,但整体上都表现出下降的趋势:元音刺激越靠后,范畴边界越小。具体来说,随着元音连续统内刺激的共振峰分布越来越靠近高元音/i/(即F1越来越小,F2越来越大),该元音也越来越倾向感知成声调连续统中调值较低的声调,如T1_T2中的T2、T1_T4中的T4以及T2_T3中的T3,这里的调值主要指声调的平均音高。2)通过分析元音连续统内刺激和范畴边界之间的相关性,发现元音对声调感知的影响和声调本身有关,其对阳平和上声的感知影响更大。本文T1_T2连续统的感知结果和郑秋晨[8]的研究结果较为一致, 即只有典型的低元音/a/与其他共振峰分布下的元音在范畴边界有显著差异,其他元音刺激的范畴边界虽略有差异,却未达到统计上的显著性。3)元音对声调感知的影响主要体现在范畴边界,而不是范畴宽度:3个声调连续统的感知范畴边界均出现了显著差异,而范畴宽度的差异只在T1_T4连续统中显著,且不排除是偶然性的结果。

元音的共振峰分布越靠近低元音/a/,越倾向感知成调值较高的声调;越靠近高元音/i/,越倾向感知成调值较低的声调。这可以用元音的“内在音高”理论解释。“内在音高”是指在同样的语音环境下,高元音的基频比低元音高。舌牵引学说认为,高元音的舌位一般比低元音高,发高元音时,舌位的上升牵动喉头的提高,从而使声带的状态拉伸并绷紧,声带变得长而薄,基频也就提高了[15]。Shi等[16]通过统计不同发音人不同音节的产出,发现在同样的声调下,高元音/i/的基频比低元音/a/高,证实了汉语元音中内在音高的存在。语音产出和语音感知息息相关,产出上的表现往往能在感知上得到补偿。低元音/a/在产出时相对较低的基频可能使汉语母语者在感知上对音高进行补偿,从而更倾向感知成调值较高的声调。高元音/i/的情况正好相反,语音产出时相对较高的基频使得汉语母语者在感知层面更倾向感知成调值相对较低的声调。

元音对不同声调感知的影响也存在差异。实验结果显示共振峰在T2_T3连续统感知过程中关系更密切。这可以用语音感知中的“线索权衡”理论来解释:当一个语言学范畴的感知存在多个线索时,人的感知机制会以一种非常有效的方式利用这些线索,如果其中某一个线索的作用突然变小,那么其他线索的权重就会增加[17-18]。我们知道汉语普通话的阳平和上声不论是调型还是调阶都非常相似:两者都是先降后升的调型,起点音高也非常类似[14]。基频是声调感知的关键声学线索[1-3],按照线索权衡理论,当基频这一线索变得模糊,不足以区分声调时,其他线索的权重就增加了,显然在本研究中,共振峰成了基频之后的第一选择。这与王硕等[19]采用线性预测编码技术探讨言语频域共振峰信息在汉语普通话声调识别中的作用的研究结果一致:依靠共振峰信息,阳平和上声的识别正确率远高于阴平和去声。

4 结论和展望

本文在已有研究的基础上,深入分析元音本质-共振峰分布,通过合成元音连续统和声调连续统探讨元音对声调感知的影响,虽然元音连续统中部分刺激的感知范畴边界存在波动,但仍可以看出其范畴边界整体呈下降的趋势,因此本文结果具有一定的普遍性。/i/在元音舌位图中是前、高元音,/a/是央、低元音,虽然这2个元音在舌位高低上存在最大差别,但舌位前后也存在一定差别,因此,在后续的研究中可以考虑离析该两维参数,分别探讨这两维参数对声调感知的影响。已有研究表明拐点位置会影响阳平和上声的感知[20-21],本文把阳平和上声连续统的拐点位置固定在基频曲线40%处的点,这种处理拐点位置的做法会不会影响不同声调对之间影响的比较,也需进一步考察。

参考文献
[1] LIN M C. The pitch indicator and the pitch characteristics of tones in standard Chinese[J]. Acta Acust, 1965, 1: 8–15.
[2] CHUANG C K, HIKI S. The acoustical features and perceptual cues for the four tones of standard Chinese[J]. The Journal of the Acoustical Society of America, 1972, 52(1): 146–146.
[3] HOWIE J M. On the domain of tone in Mandarin[J]. Phonetica, 1974, 30(3): 129–148. DOI:10.1159/000259484
[4] CHUANG C K, WANG S Y. Psychophysical pitch biases related to vowel quality, intensity difference, and sequential order[J]. The Journal of the Acoustic Society of America, 1978, 64(4): 1004–1014. DOI:10.1121/1.382083
[5] WANG S Y. Language change[J]. Annals of the New York Academy Sciences, 1976, 208(1): 61–729.
[6] 杨玉芳. 元音和声调知觉[J]. 心理学报, 1989, 21(1): 31–36.
YANG Y F. Vowel and tone perception[J]. Acta Psychologica Sinica, 1989, 21(1): 31–36. (in Chinese)
[7] FOX R A, QI Y Y. Context effects in the perception of lexical tone[J]. Journal of Chinese Linguistics, 1990, 18(2): 261–284.
[8] 郑秋晨. 汉语元音对声调感知边界的影响[J]. 心理学报, 2014, 46(9): 1223–1231.
ZHENG Q C. The influence of vowels on tone perception[J]. Acta Psychologica Sinica, 2014, 46(9): 1223–1231. (in Chinese)
[9] 武波. 音质特征在汉语普通话阴平_阳平感知中的作用[D]. 上海: 上海师范大学, 2015.
WU B. The effect of voice quality on tone 1_tone 2 perception[D]. Shanghai: Shanghai Normal University, 2015. (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10270-1015369773.htm
[10] 王星, 刘亚丽. 元音差异对声调感知范畴的影响[J]. 声学技术, 2013, 32(6): 221–222.
WANG X, LIU Y L. The influence of different vowels to categorical perception of tones[J]. Technical Acoustics, 2013, 32(6): 221–222. (in Chinese)
[11] FRY D B, ABRAMSON A S, EIMAS P D, et al. The identification and discrimination of synthetic vowels[J]. Language and Speech, 1962, 5(4): 171–189. DOI:10.1177/002383096200500401
[12] 鲍怀翘, 林茂灿. 实验语音学概要[M]. 北京: 北京大学出版社, 2014.
BAO H Q, LIN M C. Essentials of experimental phonetics[M]. Beijing: Peking University Press, 2014. (in Chinese)
[13] ZHANG H, CHEN F, YAN N, et al. The effects of tone categories on the perception of Mandarin vowels[C]//The Processing of the 10th International Symposium on Chinese Spoken Language. Tianjin, China: IEEE, 2016: 1-5. http://ieeexplore.ieee.org/abstract/document/7918413/
[14] JONGMAN A, WANG Y, MOORE C B. Perception and production of Mandarin Chinese tones[M]. Cambridge: Cambridge University Press, 2006.
[15] OHALA J J, EUKEL B W. Explaining the intrinsic pitch of vowels[J]. Journal of the Acoustic Society of America, 1967, 60: 207–215.
[16] SHI B, ZHANG J L. Vowel intrinsic pitch in standard Chinese[J]. Working Papers in Linguistics, 1986, 29(1): 169–190.
[17] BEST C T, MORRONGIELLO B, ROBSON R. Perceptual equivalence of acoustic cues in speech and nonspeech perception[J]. Perception & Psychophysics, 1981, 29(3): 191–211.
[18] STEVENS K N, KLATT D H. Role of formant transitions in the voiced-voiceless distinction for stops[J]. The Journal of the Acoustical Society of America, 1974, 55(3): 653–659. DOI:10.1121/1.1914578
[19] 王硕, MANNELLR, NEWALLP, 等. 共振峰信息在汉语声调感知中的作用[J]. 中国耳鼻咽喉头颈外科, 2012, 19(1): 8–11.
WANG S, MANNELL R, NEWALL P, et al. Role of formants in Mandarin lexical tone perception[J]. Chinese Archives of Otolaryngology-Head and Neck Surgery, 2012, 19(1): 8–11. (in Chinese)
[20] 王韫佳, 李美京. 调型和调阶对阳平和上声知觉的作用[J]. 心理学报, 2010, 42(9): 899–908.
WANG Y J, LI M J. The effects on tone pattern and register in perception of tone 2 and tone 3 in Mandarin[J]. Acta Psychologica Sinica, 2010, 42(9): 899–908. (in Chinese)
[21] 张劲松, 邹婷, 曹文. 中日被试阳平和上声的感知研究[J]. 汉语应用语言学研究, 2013: 214–224.
ZHANG J S, ZOU T, CAO W. The perception study of tone 2 and tone 3 for native Mandarin speakers and Japanese learners[J]. Research on Chinese Applied Linguistics, 2013: 214–224. (in Chinese)