“发嗲”的情感语音基频特征分析
孔江平 , 林悠然     
北京大学 中国语言文学系, 北京 100871
摘要:发嗲是一种特殊的情感语音。该文从情感类型的角度出发,认为发嗲并非简单的某种情绪或态度,而是一种情感上主动性强的言语模式。该文提取了发嗲在基频上的特征,发现其在基频上最显著的特征是基频提高,这种提高并非整体的同步提升,而是与调类、性别、元音等因素有关,并且伴随着基频曲线形状和基频范围的变化。该文通过语音合成和听辨实验来检验基频变化对发嗲的意义,实验表明基频的提高突出体现了发嗲在情感激发维上的主动性特征。基频提高是发嗲的关键因素,但不是唯一特征,也不是听辨的充分条件。
关键词情感语音     发嗲     基频    
Fundamental frequency characteristics of “dearing” as emotional speech
KONG Jiangping , LIN Youran     
Department of Chinese Language and Literature, Peking University, Beijing 100871, China
Abstract:Dearing is a special kind of emotional speech. For emotion classification, dearing is not a mood or attitude, but a mode of speech which demonstrates a strong emotional activity. This study analysizes the dearing characteristics in terms of the fundamental frequency (f0) with the most obvious characteristic of "dearing" being the raised f0, which is not a constant increment, but is related to the tones, genders and vowels, with changes in the shapes of the f0 graphs and the tone register. This study also examines how the f0 transformation is related to dearing with sample syntheses and perceptional recognition, and demonstrates that the pitch increment typically shows the activity of dearing in the arousal dimension of emotional speech. The increment of f0 is crucial to dearing yet it is not the only feature nor the sufficient condition of recognition.
Key words: emotional speech     dearing     fundamental frequency (f0)    

语言具有人际互动功能,说话者在话语中表达自己的情感、 态度、 意图,并对受话者施加影响,从而达到某种实际效果[1]。 语言的人际互动功能和语音有关,不同的情感、 态度和意图能够引起语音特征的变化。

近20年来,针对汉语各类情感语音声学和感知特性的研究多集中在愤怒、 喜悦、 悲伤等基本情绪上,这对于人类复杂的情感而言还不够具体。 既有的情感类型分类比这精细得多: Russell[2]提出利用愤怒、 高兴、 悲伤和中性4个象限来定义情感空间; 而Plutchik[3]则提出“情感轮”理论,以自然原点为中心,用矢量表示情感语句,情感方向表现为矢量的角度,情感强度表现为矢量的模; Fox[4]根据脑电研究提出三级情感模型,级别越高,分类越细。

研究者又逐步从情感语音中离析出情绪和态度: Couper-Kuhlen[5]将情绪定义为说话人的状态,而将态度定义为一种行为; Wichmann[6]将态度分为行为态度和命题态度; Fujisaki[7]将语音中传递的信息分为语言信息、 副语言信息和非语言信息,副语言信息是说话人有意识的控制,而非语言信息则体现了说话人的物理及心理状态。

在情感识别领域,二维情感空间模型受到了广泛认同[8-9]。 纵轴“激发维”(arousal)反映说话者生理上的激励程度是主动的还是被动的,主要包括音高、 响度、 时长等韵律信息; 横轴“评价维”(valence)反映的是说话者对某一事物正面的或负面的评价,主要包括发声类型、 调音方法等音质信息。

目前对于情感语音的研究最普遍的方法是建立大型情感语音数据库,也有研究者把目光集中在声学参数规律上[10-12]。 情感语音的语音特征研究不仅能为情感语音合成与识别提供理论依据和新的思路,也具有语言学上的价值。

“嗲”来自“洋泾浜英语”的Dear,即亲爱的、 可爱的,引申为撒娇的,指女性说话时装可爱以博人欢心或请求对方达成自己的心愿。 “发嗲”是一种有很强交际作用的情感。 从情绪和态度的角度分析,“发嗲”既包含行为态度也包含命题态度,同时也可以承载不同的情绪。 例如:

1) 我好喜欢你呀。 (正面的命题态度,高兴的情绪)

2) 恶心死啦!(负面的命题态度,厌恶的情绪)

3) 人家想要玫瑰花嘛。 (期望的、 积极的行为态度)

4) 我不要去嘛。 (抗拒的、 消极的行为态度)

由此看来,“发嗲”不是简单的某种情感的表现,而是一种言语方式,可以表现不同的情绪和态度。

1 实验方法 1.1 数据收集

发音人为2男5女,平均年龄21.3岁,均为高校学生。 以韵母/a/、 /i/、 /u/为例,配合22个声母和四声,取该音节比较常用的代表字,共195个。 使用Adobe Audition 3.0软件录音,单通道录制,采样频率44 100 Hz,16 bit。

1.2 数据处理

用Praat软件提取基频样点,从音强升降斜率最大处截取基频以去除“弯头降尾”。 本文主要探讨基频的变化,为使时长不同的音节在基频曲线上有可比性,将每个基频曲线经时长归一化处理,各提取出10个代表点。 为避免声母对基频的影响,从采集来的2 730个音节中以清塞音声母和零声母为例,分别提取其正常语音和发嗲共504个音节的基频。 最后用Microsoft Excel软件进行数据的整理和呈现,并用SPSS 22.0软件进行统计分析。

2 数据分析 2.1 总体差异

发嗲与正常语音的四声基频曲线如图 1所示。

图 1 发嗲与正常语音的四声基频对比

发嗲的基频普遍高于正常语音基频,平均升幅为46.1 Hz。 基频没有提高或有所下降的个案非常少,基本只出现在男性发音人的样本里。 根据前人的研究[10-11],在激发维上处于正半轴即“主动”(active)状态下的情感语音(如愤怒、 喜悦、 兴高采烈)基频均值较高。 虽然没有一定的评价维倾向,但发嗲是一种交际性很强的说话方式,说话人主观上持一种积极主动的态度,希望通过强烈的情感信息达到某种目的。 因此,发嗲在激发维上处在“非常主动”的位置。

图 1还反映出发嗲基频变化幅度与调类之间的关系,其中阴平调平均升幅45.07 Hz,阳平调35.35 Hz,上声调33.76 Hz,去声调70.23 Hz。 去声的升幅最大,而上声的升幅最小。

基频曲线的形状因四声不同而各有特色: 阴平调发嗲的基频曲线不像正常语音那样平滑,而是有明显的弯头,并且呈现上升趋势; 阳平调头部先微降,然后显著上升,升速高于正常语音; 上声调最大的特点就是曲线中部没有过低,因为发嗲的基频普遍较高,不像正常语音那样出现嘎裂音; 去声调先升后降,头部升降较为圆滑,之后显著下降,降速远大于正常语音。 以上结果表明发嗲时不仅基频提高,而且基频范围向上拓宽。 女性的基频范围上限从302 Hz拓展到了378 Hz,男性的基频范围上限从196 Hz拓展到了242 Hz。 基频范围拓宽也体现了激发维上的主动性。

发嗲的四声基频曲线变化可以叫做“调型(调拱)变化”。 然而“调”的概念涉及听觉感知,“调型”往往与“调类”的概念有关,强调语言声调系统中的对立; 发嗲的“调拱”变化只是语用层面临时的韵律变化,为了避免不必要的概念混淆,本文只称之为“基频曲线形状变化”。

2.2 性别差异

“发嗲”的声学表现存在性别差异,男生和女生的四声基频分别见图 23

图 2 男生发嗲与正常语音基频

图 3 女生发嗲与正常语音基频

发嗲的基频提高程度与性别有一定关联,男生的提高量平均为25.15 Hz,而女生的提高量则达到平均54.48 Hz。

为了更清晰地表现性别对基频提高程度的影响,将男生和女生的发嗲与正常语音基频值分别作差并汇总(见图 4)。

图 4 男女发嗲与正常语音基频差值对比

女生在发嗲时的基频提高量普遍高于男生。 将基频的升幅按性别分组的配对样本t检验结果为t(119)=17.411,p= 0.000,95%差异置信区间为[28.8,36.2],说明两组的基频升幅有显著差异。

一方面是因为男生不习惯发嗲,不能显著地表现出发嗲的特征; 另一方面,女声基频范围上限较高,能够自如地使基频大幅上升,而男声基频范围较窄,很少大幅提高语音语调。 男生的阳平调和去声调这类涉及高音与音高变化的调型,升降较为平缓,也与此有关。

男生在发嗲时阴平调更加平稳,女生则呈现十分明显的弯头和上升调。 男生正常语音的上声调较为平滑,女生正常语音的上声调底部尖锐,这是因为女生在低音区达到了声带振动的频率下限,低音处会出现明显的嘎裂音,而男生则更容易在低音区保持声带的规律振动。

2.3 元音差异

声母的不同不会显著影响发嗲时基频的变化。 为了探讨元音对发嗲基频变化的影响,将数据按不同元音分组,结果见图 5

图 5 发嗲与正常语音基频按元音汇总

按不同元音分组的正常语音基频样点配对样本t检验的结果为: 元音/u/与元音/i/之间,t(265)=5.219,p=0.000; 元音/i/与元音/a/之间,t(263)=7.658,p=0.000; 元音/u/与元音/a/之间,t(267)=9.748,p=0.000; 各组之间差异显著。 对图 5的观察符合统计结果: /a/的正常语音基频较低,/u/的正常语音基频则普遍较高,/i/居中。 这可能与不同元音的共鸣腔形状有关。

而按不同元音分组的发嗲语音基频样点的配对检验结果为: 元音/u/与元音/i/之间,t(269)=-0.632,p=0.528; 元音/i/与元音/a/之间,t(267)=0.742,p=0.459; 元音/u/与元音/a/之间,t(267)=0.229,p=0.819; 各组之间差异不显著。 图中发嗲时不同主元音的基频曲线几乎重叠在一起。

正常发音时各元音间基频差异显著,发嗲时则无显著差异,这说明不同元音基频上升的幅度不同。 发嗲与正常语音的基频差值如图 6所示。

图 6 不同元音发嗲与正常语音基频差值

/a/的基频升幅较高,均值达到54.57 Hz; /u/的基频升幅较小,均值为40.31 Hz; 而/i/的基频升幅居中,均值为45.98 Hz。 按不同元音分组的基频升幅配对检验结果为: 元音/u/与元音/i/之间,t(275)=-3.116,p=0.002,即/i/的基频升幅大于/u/; 元音/i/与元音/a/之间,t(263)=-3.995,p=0.000,即/a/的基频升幅大于/i/;元音/u/与元音/a/之间,t(267)=-5.648,p=0.000;各组之间差异显著。

3 听辨实验 3.1 实验设计

实验将观察基频提升对情感辨认的作用,从而考查基频变化特征在发嗲的语音特征中的地位。 选取正常语音的单字调四声和句子样本,使用Praat软件的Manipulation功能,按照上文所描述的特征改变其基频参数。 原始样本与合成样本举例如图 7所示。

图 7 原始样本与合成样本举例

调查选择没有语音学背景的学生做为听音人,分3组进行,每组11人。 其中A组为对照组,对比播放真人录音的正常和发嗲语音样本,在无选项的情况下直接要求听音人给出情感类型; B组为强迫选择组,对比播放正常语音和合成的语音样本,给出选项让听音人对合成样本的性质进行选择; C组为无选项的判断组,对比播放正常语音和合成样本,询问听音人合成样本最可能是哪种情感类型。

3.2 实验数据及分析

A组对照组中,对于实际录音的发嗲语音样本,11位被试中有10位认为是发嗲,1位认为是表达一种期许的语气。 对照组情感听辨的准确率很高,说明听音人对发嗲的特性有着普遍的心理共识,能够准确地根据语音特征辨认出这种情感语音类型。 如果基频提高是听辨为发嗲的充分条件,那么C组的听辨准确率应该接近A组的水平。

B组在播放音频后由笔者给出“平静”(普通语气)和“发嗲”2个选项,强迫被试在2个选项中选择。 11位被试中有9位选择了“发嗲”,2位选择了“平静”,可见基频提高的合成样本确实具有发嗲的某些特征,也说明“发嗲”和“平静”有着显著的区别,发嗲在激发维上处于“主动”的地位上。

C组请被试自主描述样本所体现的情感类型。 11位被试中,3位认为表示“加深”,2位认为表示“焦急”,认为是“强调”“惊奇”“赖唧”“高兴”“撒娇”的各1位,只有1位被试认为是“发嗲”。 可见合成的语音样本在总体特征上不具有明显的指向性,基频提高并不是听辨为发嗲的充分条件,要想达到自然、 明确的“发嗲”效果,还需要考虑更多其他因素。 但是11位被试给出的描述都符合“主动”的特点,从侧面说明发嗲在激发维上的主动性。

4 结 论

发嗲是一种在情感上主动性很强的言语模式。 它在基频上最显著、 最普遍的特征就是基频提高,这种提高并非整体的同步提升,而是与调类、 性别、 元音等因素有关,并且伴随着基频曲线形状和基频范围的变化:

1) 不同调类之间,去声调的升幅最大,上声调的升幅最小;

2) 不同性别之间,女性的基频升幅显著高于男性,男性发嗲的阳平和上声升降平缓,阴平调比较平稳;

3) 不同元音之间,基频升幅有所不同,/a/的基频升幅最大,/u/的基频升幅最小;

4) 发嗲时基频曲线的形状有所改变,阴平微升,阳平陡峭,上声底部平滑不再有嘎裂音,去声先升后降;

5) 发嗲时基频范围向上拓宽。

听辨实验说明基频的变化突出体现了发嗲在情感激发维上的主动性特征。 基频提高是发嗲的关键因素,但不是听辨识别的充分条件。 研究情感语音需要提取多方面的特征参数,不仅包括嗓音类型、 音节内部的共振峰、 能量、 时长,还应当考虑到词组和句子等更高层次的韵律问题。

研究情感语音应该考虑情感类型本身的复杂性,与情感分类、 情感识别研究互相参照,互相推动。 “发嗲”作为一种方兴未艾的语言文化现象非常值得关注和研究,本文仅从一个很小的角度切入,初步分析发嗲作为情感语音的特点。

参考文献
[1] 叶蜚声, 徐通锵. 语言学纲要[M]. 北京: 北京大学出版社, 2010 . YE Feisheng, XU Tongqiang. Introduction to Linguistics[M]. Beijing: Peking University Press, 2010 . (in Chinese)
[2] Russell J. A circumplex model of affect[J]. JPSP , 1980, 39 (6) : 1161–1178.
[3] Plutchik R. A general psychoevolutionary theory of emotion[C]//Emotion:Theory, Research, and Experience. New York:Academic Press, 1980:3-33.
[4] Fox N. If it's not left it's righ Electroencephalograph asymmetry and the development of emotion[J]. Am Psychol , 1991, 46 (8) : 863–872. DOI:10.1037/0003-066X.46.8.863
[5] Couper-Kuhlen E. An Introduction to English Prosody[M]. London: Edward Arnold, 1986 .
[6] Wichmann A. The attitudinal effects of prosody, and how they relate to emotion[C]//ISCA ITRW on Speech and Emotion. Newcastle, UK, 2000:143-148.
[7] Fujisaki H. Prosody, models, and spontaneous speech[C]//Computing prosody. New York, USA:Springer-Verlag, 1997:27-42.
[8] Cowie R, Douglas-Cowie E, Tsapatsoulis N, et al. Emotion recognition in human-computer interaction[J]. IEEE Signal Proc Mag , 2001, 18 (1) : 32–80. DOI:10.1109/79.911197
[9] Tato R, Santos R, Kompe R, et al. Emotional space improves emotion recognition[C]//ICSLP-INTERSPEECH. Denver, USA, 2002:2029-2032.
[10] 张立华, 杨莹春. 情感语音变化规律的特征分析[J]. 清华大学学报(自然科学版) , 2008, 48 (S1) : 652–657. ZHANG Lihua, YANG Yingchun. Emotional speech characteristics[J]. J Tsinghua Univ (Sci and Tech) , 2008, 48 (S1) : 652–657. (in Chinese)
[11] 曾一鸣, 朱杰. 基于规则的汉语情感语音系统的设计与实现[J]. 电子测量技术 , 2009, 32 (11) : 62–64. ZENG Yiming, ZHU Jie. Design and implementation of rule-based emotional speech synthesis system[J]. Electronic Measurement Technology , 2009, 32 (11) : 62–64. (in Chinese)
[12] 张锐锋. 普通话情感语音的发声研究[D]. 北京:北京大学, 2015. ZHANG Ruifeng. On the Phonation of Putonghua Emotional Speech[D]. Beijing:Peking University, 2015. (in Chinese)