不同语种及非言语情感声音的ERP研究
畅江 1 , 张雪英 1 , 张奇萍 1,2 , 陈宏涛 1 , 孙颖 1 , 胡凤云 3     
1. 太原理工大学 信息工程学院, 太原 030024, 中国 ;
2. 长岛大学 帕默图书馆和信息科学学院, 纽约 11548, 美国 ;
3. 山西省人民医院 神经内科, 太原 030024
摘要:事件相关电位(ERP)技术是一种研究人脑对声音运行机制的有效方法。该文从语言种类出发,研究语义理解程度在情感语音感知中是否存在显著性影响;从言语和非言语角度出发,研究言语是否对情感声音感知存在影响。实验中,首先采用端点检测法对声音信号进行预处理,使它的起始位置和内容在时间进程上基本一致,便于ERP波形的叠加;再根据实验设计进行ERP实验。实验结果发现:在ERP波形距离起始点200 ms左右出现在颞区的负走向波形可能与韵律感知和语义理解相关。根据该波形的潜伏期及波幅推测,人脑对熟悉的情感语音更具有敏感性,且对非言语情感声音处理的时间进程相对较快。
关键词事件相关电位     情感语音     非言语情感声音     语音信号处理    
ERP research on the emotional voice for different languages and non-speech utterances
CHANG Jiang1 , ZHANG Xueying1 , ZHANG Qiping1,2 , CHEN Hongtao1 , SUN Ying1 , HU Fengyun3     
1. College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China ;
2. Palmer School of Library and Information Science, Long Island University, New York 11548, USA ;
3. Department of Neurology, Shanxi Provincial Hospital, Taiyuan 030024, China
Abstract:The event-related potential (ERP) is an effective method to study the brain mechanism of voice processing. This investigation studies how semantic understanding affects the emotional voice during speech and how speech influences the emotional voice for speech and non-speech utterances. In the tests, the audio signals are preprocessed using the endpoint detection technique to synchronize the ERP starting position with its corresponding signal content to enable superposition of the ERP waveforms. The ERP tests show that the negative waveform at around 200 ms in the temporal region may be associated with the prosody perception and the semantic understanding. In addition, the latency and amplitude results suggest that the brain is more sensitive to native emotional language than foreign emotional language and that the brain more quickly processes emotional non-speech utterances than emotional speech.
Key words: event-related potential     emotional speech utterance     emotional non-speech utterance     speech signal processing    

情感是人们对客观事物的一种态度,情感声音是人们根据对声音的不同理解而赋予它们的态度属性。近年来,关于语音情感的研究越来越受到人们的关注,有些学者从信号处理的角度来研究语音的情感特征[1],有些学者从电生理角度来研究人处在不同情感中的生理反应。有关情感的事件相关电位(event-related potential,ERP)的早期研究都是基于图片诱发的方式,研究发现负性图片可以诱发出更强的ERP波形[2]。对于情感声音中的语音而言,其情感分类主要有生气、悲伤、高兴、惊奇等,主要的研究方向基于两个方面:1) 对语义文本的研究,即字音、字形和字义的研究[3];2) 从听觉出发,对韵律进行研究,如对语音中的重音及停顿处的研究。另外,也有学者采用汉语作为实验刺激材料,研究字词认知的ERP成分[4],也有对词语中的语义进行相关研究[5]等。对于非言语情感声音而言,其情感分类主要有正性和负性两种,也有人分为积极和消极两种,在这类研究中,有学者发现非言语的声音也具有情感色彩,并从中提取出有关情感的特征[6]。在国内,席洁等[7]采用偶极子溯源分析发现在非言语声音中,音素和蜂鸣声条件下的偶极子位于左脑额叶,而音乐条件下则位于右脑额叶。

虽然对于情感的脑电研究已经取得部分成果,但是大多研究都是基于视觉条件及字词认知的,对于听觉条件下呈现语句的ERP研究却不多见。在关于情感语音的听觉ERP研究中,有研究指出[8],情感的显著性探测主要出现在ERP波形距离起始点200 ms左右的时间段,其主要出现的位置为颞上回(superior temporal gyrus,STG)和前颞上钩(anterior superior temporal sulcus,aSTS)。

本文在听觉条件下,对不同语句的情感声音及非言语情感声音进行ERP研究。该研究主要从两个方面进行分析和比较:1) 从语言种类出发,比较相同情感下情感语言的ERP成分;2) 从言语和非言语的角度进行ERP成分的比较。研究结果发现,ERP波形在200 ms左右,对于言语和非言语的情感声音存在明显的幅值和潜伏期差异,由此可以推测人脑对熟悉的情感语言更具有敏感性,且对非言语情感声音处理的时间进程相对较快。

1 声音文件的筛选与预处理

由于ERP技术具有精确的时间分辨率,通常只能够在短短的1 000 ms内观测到事件相关电位,倘若选取的声音刺激材料情感不易区分或声音材料的起始点不一致,那么在实验处理的过程中就会很难叠加出有效的ERP成分,会大大影响实验结果,因此对声音材料的筛选和处理是非常必要的。

1.1 声音材料的筛选

本文所选用的语音数据库包括柏林情感语音数据库EMO-DB、本实验室从广播剧中截取的TYUT2.0汉语情感语音数据库以及具有正性情感和负性情感的与人无关的非言语情感声音数据库TYUT2.1。由于EMO-DB数据库与TYUT2.0数据库中的情感种类不完全相同,因此本文从中选取了类别相同且容易识别的情感进行研究,选用高兴、悲伤和中性3种基本情感作为实验的刺激材料,这3种刺激材料也分别代表着正性、负性和中性情感,本文这样选择的另一个目的是使非言语情感声音中的正性与言语情感声音中的高兴相对应,其中的负性与悲伤相对应,以方便本文的对比研究。所用到的实验刺激材料具体说明如表 1所示。实验中选择250 Hz的纯音信号作为实验的靶刺激(按键反应),它的作用是使被试认真完成实验。

表 1 实验所需的刺激材料说明
音频材料 音频类型 情感种类 每类个数
TYUT2.0情感语音数据库 汉语语音 悲伤 50
高兴
中性
TYUT2.1非言语情感声音数据库 非言语情感声音 正性 50
负性
中性
EMO-DB情感语音数据库 德语语音 悲伤 50
高兴
中性

TYUT2.0情感语音数据库之所以选择广播剧作为实验的刺激材料,是因为广播剧具有语言清晰、情感表达强烈且情感色彩容易区分等特点,有利于被试对情感作出快速的判断。TYUT2.1非言语情感声音数据库中的声音都是与人类行为无关的情感声音,它们主要来自于自然界中的声音,例如:打雷声、爆炸声、狗叫声等表示负性的情感声音,以及风铃声、鸟叫声等表示正性的情感声音。此外,由于EMO-DB柏林情感语音数据库中的声音时长大多都在2 000~3 000 ms以上,而本文所需要的声音时长为1 000 ms左右,因此根据实验设计,将柏林语音文件都裁剪成1 000 ms左右,并将裁剪后的语音让不懂德语的被试进行试听,确保每个裁剪后的语句都能在听觉上感觉完整和流畅。本文所采用的所有声音文件都是经过主观辩听后筛选得到的。

1.2 声音材料的预处理

由于脑电信号具有很高的时间分辨率,因此实验中,为了能够叠加出有效的ERP波形,需要对所有声音材料的起始位置作统一处理,使所有声音出现的起始时间是一致的。本文采用端点检测方法对声音信号的起始端点进行处理,同时对于语音文件而言,由于每个字词所占用的时间长度不一样,每个字所占用时间大概都在30 ms到150 ms之间,而ERP波形的主要成分会在100 ms、200 ms、300 ms以及400 ms等处出现,因此为得到ERP波形的有效成分,最理想的方式是使每个情感语句中的字词呈现方式在时间进程上是同步的。但是,基于实际情况,若使每个句子中的字词都按照固定的时间顺序出现,就会打破语句本身的韵律特征,使句子听起来生硬不自然,因此本文采用端点检测的方法使每个情感语句的首字出现的起始时间相同且其呈现时间都控制在150 ms内,也就是使情感语音中的首个单字对齐。

本文首先采用能量和过零率的双门限两级判别方法对语音信号进行端点检测及首字提取,然后对提取出的首字进行时长的微调整。若首字小于150 ms,则不作处理,若大于150 ms,为保证语音的音质和韵律不变,本文将在不影响语音完整性和流畅性的情况下,随机删掉首字中的一帧语音信号。最后,对处理后的语音进行听辨,主要检查声音的连贯性、自然性及情感的有效性,筛选出符合实验要求的声音。式(1)和(2)分别是语音信号每帧的短时能量及其过零率的计算公式。其中:x(n)为语音信号;si(n), n=1, 2, …, N,为每帧的语音信号,n为语音信号的离散时间序列,N为帧长,i为帧数。当si(n)≥0时,sgn[si(n)]=1;当si(n)≤0时,sgn[si(n)]=0。

$ {E_i} = \sum\limits_{n = 1}^N {s_i^2\left( n \right)} , $ (1)
$ {Z_i} = \sum\limits_{n = 1}^N {\left| {\operatorname{sgn} \left[ {{s_i}\left( n \right)} \right] - \operatorname{sgn} \left[ {{s_i}\left( {n - 1} \right)} \right]} \right|} . $ (2)

图 12为声音材料处理前后所得ERP波形的对比图,图中的波形为所有被试的平均波形。可以看出,经过声音预处理后所得到的ERP波形成分更明显。

图 1 未经声音预处理所得到的ERP波形(TP7)

图 2 经过声音预处理后得到的ERP波形(TP7)

2 研究方法 2.1 实验设计

1) 语言种类。

比较TYUT2.0情感语音库和EMO-DB情感语音数据库中不同情感语音所对应的ERP波形,主要考察母语为汉语的被试在听到两种不同语言的情感语音时,其ERP是否会有所区别,据此也就是考察语义的理解程度对人脑是否存在显著影响,即语义的理解程度在情感语音感知中是否存在显著作用。

2) 言语和非言语。

(a) 比较TYUT2.0和TYUT2.1非言语情感声音。考察言语在情感声音中是否比非言语情感声音对人的影响程度更大,也就是人脑是否对言语的情感声音存在敏感性。

(b) 比较EMO-DB情感语音和TYUT2.1非言语情感声音。主要考察当语义无法理解时,语言在情感语音与非言语情感声音中是否有显著作用,人脑是否会对不理解的语义作出相关的语义处理。

2.2 被试

在校研究生男女各8名,共16名,年龄23~28岁,平均年龄25岁,所有被试均为北方人,母语为汉语,普通话标准,无德语基础,右手利,听力正常,视力或矫正视力正常。

2.3 实验任务

实验在一个安静的实验室中完成,共分为3个阶段。实验中的靶刺激为250 Hz的纯音信号。刺激程序采用E-prime2.0软件进行编写。图 34分别为实验程序流程和实验指导语。

图 3 实验程序流程

图 4 实验指导语

2.4 ERP记录与分析

实验仪器为德国Brain Products公司生产的ERP采集与分析系统,分析软件为BrainVision Analyzer 2.0,使用64导电极帽记录脑电图(EEG)。由于听觉功能主要集中在人脑的颞叶区,且颞上回和前颞上钩与听觉情感的感知有关[8]。为了在颞叶区得到明显的ERP成分,本文采用的参考电极为Cz,采样频率为500 Hz,滤波带通为0.05~40 Hz。头皮阻抗小于5 kΩ。

本文主要考察听觉功能区所对应的电极,根据以往研究以及本文的实验假设,选择的研究电极为左脑FT7、T7、TP7、FC5、C5、CP5及右脑FT8、T8、TP8、FC6、C6、CP6处的电极。对所获得ERP平均波形的潜伏期和峰值采用SPSS19.0软件进行数据统计处理及方差分析(analysis of variance,ANVOA),其中方差分析的分析因素有:情感刺激类型(悲伤、高兴、中性)和语音库(TYUT2.0、TYUT2.1、EMO-DB)。按照潜伏期顺序及波形正负趋势命名,本文主要分析的ERP成分有:P1、N2。

3 实验结果

本文的分析时程为情感声音刺激出现前后-200~1 000 ms,所有情感声音的波形走向基本一致,负性和正性情感如图 56所示,中性情感的ERP波形如图 12所示。为了使ERP波形便于观看,本文重点呈现了左脑TP7和右脑TP8的波形。其中P1和N2的波幅比较明显,且对于不同的情感语音库存在显著差异。图中,P300与N400波幅较小,本文对此成分不作主要研究。

图 5 言语悲伤情感与非言语负性情感的ERP波形

图 6 言语高兴情感与非言语正性情感的ERP波形

3.1 不同语种(汉语、德语)的ERP方差分析

对TYUT2.0和EMO-DB情感语音库的ERP峰值和潜伏期进行2因素方差分析,发现这两组数据库中所对应的不同情感的潜伏期均无明显差异,p>0.05,而所对应的峰值P1和N2处有显著性差异,p < 0.05,其主要的方差分析结果见表 2。对于中性情感语音来说,其P1和N2成分的峰值小于正性和负性情感,且其主效应显著p < 0.05,符合之前研究者所得出的结论[10]

表 2 不同情感语音库的波形成分的峰值方差分析
波形成分(时间段) 分析因素 F p
P1(80~160 ms) 数据库类型 7.903 < 0.01
情感类型 3.378 < 0.05
数据库×情感类型 2.979 < 0.05
N2(170~250 ms) 数据库类型 19.967 < 0.001
情感类型类型 8.033 < 0.001
数据库×情感类型 14.024 < 0.001

表 2中可以发现,对于不同情感数据库中的不同情感,成分P1和N2的数据库类型(TYUT2.0汉语情感数据库、EMO-DB德语情感数据库)主效应显著,情感类型(高兴、悲伤、中性)主效应显著,且它们的交互作用也显著。比较图 56,可以推测当被试对语义完全理解时,人脑对自己所理解的语音语义表现出更强的敏感性,这主要表现在P1和N2的主效应显著。

3.2 言语和非言语的ERP方差分析

1) TYUT2.0情感语音库和TYUT2.1非言语情感声音的方差分析。

对TYUT2.0和TYUT2.1这两个数据库所产生的ERP波形的峰值和潜伏期进行独立样本t检验发现:不论是峰值还是潜伏期,这两个数据库所产生的ERP波形的部分主要成分有显著变化。具体分析见表 34。其中:表 3是TYUT2.0中的负性情感(悲伤)和TYUT2.1中的负性情感之间的成分比较,表 4是TYUT2.0中的正性情感(高兴)和TYUT2.1中的正性情感之间的成分比较。从表 34中可以看出,汉语语音的负性情感与非言语的负性情感在成分N2处,其潜伏期和峰值都存在显著差异。结合图 56可以看出,非言语情感声音的N2事件相关电位的潜伏期比言语情感数据库的潜伏期提前且波幅较低,以此可以推测言语情感数据库中的N2时间相关电位可能受语义的初步加工影响,导致潜伏期延长。

表 3 TYUT2.0和TYUT2.1中的负性情感ERP波形成分比较
波形成分(时间段) 峰值 潜伏期
t p t p
P1(80~160 ms) 0.562 0.580 0.475 > 0.05
N2(170~250 ms) 2.818 0.011 3.409 < 0.005

表 4 TYUT2.0和TYUT2.1中的正性情感ERP波形成分比较
波形成分(时间段) 峰值 潜伏期
t p t p
P1(80~160 ms) 2.772 0.012 2.138 < 0.01
N2(170~250 ms) 4.316 0.001 3.609 < 0.01

2) EMO-DB情感语音和TYUT2.1非言语情感声音的方差分析。

同3.3节中的比较,对EMO-DB和TYUT2.1数据库中的ERP成分进行独立样本t检验。表 5是EMO-DB中的负性情感(悲伤)和TYUT2.1中的负性情感之间的成分比较,表 6是EMO-DB中的正性情感(高兴)和TYUT2.1中的正性情感之间的成分比较。从表 56可以发现,N2的潜伏期有显著差异,峰值没有显著差异。结合图 56可以看出,虽然被试不理解EMO-DB中的语义内容,但是对于语音信号而言,其N2潜伏期没有明显差异,然而对于峰值来说,当不理解语义内容时,N2的幅值与非言语情感声音的幅值没有显著差异,由此说明N2的潜伏期可能受到语义的影响,N2的峰值可能受到语音情感强烈程度的影响。此外,从表 46中发现,正性情感诱发的P1成分的潜伏期和峰值主效应显著,而表 35中没有此发现。本文推测在人脑对声音进行加工初期,可能对正性情感的声学特征较为敏感,而对负性情感的声学特征反应推迟,或在N2成分中体现。根据以上分析,本文认为人脑对熟悉的言语情感更具敏感性,且由于字词加工的原因,使它在信息处理时间上较非言语情感声音相对较慢。

表 5 EMO-DB和TYUT2.1中的负性情感ERP波形成分比较
波形成分(时间段) 峰值 潜伏期
t p t p
P1(80~160 ms) 0.785 0.412 2.235 > 0.05
N2(170~250 ms) 0.837 0.412 3.982 < 0.01

表 6 EMO-DB和TYUT2.1中的正性情感ERP波形成分比较
波形成分(时间段) 峰值 潜伏期
t p t p
P1(80~160 ms) 4.467 <0.001 0.895 < 0.05
N2(170~250 ms) 0.659 0.518 4.585 < 0.001

4 讨论

对于语音情感的识别研究,很多行为学数据表明[9-10],生气的识别率要高于恐惧和害羞等情感,且识别速度也相对较快,年轻人对情感识别的正确率要普遍高于老人。本文从脑认知的角度对相同情感下不同语种(汉语、德语)及非言语情感的ERP进行研究。

听觉刺激是按照时间顺序依次展开的,有研究者[11]认为情感语音加工是多阶段的,它主要由情感显著性感知、相关语义处理及情感识别这3个阶段构成。文[8, 12]指出了情感语音加工的时间进程,它指出在0~150 ms期间,是对情感的早期感觉加工,在150~250 ms期间是情感韵律的编码,在250~550 ms期间是情感语义的加工。本文的研究结果可以为此理论提供部分依据。本文实验结果所得到的P1和N2成分波形明显,尤其是N2成分,在不同情感数据库中其峰值和潜伏期几乎都有显著性差异。这说明N2的峰值很可能与情感的显著性感知有关,而其潜伏期很可能与语义加工的时间进程有关,无语义加工时N2的潜伏期缩短,有语义加工时N2的潜伏期延迟。对于P1成分而言,本文的实验发现,似乎在正性情感的ERP波形比较时,P1的峰值和潜伏期主效应显著,而在负性情感的ERP波形分析时,没有发现显著性差异。

5 结论

本文主要采取ERP的方法研究不同语种的情感语音及非言语情感声音。根据ERP波形距离起始点200 ms左右的成分,本文推测人脑对熟悉的情感语言更具有敏感性(波幅更大),且在言语声音和非言语声音的比较中,发现人脑对非言语情感声音的处理上要快于言语情感声音(潜伏期短)。尽管本文在此方面得到了相关结论,但是关于该方面研究还有很多问题需要探索和改进。例如,不同的实验范式会直接影响ERP的波形和成分,导致实验结果的不同,因此可以针对不同的研究内容有针对性地选择实验范式。虽然有些学者认为实验结果的差异还与实验设备及条件有关,但是对于语音信号的ERP研究,由于它不同于图像信息,它所承载的信息必须以时间作为媒介,因此在实验材料的筛选和处理上,如何使刺激材料中的声学信号在时间上呈现同步性,也需要进一步研究。

参考文献
[1] 孙颖, 姚慧, 张雪英, 等. 基于混沌特性的情感语音特征提取[J]. 天津大学学报:自然科学与工程技术 , 2015, 48 (8) : 681–685. SUN Ying, YAO Hui, ZHANG Xueying, et al. Feature extraction of emotional speech based on chaotic characteristics[J]. Journal of Tianjin University: Science and Technology , 2015, 48 (8) : 681–685. (in Chinese)
[2] Meng X, Yuan J, Li H. Automatic processing of valence differences in emotionally negative stimuli: Evidence from an ERP study[J]. Neuroscience Letters , 2009, 464 (3) : 228–232. DOI:10.1016/j.neulet.2009.08.064
[3] Rohaut B, Faugeras F, Chausson N, et al. Probing ERP correlates of verbal semantic processing in patients with impaired consciousness[J]. Neuropsychologia , 2015, 66 : 279–292. DOI:10.1016/j.neuropsychologia.2014.10.014
[4] 曹晓华, 李超, 张焕婷, 等. 字词认知N170成分及其发展[J]. 心理科学进展 , 2013, 21 (7) : 1162–1172. CAO Xiaohua, LI Chao, ZHANG Huanting, et al. N170 component in words processing: The development and its mechanisms[J]. Advances in Psychological Science , 2013, 21 (7) : 1162–1172. DOI:10.3724/SP.J.1042.2013.01162 (in Chinese)
[5] Rabovsky M, McRae K. Simulating the N400 ERP component as semantic network error: Insights from a feature-based connectionist attractor model of word meaning[J]. Cognition , 2014, 132 (1) : 68–89. DOI:10.1016/j.cognition.2014.03.010
[6] Lepistö T, Kujala T, Vanhala R, et al. The discrimination of and orienting to speech and non-speech sounds in children with autism[J]. Brain Research , 2005, 1066 (S1/2) : 147–157.
[7] 席洁, 张林军, 张亚静, 等. 言语和非言语信号加工的早期分离:来自ERP研究的证据[J]. 心理科学 , 2010 (2) : 258–261. XI Jie, ZHANG Linjun, ZHANG Yajing, et al. The early dissociation of speech and nonspeech sounds: An ERP study[J]. Psychological Science , 2010 (2) : 258–261. (in Chinese)
[8] Schirmer A, Kotz S A. Beyond the right hemisphere: Brain mechanisms mediating vocal emotional processing[J]. Trends in Cognitive Sciences , 2006, 10 (1) : 24–30. DOI:10.1016/j.tics.2005.11.009
[9] Belin P, Fecteau S, Bedard C. Thinking the voice: Neural correlates of voice perception[J]. Trends in Cognitive Sciences , 2004, 8 (3) : 129–135. DOI:10.1016/j.tics.2004.01.008
[10] Paulmann S, Pell M D, Kotz S A. How aging affects the recognition of emotional speech[J]. Brain and Language , 2008, 104 (3) : 262–269. DOI:10.1016/j.bandl.2007.03.002
[11] Paulmann S, Ott D V M, Kotz S A. Emotional speech perception unfolding in time: The role of the basal ganglia[J]. PLoS One , 2011, 6 (3) : e17694. DOI:10.1371/journal.pone.0017694
[12] Pinheiro A P, Vasconcelos M, Dias M, et al. The music of language: An ERP investigation of the effects of musical training on emotional prosody processing[J]. Brain and Language , 2015, 140 : 24–34. DOI:10.1016/j.bandl.2014.10.009