面向情感语音合成的言语情感描述与预测
高莹莹 , 朱维彬     
北京交通大学 信息科学研究所, 北京 100044
摘要:针对情感语音合成系统中情感的细腻刻画与自动预测问题,提出多视角情感描述模型,从认知评价、心理感受、生理反应和发音方式4个方面刻画言语情感的产生过程和衍化机制;引入能够支持分布式特征且具有堆叠结构的多层神经网络--深层堆叠网络构建从文本到情感描述的预测模型。实验结果表明在预测模型中引入不同情感成分和上下文信息作为特征有助于提升预测效果,验证了采用深层堆叠网络进行情感预测的有效性与多视角情感描述模型的合理性。
关键词语音合成     情感描述     文本情感预测     深层神经网络    
Describing and predicting affective messages for expressive speech synthesis
GAO Yingying, ZHU Weibin     
Institute of Information Science, Beijing Jiaotong University, Beijing 100044, China
Abstract:A multi-perspective emotion model is presented to provide more details about the emotions in expressive speech synthesis and to facilitate automatic predictions. The method describes the emotion development in terms of the cognitive appraisal, psychological feeling, physical response and utterance manner. The descriptive model is used to develop a text-based emotion prediction model using a deep neural network (the deep stacking network), which supports distributed representation and has a stacking structure. Tests validate the benefits of using this prediction method for the interactions among different emotional aspects and the contextual impacts, as well as the effectiveness of the deep stacking network and the multi-perspective emotion model.
Key words: speech synthesis     emotion description     text-based emotion prediction     deep neural network    

随着语音合成技术的日趋成熟,合成语音在清晰度、可懂度乃至自然度方面均已取得较好表现,如何进一步提升合成语音的表现力,赋予其丰富的语气和感情色彩,成为该领域亟待突破的方向。

目前,情感语音合成的研究主要围绕情感状态与语音声学特征的关联关系进行[1-4]。情感通常被描述为4~8种离散的类别[5],或者被映射到一个2~3维的超低维空间[6-7]。情感状态通常由人工指定,与文本特征一起作为输入传送给TTS (text-to-speech) 系统。如何刻画更加细腻的情感表达和情感衍化过程,以及如何建立基于文本分析的情感预测机制,是情感语音合成研究必须面对的问题,也是本文的主要研究内容。

近年来,认知评估理论[8]逐渐被情感语音和情感计算的研究者接受并采纳。在该理论中,情感由对过去经验和当前情境的评估触发,涉及认知、动机、感受、生理、表情等一系列变化,评估结果决定其他部分的反应,反应结果又会反馈回去影响评估的结果。情感不再拘泥于有限数目的离散状态,而是形成情感的分布式表示,内部构造及其发展衍化过程也可得到体现。基于认知评估理论,本文作者提出了专门针对言语情感产生机制的描述模型[9],模型从认知、心理、生理和发音4个视角刻画情感,各视角内容分别表示为一个由若干维度支撑的超平面;各超平面构成体现言语情感内部复杂结构的多层立体空间。

本文基于该模型,构建了由文本到情感的预测模型。模型主要考虑两方面因素:1) 情感产生过程中各成分间的相互影响;2) 上下文语境对于当前所分析文本单元的影响。针对情感描述的分布式表示,引入能够逐层抽取数据分布式特征的多层神经网络--深层堆叠网络[10]实施模型的计算。各成分间以及上下文的影响采用特征选择的方式进行测试。虽然模型输入是篇章级文档特征,但情感分析单元定为句子级,一方面由于句子比短语和词包含更丰富的语义和情感信息, 另一方面由于句子级情感比篇章级情感更细腻,能反映篇章或段落内部情感的衍化。

1 多视角情感描述模型

首先,基于对播音员将稿件由文本形式转换为有声语言输出的过程分析,对情感语音合成系统由文本输入到情感语音输出的过程作出假设:文本分析→认知评价→心理感受→生理反应→发音方式调整。后面4步与言语情感生成直接相关,分别对应着言语情感生成过程中在认知、心理、生理和行为上发生的变化,构成言语情感的4种成分。各步骤之间存在直接或间接的相互影响。图 1给出在不考虑反馈的情况下,从输入文本生成言语情感的过程及其内部关系[9]。文本分析的结果作为原始输入依次输送给每个子模块,每个子模块的结果会对其后续模块产生影响。发音方式的描述作为系统最终的情感标注信息输出,形成情感描述到语音声学特征变化的衔接。

图 1 言语情感产生过程示意图[9]

各部分的具体表示采用维度表示、离散类别表示和层级表示相结合的方式,如图 2所示[9]

图 2 多视角情感描述模型[9]

1) 认知评价:对稿件内容的整体倾向性评估,并对要采取的话语样式作出预判。采用5维表示法。其中:“否定-肯定”是话语内容倾向性的主导维度,“冷漠-热情”辅助刻画说话人的态度。话语样式以“非正式-正式”为主导维度,主要负责语言规整性等相关特征的描述,“委婉-直接”和“柔和-强硬”2维辅助刻画话语样式的更多细节,如吐字力度、气息控制等。

2) 心理感受:评估结果引发的心理反应和主观体验。采用离散表示与层级表示相结合的方法,汇总中文情感词中常用来形容心理感受的词语,先进行一定规模的人工分类,然后基于该结果建立相似性矩阵并进行层次聚类,得到心理感受的层级表示(由于篇幅限制,图 2只列出部分结果,详见文[9])。层级表示克服了离散类别表示方法中类别数目难以确定的问题,根据不同需要可以选择不同的划分粒度,不同类别间的派生关系也得以体现。

3) 生理反应:个体的生理唤起水平以及机体对于这些反应的控制。分别由激活度和控制度2个维度刻画。这里的控制度与心理学模型中所指的对于周围场景的控制有所不同,这里强调个体对自身反应的控制。

4) 发音描述:对于发音方式的估计。从超音段和音段水平提取了刻画韵律和音质特征的7个维度。其中,韵律特征是情感在语音上的主要体现,包含音高、语速、音节是否粘连以及语调、节奏的变化等特征;音质特征也与情感表达有一定关联,包含声音的明亮度和饱满度。相比于认知、心理和生理等情感信息,发音描述与声学特征的对应关系更为明确、清晰,是连接情感信息与语音声学特征的桥梁。

不同类别或维度构成了言语情感的向量表示,每个类别或维度又有“无”“弱”“中”“强”不同程度的划分。其中,心理感受和生理状态用“0”“1”“2”“3”4级刻度表示,认知评价和发音描述具有正负区分性,用“-3”“-2”“-1”“0”“1”“2”“3”7级刻度表示。

2 多尺度文本-情感预测

影响情感产生的因素有很多,本文关注的是由语言符号(文字) 刺激产生的言语情感。主要考虑两方面的影响因素:1) 言语情感产生过程中各步骤之间的相互影响;2) 上下文语境对于当前所分析单元的影响。图 3给出结合这两方面因素的情感预测模型示意图。其中,各步骤之间的影响通过将前面模块的输出累加到后面模块作为部分输入的方式实现,图 3(每个层级内部的弯箭头) 出于可观性考虑仅给出方向指示性连接,实际实现过程中前面模块的所有输出均可累积输送给后面模块。

图 3 多尺度文本-情感预测模型

上下文语境的影响可以有两种实现方式:1) 大尺度文本单元对小尺度文本单元的影响,相对于句子级来说,篇章级和段落级是更大尺度的文本单元,可以为句子级的情感预测提供宏观参考(图 3中垂直箭头,篇章级的情感输出也可输送给句子级,同样出于可观性考虑图 3中未画出)。不同尺度间的影响未采用全连接的方式,大尺度单元的情感输出仅输送给小尺度单元下相同的情感模块。例如,篇章级认知评价模块输出仅输送给段落级或句子级的认知评价模块。2) 上下文影响可以由同一尺度单元下前面单元的情感预测信息提供,这种方式比宏观参考的方式更具实时性,但是不如宏观方式提供的上下文信息完整、全面。本文采用两种方式相结合的方式。因为本文模型支持多尺度文本单元的情感分析,并考虑了不同尺度信息间的影响和融合,因此称为多尺度文本-情感预测模型。

2.1 文本分析

文本到情感的预测首先需要对输入文本进行特征提取,包括:分词与特征词提取、文本分割和特征降维。

2.1.1 分词与特征词提取

本文采用张华平的NLPIR汉语分词系统(又名ICTCLAS 2014) 进行分词处理。将特征词分为情感词和内容词。情感词即有明显情感倾向性的词语,如果只采用这部分词语作为特征词,将发生特征过于稀疏、部分语句不包含特征词的情况。内容词是与语义理解相关的实词,与情感判别也具有一定关联性,因此也作为特征词。内容词的获取采用将功能词等虚词过滤的办法;情感词的提取利用HowNet提供的情感词词表进行过滤,包含感受词、评价词和程度词几类。不同任务选用不同的特征组合,如:心理感受的预测选用感受词、程度词和内容词,认知评价的预测选用评价词、程度词和内容词,生理状态则只用程度词和内容词,发音描述采用全部4种特征词。

2.1.2 文本分割

因为涉及到不同尺度文本单元的情感预测,需要将篇章级的文档分割成段落和句子。句边界通过标点符号判断。段边界通过基于主题的文本分割方法[11]获取,该方法认为同一段内的主题相似性较高。首先提取文档的主题模型;然后将句子视为基本单元,用主题向量表示每句话,向量长度为主题数,向量每个元素为该句话中出现当前位置词语对应主题的次数;通过主题向量计算每两个相邻句子的余弦相似性;再利用余弦相似性计算两个相邻句子间的“深度”,如式(1) 所示。其中:si表示第i个句子间隔的余弦相似性,liri分别是其左右两边余弦相似性的峰值。深度di用来衡量句子余弦相似性的变化,当深度值大于某一阈值(本文使用μ+σ/2, μ为深度的均值,σ为标准差),则该位置被认为是前后主题变化较大的点,即段边界。

$ {d_i}=\left({{l_i}+{r_i}-2{s_i}} \right)/2. $ (1)
2.1.3 特征降维

向量空间模型(vector space model, VSM) 是最常用的文本特征表示方式,向量长度为词典中所含词语的个数,每个元素为该词语在当前文档出现的频数。这种表示方法忽略了词语间的语义关联,还由于词典中词语过多而增加了预测模型的复杂度和对训练样本的需求。本文使用一种语义分析模型--潜在Dirichlet分配(latent Dirichlet allocation,LDA) 模型[12]来对文本的向量空间表示进行降维。LDA模型也被称作主题模型,通过在文档与词语之间增加一个语义空间来抽取文档的语义信息,该空间的每个维度称作一个主题,每个主题由词语的概率分布表示,每篇文档则表示成这些主题的概率分布,该“文档-主题”分布被用作文本特征的降维表示。

2.2 情感预测

由于该任务中情感由一个具有多层空间结构的复杂模型描述,每种成分具有多个维度,每个维度又具有不同的程度区分,因此引入能够表示这种分布式特征且具有分层结构的多层神经网络--深层堆叠网络作为计算模型。除具有多层神经网络的分层特性和强大的非线性学习能力,深层堆叠网络还可以很方便地实现不同子任务的独立训练和影响的逐层传递。此外,采用受限Boltzmann机(restricted Boltzmann machine,RBM)[13]进行网络的初始值训练,可以加快网络的收敛速度;其非监督生成特性还可以引入大量的无标注样本参与模型的训练,提升模型的泛化能力,实现网络的半监督学习。

深层堆叠网络由一系列具有相同结构的子模块堆叠而成,每个子模块为含单一隐含层的神经网络。本例中每个子模块的输出层与各情感成分对应,每个节点对应情感成分的一个维度。各模块间的影响通过将前面模块的输出堆叠到下一模块的输入层实现,同时原始输入也始终保留。各模块的结构与模块间连接如图 4所示。

图 4 深层堆叠网络模块结构和连接关系示意图

网络的训练以模块为单位进行,分为无监督的预训练(参数初始化) 和需要少量标注数据的基于目标任务的微调两步。预训练由RBM完成,通过可视层(输入层) 与隐含层的相互映射反复重建的过程实现对网络参数的初始化;微调阶段基于矩阵形式的反向传播(back-propagation,BP) 算法进行有监督训练。具体步骤参见文[14-15]。

3 实验与分析 3.1 准备工作 3.1.1 数据集

语料库采用由专业播音员录制的新闻言语数据库,单一女性发音人,共包含600篇新闻播音,可以切分成1 138段和1 624句(其中包含一部分只含1~2句的短文本),平均句长55字。对其中150篇(共461段和661句) 进行基于多视角情感模型的情感标注。标注由3名专业人员进行,对篇章级、段落级和句子级的情感均进行标注,3人标注结果通过Gauss加权整合成最终的标注信息。

3.1.2 评价指标

针对情感的多维空间表示,采用能够刻画空间距离的均方根误差(root-mean-square-error,RMSE) 作为网络性能的评价指标,RMSE越小,网络性能越好。

$ {\rm{RMSE=}}\sqrt {\sum\limits_k^N {{{\left\| {{y_k}-{t_k}} \right\|}^2}/N} }. $ (2)

其中: k为样本索引,N为测试样本数,yk为预测模型输出向量,tk为标注数据。

3.1.3 参数设置

采用主题模型进行特征降维,文本特征维度由主题数决定,在一定范围内增加主题数有助于提升主题模型对于数据集的刻画能力,但维度过多会增加预测模型的时间和空间开销,在样本有限的情况下还易造成过拟合。经测试将主题数设为40。神经网络隐含层节点数设为10,迭代次数设为10,经测试继续增加迭代次数会降低训练速度且不会使结果有明显改善。因为标注样本有限,所以采用十折交叉验证的方法进行性能验证,同时由于神经网络预测结果的随机性,运行20次十折交叉验证,取其平均结果作为最终预测结果。

3.2 情感成分间的影响

本实验旨在测试不同成分间的相互影响。采用特征选择的方式,将在目标成分之前生成的情感成分(不考虑反馈) 与文本特征一起作为输入特征,与不加入其他成分的预测结果对比。表 1给出不考虑反馈情况下各种成分所有可能的预测方式和结果。

表 1 加入不同情感成分的预测结果
预测目标特征组合RMSE
认知评价文本特征2.21
心理感受文本特征
文本特征+认知
1.55
1.55
生理反应文本特征
文本特征+认知
文本特征+心理
文本特征+认知+心理
0.62
0.61
0.60
0.60
发音描述文本特征
文本特征+认知
文本特征+心理
文本特征+生理
文本特征+认知+心理
文本特征+认知+生理
文本特征+心理+生理
文本特征+认知+心理+生理
2.37
2.26
2.28
2.31
2.21
2.26
2.27
2.18

表 1可以看出,认知的加入对于心理感受的预测作用不明显,这可能与表示认知的特征维度明显少于文本特征维度有关。认知和心理的加入对生理反应的预测略有帮助,心理的作用略优于认知。加入认知、心理和生理作为输入对发音描述的预测均有明显促进作用,两两组合的效果优于仅加入一种其他成分,加入3种成分的效果最优。最终加入认知、心理和生理成分作为输入特征使发音描述的预测误差相对降低了8%。下文的实验均采用表 1中加黑的特征组合式构成各预测模块的输入特征。

表 1中还显示,4种成分的预测误差差别较大,这与RMSE的计算方式有关,RMSE衡量的是多维表示的空间距离,与维度有关,如:发音描述计算的是预测结果与标注值在7个维度上的距离平方和,而生理反应的描述空间只有2维。因此,当希望知道每一维度上的预测误差,需要根据公式${\rm{RMS}}{{\rm{E}}_{{\rm{per - dim}}}}=\sqrt {{\rm{RMS}}{{\rm{E}}^2}/\dim } $对RMSE进行转换,dim为各成分对应的维度数。转换之后认知、心理、生理和发音4种成分平均每个维度上的预测误差分别为0.99、0.24、0.42和0.82,认知和发音为7级刻度,误差比其他2种成分的误差稍大,但均可视作可接受的偏差。

3.3 上下文影响

本实验考察上下文语境对于当前分析单元情感预测的影响。上文提到2种加入上下文影响的方式: 1) 通过在输入信息中加入更大尺度单元相应的情感成分实现,2) 通过在输入信息中加入相同尺度下前一单元的情感成分实现。当前分析单元为句子,篇章和段落信息为更大尺度信息,提供较为全局的参考,前一句的情感信息提供局部的参考。同一尺度内采用加入其他所有情感成分作为特征的方式进行预测。

表 2给出加入篇章和段落的情感预测信息对句子级情感预测的影响。可以看出,分别加入篇章级和段落级情感信息对句子级情感各成分的预测均有促进作用(对“生理反应”的提升效果相对不明显,这可能由于该成分预测误差本来就小,因此提升空间不大)。篇章级信息的影响比段落级明显,同时加入篇章级和段落级信息的效果略差于只加入篇章级信息,这可能是由于输入特征维度过多而引起了过拟合。只加入篇章级信息,认识、心理、生理和发音4种成分的预测误差分别降低了20%、5%、2%和8%。

表 2 加入篇章级和段落级情感信息的情感预测结果
特征组合RMSE
认知评价心理感受生理反应发音描述
sen2.171.540.592.15
sen+doc1.731.460.581.97
sen+para1.791.480.592.08
sen+doc+para1.741.450.591.99
注:sen表示句子级文本和情感特征;doc表示篇章级情感预测信息;para表示段落级情感预测信息。

表 3给出加入前一句情感信息对当前句情感预测的影响,以及同时加入篇章级和前一句情感信息作为上下文语境的结果。可以看出,加入前一句情感信息也可以提升当前句的预测效果;同表 2对比可以看出,前一句的影响效果不如篇章级的影响显著;同时加入篇章级和前一句的情感信息对部分成分的预测效果略好于只加入篇章级信息,认知、心理、生理和发音4种成分误差分别降低了17%、7%、3%和9%。

表 3 加入前一句情感信息的情感预测结果
特征组合RMSE
认知评价心理感受生理反应发音描述
sen2.171.540.592.15
sen+pre1.961.510.582.05
sen+doc+pre1.801.440.571.96
注:pre表示前一句情感信息。

综上所述,言语情感预测中加入其他成分的相互影响以及上下文语境的影响均有助于预测效果的提升;采用大尺度文本单元和前一单元的预测信息均可提供上下文参考,大尺度单元的方式更有效,实现起来也更容易。

4 总结与展望

为实现语音合成中情感的细腻刻画,提出融合了认知、心理、生理和发音多方面内容的多视角情感描述模型,并对它们之间的相互关系依据言语情感产生过程进行设定。发音描述作为连接情感信息和语音声学特征的桥梁,可以得到更为明确、具体的声学特征映射关系。依据多视角情感描述模型,采用深层堆叠网络,构建了基于文本分析的情感预测模型,该计算模型综合考虑了不同情感成分以及不同尺度或不同文本单元间的相互影响,验证实验表明加入这些因素均有助于提升模型的预测效果。

基于文本的情感分析属于情感语音合成系统语言模型的一部分,接下来的工作将尝试进行与声学模型的对接,实现情感的语音学表达。

参考文献
[1] Govind D, Prasanna S R M. Expressive speech synthesis:A review[J]. International Journal of Speech Technology, 2013, 16(2): 237–260. DOI:10.1007/s10772-012-9180-2
[2] 徐俊, 蔡莲红. 面向情感转换的层次化韵律分析与建模[J]. 清华大学学报:自然科学版, 2009, 49(S1): 1274–1277. XU Jun, CAI Lianhong. Hierarchical prosody analysis and modeling for emotional conversions[J]. J Tsinghua Univ:Sci & Tech, 2009, 49(S1): 1274–1277. (in Chinese)
[3] TAO Jianhua, KANG Yongguo, LI Aijun. Prosody conversion from neutral speech to emotional speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1145–1154. DOI:10.1109/TASL.2006.876113
[4] 韩纪庆, 邵艳秋. 基于语音信号的情感处理研究进展[J]. 电声技术, 2006(5): 58–62. HAN Jiqing, SHAO Yanqiu. Research progress of emotion processing based on speech signal[J]. Audio Engineering, 2006(5): 58–62. (in Chinese)
[5] Ekman P, Friesen W V, O'Sullivan M, et al. Universals and cultural differences in the judgments of facial expressions of emotion[J]. Journal of Personality and Social Psychology, 1987, 53(4): 712–717. DOI:10.1037/0022-3514.53.4.712
[6] Cowie R, Douglas-Cowie E, Savvidou S, et al. FEELTRACE:An instrument for recording perceived emotion in real time[C]//ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion. Newcastle, UK, 2000:19-24.
[7] Mehrabian A. Pleasure-arousal-dominance:A general framework for describing and measuring individual differences in temperament[J]. Current Psychology, 1996, 14(4): 261–292. DOI:10.1007/BF02686918
[8] Moors A, Ellsworth P C, Scherer K R, et al. Appraisal theories of emotion:State of the art and future development[J]. Emotion Review, 2013, 5(2): 119–124. DOI:10.1177/1754073912468165
[9] 高莹莹, 朱维彬. 言语情感描述体系的试验性研究[J]. 中国语音学报, 2013, 4: 71–81. GAO Yingying, ZHU Weibin. The research for the description system of speech emotion[J]. Chinese Journal of Phonetics, 2013, 4: 71–81. (in Chinese)
[10] DENG Li, YU Dong, Platt J. Scalable stacking and learning for building deep architectures[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, Japan, 2012:2133-2136.
[11] Riedl M, Biemann C. Text segmentation with topic models[J]. Journal for Language Technology and Computational Linguistics, 2012, 27(1): 47–69.
[12] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993–1022.
[13] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. DOI:10.1126/science.1127647
[14] Hinton G. A practical guide to training restricted Boltzmann machines[J]. Momentum, 2010, 9(1): 599–619.
[15] YU Dong, DENG Li. Accelerated parallelizable neural network learning algorithm for speech recognition[C]//12th Annual Conference of the International Speech Communication Association (INTERSPEECH). Florence, Italy:ISCA Press, 2011:2281-2284.