融合VAD情绪知识的文本情感分布标签增强方法
王耀琦, 万中英, 曾雪强, 左家莉    
江西师范大学 计算机信息工程学院,南昌 330022
摘要:情感分布学习(emotion distribution learning, EDL)采用情感分布记录给定样本在各个情绪上的表达程度,在处理具有模糊性的多标签情绪分析任务时具有明显优势。情感分布标签增强技术将已标注的情绪单标签增强为情感分布,可以解决EDL缺乏已标注情感分布的实验数据集的问题。然而,已有的情感分布标签增强方法采用离散空间情绪模型表示情绪,存在情绪间的相关信息丢失和情绪表达不连续等问题。针对上述问题,该文引入基于连续维度的效价-唤醒-支配(valence-arousal-dominance,VAD)心理学情绪模型,提出融合VAD情绪知识的文本情感分布标签增强方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VADLE方法基于先验的VAD情绪模型中的情绪距离,先为英文句子的真实情绪标签和句中情感词的情绪标签分别生成先验情感分布,再通过分布叠加将2种先验情感分布统一。通过英文单标签文本情感数据集的对比实验表明:VADLE方法在情绪预测任务方面的性能优于已有的情感分布标签增强方法。
关键词情感分布标签增强    情感分布学习    VAD情绪空间    情感词典    
Valence-arousal-dominance emotion knowledge-based text emotion distribution label enhancement method
WANG Yaoqi, WAN Zhongying, ZENG Xueqiang, ZUO Jiali    
School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022, China
Abstract: [Objective] Existing emotion distribution label enhancement (EDLE) methods construct the emotion distribution based on a discrete spatial emotion model; hence, expressing the correlation between emotions in a granular manner with continuous values is challenging. Therefore, herein, a valence-arousal-dominance(VAD) emotion knowledge-based text emotion distribution label enhancement (VADLE) method is proposed based on the VAD continuous-dimensional psychology emotion model. [Methods] Unlike existing EDLE methods, VADLE uses VAD emotion knowledge in a three-dimensional continuous space to model emotion correlations and generate a more nuanced emotion distribution. The VADLE method comprises several steps: (1) Extraction of emotion word information via referencing lexicon and extracting emotion words from a given sentence. (2) Generation of priori emotion distributions for emotion labels using a local linear-weighting algorithm. The algorithm measures the effect of secondary emotion on the primary emotion based on the VAD emotional spatial distance and assigns weights to nearby emotions using a Gaussian kernel. (3) Construction of sentence-level emotion distribution by combining the prior emotion distributions of sentence and textual emotion words. Furthermore, this study uses joint loss to train a multitask emotion distribution learning model based on the robustly optimized bidirectional encoder representations from transformers pretraining approach (RoBERTa) pretrained language model. This approach simultaneously optimizes the prediction of emotion distribution and classification. The sentence text features extracted using the RoBERTa pretrained model are then passed through a fully connected layer to generate a probability distribution over all emotion labels. Based on this probability distribution, the model utilizes the Kullback-Leibler (KL) loss for measuring the distance between the predicted and actual distributions, optimizing the emotion distribution prediction task. Simultaneously, cross-entropy loss is employed for optimizing the emotion recognition task. To evaluate the performance of the proposed VADLE method, extensive comparative experiments is performed on several single-label English datasets using four baseline EDLE methods: emotion wheel and lexicon-based emotion distribution label enhancement (EWLLE), lexicon-based emotion distribution label enhancement (LLE), Mikels emotion wheel-based emotion distribution label enhancement (MWLE), and One-Hot. Moreover, this study explores the effect of the bandwidth parameter (τ) in the local linear-weighting algorithm on the balance between the primary and secondary emotions in the generated emotion distribution. [Results] The performance of the model's emotion prediction was assessed using four classification evaluation metrics (Precision, Recall, F1-score, and Accuracy) and four emotion distribution prediction metrics (Canberra, Chebyshev, Cosine, and Intersection). The experimental results demonstrated that the VADLE method was superior to the baseline methods. Specifically, the VADLE method achieved superior performance on the emotion classification task over the EWLLE, LLE, and MWLE methods across all four indicators. The VADLE method also exhibited excellent performance for the emotion distribution prediction task. For instance, on the Cosine metric, the VADLE method outperformed the suboptimal EWLLE method by 2.6% and exhibited considerable improvements over the LLE, MWLE, and One-Hot methods. The results showed that the optimal balance could be achieved by setting τ to 0.6, enabling the highest level of performance in the emotion distribution generation. [Conclusions] Unlike existing EDLE methods, the VADLE method employs a fine-grained approach to studying emotions. It combines the prior emotion knowledge in the VAD continuous space with the linguistic information inherent in the sentiment words for generating more reasonable emotion distributions. Experimental results reveal that the VADLE method outperforms existing methods in terms of enhancing the emotion distribution labels in emotion prediction tasks.
Key words: emotion distribution label enhancement    emotion distribution learning    VAD emotion space    affective lexicon    

情感分析的目标是对文本、图片和视频等数据中蕴含的人类情感倾向进行分析与挖掘。随着社交媒体快速发展,基于文本的情绪识别在舆情分析[1]、问答服务[2]和商品推荐[3]等领域展现出重要的应用价值。传统的情绪识别方法采用多标签学习范式[4]处理多情绪识别任务,但不能对多种情绪的表达程度进行定量建模[5]。情感分布学习(emotion distribution learning, EDL)是一种新兴的机器学习范式,在处理具有情绪模糊性的分析任务时具有明显优势[6]。EDL借鉴标签分布学习(label distribution learning, LDL)[7]的研究思路,采用情感分布定量记录给定示例在各种情绪上的表达程度,能够有效处理多情绪识别任务。近年来,学者们提出了多个有效的EDL方法。例如,Wu等[8]使用图卷积网络对图片进行双耦合学习,提出了DoubledIEDL(double image emotion distribution learning)方法,通常用于图像EDL;Qin等[9]提出了一种基于非负矩阵三因式分解的跨领域EDL约束优化方法;在基于最大熵改进的EDL方法中,Jia等[10]提出了一种在优化目标中考虑标签相似样本簇局部相关性的EDL方法。在实验中,以上EDL方法的性能表现均优于传统情绪识别方法。

EDL领域面临的一个重要难题是缺乏人工标注情感分布的实验数据集[11-13]。现有的情感数据集中,虽然存在大量的单标签情感数据集,但仅有少量已进行多情绪定量打分的数据集(如SemEval[14]等)能通过简单的标签归一化得到EDL训练需要的情感分布。为利用现有的大量单标签情感数据集,学者们采用了一种更有效的情感分布标签增强(emotion distribution label enhancement, EDLE)方法。EDLE方法的目标是在已标注句子的真实情绪的基础上,以某些情绪信息为样本构建对应的情感分布[15]。Yang等[11]基于心理学先验知识,提出了基于Mikels情感轮[16]的EDLE方法(Mikels emotion wheel based emotion distribution label enhancement, MWLE)。Zhang等[12]通过提取情感词典中情感词的情绪信息,提出了一种基于情感词典的EDLE方法(lexicon based emotion distribution label enhancement, LLE)。曾雪强等[13]融合情感心理学知识和情感词的语言学信息,提出了基于情感轮和情感词典的EDLE方法(emotion wheel and lexicon based emotion distribution label enhancement, EWLLE)。以上EDLE方法借助基于离散空间情绪模型的先验知识构建情感分布,为句子的真实情绪补充丰富的情感信息,取得了较好的实践效果。然而,离散空间情绪模型中的情绪关联通常表示为有限的取值,导致情绪间的相关信息丢失和情绪表达不连续;而连续空间情绪模型利用连续值定义情绪,能更好地捕捉各种情绪的潜在关系。离散空间情绪模型的情绪表达能力弱于连续空间情绪模型,难以精细地表达情绪间的相关性。

针对上述问题,本文基于效价-唤醒-支配(valence-arousal-dominance,VAD)心理学情绪模型可以在连续情绪空间计算成对情绪间的距离的先验特征,提出了融合VAD情绪知识的文本EDLE方法(VAD emotion knowledge-based text emotion distribution label enhancement, VADLE)。VAD情绪模型能在三维连续空间中定义情绪类别,具有比离散空间情绪模型更强的情绪表达能力。首先,VADLE方法通过查找情感词典提取给定句子中的情感词,并得到情感词所关联的情绪标签集合;其次,基于VAD情绪知识为给定句子的真实情绪标签和给定句子中情感词的情绪标签分别生成先验情感分布;最后,将生成的真实情绪标签分布和情感词标签分布叠加成统一的情感分布。

1 情感标签增强方法 1.1 情感分布学习

人脸呈现某种情绪时会有多种面部表情,同样,文本的真实情绪也是由多种情绪混合表达体现的[17]。每种情绪都对文本的真实情绪做出一定贡献,各种表达程度不同的情绪共同构成了文本的真实情绪的情感分布[6]。在传统的单标签文本情绪识别任务中,EDL[6]可以将一个句子的真实情绪标签映射为情感分布。与One-Hot向量不同,情感分布可同时定量表示多种情绪。此外,情绪的表达程度大于零,可认定该情绪在情感分布中表达有效;情绪表达程度不同,情绪在情感分布中的重要程度不同。

1.2 情感分布标签增强方法

由1.1节可知,每种情绪都对句子文本的真实情绪做出一定贡献,各种表达程度不同的情绪共同构成了句子文本的真实情绪的情感分布。若句子文本的真实情绪在句子文本情感表达中占主导地位,则其在生成的情感分布中获得最高得分,为主要情绪,其他在情感分布中获得得分的情绪为次要情绪。现有的大部分EDLE方法的研究思路是适当降低主要情绪的表达程度,同时提高某些次要情绪的表达程度。各种EDLE方法的主要区别在于次要情绪的得分策略不同[18]。情感分布标签增强示例如图 1所示。其中:1为愤怒, 2为厌恶, 3为悲伤, 4为惊讶, 5为恐惧, 6为高兴。EDLE方法利用情绪间的相关性,将句子文本的真实情绪标签“悲伤”扩展为一个情感分布。

图 1 情感分布标签增强示例

1.2.1 基于情感轮的情感分布标签增强方法

MWLE方法[11]依据情感轮中相邻情绪具有正相关性及对角位置的情绪具有负相关性的特点,定义2种情绪之间的距离(情绪距离)为2种情绪在情感轮中对应的间隔角度,情绪每间隔45°,距离定义为1。间隔角度越小,距离越近,2种情绪的正相关性也越大。MWLE方法的主要步骤是先基于Mikels情感轮度量情绪间的心理学距离,再采用Gauss分布将句子文本的情绪标签α转化为情感分布fαα∈{1,2,…,C},表示如下:

$ \begin{gathered} \boldsymbol{f}_\alpha=\left\{f_\alpha^e\right\}_{e=1}^C \\ f_\alpha^e=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{|e-\alpha|^2}{2 \sigma^2}\right). \end{gathered} $ (1)

其中:fαefα的一个分量;σ为离散Gauss分布的标准差,σ=1; 情绪标签eα表示的情绪分别为MeMα,|eα|为情绪Me与情绪Mα基于情感轮计算的情绪距离。

MWLE方法将情绪先验知识引入机器学习模型,考虑了情绪相关性。但MWLE方法仅针对人脸情绪识别,未考虑句子文本分析中的语言学信息,且情绪相关性仅依据二维平面上的离散值计算进行构建。

1.2.2 基于情感词典的情感分布标签增强方法

情感词是带有不同强度情绪倾向性的词语,通常基于语言学知识关联某些情绪标签[19]。LLE方法通过查询情感词典,提取句子文本中情感词对应的情绪标签,并且在句子的真实情绪标签之外通过引入情感词信息生成情感分布。LLE[12]方法的具体流程如下:给定句子文本和句子文本的真实情绪标签,通过查询情感词典提取出句子文本中的所有情感词,并得到所有情感词对应的情绪标签集合。若句子文本中没有情感词,则情感分布使用One-Hot向量代替;否则,LLE方法会先在情感分布中赋予真实情绪标签某个分数值(如0.8[19]),再将剩余的分数值(分数值总和为1.0)分配给各情感词的情绪标签。

虽然LLE方法相比仅考虑句子真实情绪标签的EDLE方法具有更好的性能,但情感词典中的情绪分类存在情感联系受限的局限性[20],基于情感词典的LLE方法未考虑情绪间存在的高度相关性。

1.2.3 基于情感轮和情感词典的情感分布标签增强方法

情绪相关性建模与情感词信息提取这两者对句子文本情绪识别的有效性是基于情感轮和情感词典的EWLLE方法主要考虑的问题。EWLLE方法的具体流程如下:首先,通过查询情感词典提取句子文本的所有情感词,并得到所有情感词对应的情绪标签集合;其次,计算情感轮上成对情绪间的距离,进而将句子文本的真实情绪标签和情感词情绪标签扩展为离散的情感分布;最后,将包含真实情绪信息与情感词信息的2种分布统一叠加,得到综合的情感分布。

虽然EWLLE方法综合了情感轮和情感词典的优势,将句子真实情绪信息与情感词信息叠加,获得了更好的情感分布标签增强效果,但是EWLLE方法仍从离散角度研究情绪,情绪建模精细度较低。

1.3 基于深度学习框架的多任务情感分布学习

对于文本情绪识别,大多数情感分析方法侧重于将情绪归类为单一有限类别,如“喜悦”“惊讶”“愤怒”和“恐惧”等。然而,情感分析存在歧义性,因为一句话可以唤起不同强度的多种情绪。为解决这一问题,Zhang等[12]引入了EDL,并提出了一个用于文本情绪分析的多任务卷积神经网络(multi-task convolutional neural network,MTCNN)模型。MTCNN模型在深度学习框架中学习共同表征,并以端到端的方式同时优化分布预测和分类任务。基于相似思路,赖金水等[21]将心理学情绪模型引入神经网络,提出一种基于情感轮的MTCNN模型,用于图像EDL,实验效果表现较好。

2 融合效价-唤醒-支配情绪知识的文本情感分布标签增强方法 2.1 效价-唤醒-支配情绪知识

心理学情绪模型主要包括分类模型和维度模型两大类[20]。分类模型假设情绪构建是独立、离散的。例如,Plutchik[22]情感轮包含“愤怒”“厌恶”“悲伤”“惊讶”“恐惧”“信任”“高兴”和“期待”8种情绪,情绪距离被均匀划分,如图 2a所示;维度模型认为情绪构建基于效价、唤醒等多种评价因素,情绪是人们从个体角度作出的不同解释[20]。维度模型由多个评价因素构建,用定量的变量概念化定义情绪,是一种高维连续的情绪空间系统[23]。Russell等[24]提出的VAD情绪模型认为,效价(情感极性)、唤醒(平静或兴奋程度)和支配(感知控制程度)3个维度是定义情绪状态的必要条件。VAD情绪模型在3个维度上采用均值和标准差对151种细粒度情绪进行了定义,被认为是基于VAD空间的构建主义情绪知识,即VAD情绪知识[24]。Ekman[25]提出的情绪模型总结了6种主要情绪,如“愤怒”“厌恶”“悲伤”“惊讶”“恐惧”和“高兴”,这6种情绪被认为是最普遍的人类情绪类别。基于6种主要情绪的VAD模型如图 2b所示。

图 2 Plutchik情感轮和效价-唤醒-支配情绪模型的情绪表示

在VAD情绪模型中,情绪间的距离代表对应情绪对的相似度,被称为VAD距离。VAD距离越小,表明这2种情绪在VAD情绪模型中的综合构建差异越小,其相关性越大;反之亦然。与离散空间情绪模型不同,VAD情绪模型中的情绪坐标和情绪距离都是连续值,可以更准确地表达情绪间的细微差异。图 3给出了6种主要情绪分别基于Plutchik情感轮和VAD情绪知识的情绪距离矩阵,其中VAD距离采用Euclid距离进行度量。从图 3可以看出,基于Plutchik情感轮的情绪距离是离散值,而基于VAD情绪知识计算的情绪距离更精细。进一步观察可发现,图 3b中VAD距离较小的情绪对具有较强的相关性,如“愤怒”和“厌恶”,“愤怒”和“恐惧”,“高兴”和“惊讶”;VAD距离较大的情绪对具有相反情绪,如“悲伤”和“高兴”。需要说明的是,由于Plutchik情感轮和VAD情绪模型基于不同的先验情绪知识,因此情绪距离矩阵存在一定差异。

图 3 6种主要情绪分别基于Plutchik情感轮和VAD情绪知识的情绪距离矩阵

在EDL领域,已有一些研究在情绪预测模型中引入VAD情绪知识。例如,Le等[17]在考虑提供标签的不确定性基础上,利用维度模型空间中的邻域信息为训练样本自适应地构建情绪分布,提出了一种不确定性感知EDL方法;Li等[20]利用含有151种情绪的VAD情绪知识构建句子级情绪表示,设计了一种采用自注意机制提取情绪间依赖关系的EDL方法;Suresh等[26]使用嵌入VAD情绪知识的注意力机制,增强了预训练模型的上下文表示,从而提升了易混淆情绪的区分度。以上研究表明,融合VAD情绪知识可有效提升EDL方法的性能。但是,目前还未有研究提出考虑VAD情绪知识的EDLE方法。

2.2 融合VAD情绪知识的文本情感分布标签增强方法

本文通过引入情绪维度模型的心理学知识和情感词蕴含的语言学信息,提出融合VAD情绪知识的文本EDLE方法。VADLE方法采用VAD距离度量情绪之间的相似度,为句子文本的真实情绪标签和情感词的情绪标签生成先验情感分布,再综合2种信息生成最终的情感分布。VADLE方法的框架如图 4所示,具体步骤如下:提取情感词;生成情绪标签的先验情感分布;分布叠加,构建句子级情感分布。

图 4 融合VAD情绪知识的文本情感分布标签增强方法框架图

2.2.1 提取情感词

VADLE方法通过查找情感词典,提取给定句子文本si中的第k个情感词wi, k,并得到对应的情感词集合WW={wi, k}k=1ni,其中nisiwi, k的数量。同时,每个情感词有若干个关联的情绪标签,即wi, k的第t个情绪标签为qi, kt,所有关联的情绪标签构成情感词情绪标签集合{qi, kt}t=1mk,其中mk为情绪标签的数量。

2.2.2 生成情绪标签的先验情感分布

VADLE方法为si的真实情绪标签yi生成先验情感分布fyi,并为wi, k的第t个情绪标签qi, kt生成先验情感分布fqi, kt

VADLE方法采用局部线性加权算法构建先验情感分布,基于VAD距离度量次要情绪对主要情绪的影响程度,使用Gauss核对主要情绪附近的情绪赋予权重。生成先验情感分布的基本原则如下:1) 主要情绪的得分是情感分布中的最大值,以保证主要情绪在情感分布中的主导地位;2) 为使与主要情绪相似的某种次要情绪在情感分布中得分越高,其他次要情绪的得分应该随着其距主要情绪的VAD距离增大而减小。由三因素理论可以获得MeMα在效价、唤醒和支配3个维度的VAD均值向量μMeμMα,情感分布生成公式表示如下:

$ \begin{gathered} \boldsymbol{f}_a=\left\{f_a^e\right\}_{e=1}^c, \\ f_a^e=\frac{1}{Z} \exp \left(-\frac{\left(\left\|\boldsymbol{\mu}_{M_e}-\boldsymbol{\mu}_{M_a}\right\|_2+b\right)^2}{2 \tau^2}\right), \\ Z=\sum\limits_e \exp \left(-\frac{\left(\left\|\boldsymbol{\mu}_{M_e}-\boldsymbol{\mu}_{M_e}\right\|_2+b\right)^2}{2 \tau^2}\right) ; \end{gathered} $ (2)
$ \begin{aligned} & \boldsymbol{\mu}_{M_e}=\left[V^{M_e}, A^{M_e}, D^{M_e}\right], \\ & \boldsymbol{\mu}_{M_a}=\left[V^{M_a}, A^{M_e}, D^{M_a}\right] . \end{aligned} $ (3)

其中:VAD分别为情绪在3个维度上的坐标;τ为局部线性加权的带宽参数,用于控制情感分布的分散度,即控制各个情绪得分的相对大小;Z为归一化因子,使$\sum\limits_e f_a^e=1 ;\left\|\boldsymbol{\mu}_{M_e}-\boldsymbol{\mu}_{M_a}\right\|_2$MeMα在VAD空间中的Euclid距离;b为偏置,b=1。通过实验对比发现,Euclid距离具有最好的情绪距离度量性能。

2.2.3 构建句子级情感分布

在句子文本的真实情绪标签和情感词情绪标签的先验情感分布基础上,将代表 2种信息的离散分布fyifqi, kt叠加,得到综合的句子级情感分布di,表示如下:

$ \boldsymbol{d}_i=\frac{1-\lambda}{\sum\limits_{k=1}^{n_i} m_k} \sum\limits_{k=1}^{n_i} \sum\limits_{t=1}^{m_k} \boldsymbol{f}_{q_{i, k}^t}+\lambda \boldsymbol{f}_{y_i} . $ (4)

其中:λyi的权重系数,用于控制fyidi中的比例。当λ=1时,表示VADLE方法只考虑句子的真实情绪标签信息,没有利用情感词信息;当λ=0时,表示VADLE方法只考虑了情感词信息而没有利用真实情绪标签信息。参考文[13],λ=0.8。

3 实验与结果

为考察本文提出的VADLE方法的性能,对英文单标签文本情感数据集进行了3组实验,分别如下:1) τ对VADLE方法的性能影响分析实验;2) 利用5种EDLE方法在英文数据集上的情绪识别和情感分布预测性能对比实验;3) 利用5种EDLE方法为6条英文例句生成句子级情感分布的比较分析实验。

3.1 实验设置 3.1.1 实验数据集

本文实验部分采用了4个常用的英文文本单标签情感数据集,分别是TEC[27]、Fairy Tales[28]、CBET[29]和ISEAR[30]。TEC数据集包含21 051条推文和6种情绪标签(“愤怒”“厌恶”“悲伤”“惊讶”“恐惧”和“高兴”)。Fairy Tales数据集从185个童话故事中摘抄了1 204条英文句子,共有5种情绪(“愤怒”“高兴”“恐惧”“惊讶”和“悲伤”),每个句子标注一个情绪标签。CBET数据集包含9种情绪标签,每种情绪标签有8 540条推文。ISEAR数据集包含7 666个句子和7种情绪标签。句子的内容是人们描述自己经历某种情绪(“愤怒”“高兴”“恐惧”“悲伤”“厌恶”“羞耻”和“内疚”)时的现场情况和经验。本文选用CBET数据集中的6种情绪(“愤怒”“高兴”“恐惧”“惊讶”“悲伤”和“厌恶”),共51 240条推文;选用ISEAR数据集中的5种情绪(“愤怒”“高兴”“恐惧”“悲伤”和“厌恶”),共5 431个句子。将4个英文数据集合并,并删除重复样本作为实验数据集。表 1列出了所有英文数据集及合并后数据集的详细信息。

表 1 实验数据集
数据集 句子数
愤怒 厌恶 悲伤 惊讶 恐惧 高兴 合计
Fairy Tales 216 0 264 114 166 444 1 204
CBET 8 540 8 540 8 540 8 540 8 540 8 540 51 240
ISEAR 1 087 1 081 1 083 0 1 090 1 090 5 431
TEC 1 555 761 3 830 3 849 2 816 8 240 21 051
合计 11 398 10 382 13 717 12 503 12 612 18 314 78 926

3.1.2 实验实施

实验使用的英文情感词典由加拿大国家研究委员会(National Research Council Canada,NRC) 创建的NRC emotion lexicon[31]和EmoSenticSpace[32]合并而成。情感词典合并时,保留情绪标签交集的6种情绪(“愤怒”“厌恶”“悲伤”“惊讶”“恐惧”和“高兴”),对于2个情感词典共有的情感词,其对应的情绪标签为原有标签的并集。

实验采用标准的分层十折交叉验证。具体步骤如下:在保持每折中原始情绪的种类比例相同的前提下,将数据集平均分为10份,每份作为测试集使用一次,对应的剩余数据合并为训练集,如此重复10次。每一折交叉验证都是一次独立的EDL情绪预测任务,在每一折实验中随机抽取训练集的1/10作为验证集。

对于深度学习框架,本文采用基于Transformer架构的RoBERTa预训练语言模型[33],并运用联合损失实现基于RoBERTa预训练语言模型的多任务EDL。具体而言,先用RoBERTa预训练语言模型提取句子文本特征,再将获得的句子文本特征通过一个全连接层输出为一个在所有情绪标签上的概率分布。基于这个概率分布,预测模型使用Kullback-Leibler(KL)损失度量预测分布与真实分布之间的距离,以及使用交叉熵损失优化情绪识别任务。因此,预测模型的目标函数E是KL损失和交叉熵损失的加权组合,表示如下:

$ E=(1-\beta) E_{\text {els }}+\beta E_{\text {edl }} \text {, } $ (5)
$ E_{\mathrm{cls}}=-\frac{1}{N}\left[\sum\limits_i \sum\limits_j 1\left(y_i=j\right) \ln \frac{\exp \left(h_i^j\right)}{\sum\limits_j \exp \left(h_i^j\right)}\right], $ (6)
$ E_{\mathrm{edl}}=-\frac{1}{N}\left[\sum\limits_i \sum\limits_j g_{s_i}^j \ln \frac{\exp \left(h_i^j\right)}{\sum\limits_j \exp \left(h_i^j\right)}\right] . $ (7)

其中:Ecls为情绪识别效果的交叉熵损失;Eedl为度量模型情感分布预测性能的KL损失;1(yi=j)为指标函数,当yi=j为真时1(yi=j)=1,否则为0;{hij}j=1C表示si在模型最后一层的输出向量, hij为第i个句子文本被预测为第j类情绪的概率值;gjsi为句子si每个情绪标签损失之和;N为样本数;β为控制2种损失相对权重的参数,参考文[12]的实验结果,β=0.7。

3.1.3 评估指标及实验配置

本文采用4种分类评价指标和4种情感分布预测指标衡量模型的情绪预测性能,分别为精确率(precision,Pre)、召回率(recall,Rec)、F1分数(F1-score)、准确率(accuracy,Acc)、Canberra距离(Can)、Chebyshev距离(Che)、余弦(cosine,Cos)和Intersection(Int)。在情感分布预测实验中,EDLE方法生成的情感分布作为样本的监督信息进行训练。

本文实验的硬件配置为Inter酷睿i7-10700X 2.9 GHz 16核CPU和16 GB内存,NVIDIA GeForce RTX3060显卡。操作系统版本Ubuntu18.04,深度学习框架Pytorch 1.7.0。基于RoBERTa预训练语言模型的多任务EDL采用AdamW优化器和Gule激活函数,学习率和批量大小分别设置为2×10-5和16。

3.2 情感分布分散度带宽参数对VADLE方法性能的影响

τ用于控制局部线性加权计算公式中的情感分布分散度,是影响VADLE方法性能的一个重要参数。τ越大,生成的情绪标签的先验情感分布越分散;τ越小,先验情感分布越集中。分别将τ设为0.5、1.0、1.5和2.0,使用VADLE方法生成“愤怒”和“高兴”2种情绪标签的先验情感分布,如图 5所示。

图 5 τ取不同值时2种情绪标签的情感分布

为量化τ对VADLE方法性能的具体影响,将τ在区间[0,2.0]内每间隔0.2取值一次,记录对应的Acc和Cos指标变化情况。英文数据集上τ对RoBERTa模型性能的影响结果如图 6所示。

图 6 τ对RoBERTa模型情绪预测性能的影响

图 6可以看出,在英文数据集的情绪预测任务方面,VADLE方法的评价指标Acc和Cos均在τ=0.6时达到最大。此时,VADLE方法从VAD情绪空间中捕获的情绪相关性对情感分布的促进作用最强,主要情绪与次要情绪的信息量达到相对平衡,情感分布对句子中情感的构建解释度最高。当τ为0~0.6时,Acc和Cos基本呈上升趋势,表明将单个情绪标签扩展为情感分布时,适当增加情感分布的分散度是有益的。当τ为0.6~2.0时,Acc和Cos整体呈下降趋势,表明次要情绪得分过多会影响真实情绪的主导地位,从而降低情绪的区分度。以上实验结果表明,在保持真实情绪的主导地位的同时,适当增大情感分布的分散度有助于提升情绪预测模型的性能。

3.3 多种情感分布标签增强的情绪识别和情感分布预测性能对比

采用实验数据集测试VADLE、One-Hot、MWLE、LLE和EWLLE这5种EDLE方法的预测性能,并对比测试结果,以验证VADLE方法有效。相关参数设置如下:MWLE方法中, σ=1;LLE方法的实验参数与文[12]一致;EWLLE方法中, λ=0.8,σ=1;VADLE方法中,λ=0.8,τ=0.6。

5种EDLE方法的情绪识别任务和情感分布预测任务性能对比结果如表 2所示。其中,评价指标Can和Che的数值越小表示模型性能越优异,而其他评价指标的数值越大则表示模型性能越优异,加粗数据表示各指标的最优结果。可以看出,在情绪识别和情感分布预测任务的8个指标方面,VADLE方法均优于其他4种EDLE方法。

表 2 5种EDLE方法的情绪识别任务和情感分布预测任务性能对比
情感分布标签增强方法 情绪识别任务/% 情感分布预测任务
Pre Rec F1 Acc Can Che Cos Int
One-Hot 67.42 66.67 67.04 67.76 3.494 0.562 0.705 0.438
MWLE 67.58 67.76 67.56 68.30 3.341 0.280 0.773 0.613
LLE 68.78 68.77 68.63 68.79 3.473 0.415 0.742 0.518
EWLLE 68.86 69.06 68.95 69.17 3.219 0.268 0.785 0.628
VADLE 69.91 69.55 69.62 70.12 2.913 0.236 0.811 0.664

在情绪识别任务方面,VADLE方法的Acc比在离散空间中构建情绪的EWLLE、LLE和MWLE方法分别提高了0.95%、1.33%和1.82%;VADLE方法的F1分数比次优的EWLLE方法提高了0.67%,比LLE和MWLE方法分别提高了0.99%和2.06%。这表明,借助连续情绪语义空间构建情绪模型,能捕捉细致的情感联系,生成更准确的情感分布。

在情感分布预测任务方面,VADLE方法同样表现出优异的性能。例如,VADLE方法的Che比EWLLE、LLE、MWLE和One-Hot方法分别降低了0.032、0.179、0.044和0.326;在Cos指标上,VADLE方法比次优的EWLLE方法增加0.026,比LLE、MWLE和One-Hot方法分别增加0.069、0.038和0.106。这表明,借助VAD情绪模型构建情绪状态,能检索到更精细的情绪信息,从而更有效地预测文本情感分布。此外,LLE方法在情感分布预测任务方面表现较差,原因可能是LLE方法未考虑情绪之间的高度相关性,且其生成的情感分布过于集中,即主要情绪得分为0.8,其余5种次要情绪得分总和为0.2,因此模型生成的预测分布与LLE方法生成的情感分布差距较大。通过对比实验发现,VAD情绪模型可精细地描述基本情绪之间的相关性,VADLE方法具有较好的EDLE性能。

3.4 多种情感分布标签增强方法生成的情感分布对比

为详细比较5种EDLE方法生成的情感分布的具体区别,本文从英文数据集中选择了6条具有代表性的例句,并分别用One-Hot、MWLE、LLE、EWLLE和VADLE方法生成情感分布,具体对比结果如表 3所示。

表 3 5种EDLE方法对英文例句生成的情感分布对比
序号 句子文本 情绪标签 情感词及其标签 方法
One-Hot MWLE LLE EWLLE VADLE
1 Train late packed and unpleasant. Not the start to the week I wanted. 1 late: 6, 3
and: 6
unpleasant: 2, 3
not: 3
the: 6
start: 4
2 Never be afraid to be dream big. 5 never: 4
afraid: 5
dream: 6
3 When you lonely you seem to miss all your old ones at the moment. 3 lonely: 1, 2, 3, 5seem: 6
miss: 3
all: 6
your: 6
old: 3
4 My plans today were ruined by reasonable reasons. 1 today: 6
ruined: 1, 2, 3, 5
reasonable: 6
5 Who is that? Probably someone I hate. 4 who: 4,
hate: 1, 2, 3, 5,
6 I hate when people sneeze or cough don't cover up. 2 hate: 1, 2, 3, 5
people: 6
sneeze: 2, 4
cough: 2, 3
cover: 5, 6
注:句子文本中的加粗字体为情感词;情感分布图中的蓝色条柱表示真实情绪标签。

可以看出,One-Hot方法生成的情感分布是单标签的简单转换,只包含句子的真实情绪标签信息。根据3.2节的实验结果,One-Hot方法生成的情感分布在情绪识别任务中表现较差。

MWLE方法生成的情感分布除具有句子的真实情绪外,还引入了多个与真实情绪距离较近的次要情绪信息。MWLE方法通过引入基于情感轮的心理学知识,可以弥补句子文本的真实情绪信息量不足的问题。然而,通用的心理学模型缺乏针对性,对于具有相同真实情绪标签的句子生成的分布相同,难以考虑各个句子的不同情况。例如,例句3的真实情绪标签为“悲伤”,同时包含在情感轮上与“悲伤”位于相对位置上的次要情绪“高兴”,然而MWLE方法为例句3生成的分布中几乎不包含“高兴”。例句4也存在类似情况,MWLE方法不能在生成的情感分布中引入与真实情绪“愤怒”距离较远的次要情绪“恐惧”。LLE方法通过提取句子文本中的情感词,在以真实情绪为主要情绪的情感分布中增加情感词对应的情绪标签,从而为情感分布补充语言学信息。人们情绪表达中的情感往往相近,而LLE方法未考虑与真实情绪心理学距离相近的次要情绪。例如,例句4的真实情绪是“愤怒”,LLE方法基于情感词信息为其补充了“悲伤”和“高兴”2个次要情绪,但是没有引入与“愤怒”最相近的次要情绪“厌恶”。

EWLLE方法融合以上2种EDLE方法,同时考虑了基于情感轮的心理学知识和通过情感词抽取的语言学信息。例如,例句3中,EWLLE方法为主要情绪“悲伤”引入了情感轮上距离较近的情绪“厌恶”和“惊讶”,同时基于情感词信息调高了情绪“高兴”的分值。例句1的主要情绪为“愤怒”,EWLLE方法生成的分布中引入与“愤怒”在情感轮上距离最近的“厌恶”和“高兴”2种次要情绪。通过人工分析可知,例句1中情感倾向于消极,“悲伤”的情绪强度应大于“高兴”。虽然EWLLE方法在情绪识别实验中具有比LLE和MWLE方法更好的性能,但其对情感知识的利用方式仍是通过情感轮上成对情绪间的离散值距离衡量情绪相关性,对情绪相关性的建模精细度较低,因此生成的情感分布中相关次要情绪重要程度的建模准确度较差。

VADLE方法借助连续的VAD情绪空间,从细粒度角度对情绪间的相互关系进行更合理和精细的建模。例如,例句6的真实情绪为“厌恶”,VADLE方法为其引入VAD距离较近的次要情绪“悲伤”和“恐惧”,同时根据抽取的情感词信息相应地调高对应次要情绪的分值。而利用MWLE和EWLLE方法生成的分布中“愤怒”与“悲伤”具有近乎相同的得分,且分值仅次于主要情绪“厌恶”。这是因为情感轮上“愤怒”与“悲伤”分别位于“厌恶”的两侧,2种次要情绪到“厌恶”的情绪距离都是1。但通过人工分析可知,例句6中“恐惧”的情绪强度应小于“愤怒”。例句1的情况与例句6相似,与“愤怒”相似度最高的情绪为“厌恶”,其次为“恐惧”。因此,采用VADLE方法对例句1生成的情感分布中,得分仅次于“愤怒”的情绪为“厌恶”和“恐惧”,而EWLLE方法对例句1生成的情感分布中,得分仅次于“愤怒”的情绪则是“厌恶”和“高兴”。

由以上分析可以看出,基于连续的情绪维度模型对情绪相关性建模的精细度高于离散情绪空间的情绪模型。VADLE方法运用VAD情绪知识在连续空间中构建情绪状态,能够检索更详细的情感信息,对情绪及其强度的构建更具合理性。

4 结论

EDLE方法将示例的原始单标签转化为情感分布,能够有效地解决EDL领域面临的缺乏已标注情感分布数据集的问题。但现有EDLE方法均是借助离散空间模型表达情绪状态,难以精细地对情绪相关性进行建模。通过引入连续的情绪维度空间,本文提出了VADLE方法。VADLE方法基于VAD情绪知识,先为句子级和情感词的情绪标签生成先验情感分布,再综合2种信息生成最终的情感分布。不同于现有EDLE方法,VADLE方法从细粒度角度研究情绪,将连续空间中的情绪先验知识与情感词中的语言学信息进行融合,生成的情感分布更具合理性。实验结果表明:VADLE方法在情绪预测任务上的性能优于现有EDLE方法。

目前,学者们已提出的几种EDLE方法均未考虑识别否定词或处理否定情绪。在下一步的研究中,本文将尝试在EDLE方法中增强否定词的识别功能,在引入通用的先验情绪知识与情感词信息时解决由否定词带来的否定情绪问题。此外,本文也将尝试多种情绪建模方式,从而更有效地对情绪进行识别。

参考文献
[1]
GARRITZMANN J L, NEIMANNS E, BUSEMEYER M R. Public opinion towards welfare state reform: The role of political trust and government satisfaction[J]. European Journal of Political Research, 2023, 62(1): 197-220. DOI:10.1111/1475-6765.12501
[2]
LIU H, CAI Y C, LIN Z R, et al. Variational latent-state GPT for semi-supervised task-oriented dialog systems[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023, 31: 970-984. DOI:10.1109/TASLP.2023.3240661
[3]
VATANI N, RAHMANI A M, JAVADI H H S. Personality-based and trust-aware products recommendation in social networks[J]. Applied Intelligence, 2023, 53(1): 879-903. DOI:10.1007/s10489-022-03542-z
[4]
YU J F, MARUJO L, JIANG J, et al. Improving multi-label emotion classification via sentiment classification with dual attention transfer network[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018: 1097-1102.
[5]
GAO B B, XING C, XIE C W, et al. Deep label distribution learning with label ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838. DOI:10.1109/TIP.2017.2689998
[6]
ZHOU Y, XUE H, GENG X. Emotion distribution recognition from facial expressions[C]// Proceedings of the 23rd ACM International Conference on Multimedia. Brisbane, Australia: ACM, 2015: 1247-1250.
[7]
GENG X. Label distribution learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(7): 1734-1748. DOI:10.1109/TKDE.2016.2545658
[8]
WU H Y, HUANG Y G, NAN G S. Doubled coupling for image emotion distribution learning[J]. Knowledge-Based Systems, 2023, 260: 110107. DOI:10.1016/j.knosys.2022.110107
[9]
QIN X R, CHEN Y F, RAO Y H, et al. A constrained optimization approach for cross-domain emotion distribution learning[J]. Knowledge-Based Systems, 2021, 227: 107160. DOI:10.1016/j.knosys.2021.107160
[10]
JIA X Y, LI Z C, ZHENG X, et al. Label distribution learning with label correlations on local samples[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 33(4): 1619-1631. DOI:10.1109/TKDE.2019.2943337
[11]
YANG J F, SHE D Y, SUN M. Joint image emotion classification and distribution learning via deep convolutional neural network[C]// Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. Melbourne, Australia: AAAI Press, 2017: 3266-3272.
[12]
ZHANG Y X, FU J M, SHE D Y, et al. Text emotion distribution learning via multi-task convolutional neural network[C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm, Sweden: AAAI Press, 2018: 4595-4601.
[13]
曾雪强, 华鑫, 刘平生, 等. 基于情感轮和情感词典的文本情感分布标记增强方法[J]. 计算机学报, 2021, 44(6): 1080-1094.
ZENG X Q, HUA X, LIU P S, et al. Emotion wheel and lexicon based text emotion distribution label enhancement method[J]. Chinese Journal of Computers, 2021, 44(6): 1080-1094. (in Chinese)
[14]
STRAPPARAVA C, MIHALCEA R. SemEval-2007 task 14: Affective text[C]// Proceedings of the Fourth International Workshop on Semantic Evaluations (SemEval-2007). Prague, Czech Republic: Association for Computational Linguistics, 2007: 70-74.
[15]
ZHENG Q H, ZHU J H, TANG H Y, et al. Generalized label enhancement with sample correlations[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(1): 482-495.
[16]
MIKELS J A, FREDRICKSON B L, LARKIN G R, et al. Emotional category data on images from the international affective picture system[J]. Behavior Research Methods, 2005, 37(4): 626-630. DOI:10.3758/BF03192732
[17]
LE N, NGUYEN K, TRAN Q, et al. Uncertainty-aware label distribution learning for facial expression recognition[C]// 2003 IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa, USA: IEEE, 2023: 6088-6097.
[18]
XU N, LIU Y P, GENG X. Label enhancement for label distribution learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 33(4): 1632-1643.
[19]
TENG Z Y, VO D T, ZHANG Y. Context-sensitive lexicon features for neural sentiment analysis[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics, 2016: 1629-1638.
[20]
LI Z X, CHEN X H, XIE H R, et al. EmoChannel-SA: Exploring emotional dependency towards classification task with self-attention mechanism[J]. World Wide Web, 2021, 24(6): 2049-2070. DOI:10.1007/s11280-021-00957-5
[21]
赖金水, 万中英, 曾雪强. 基于情感轮和多任务卷积神经网络的图像情感分布学习[J]. 江西师范大学学报(自然科学版), 2022, 46(4): 363-371.
LAI J S, WAN Z Y, ZENG X Q. The image emotion distribution learning based on emotion wheel and multi-task convolutional neural network[J]. Journal of Jiangxi Normal University (Natural Science Edition), 2022, 46(4): 363-371. (in Chinese)
[22]
PLUTCHIK R. A psychoevolutionary theory of emotion[J]. Social Science Information, 1982, 21(4-5): 529-553. DOI:10.1177/053901882021004003
[23]
TROIANO E, OBERLÄNDER L, KLINGER R. Dimensional modeling of emotions in text with appraisal theories: Corpus creation, annotation reliability, and prediction[J]. Computational Linguistics, 2023, 49(1): 1-72. DOI:10.1162/coli_a_00461
[24]
RUSSELL J A, MEHRABIAN A. Evidence for a three-factor theory of emotions[J]. Journal of Research in Personality, 1977, 11(3): 273-294. DOI:10.1016/0092-6566(77)90037-X
[25]
EKMAN P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4): 169-200. DOI:10.1080/02699939208411068
[26]
SURESH V, ONG D C. Using knowledge-embedded attention to augment pre-trained language models for fine-grained emotion recognition[C]// 2021 9th International Conference on Affective Computing and Intelligent Interaction. Nara, Japan: IEEE, 2021: 1-8.
[27]
MOHAMMAD S M. Emotional tweets[C]// Proceedings of the 1st Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Montréal, Canada: Association for Computational Linguistics, 2012: 246-255.
[28]
ALM C O, SPROAT R. Emotional sequencing and development in fairy tales[M]// TAO J H, TAN T N, PICARD R W. Proceedings of the 1st International Conference on Affective Computing and Intelligent Interaction. Beijing, China: Springer, 2005: 668-674.
[29]
GHOLIPOUR SHAHRAKI A. Emotion mining from text[M]. Edmonton: University of Alberta, 2015.
[30]
SCHERER K R, WALLBOTT H G. Evidence for universality and cultural variation of differential emotion response patterning[J]. Journal of Personality and Social Psychology, 1994, 66(2): 310-328. DOI:10.1037/0022-3514.66.2.310
[31]
MOHAMMAD S M, TURNEY P D. NRC emotion lexicon[R]. Ottawa: National Research Council of Canada, 2013.
[32]
PORIA S, GELBUKH A, CAMBRIA E, et al. EmoSentic-Space: A novel framework for affective common-sense reasoning[J]. Knowledge-Based Systems, 2014, 69: 108-123. DOI:10.1016/j.knosys.2014.06.011
[33]
LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized BERT pretraining approach[J/OL]. arXiv. (2019-07-26)[2023-05-15]. https://arxiv.org/abs/1907.11692.