基于对话的中文正面情感风格迁移
胡玉婷, 左家莉, 刘江盛, 万剑怡, 王明文    
江西师范大学 计算机信息工程学院,南昌 330022
摘要:文本风格迁移旨在保留文本内容的前提下,通过编辑或生成的方法使得目标文本带有某些特殊属性,如礼貌、情感、性别等。现有的情感风格迁移研究主要集中在英文数据集上,在中文数据集上的研究相对较少。该文构建了一个基于对话的中文情感文本数据集,该数据集的部分原始数据源自电视连续剧《家有儿女》中的对白,并对其进行人工标注和循环模型标注。目前该数据集的负面情感文本和正面情感文本句子共30 836个。根据该数据集中大多数情感词是显性的特点,在编辑类的模型上开展了基于对话的中文正面情感风格迁移的研究。实验结果表明:在该数据集上,编辑类的模型可以较好地识别文本的情感属性,并实现文本正面情感风格迁移。
关键词自然语言处理    文本生成    情感风格迁移    循环模型    编辑模型    家庭对话    
Chinese positive sentiment style transfer based on dialogues
HU Yuting, ZUO Jiali, LIU Jiangsheng, WAN Jianyi, WANG Mingwen    
School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022, China
Abstract: [Objective] Several studies highlight that negative sentiment dialogues within the family remarkably impact individuals' mental and physical well-being. Conversely, positive sentiment dialogues offer individuals constructive feedback, motivating learning and personal growth. Such dialogues aid in building self-confidence and positive attitude, enabling better coping with life's challenges. Text style transfer is an effective tool to shift negative sentimental dialogues to positive sentimental dialogues. The goal of text style transfer is to retain the content of the text while imbuing the generated text with specific attributes. Sentiment style transfer is an important research direction in natural language processing, and sentiment style transfer in the context of family dialogues holds practical value. However, the current literature on sentiment style transfer has mainly focused on English datasets with relatively limited research within the Chinese domain. [Methods] We constructed a dialogue-based Chinese sentimental text dataset in this study. The initial data was extracted from dialogues in the TV series "Home with Kids", where considerable sentiment differences were observed between dialogues involving characters Liu Mei and Liu Xing as well as Liu Mei and Xia Xue. While interactions between Liu Mei and Liu Xing were primarily critical, interactions between Liu Mei and Xia Xue were characterized by encouragement and respect. Preprocessing was applied to this dataset in the following steps: (1) Data cleaning, filtering, and format conversion were performed to ensure data quality and consistency. (2) A recurrent modeling annotation method was employed using suitable algorithms and models to annotate the data, identifying key information and features. Six iterations were performed, with the classifier being fine-tuned using the data updated from the previous iteration each time. (3) Manual annotation was also conducted, meticulously reviewing and labeling the data manually to further enhance accuracy and reliability. Furthermore, the final dataset comprises 30 836 sentences, including 11 562 sentences with positive sentiment content and 19 274 sentences with negative sentiment content. [Results] In this dialogue dataset, most texts explicitly contain sentiment-related words. Based on the characteristics of this dialogue dataset, research involving dialogue-based Chinese positive sentiment style transfer was started using editing-based delete-retrieve-generate (DRG), tagger and generator (TAG), conditional Bert (CondBert), and tagging without rewriting (TWR) models. In addition, the improved TWR (TWR*) Transformer model was introduced. The original TWR model used a multilayer perceptron to train a style classifier. To improve the ability to accurately identify specific styles, a style classifier was trained based on RoBERTa-Large-Chinese model for distinguishing different text styles. These experiments demonstrated that using the pretrained language model RoBERTa-Large-Chinese produced enhanced classification results, which was attributed to the close relationship between the attention weights of the penultimate layer in the Transformer model and words commonly associated with positive and negative sentiments. RoBERTa-Large-Chinese model presented a higher accuracy in recognizing textual sentiment style attribute words. [Conclusions] Experimental results confirm that the style classifier trained on our dataset can effectively identify negative content within text. Through both automated and manual evaluations, this TWR* model outperforms baseline models in identifying textual sentiment attributes, achieving positive sentiment style transfer, thus verifying the effectiveness of model enhancements and the validity of the dataset.
Key words: natural language processing    text generation    sentiment style transfer    recurrent model    editing-based model    family dialogue    

众所周知,在日常交流中,正面对话能够给予人正面的反馈,并激励人的学习和发展;相比之下,负面对话给予的负面反馈可能影响人的身心健康发展。在大多数情况下,家庭对话是日常交流中最重要的部分,因此开展家庭对话情境的情感风格迁移研究具有重要意义。

文本风格迁移(text style transfer,TST)是自然语言生成中的一项重要任务[1],其目的是在不改变任何与属性无关的内容情况下改变文本风格或属性。文本风格迁移应用广泛,如去偏[2]、释义[3]、政治迁移[4]、情感迁移[5]和主题迁移等。因此,文本风格迁移可天然地应用于对话的情感风格迁移任务中。

情感风格迁移是一种特定形式的文本风格迁移,其目标是扭转文本的情感极性。目前,情感风格迁移研究主要集中在英文数据集上[2-5],在中文数据集上的研究相对较少。原因有以下2个方面:1) 中文文本具有丰富的语义信息,使得区分情感属性词和与风格无关的内容更加困难;2) 缺乏大规模的中文标注数据集。

为了开展基于对话的中文正面情感风格迁移的研究,本研究选取电视连续剧《家有儿女》中的对白建立数据集。其中,刘梅与刘星、夏雪的对白情感差异较大。刘梅与刘星的对白主要以批评为主,如“刘星,你这点小事都做不好?”;而刘梅与夏雪的对白则多以鼓励、尊重为主,如“小雪是一个乖乖女!”。

本研究的目的是将带有负面情感的文本迁移为正面情感文本。例如,“你怎么这么蠢”迁移为“你怎么这么聪明”。首先,通过爬取《家有儿女》中的对白,构建了一个非平行的中文对话情感文本数据集。如表 1所示,数据集中大部分文本的情感词是显性的,根据情感词,数据集被分为2类,即负面情感和正面情感。然后,在此数据集上开展基于对话的中文正面情感风格迁移的研究,实验结果表明,编辑类的模型可以有效地分离文本的情感属性,并实现将带有负面情感的文本迁移为正面情感文本。

表 1 数据集中负面情感和正面情感句子示例
负面情感 你这次考得太差了,我对你很失望
我早就看出来了,你就是不行
这点小事都做不好
正面情感 小雪是一个乖乖女
我知道你已经做得很好
其实刘星也挺勇敢

1 相关工作 1.1 文本风格迁移数据集

文本风格迁移旨在将给定文本的风格从源风格迁移为目标风格,同时保留其内容。早期的文本风格迁移工作主要依赖于平行语料,仅使用序列到序列模型就可以较好地迁移文本风格。已有的平行风格迁移数据集包括《圣经》数据集[6]、WNC数据集[2]和GYAFC数据集[7]等。

然而,构建平行数据集是一项繁重且耗时的任务,需要投入大量的工作和资源。因此,基于非平行数据集的文本风格迁移成为研究热点。在收集非平行风格迁移数据时,风格标签通常已存在于数据中,如正面和负面评论[5],或将其来源作为标签,如学术文档和法律文档。非平行数据的收集被简化为从其来源获取文本,数据集的大小仅取决于可用的文本量[8]。目前公开的非平行数据集有Yelp、Amazon和Gender等。

1.2 文本风格迁移方法

由于平行语料的匮乏,大多数文本风格迁移模型是在非平行数据集上训练的,因此大部分TST研究采用无监督方法。

无监督编辑类的方法是通过替换与特定风格相关的关键词或短语来区分文本的内容和风格[9]。其中,经典的模型有Li等[10]提出的删除-检索-生成(delete-retrieve-generate,DRG)框架。该框架先删除源文本中的属性词,然后在目标风格语料中检索与源文本内容最相似的句子,最后模型结合删除属性词的文本和目标属性词生成目标句子。Madaan等[11]使用词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)识别风格属性词,并训练一个自回归模型来替换被识别的属性词。Dale等[12]利用Bert模型将句子中的源风格属性词替换为目标风格属性词,并根据它们之间的相似性进行排序,以保持源文本与目标文本的语义相似。Shuo[13]则提出不识别属性词而是对源文本中的每个单词分别使用3种基本编辑操作进行标记,并采用Viterbi搜索算法输出目标风格句子。

这些方法的优势在于关键词和短语的替换为TST模型提供了一定程度上的可解释性。但是,这些方法主要适用于情感迁移,不适用于其他风格属性迁移,如正式迁移(将非正式风格文本迁移为正式风格文本)[9]。这是因为在情感迁移任务中,特定的词汇表通常用于编码情感信息,而替换这些词汇是修改文本情感的可行方法[9]

无监督方法中除了编辑类方法,还有生成类方法[14-16],是指通过训练序列到序列模型,直接生成目标风格文本。然而,研究发现,如果数据中的情感词是显性的,文本中的情感会更加明确,可以通过替换文本中的情感词进而实现情感风格迁移。由于本文所构建的数据集中大多数情感词是显性的,因此使用无监督编辑类的方法进行文本情感风格迁移,包括基于检索删除的方法[10]、风格短语标记[11-12]以及条件随机场搜索算法[13]。这些方法可以有效地分离文本的情感属性,实现文本情感风格迁移。

2 方法

本文的情感风格迁移任务旨在将负面情感文本迁移为正面情感文本。给定一个非平行语料库,其中风格s1和风格s2的句子分别为X1={x1(1), …, xn(1)}和X2={x1(2), …, xm(2)}。此任务的目标是输入风格s1的源文本X1,生成风格s2的目标文本$\hat{X}_1=\left\{\hat{x}_1^{(2)}, \cdots, \hat{x}_n^{(2)}\right\}$。采用了4个基准模型对这一任务进行研究。

2.1 删除-检索-生成模型

删除-检索-生成(DRG)模型[10]的框架图如图 1所示。给定一个具有特定风格的源文本,DRG模型通过计算每个词的相对频率来识别源文本的风格属性词。然后,模型从源文本中删除风格属性词,只保留与内容相关的信息。例如,在源文本“你怎么这么蠢”中,删除了“蠢”,得到了“你怎么这么”。

图 1 DRG模型的框架图

接下来,DRG模型从目标风格语料库中检索与只包含内容信息文本语义相似的文本,再提取该文本中的风格属性词。最后,DRG模型结合参考文本的风格属性词和只包含内容信息文本,生成目标风格文本。

2.2 标记-生成模型

标记-生成(tagger and generator,TAG)模型[11]包含Tagger和Generator 2个模块,如图 2所示。Tagger模块利用TF-IDF方法识别源文本的属性词,并用[TAG]标签替代被识别的属性词。若源文本不存在属性词,则在源文本的某些位置上插入[TAG]标签。Generator模块则是学习如何将带[TAG]标签的文本生成目标风格文本。

图 2 TAG模型流程示例图

由于Generator的输入是与风格无关的文本,因此可以分开训练Tagger和Generator,分别处理属性词的替换和目标风格文本的生成。训练Tagger有2种方法: 1) 用[TAG]标签替换源文本中的属性词,2) 在源文本的某些位置上插入[TAG]标签。本文只使用第1种Tagger的训练方式。

2.3 Conditional Bert模型

Conditional Bert (CondBert)模型[12]利用Bert[17]将负面情感属性词替换为正面情感属性词。为了使Bert生成目标风格新词,CondBert采用可训练的风格嵌入代替原始Bert的块嵌入,并通过在带有风格标注的数据集上微调Bert来实现这一目标。原始Bert是随机掩码文本中的单词,而CondBert只掩码与负面情感相关的单词,并在被掩码的位置上利用微调后的Bert生成目标风格词,如图 3所示。

图 3 CondBert模型流程示例图

为了保留被替换词的语义信息,CondBert模型采用了文 [18]提出的内容保存启发式方法。具体而言,该方法包括以下2个步骤:1) 保留原始标注,而不是在替换之前将它们掩盖;2) 根据Bert模型提供的替换词与原词的嵌入相似度对替换词进行重新排序,以选择最合适的替换词。

最后,CondBert还可以将多个词替换为单个[MASK]标记。通过束搜索方法,逐个生成下一个词,并使用当前词的概率分数对多个生成序列进行评分,以选择最佳生成结果,从而提高生成文本的质量和流畅度。

2.4 改进的tagging without rewriting模型

与上述3种基准模型不同,tagging without rewriting (TWR)模型[13]不识别风格属性词,而是对源文本中的每个词分别用插入、替换、删除3种基本编辑操作进行标记,并在每个句子后面添加终止标签<EOS>,如图 4所示。其中:n为句子长度,Si1中下标i表示第i次迭代,S1, …, Sn+1表示编辑操作,Sn+2, …, S2n+1表示替换操作,S2n+2, …, S3n+1表示删除操作。每次迭代模型只修改输入句子中的一个词,修改后的句子是下一次迭代的输入。具体步骤如下:

图 4 TWR模型流程示例图

首先,用多层感知器(multi-layer perception,MLP)训练风格分类器,以确定生成的句子是否具有目标风格属性。KenLM库[19]训练的5-gram语言模型(language model,LM)被用于确保所生成的句子具有较好的流畅性。

接下来,基于分类器和LM的分数函数构建条件随机场(conditional random fields,CRF)[20]。CRF的概率越高代表输出句子的质量越高。

最后,为了找到全局最优解,采用Viterbi算法[21]搜索当前句子的最佳路径,当句子具有目标风格的特征时,停止修改过程,并输出当前句子。此外,为了生成新词,对Bert模型在目标风格语料库上进行微调,将其作为LM。经过训练的LM被用于执行替换和插入操作。

原始TWR模型使用MLP训练风格分类器,而本文为了能够准确识别特定风格的内容,训练了一个基于RoBERTa-Large-Chinese的风格分类器用于区分不同风格的文本。通过实验发现,使用预训练语言模型RoBERTa-Large-Chinese可以获得更好的分类效果。这是由于RoBERTa-Large-Chinese中的Transformer框架倒数第2层的注意力权重与人们认为正面和负面情感的词语密切相关[22-23],而RoBERTa-Large-Chinese能够更准确地识别文本风格属性词。

3 数据集的构建

电视连续剧《家有儿女》是一部具有代表性的以家庭教育为主题的情景喜剧。其中刘梅和刘星、夏雪的对白中,负面情感与正面情感形成了鲜明的对比,这反映了中国大多数家庭的教育方式和教育观念,深刻地揭示了中国式的家庭教育现象。因此,通过爬取该剧的部分对话构建了一个数据集。

对原始数据进行了一系列的预处理,包括数据清洗、过滤[8]和格式转换,以确保数据的质量和一致性。接着,采用了循环模型标注的方法,利用适当的算法和模型对数据进行标注,以识别出其中的关键信息和特征。最后,采用人工标注对数据进行仔细审查和标注,以进一步提高数据的准确性和可靠性。

通过这些步骤,获得了经过严格处理和标注的数据集。最终,该数据集包含30 836个句子,其中29 600个句子用作训练集,513个句子用作测试集,详见表 2

表 2 数据集的基本统计信息 
句子个数
数据集 负面情感 正面情感 总计
训练集 18 770 10 830 29 600
验证集 304 419 723
测试集 200 313 513
总计 19 274 11 562 30 836

3.1 数据预处理

由于《家有儿女》剧组未公布正式的台本,因此使用数据爬取的方法获取原始数据。具体步骤如下:

首先,为了增加数据的多样性,爬取了在知乎、微博等社交媒体平台上发布的关于父母打击子女的话题。采用了2种策略来收集数据:1) 关键字查询,使用“打击式教育”和“别人家的孩子”等关键字进行搜索。2) 从上述社交媒体的相关子话题中爬取数据,并直接从后续评论中爬取数据,这些数据不受关键字限制,能够更全面地反映用户对该话题的讨论,从而获得更广泛的内容和表达方式。

其次,在数据清洗阶段,对情感模糊的文本和不常见的字符进行清理,如表情符号、网址链接、用户名和空白字符等。同时,为了减少数据长度过长或过短可能带来的噪声,删除了长度过短(少于2个字)或过长(超过30个字)的句子。同时,在实验过程中发现,同一个句子使用不同语气(陈述句或反问句)可以在情感上产生很大的差异,因此保留了文本中的标点符号。

最后,删除了重复的数据样本,以确保数据的唯一性。在预处理完成后,针对剩余的数据样本采用了半自动的方式进行选择和标注。

3.2 循环模型标注

使用循环模型标注数据情感风格为正面或负面,具体流程如图 5所示。

图 5 数据标注的流程

人工标注了正面和负面情感风格各500个样本,作为分类器的初始训练数据,并使用预训练的Bert作为分类器,在每轮次迭代中执行以下步骤:1) 训练分类器。使用已标注的数据训练分类器,该分类器用于对未标注的数据进行分类。2) 更新分类器的训练和测试数据集。根据步骤1)的分类结果,挑选一部分数据分别加入训练集和测试集中。

根据分类器的预测分数进行排序,并将数据分成10个集合进行样本检查。对于训练集,对最后一个集合(即得分0.9~1.0的集合)采用以下策略进行人工标注:如果预测标签与人工判断一致的比例超过90%,则直接将该集合中的数据添加到训练集中;否则,对该集合中的数据进行人工标注,然后将其添加到训练集中。对于测试集,从每个集合中抽取大约10%的数据,这样做是为了保证测试集具有代表性,能够涵盖不同范围的数据。对选取的样本进行仔细的人工标注,将标注后的数据添加到测试集中。

分类器一共进行了6次迭代,在每次迭代中,都使用前一次更新的数据进行微调。数据的使用情况以及分类的准确率如表 3所示。可以看到,在第3次迭代之后,分类器的性能逐渐趋于稳定,并且分类器的准确率稳步提高。

表 3 分类器使用的数据量和分类准确率
迭代次数 训练数据句子数 测试数据句子数 准确率/%
1 1 000 100 81.33
2 5 000 500 83.80
3 10 000 1 000 87.78
4 15 000 1 500 93.87
5 20 000 2 000 94.07
6 30 000 3 000 94.83

3.3 人工标注

为了提高数据分类的准确率,采取了以下措施对循环模型预测的结果进行人工检查:邀请了5名志愿者进行数据标注,他们的性别分布均匀(3男2女);为了提高效率,每个集合中由循环模型自动标注的训练数据由1名志愿者进行检查和更正,这样可以节省时间并确保标注的一致性;为了保证质量,测试集中的每个样本被分配给5名志愿者进行投票,最终的标签由得票最多的结果确定。通过自动标注和人工检查相结合的方法,数据集的分类准确率和标注质量得到一定的保证。

4 实验 4.1 基准模型

选取DRG、TAG、CondBert、TWR 4个模型作为本研究的基准模型。除此之外,还测试了随机(Random)检索系统,Random从训练集中随机检索源文本作为目标文本。对于DRG模型,仅采用原论文[10]中表现最佳的方法,即删除-检索-生成方法。对于TWR模型,仅使用Viterbi算法进行搜索。

4.2 评估 4.2.1 自动评估

使用3个经典的文本风格迁移的评估指标来评估模型的性能: 风格准确率(accuracy,Acc)、内容保存率(bilingual evaluation understudy,BLEU)[24]和句子相似度(BERTScore)[25]。Acc是通过预训练好的分类器来判断生成的句子中满足目标属性的句子所占的百分比。BLEU是通过计算源文本和目标风格文本之间的n-gram匹配度来评估源文本和目标风格文本之间的相似性,从而反映内容的保留程度。BERTScore是使用Bert模型产生的标记嵌入之间的余弦相似度之和来衡量句子之间的相似性。BERTScore指标与人类判断的相关性更高,使用该指标解决了迁移后句子由于低n-gram重叠而得分低的问题。表 4示例中的例句2,其中文本风格被准确迁移,但由于低n-gram重叠,导致BLEU评分较低。

表 4 比较BLEU和BERTScore值示例
句子 BLUE/% BERTScore/%
参考 又聪明又听话
例句1 又聪明又乖巧 66.6 91.1
例句2 又机智又乖巧 0.0 84.4

此外,使用本文构建的数据集训练多个预训练语言模型,并使用评估指标对验证集进行评估,表 5显示了实验结果。在模型结构相同的情况下,大容量(Large)的模型在性能上优于容量较小(Base)的模型。此外,相比于Bert[17]和ALBERT[26]模型,RoBERTa[27]模型在性能上表现更好。基于表 5实验结果,最终选择了RoBERTa-Large-Chinese模型作为分类器,来评估文本风格。

表 5 文本风格分类模型实验结果
模型 Acc/%
Bert-Base-Chinese 94.83
Bert-Large-Chinese 95.74
RoBERTa-Base-Chinese 95.34
RoBERTa-Large-Chinese 95.81
ALBERT-Base-Chinese 94.93
ALBERT-Large-Chinese 95.00

4.2.2 人工评估

为了进一步考察模型性能,还进行了人工评估[12]以补充自动评估的不足之处。人工评估主要侧重于3个标准:积极程度、流畅程度和语义保留程度。同时,为了尽可能避免志愿者的个人观点和偏好影响判断结果,通过仔细筛选、培训,最终邀请了3名专业知识相当的志愿者(2男1女)对生成的文本从以下3个方面进行评分:

积极程度(Positive):志愿者对目标风格模型生成的文本进行离散评分,范围从-3到+3。-3表示非常消极,-2表示消极,-1表示稍微消极,0表示中性,1表示稍微积极,2表示积极,3表示非常积极。

流畅程度(Fluency):志愿者对目标风格模型生成的文本进行离散评分,范围从1到5。5表示非常流畅,4表示流畅,3表示稍微流畅,2表示不太流畅。对于不完整或片段句子,还提供了“Other”选项,对应评分为1。

语义保留程度(Meaning):给定源风格文本和模型生成的目标风格文本,志愿者对它们之间的语义相似性进行评分,范围为1到6。6表示完全相同,5表示基本相同,4表示大致相同,3表示有些相同,2表示不同但在同一主题下,1表示完全不同。

4.3 实验结果

在本节中,对模型的输出结果进行了自动评估和人工评估,其中TWR*代表改进后的TWR模型。表 6显示了各模型在本文数据集上的实验结果。所有指标的分数均是越高越好。

表 6 自动评估和人工评估的实验结果
模型 自动评估 人工评估
Acc BLUE BERTScore Positive Fluency Meaning
% % %
Random 43.63 39.26 52.47 1.261 2.174 2.385
DRG 80.15 12.03 65.40 1.937 2.584 2.793
TAG 72.2 34.91 75.40 1.538 3.252 3.274
CondBert 71.6 75.61 86.20 1.471 3.263 3.625
TWR 70.3 72.84 79.60 1.428 3.314 3.731
TWR* 73 74.94 89.10 1.615 3.675 3.965

实验结果表明,TWR*模型的得分都高于TWR模型,并且与其他模型比较,TWR*在BERTScore上的得分是最高的。虽然DRG模型在分类精度方面表现最佳,但在内容保存率和句子相似度方面得分较低。因为在本文建立的数据集中,文本情感词是显性的,DRG模型能够直接识别源风格属性词并替换成目标风格属性词,从而实现情感风格迁移。但是,由于DRG在检索模块中可能无法找到合适的句子,会导致语义内容保存不佳。TAG模型的BLUE值相对较低可能是因为数据集中的文本长度较短,并且在实验中采用jieba分词,属性词可能由多个字构成,导致TAG模型替换属性词并生成目标文本时,源文本与目标文本长度变化差值较大。

在人工评估方面,使用3个独立标准对模型的输出进行了人工评估。结果显示,TWR*模型在流畅性和语义保留方面表现优于其他模型。在流畅性方面,CondBert模型与TAG模型的表现相似,得分相近。

表 7显示了各模型在Yelp和Amazon数据集上的实验结果。结果表明,模型在本文的数据集、Yelp和Amazon数据集上的表现有所不同。在Yelp和Amazon数据集上,文本所含的情感相对含蓄,因此与其他模型比较,DRG模型的分类准确率较低。TWR*在Acc和BERTScore评估指标上的得分都是最高的,在Amazon数据集上的BLUE分数也高于TWR。

表 7 模型在Yelp和Amazon数据集上的实验结果 
%
模型 Yelp数据集 Amazon数据集
Acc BLUE BERTScore Acc BLUE BERTScore
DRG 86.15 32.73 65.44 75.52 29.57 63.16
TAG 85.71 56.82 70.63 79.24 72.17 67.85
TWR 87.43 68.56 78.35 80.31 70.35 73.42
TWR* 88.24 72.37 81.43 81.26 71.49 75.31

4.4 案例分析

以TWR、TWR*模型为例,分别对其实验结果进行分析。TWR与TWR*模型的部分测试样例对比如表 8所示。可以发现,改进后的模型在识别情感属性词时能够捕捉更多的信息,比如在源文本“考试才考了90,你好不争气”中,TWR模型只能识别到情感属性词“不”,而TWR*模型却能识别出“不争气”。此外,改进后的模型生成的文本流畅性更好,并且生成的文本与源文本的语义相似度也比改进前的模型表现得更好。

表 8 TWR与TWR*模型的测试样例对比
源文本 生成1(TWR) 生成2(TWR*)
考试才考了90,你好
不争气
考试才考了90,你好
争气
考试考了90,你
真棒
你没有良心 你良心 你有良心
你还是不够努力 你还是努力 你足够努力
你表现不是很好 你很好 你表现是很好
你穿这个衣服真难看 你穿这个衣服真好 你穿这个衣服真好看

进一步分析了TWR*模型中的部分测试样例,如表 9所示。可以观察到,在前5个测试样例中,TWR*模型能够较好地实现情感风格迁移,保持了情感风格属性词的内容不变并实现了情感属性的迁移。然而,情感属性词的迁移也伴随着文本语义的变化。例如,源文本“你眼光真差”主要讲述了眼光差,而模型生成文本“你眼光真好”讲述的是眼光好,因此文本的语义发生了变化。在其他一些测试样例中,例如,在源文本“你四肢很不协调”中,TWR*模型在迁移时出现了词汇选择不当的情况,将“不协调”改写为“不错”,虽然实现了情感上的反转,但在描述四肢时使用“不错”这个词并不恰当。另外,对于含有隐含负面情感的文本,如“你看看别人家的孩子”,模型可能无法对其进行恰当的改写,导致生成的结果质量较差。因此,对于这类文本的改写仍是一项具有挑战性的任务。综合以上实验结果,TWR*模型整体上取得了良好的效果,在大多数情况下能够较好地完成情感风格迁移任务。

表 9 TWR*模型的部分测试样例
源文本 生成文本
你眼光真 你眼光真好
这孩子怎么这么不听话 这孩子怎么这么听话
别人能写完作业你为什么不能 别人能写完作业你也能
你做什么我都不相信 你做什么我都相信你
不行 你能行的
没长脑子 你挺干净的
你看看别人家的孩子 看看人家的
了吧,什么活都不干 太懒了吧,什么活都干
你四肢很不协调 你四肢很不错

5 结论

为了开展中文对话领域的情感风格迁移的研究,实现将负面情感的对话文本迁移为正面情感的对话文本,构建了一个基于家庭日常对话的中文情感文本数据集。此外,本文还改进了TWR模型。为了更准确地识别文本中的风格,在文本数据集上训练一个风格分类器,将其作为TWR*模型的分类器。实验结果表明,通过自动评估和人工评估,TWR*模型可以有效地识别文本中负面情感的内容,实现了中文文本的正面情感风格迁移。

文本风格迁移的目的是在改变文本风格属性的同时保留文本语义。然而,目前负面情感到正面情感的文本风格迁移中,在改变风格的同时也可能会改变源文本的语义,未来将考虑应用积极框架来改善这个问题。

参考文献
[1]
JIN D, JIN Z J, HU Z T, et al. Deep learning for text style transfer: A survey[J]. Computational Linguistics, 2022, 48(1): 155-205.
[2]
PRYZANT R, MARTINEZ R D, DASS N, et al. Automatically neutralizing subjective bias in text [C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA, 2020: 480-489.
[3]
VAN DEN BERCKEN L, SIPS R J, LOFI C, et al. Evaluating neural text simplification in the medical domain [C]// The World Wide Web Conference. San Francisco, USA, 2019: 3286-3292.
[4]
PRABHUMOYE S, TSVETKOV Y, SALAKHUTDINOV R, et al. Style transfer through back-translation [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia, 2018: 866-876.
[5]
MIR R, FELBO B, OBRADOVICH N, et al. Evaluating style transfer for text [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA, 2019: 495-504.
[6]
JHAMTANI H, GANGAL V, HOVY E, et al. Shakespearizing modern language using copy-enriched sequence to sequence models [C]// Proceedings of the Workshop on Stylistic Variation. Copenhagen, Denmark, 2017: 10-19.
[7]
RAO S, TETREAULT J. Dear sir or madam, may I introduce the GYAFC dataset: Corpus, benchmarks and metrics for formality style transfer [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA, 2018: 129-140.
[8]
LOGACHEVA V, DEMENTIEVA D, USTYANTSEV S, et al. ParaDetox: Detoxification with parallel data [C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland, 2022: 6804-6818.
[9]
HU Z Q, LEE R K W, AGGARWAL C C, et al. Text style transfer: A review and experimental evaluation[J]. ACM SIGKDD Explorations Newsletter, 2022, 24(1): 14-45. DOI:10.1145/3544903.3544906
[10]
LI J C, JIA R B, HE H, et al. Delete, retrieve, generate: A simple approach to sentiment and style transfer [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). New Orleans, USA, 2018: 1865-1874.
[11]
MADAAN A, SETLUR A, PAREKH T, et al. Politeness transfer: A tag and generate approach [C/OL]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online, 2020: 1869-1881.
[12]
DALE D, VORONOV A, DEMENTIEVA D, et al. Text detoxification using large pre-trained neural models [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominica, 2021: 7979-7996.
[13]
SHUO Y. Tagging without rewriting: A probabilistic model for unpaired sentiment and style transfer [C]// Proceedings of the 12th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis. Dublin, Ireland, 2022: 293-303.
[14]
FU Z X, TAN X Y, PENG N Y, et al. Style transfer in text: Exploration and evaluation [C]// Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto, USA, 2018.
[15]
YI X Y, LIU Z H, LI W H, et al. Text style transfer via learning style instance supported latent space [C]// Proceedings of the 29th International Joint Conference on Artificial Intelligence. Yokohama, Japan, 2020: 3801-3807.
[16]
LIU D Y H, FU J, ZHANG Y D, et al. Revision in continuous space: Unsupervised text style transfer without adversarial learning [C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA, 2020: 8376-8383.
[17]
DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA, 2019: 4171-4186.
[18]
AREFYEV N, SHELUDKO B, PODOLSKIY A, et al. Always keep your target in mind: Studying semantics and improving performance of neural lexical substitution [C]// Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain, 2020: 1242-1255.
[19]
HEAFIELD K. KenLM: Faster and smaller language model queries [C]//Proceedings of the Sixth Workshop on Statistical Machine Translation. Edinburgh, Scotland, 2011: 187-197.
[20]
LAFFERTY J D, MCCALLUM A, PEREIRA F C, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, USA, 2001: 282-289.
[21]
VITERBI A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967, 13(2): 260-269.
[22]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 6000-6010.
[23]
HOOVER B, STROBELT H, GEHRMANN S. exBERT: A visual analysis tool to explore learned representations in transformer models [C/OL]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Online, 2020: 187-196.
[24]
PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA, 2002: 311-318.
[25]
ZHANG T Y, KISHORE V, WU F, et al. BERTScore: Evaluating text generation with BERT [C/OL]// 8th International Conference on Learning Representations. Online, 2020: 26-30.
[26]
LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: A lite BERT for self-supervised learning of language representations [Z/OL]. arXiv: 1909.11942, 2021.
[27]
LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized BERT pretraining approach [Z/OL]. arXiv: 1907.11692, 2019.