PromptWE: 一种融合解释的提示学习事实核查模型
张翔然1,2, 李璐旸2    
1. 浙江大学 工程师学院, 杭州 310015;
2. 北京外国语大学 信息科学技术学院, 北京 100089
摘要:针对事实核查任务中如何利用生成的解释更好地辅助真实性判断的问题,该文提出一种融合解释的提示学习事实核查模型PromptWE。该模型在生成任务中通过证据筛选和摘要生成更易理解的解释,然后在分类任务中将解释融合进提示学习模型的提示模板中,从而将解释与预训练模型储备的知识相结合,以提高真实性判别的准确率。该模型在2个数据集上的F1值比SOTA模型高5%,表明模型生成的解释能提升模型判别信息真假的能力。此外,为了说明高质量的解释在分类任务中的重要性,该文将数据集中的专家证据直接作为解释,融合进提示模板中进行了提示学习训练,比融合模型生成的解释的F1值提高了16%,证明了高质量解释能有效激发通用语言模型在事实核查任务上的能力。
关键词事实核查    提示学习    解释生成    
PromptWE: A fact-checking method based on prompt learning with explanations
ZHANG Xiangran1,2, LI Luyang2    
1. Polytechnic Institute, Zhejiang University, Hangzhou 310015, China;
2. School of Information Science and Technology, Beijing Foreign Studies University, Beijing 100089, China
Abstract: [Objective] In the contemporary "We Media" era, the simplification of news production and dissemination has elevated every individual to the status of news producer and disseminator, and a large amount of false information also follows. Despite the increasing and abundant information on the Internet, the regulation of false information is relatively weak. Consequently, fact-checking is becoming more and more important work, while traditional related work tends to simply label predictions without explaining the reason for the label. The generated explanation in a few studies is also relatively primitive which is hard to comprehend. Because Fact-checking demands a substantial amount of common sense, reasoning, and background knowledge about claims. Prompt learning may further utilize common sense and reasoning ability in pre-trained language models. It may also incorporate the relevant information or additional details within the explanation for claims. In all, it is essential to generate high-quality smooth explanations and further leverage generated explanations for improving classification performance through prompt learning. [Methods] To address this multifaceted challenge, we propose the PromptWE model (Prompt With Evidence) that uses the prompt learning paradigm to integrate auto-generated explanations with claims. We not only provide natural language explanations that enhance the explainability of the classification result but also further improve the model performance by combining explanation into prompt learning. The model performs hierarchical evidence distillation on many related new reports for every claim to obtain relevant evidence, then uses the BART-CNN model to summarize these incoherent pieces of evidence into one smooth explanation. Consequently, it integrates the claim and explanation into six self-designed templates for prompt learning. Finally, we ensemble the result from different templates to predict the authenticity of the news. Moreover, we replace the generated explanation with the professional explanation from the dataset to investigate the impact of expert evidence on the prompt learning models. [Results] Our method achieves good results on two fact-checking datasets: Liar-RAW and RAWFC. Its F1 score is 5% higher than the state-of-the-art model on both datasets at least. We also find that ensemble learning with multiple templates can effectively improve the F1 score of the model. For explanation generation, the model has a higher ROUGE-2 score than the former model. After integrating professional evidence into the prompt templates, the model achieves significant improvement in the classification results on the two datasets, with a maximum improvement of 15% when compared to the results of the PromptWE model. Also, we find that for multi-class classification task, the model with integrated professional evidence exhibited exhibits significant performance improvement on more challenging categories, such as half-true and mostly true. [Conclusions] Related experiments indicate that incorporating extracted explanations as supplementary background knowledge about claims, along with the common sense and reasoning abilities learned from pre-trained models, into prompt learning templates can further enhance classification performance for claim veracity. Moreover, sequentially employing the methods of hierarchical evidence extraction and text summarization makes explanations more concise, coherent, and comprehensible. Also, the explanation extracted from unrelated evidence is better suited for integration into prompt learning methods. The further improvement in classification performance after incorporating professional evidence underscores that this approach could swiftly identify accurate and informative prompt templates, facilitating subsequent more efficient utilization of general large models like ChatGPT.
Key words: fact-checking    prompt learning    explanation generation    

随着网络信息的爆炸式增长,大量虚假信息也在网络中被传播扩散。虚假信息与真实信息或常识相违背,对接收者产生误导,破坏社会信任,危害公共安全,甚至影响社会稳定[1]。高效且令人信服的事实核查工作有利于遏制虚假信息的传播。在已有的事实核查相关研究中,将待核查的网络信息称为断言(claim)[2]。大部分事实核查工作围绕分类任务展开,即基于多源信息与断言之间的文本关系(矛盾或蕴含)给出真实性判断。然而事实核查任务中对判断的解释同样重要,这有助于增加判断的可信度。

因此,事实核查工作的新任务之一,是在给定1个断言和它的相关文档或用户评论后,对断言给出真实性判断和解释。Shu等[3]使用共同注意力机制从新闻和其评论下找到适合解释新闻真假性的句子;Yang等[4]提出证据(可辅助辨别断言真假性的信息)蒸馏技术,即从内容相关的新闻文档中提取证据,从而降低对人工核验的信息依赖。这些工作对分类与解释生成的多任务处理进行了统一优化,并在解释生成上进行了具有启发性的探索。

随着预训练模型和通用语言模型的发展,如何更充分地挖掘模型内部已被学习到的知识,成为当下的研究热点之一。提示学习通过设计适当的提示使模型适配下游任务,被认为能更充分地利用模型的内部知识,已被证明在多种自然语言处理任务中均具有较好效果。本文受到文[3-4]的启发,基于包含断言及非人工验证的相关文档的数据集RAWFC和LIAR-RAW[4],进行了多个实验,相应代码已开源至github网站(http://github.com/nievuelo/PromptWE/)。

本文提出了融合解释的提示学习事实核查模型PromptWE。对于每一则新闻断言,本文运用证据蒸馏方法对断言的相关文档进行处理,获得多条可判断断言真假性的证据,之后针对证据使用文本摘要方法获得对断言的解释。本文将断言与其解释融入多个提示学习模板中,使用预训练语言模型进行监督训练。实验结果表明,抽取得到的解释作为对断言相关背景知识的补充,与预训练模型蕴含的常识、掌握的推理能力一起整合进提示学习模板中,能进一步提升模型判断断言真实性的能力。

1 相关工作 1.1 事实核查

对网络上流传的消息进行事实核查是近年来在自然语言处理方面的研究热点。虚假信息从广义上是指凭空捏造,没有经过证实的信息;从狭义上是指明确与事实不符的信息[2]

为提高预测结果的可解释性与可信度,越来越多的研究者开始关注附带解释的事实核查任务。为提升证据抽取的准确性,从句子级别上,有研究者使用注意力机制来突出重要的证据词语[5-6]、新闻属性[7]和可疑用户[8]等来获得相关证据,提供具有可解释性的句子。从文章级别上,有研究者使用注意力权重[8]、语义匹配[9]和文本蕴含[10]等方法获得证据句子。最近,也有研究者基于文档或相关评论进行研究,如Atanasova等[11]利用事实核查发布的解释报告直接抽取得到解释。Kotonya等[12]利用提取抽象摘要生成解释,独立于真实性预测。Yang等[4]依据新闻消息和其相关报道进行研究,有效地使用报道中的证据句子来提升预测标签正误的准确性。然而,这些基于文档级别得到的解释内容普遍较为原始,从原文得到的不连贯的众多证据句子也让人难以理解,并且对生成证据的利用也不够充分。

1.2 提示学习

提示学习基于现有的预训练模型,针对下游任务设计适当的提示,帮助语言模型理解下游任务的要求,从而激发预训练模型中的知识,最终达到更好的分类效果。提示学习与预训练模型遵循的“预训练+微调”范式[13]的差异主要在于,前者是改变任务适配预训练模型,后者是改变预训练模型适配任务[14]

提示学习对不同的下游任务有着多样的模型设计思路。对于多分类任务, Hu等[15]在提示学习模型的输出端结合外部知识库,扩大了映射器的映射范围,使该模型在0样本和少样本任务上获得了不错的效果。对于短文本分类任务,Zhu等[16]在提示学习中运用知识图谱来扩展相关标签的内容,使模型在短文本分类任务中表现出色。对于文本摘要任务,有研究者通过把软提示模板设计为跨编码器和解码器的连续输入,增强了模型在少样本条件下的分类效果[17]。这些研究表明,提示学习在众多下游任务中具备良好的应用效果。

通过分析已有研究工作可知:1) 以往的事实核查任务中,虽然结合多种信息进行了附带解释的模型的事实核查工作,但缺少对输出结果更为有效、直观的解释,并且没有充分利用生成的解释提升事实核查分类的准确性。2) 事实核查是一项需要大量常识、推理逻辑和事实相关背景知识的工作,而提示学习可以融合预训练语言模型中的常识、推理逻辑,以及蕴含在解释内的相关新闻背景或额外信息来进行预测。

2 PromptWE模型

在事实核查任务中,本文将多条证据组合成1段话作为解释,用以判断断言的真假性,提出的PromptWE模型可分为4个部分(见图 1),分别是:数据清洗与编码、证据蒸馏与解释生成、融合解释的提示学习、集成学习与预测。虚线框部分表示输入的数据,由一则断言和相关文档组成。本文的数据编码和证据蒸馏借鉴了文[4]的方法。由于证据蒸馏选择出的若干条证据句子来自不同文档,为使其成为1段语义连贯的表述,本文把这若干条证据句子进行文本摘要,从而生成解释。摘要模型是通过美国有线电视新闻网(CNN) 上的多篇新闻文章微调过的双向自回归Transformer(bidirectional and auto-regressive transformers, BART)模型,即BART-CNN模型[18]。在提示学习部分,将摘要模型输出的解释和断言以模板形式结合,在提示学习基础上使用多种模板进行分类实验,基于集成学习投票器输出分类结果(“真”、“半真半假”、“假”等)的标签。该模型使多个提示模板优势互补,克服了不同种提示学习模板的预测结果存在一定差异的不足,提高了分类预测的准确率。

图 1 PromptWE模型框架

2.1 数据清洗与编码

经过对断言和相关文档的拼写检查、缩写词展开等数据清洗以后,进行数据编码的工作。使用当下常用的蒸馏BERT编码(distilled BERT, DistilBERT)[19]方法,利用分层编码器对断言和相关文档分别进行1和2层的句子级编码。具体而言,在对每个单词进行嵌入编码后,把嵌入层中的句子首部中,表示句子向量空间内的映射编码作为句子级编码。文档级编码则是对一个文档内所有的句子级编码使用双向长短期记忆网络进一步编码,再使用最大池化压缩得到。

2.2 证据蒸馏与解释生成

首先通过文档选择器选择出重要文档,具体过程是从文档级编码中挑选文档并依据与断言含义的相近度由高至低进行排序,根据文[4],选择前20个文档作为重要文档。再通过证据选择器,从句子级编码中,以句子的相关性、重要性、非冗余性和信息丰度这4个标准筛选出可辨别断言真假性的证据。其中,相关性用于判断待选句子和断言的语义是否相关;重要性用于判断待选句子在文档内部的重要程度;非冗余性用于在多篇文档可能重复报道了断言的同一相关信息的情况下,比较已选句子和待选句子的语义相似度;信息丰度用于判断待选句子本身是否包含足量信息来辅助判断断言的真假性。本文希望使用摘要模型尽可能地提取出多则证据集成的长文本内的主要观点,PromptWE模型相比文[4]中的模型降低了句子是否可以作为证据的评分阈值,有利于选择出更多证据,以增加与断言相关的信息量,为后续的解释生成提供了便利。

证据蒸馏和解释生成过程中的损失主要来自选择重要文档的损失和选择文档中证据句子的损失2方面,其函数表达为

$ \begin{gathered} L_{\mathrm{evi}}=-\beta_{\mathrm{Doc}} \sum\limits_i \varphi_{\mathrm{Doc}_i} \ln \left(\hat{\varphi}_{\mathrm{Doc}_i}\right)- \\ \beta_{\mathrm{S}} \sum\limits_i \sum\limits_j p\left(S_{i, j}^{\prime \prime}\right) \ln \left(p\left(\hat{S}_{i, j}^{\prime \prime}\right)\right) . \end{gathered} $ (1)

其中:Levi表示证据生成过程的总体损失值,φDoci$\hat{\varphi}_{\text {Doc}_i}$分别表示一则断言中的第i篇相关文档是否属于重要文档的实际评分和预测评分,若是则赋值为1,否则赋值为0;Si, j$\hat{S}_{i, j}^{\prime \prime}$分别表示第i篇文档第j个句子是否被选为证据的实际评分和预测评分,若是则赋值为1,否则赋值为0;p(Si, j)和$p\left(\hat{S}_{i, j}^{\prime \prime}\right)$分别表示断言的第i篇相关文档中的第j个句子,可被选择为证据句子的真实概率和预测概率;βDocβS分别表示对选择重要文档和证据句子的损失函数的权重系数,取值参考文[4]中的系数优化算法,会考虑到已训练的时长,也会考虑上一步损失值与此步损失值之间的差异。

在经过筛选得到一则新闻的相关证据后,本文通过对证据进行文本摘要获得解释。使用BART-CNN模型生成摘要是一个先编码后解码的过程(见图 2),该模型由双向编码器和自回归解码器组成,先对证据组成的长文本进行编码压缩,之后由解码器按照参数要求对已经生成的摘要内容进行解码。筛选出来的对应第k个断言从相关文档中抽取的解释用expk表示,$\exp _k=\operatorname{BART}\left(\sum\limits_i \sum\limits_j \hat{S}_{i, j}^{\prime \prime}\right)$。本文证据的数据来源是与断言相关的新闻文档,目的是得到1则通顺简短的解释,这与BART-CNN模型从长新闻上摘要得到新闻总结的调优过程类似。此外,BART-CNN模型调优的数据集与本文由断言和相关文档组成的数据集并不相同。

图 2 利用BART-CNN模型生成摘要[18]

2.3 融合解释的提示学习

提示学习过程可概括为以下几步:1) 根据任务设计特定的提示学习模板;2) 加载数据,将文本和其他元素包装进模板,经过表示层编码后放入提示学习模板,再进入预训练语言模型中训练;3) 设计下游的映射器,将对掩码的预测映射到标签内容里;4) 得到全连接层输出的预测结果。本文选择RoBERTa模型[20]作为预训练语言模型,该模型比BERT模型具有更大的数据训练量和更高的对预训练任务的调整能力,可提高长文本理解能力和文本分类能力。映射器的设计则借鉴了Hu等[15]的思路。

2.3.1 提示学习模板形式与内容

相关研究表明,提示学习中模板的设计对模型预测结果影响巨大[21]。目前常用的提示学习模板从构造规则上可分为2类:第1类是人工定义,优点是在小样本的分类任务中,模型收敛的时间更短,且模型的分类效果可以持平甚至优于SOTA模型[22];缺点是不一定能找到最适合预训练语言模型的模板。第2类是自动生成[23],可自动寻找到最适合预训练语言模型的模板,从而提升分类的效果;但自动生成的模板并不一定能找到最佳模板,却增加了计算成本。

本文将提示学习模板的提问方式分为2种:1种是将待预测的内容作为1个槽,把分类问题转化为模仿掩码预训练语言模型的预训练过程,类似于完型填空;另1种是把模板设置为对问题做出回答,类似于阅读理解。

2.3.2 融合解释的提示学习模板

本文设计了6种融合解释的提示学习模板如表 1所示。模板1~4为不可迭代的模板,称为硬模板;模板5和6为可以迭代的模板,称为软模版。以模板1为例,在构造规则上属于人工定义,在提问方式上属于完型填空式,内容为“〈断言〉 It is 〈预测槽〉 Because 〈解释〉”。虽然通过提示学习范式也可以生成解释,但由于预训练语言模型属于黑盒模型,其输出的内容不易控制。而证据蒸馏方法属于可解释模型,可以制定灵活多样的规则,且其硬件需求也更低,能一次性输入更多的相关文档并综合得出相关证据。此外,本文使用的RoBERTa预训练语言模型并不适合完成生成任务。因此,本文选用证据蒸馏方法产出证据后,再与提示学习模板融合进行学习,模板的输入是断言和根据相关文档抽取摘要后的相关解释。

表 1 融合解释的提示学习模板设计
编号 构造规则 提问方式 内容
1 人工定义 完型填空式 〈断言〉 It is 〈预测槽〉 Because 〈解释〉
2 人工定义 完型填空式 〈断言〉 All in all it is 〈预测槽〉 As 〈解释〉
3 人工定义 完型填空式 〈断言〉 This info is 〈预测槽〉 Since 〈解释〉
4 人工定义 阅读理解式 Question: 〈断言〉 Answer: 〈预测槽〉 Since 〈解释〉
5 自动生成 完型填空式 〈断言〉 〈软提示槽:It〉 〈软提示槽:is〉 〈预测槽〉 〈软提示槽:Because〉 〈解释〉
6 自动生成 阅读理解式 〈断言〉 〈软提示槽:Question〉: 〈解释〉 〈软提示槽:the〉 〈软提示槽:Answer〉: 〈预测槽〉

2.3.3 映射器输出到标签

映射器的作用是将模型输出的结果映射到标签空间中并输出概率值。本文在映射器中引入了映射字典,为预训练语言模型对掩码位置的预测范围提供指导。该字典依据标签的近义词等进行设计,在一些文本分类实验中被证明可有效提升模型分类效果[24]

本文将预训练语言模型模板和映射器的组合称作模板-映射对(T-V)。特定模板Tm(xk, expk)可作为第k个输入的断言xk在预训练语言模型中第m个融合解释的提示学习模板的输入,经模型处理后输出的是对应掩码位置的词的预测评分Yk=model(Tm(xk, expk)),其中model表示预训练语言模型。分类问题中,D表示数据集,L表示标签集合,则标签qL,对应的1则新闻及其相关数据(xk, expk, q)∈D

之后通过映射器逐一转化出每个标签的预测评分Yq。根据新闻文本和相关解释对应的提示学习模板,使用softmax函数计算出每个标签的预测概率:

$ \operatorname{prob}\left(\hat{q} \mid T_m\left(x_k, \exp _k\right)\right)=\operatorname{softmax}\left(Y_q\right) . $ (2)

其中$\hat{q}$表示对标签q的预测概率。选出概率最大值对应的标签即为分类结果。

将预测评分的算式代入式(2),可得Tm-V,输入xk和expk来预测标签的公式为:

$ \begin{gathered} \operatorname{prob}\left(\hat{q} \mid T_m\left(x_k, \exp _k\right)\right)= \\ \operatorname{softmax}\left(V\left(\operatorname{model}\left(T_m\left(x_k, \exp _k\right)\right) \mid \mathcal{L}\right)\right) . \end{gathered} $ (3)
2.4 集成学习与预测

投票器投票是将模型预测概率的加权平均值作为预测概率。本文前期预实验发现,带权重的投票方式优于不带权重的投票方式,故选择后者来集成相应微调后的提示学习模板和预训练语言模型。

针对表 1中融合解释的提示学习模板进行训练,得到对应的预训练语言模型modelm,使用训练集来递归分配各模型的权重wm,使用随机误差项μ来确保模型具有更好的泛化效果。最后以预测概率最高的标签作为分类结果:

$ \operatorname{prob}(\hat{q})=\sum\limits_{m=1}^6 w_m \operatorname{prob}\left(\hat{q} \mid \operatorname{model}_m\right)+m. $ (4)
3 实验与结果分析 3.1 数据集基本情况

本文使用的数据集分别为RAWFC和LIAR-RAW,均来自文[4],包含断言、相关文档和专家证据。数据集中的数据来自Snopes和Politifact这2个著名的事实核查网站,标签由网站直接给出;相关文档是断言在Google网上检索到的报道;专家证据由若干条评论员编写的评论报告组成。具体情况见表 2,RAWFC是3分类数据集,标签分别为“真实” “半真” “错误”;LIAR-RAW是6分类数据集,标签分别为“真实” “大致真实” “半真” “勉强正确” “错误”“极端错误”。2个数据集中,训练集、验证集和测试集的数据数量划分比例均为8∶1∶1。

表 2 数据集参数
数据集 标签数量/个 断言数量/则 相关文档 专家证据平均长度/句
断言的相关报道数量/篇 报道的相关句子数量/句
RAWFC 3 2 021 21.0 7.4 18.4
LIAR-RAW 6 12 590 12.3 5.5 4.1

3.2 模型实验效果分析 3.2.1 提示学习模板对比

本文设计了6种提示学习设计模板并对比其预测的准确性如表 3所示。结果表明,模板5表现出最好的分类效果,这是由于软模版在模型训练过程中不断迭代优化,与预训练模型的适配度更好。而把分类问题转化为阅读理解方式的模板4和6的分类F1值并不高,原因是RoBERTa模型的预训练任务为掩码预测任务,这与模板阅读理解式的提问方法有很大差异。此外,硬模板和软模板中都是“〈断言〉 It is 〈预测槽〉 Because 〈解释〉”这种直观简洁的模板实验分类的F1值最高。

表 3 不同提示学习模板的分类效果
%
模板编号 LIAR-RAW RAWFC
准确率 F1值 准确率 F1值
1 29.91 25.00 55.00 55.03
2 28.73 28.06 53.50 51.46
3 26.84 25.93 54.50 54.55
4 25.27 24.60 49.00 48.79
5 31.24 28.02 55.50 55.53
6 25.39 24.86 51.50 51.40

3.2.2 不同种类模型对比

本文选取了3种常用的事实核查模型、3种最新的附带解释的事实核查模型,与PromptWE模型进行分类效果的对比,如表 4所示。常用的事实核查模型为:1) BERT模型,其具有预训练加微调的范式;2) BERT结合双向长短期记忆网络(bidirectional long short-term memory, BiLSTM[25]) 模型,也具有训练加微调的范式,并且在BERT模型隐层之后附加双向长短期记忆网络;3) 提示学习模型Prompt,使用开源提示学习框架OpenPrompt[26]但不融合解释的模型效果。最新的附带解释的事实核查模型为:1) 可解释的事实核查(explainable fake news detection, dEFEND[3])模型,基于门控神经网络(GRU)进行附带解释的虚假信息检测;2) 可产生事实核查解释的联合训练模型(generating fact-checking explanation - multi-task training model, GenFE-MT[11]),基于DistilBERT模型进行多任务联合优化提升证据生成和虚假信息检测的效果;3) 粗粒度到细粒度的级联证据蒸馏神经网络(coarse-to-fine cascaded evidence distillation nueral network, CofCED[4])模型,使用证据蒸馏方法和多层感知神经网络多任务联合训练,并不生成可读解释,只筛选文章中句子,主要利用级联方式的蒸馏得到的证据来增强模型的分类效果。PromptWE-S模型中S表示“single”,代表此模型只选择3.2.1节中发现的,分类效果最优的模板5。

表 4 不同种类模型的分类效果
%
模型种类 LIAR-RAW数据集 RAWFC数据集
准确率 F1值 准确率 F1值
BERT 25.98 23.26 44.50 43.39
BERT-BiLSTM 26.53 25.50 46.00 46.04
Prompt 26.37 26.16 46.00 46.01
dEFEND 17.51 44.93
GenFE-MT 15.15 45.08
CofCED 28.93 51.07
PromptWE-S 31.24 28.02 55.50 55.53
PromptWE 33.99 33.61 56.00 56.05

1) 分类效果。

表 4可知,PromptWE模型在2个数据集上的分类表现均优于已有模型。PromptWE模型在2个数据集的F1值上比SOTA模型CofCED提升近5%,证明对抽取得到的解释进行摘要并融合进提示学习中,能有效提升分类效果。对比PromptWE与PromptWE-S模型可以发现,集成学习得到的准确率和F1值比任何单一的模板的都要高,并且在标签类别更多的数据集LIAR-RAW中,F1值提升明显。本文认为,抽取得到的解释可作为对断言语义与背景的进一步阐释,给出了更多诸如时间、起因和影响的说明。同时,由于海量数据的预训练过程语言模型已掌握了一些基本常识并拥有了推理判断能力,提示学习通过把对新闻语义与语境的进一步解释与语言模型中的基本常识结合起来,进一步提升了模型分类的效果。此外,由于BiLSTM对BERT模型的隐层进一步编码和压缩,本文认为BERT-BiLSTM可以更深层地学习模型中的特征,因此模型准确率和F1值也比BERT模型要更高,符合预期。

2) 生成解释效果。

本文选取当下在事实核查任务中生成解释表现最优的CofCED、dEFEND、GenFE-MT模型,与PromptWE模型做对比,使用固定公共子序列重叠比的评价指标ROUGE-N[27]评判解释的生成效果,如表 5所示。结果表明,在LIAR-RAW数据集上,相比CofCED与GenFE-MT模型,PromptWE模型的ROUGE-1低,但ROUGE-2高。这是由于数据集里的每篇报道的句子数量较少且方差较大,进行摘要后的解释文本长度比CofCED模型的证据解释更短,ROUGE-1因此下降,但是形成摘要的方式有效丰富了解释的含义,所以ROUGE-2有所升高;而由于GenFE-MT模型直接从句子中收集得到解释,故其在相关文档数据量较少的LIAR-RAW数据集上表现最好,而在相关数据量大的RAWFC数据上则表现较差。在RAWFC数据集上,由于每篇报道中的句子数量较多,PromptWE模型能更多地在解释中涵盖与断言相关的术语单词,所以比其他3个模型在ROUGE-1和ROUGE-2上都有明显的提升。

表 5 不同种类模型的生成解释效果
%
模型种类 LIAR-RAW数据集 RAWFC数据集
ROUGE-1 ROUGE-2 ROUGE-1 ROUGE-2
CofCED 17.14 3.49 27.62 9.32
dEFEND 17.03 3.26 19.95 5.08
GenFE-MT 23.08 3.67 18.23 7.12
PromptWE 15.63 3.61 37.54 11.71

表 6展示了来自RAWFC数据集的断言通过PromptWE模型生成解释的效果示例,由于长度限制,这里只展示解释中最重要的部分。对于一则标签为“半真”的断言“在Chicago的Abraham Lincoln雕像因人们反对联邦政府的权力而被毁掉(A bust of Abraham Lincoln was vandalized in Chicago in protest of confederate statues)”,本文抽取得到的解释在前部分讲述了破坏者烧毁了Lincoln雕像这一事件的正确性,在后部分讲述了错误的原因:其毁坏的目的并不是出于反对联邦政府,而是表达对奴隶制度和恐怖主义的反对。所以预测该断言为半真半假。观察生成的解释也可以发现,PromptWE模型的解释一方面说明了断言的真假性,同时也给出了更多与断言有关的背景信息。这使得事实核查工作更具有可解释性,更加令人信服。

表 6 生成解释的示例
断言 A bust of Abraham Lincoln was vandalized in Chicago in protest of confederate statues.
摘要解释 Vandal burn a bust of Abraham Lincoln that's be in the neighborhood for 100 year.……The primary argument for take down the statue be that …… therefore celebrate the slavery and racism it stand for.
翻译 破坏者烧毁了已经有100年历史的Lincoln的雕像……拆除雕像的主要论据是……庆祝反对它所代表的奴隶制和种族主义。
标签 半真

3.2.3 融合专家证据的模型实验

生成高质量的解释是PromptWE模型希望实现的目标之一。为了验证高质量的解释在分类任务中的重要性以及提示学习模型利用外部知识的能力,本节将已有数据集中的专家证据视作高质量解释,直接融入提示学习事实核查任务中,作为一种理想状态下的模型,记为PromptPE模型。对比PromptPE模型与融入自生成的解释的PromptWE模型的分类效果,结果如表 7所示。可以看出,PromptPE的F1值比PromptWE模型在LIAR-RAW数据集上提升了2%,在RAWFC数据集上则提升了16%, 说明高质量的解释有助于断言真实性的判断。在LIAR-RAW数据集上的提升没有在RAWFC数据集明显,原因在于RAWFC数据集的专家证据的平均长度(18.4句)远大于LIAR-RAW数据集(4.1句),前者能给出更多的信息辅助分类。并且LIAR-RAW数据集是6分类数据,RAWFC数据集是3分类数据,前者的分类难度更大。以上结果说明,当模型拥有更丰富和高质量的解释时,判断真假的性能获得明显提升。

表 7 PromptPE系列模型分类效果
%
模型种类 LIAR-RAW数据集 RAWFC数据集
准确率 F1值 准确率 F1值
PromptWE-S 31.24 28.02 55.50 55.53
PromptWE 33.99 33.61 56.00 56.05
PromptPE 36.03 35.60 72.50 72.62

对于6分类问题,图 3a3b分别为CofCED与PromptPE模型使用LIAR-RAW数据集的混淆矩阵。其中:横坐标表示真实标签的分类情况,纵坐标表示模型预测标签的分类情况,主对角线上的方格表示预测与真实相符,其他位置的方格则表示预测不正确,方格颜色越深表示这个区域的样例数越多。可以看出,PromptPE模型中深色区域集中在对角线上,而CofCED模型中深色区域比较分散,说明PromptPE模型的分类效果更好;PromptPE模型比CofCED模型在“大致真实”“半真”“勉强真实”“错误”类别上的分辨效果有了明显提升,说明模型的理解能力进一步提高。以上实验结果说明,结合互联网上的高质量信息如专家证据等,可帮助模型快速找到包含丰富信息且有效的提示模板,能有效提升模型对事实核查工作的分类效果。

图 3 使用LIAR-RAW数据集的模型混淆矩阵

4 结论

本文针对事实核查任务,提出一种融合解释的提示学习事实核查模型PromptWE。模型从大量的相关文档中选择出可作为证据的句子,并把这些关联性不大的证据进行摘要,形成人们更易理解的解释。之后,使用提示学习模板,在事实核查任务中融合解释,并验证了融合解释后的模型在LIAR-RAW和RAWFC数据集上的分类效果。实验结果表明:在事实核查任务中解释生成技术能够改善事实核查的分类效果,增强对信息真实性的判断能力;使用分层抽取证据和文本摘要的方法,可以使生成的解释更凝练、通顺、易于理解,也更适合融入提示学习模板中;高质量的解释如数据集中的专家证据融入提示学习模板中,可进一步提升分类效果。本文研究有力说明了融合高质量解释的方法有利于后续更有效地使用通用语言大模型如ChatGPT等。这对今后在事实核查任务上使用通用语言大模型具有重要的借鉴价值。

参考文献
[1]
彭兰. 网络传播概论[M]. 4版. 北京: 中国人民大学出版社, 2017.
PENG L. Introduction to network communication[M]. 4th ed.. Beijing: China Renmin University Press, 2017. (in Chinese)
[2]
ZHOU X Y, ZAFARANI R. A survey of fake news: Fundamental theories, detection methods, and opportunities[J]. ACM Computing Surveys, 2000, 53(5): 109.
[3]
SHU K, CUI L M, WANG S H, et al. dEFEND: Explainable fake news detection[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, AK, USA: Association for Computing Machinery, 2019: 395-405.
[4]
YANG Z W, MA J, CHEN H C, et al. A coarse-to-fine cascaded evidence-distillation neural network for explainable fake news detection[C]//Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, 2022: 2608-2621.
[5]
POPAT K, MUKHERJEE S, YATES A, et al. DeClarE: Debunking fake news and false claims using evidence-aware deep learning[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018: 22-32.
[6]
WU L W, RAO Y, SUN L, et al. Evidence inference networks for interpretable claim verification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(16): 14058-14066.
[7]
YANG F, PENTYALA S K, MOHSENI S, et al. XFake: Explainable fake news detector with visualizations[C]//The World Wide Web Conference. New York, NY, USA: Association for Computing Machinery, 2019: 3600-3604.
[8]
LU Y J, LI C T. GCAN: Graph-aware Co-attention networks for explainable fake news detection on social media[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 505-514.
[9]
NIE Y X, CHEN H N, BANSAL M. Combining fact extraction and verification with neural semantic matching networks[C]//Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence and Thirty-First Innovative Applications of Artificial Intelligence Conference and Ninth AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, Hawaii, USA: AAAI Press, 2019, 33(1): 6859-6866.
[10]
MA J, GAO W, JOTY S, et al. Sentence-level evidence embedding for claim verification with hierarchical attention networks[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 2561-2571.
[11]
ATANASOVA P, SIMONSEN J G, LIOMA C, et al. Generating fact checking explanations[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 7352-7364.
[12]
KOTONYA N, TONI F. Explainable automated fact-checking for public health claims[C/OL]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 2020: 7740-7754.
[13]
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019: 4171-4186.
[14]
LIU P F, YUAN W Z, FU J L, et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing[J]. ACM Computing Surveys, 2023, 55(9): 195.
[15]
HU S D, DING N, WANG H D, et al. Knowledgeable prompt-tuning: Incorporating knowledge into prompt verbalizer for text classification[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics, 2022: 2225-2240.
[16]
ZHU Y, ZHOU X K, QIANG J P, et al. Prompt-learning for short text classification[J]. arXiv preprint arXiv: 2202.11345, 2022.
[17]
LIU X C, GAO Y, BAI Y, et al. PSP: Pre-trained soft prompts for few-shot abstractive summarization[C]//Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, 2022: 6355-6368.
[18]
LEWIS M, LIU Y H, GOYAL N, et al. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[C/OL]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 7871-7880.
[19]
SANH V, DEBUT L, CHAUMOND J, et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter[J]. arXiv preprint arXiv: 1910.01108, 2019.
[20]
LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv: 1907.11692, 2019.
[21]
CUI L Y, WU Y, LIU J, et al. Template-based named entity recognition using BART[C/OL]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Online: Association for Computational Linguistics, 2021: 1835-1845.
[22]
DING N, CHEN Y L, HAN X, et al. Prompt-learning for fine-grained entity typing[C]//Findings of the Association for Computational Linguistics: EMNLP 2022. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022: 6888-6901.
[23]
LI X L, LIANG P. Prefix-tuning: Optimizing continuous prompts for generation[C/OL]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online: Association for Computational Linguistics, 2021: 4582-4597.
[24]
SCHICK T, SCHVTZE H. Exploiting cloze-questions for few-shot text classification and natural language inference[C/OL]//Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics, 2021: 255-269.
[25]
WANG Y X, ZHANG Y H, LI X B, et al. COVID-19 fake news detection using bidirectional encoder representations from transformers based models[J]. arXiv preprint arXiv: 2109.14816, 2021.
[26]
DING N, HU S D, ZHAO W L, et al. OpenPrompt: An open-source framework for prompt-learning[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Dublin, Ireland: Association for Computational Linguistics, 2022: 105-113.
[27]
LIN C Y. ROUGE: A package for automatic evaluation of summaries[C/OL]//Text Summarization Branches Out. Barcelona, Spain: Association for Computational Linguistics, 2004: 74-81.