基于循环交互注意力网络的问答立场分析
骆旺达, 刘宇瀚, 梁斌, 徐睿峰    
哈尔滨工业大学(深圳) 计算机科学与技术学院, 深圳 518055
摘要:针对现有问答立场分析方法未考虑问答文本间交互依赖关系的不足,该文提出一种基于循环交互注意力(recurrent interactive attention,RIA)网络的问答立场分析方法。该方法模拟人类的问答阅读理解机制,采用交互注意力机制和循环迭代策略,结合问题和回答的相互联系分析问答文本的立场信息。此外,为了处理问题文本无法明确表达自身立场的情况,该方法将问题转换为陈述句。在中文社交问答数据集上的实验结果表明,由于有效地表示了问答对依赖关系,本文方法的性能优于已有方法。
关键词问答立场分析    循环交互注意力    问题表示    
Answer stance detection based on recurrent interactive attention network
LUO Wangda, LIU Yuhan, LIANG Bin, XU Ruifeng    
School of Computer Science and Technology, Harbin Institute of Technology (Shenzhen), Shenzhen 518055, China
Abstract: Most existing answer stance detection methods ignore the interactive dependence between question and answer. This paper describes an answer stance detection method based on a recurrent interactive attention (RIA) network. This method simulates the human interactions in question-answer reading comprehension using an interactive attention mechanism and iterations to simulate the interactive dependence between question and answer for detecting the answer stance. In addition, since the question text cannot explicitly express its stance, the question text is transformed into declarative sentences. Tests on a Chinese social media question-answer dataset show that this method outperforms existing answer stance detection methods due to the effective representation of the interactive dependence between the question and the answer.
Key words: answer stance detection    recurrent interactive attention    question representation    

问答立场分析的目的是识别给定的问题—回答对中,回答相对于问题所持的立场如支持、中立和反对等。由于问答数据广泛存在于社交媒体平台中,对问答进行立场分析,可以获得社交媒体中大规模用户对不同事物的态度立场。因此,问答立场分析研究具有重大的科学意义和商业价值[1]。问答立场分析任务由Yuan等[2]提出,其样例如表 1所示,问答立场分析与文本立场检测存在高度关联,但也有巨大的差别。相比SemEval-2016 Task 6[3]等给定分析目标的文本立场检测任务,问答立场分析仅提供了问答文本,但没有提供目标词,这就使得传统立场分析模型很难直接构建回答相对于问题的立场表示。

表 1 立场数据实例
问题 回答 立场
雅培奶粉好不好? 我们都是吃这个,还不错,但是是从美国买的。 支持
世界上有没有美人鱼? 没有。但有一种情况下是有的,那就是你正在做梦。哈哈。 反对

现有的文本立场分析方法主要包括基于特征工程的机器学习方法和基于深度学习的立场检测方法。基于特征工程的机器学习方法主要以句法、语法、情感词、词性和词频等手工特征为基础,通过模型特征训练和筛选等方式构建分类器对文本进行立场检测[1]。Menini等[4]利用支持向量机模型,应用立场文本中蕴涵表示、情感词和文本相似度等特征,进行政治领域文本的立场检测;同样,Addawood等[5]以文本间的论辩关系、词汇和语法等作为特征,利用立场目标和文本之间的交互,提升模型分类效果。基于深度学习的立场检测方法主要以循环神经网络(RNN)和卷积神经网络(CNN)等端到端的模型为主。该类方法主要应用深度神经网络学习立场目标和文本之间的表示,构造分类模型。Lozano等[6]通过对CNN模型进行改造,引入自动规则生成模块和人工规则,提升模型对特定目标的关注。Dey等[7]在长短时记忆网络(LSTM)[8]模型基础上引入注意力机制,通过强化文本中关键词的语义表示,提升模型立场分类性能。考虑到文本立场分析往往围绕特定目标展开,近年来通过对特定目标建模来挖掘目标与上下文词语之间的依赖关系的基于目标依赖的立场分析方法得到较多关注。Xu等[9]提出了基于自注意力(self-attention)的CrossNet模型,基本思想是从源领域学习一系列特征并将其应用于目标领域。Augenstein等[10]提出BiCond模型,以条件长短时记忆网络(condition LSTM)为基础对立场文本进行编码,构建目标条件依赖下的文本表示。此外,为了加深目标与文本之间的依赖表示,循环注意力网络(RAM)模型[11]采用循环迭代的思想来强化目标与文本间的关系。

Yuan等[2]首次提出问答立场分析任务,并针对这一任务提出循环条件注意力(RCA)模型。该模型继承RAM和AoA(attention-over-attention network)[12]模型的思想,利用循环依赖的方式学习问题文本与回答文本间的依赖关系。但该模型单纯考虑回答相对于问题的依赖关系,却忽视了问题相对于回答的依赖关系。

参考人类对问答文本的阅读理解机制,以人类理解问答文本的2种方式(即带着问题看回答、从回答中找出问题涉及的关键部分)为基础,借鉴对问题和回答文本多次阅读加深理解的策略,本文提出了一种基于循环交互注意力网络(recurrent interactive attention, RIA)的问答立场分析方法。此外,为处理疑问表述下问题文本无法有效传递所蕴含立场信息的情况,本文将问题转化成陈述句进行优化。同时,由于中文社交文本问答数据集的立场标签分布不平衡,容易致使模型无法有效地学习样本类别特征,本文采用焦点损失(focal loss)[13]的训练手段来改善此类问题。在中文社交问答数据集上的实验结果表明,本文提出的循环交互注意力网络模型取得了比已有模型更好的性能。

1 模型框架 1.1 问题描述

问答立场分析需要针对给定的问题和回答对来判定回答所表达的立场。具体的,给定问题文本Qk个词组成即{w1, w2, …, wk},回答文本Am个词组成即{w1, w2, …, wm},其中,wi表示第i个词的词向量表示。问答立场分析任务的目标是对问题和回答文本进行形式化表示,并分析问题文本Q和回答文本A的交互关系,判断回答相对于问题的立场(支持、中立和反对)。

1.2 循环交互注意力网络架构

在理解问答文本特别是复杂问答文本时,人们会带着问题看回答,同时也会基于回答看问题;对于相对复杂的问题,人们还会反复对照问题和答案进行理解。借鉴于人类的问答理解机制,本文提出了一种基于循环交互注意力的网络模型,来进行问答立场分析任务。该模型总体框架如图 1所示,包含三个部分,分别是循环网络、基于问题的回答注意力模型(q2a)和基于回答的问题注意力模型(a2q)。相比传统的问答立场分析模型,该模型同时结合问题的回答表示和回答的问题表示,以期更好地表示问答文本间的语义依赖关系。此外,引入循环网络的目的是反复迭代每次交互注意力节点输出的立场表示,来获得一个结合多次问答理解的立场表示。

图 1 循环交互注意力网络架构

该模型以s0作为初始立场表示,将sn作为经历n次问答理解后的问答立场表示。其计算方法为将立场表示sn-1作为交互注意力节点的输入,结合基于问题的回答注意力表示和基于回答的问题表示,获得新的问答立场表示结果sn,其计算如式(1)—(3)所示。其中,QA分别代表将输入Bi-GRU模型的问题和回答表示,q2a为基于问题的回答注意力模型,a2q为基于回答的问题注意力模型。将基于问题的回答注意力表示snq2a和基于回答的问题表示sna2q进行点乘运算,以更好地获得问答文本对中包含真实语义的实词表示。将结果投入到激活函数tanh中,目的是为模型引入非线性元素,使得模型能更好地拟合问答立场表示结果。

$ {\boldsymbol{s}}_n^{{\rm{q2a}}} = {\rm{q2a}}\left( {{{\boldsymbol{s}}_{n - 1}}, Q, A} \right), $ (1)
$ {\boldsymbol{s}}_n^{{\rm{a2q}}} = {\rm{a2q}}\left( {{{\boldsymbol{s}}_{n - 1}}, Q, A} \right), , $ (2)
$ {{\boldsymbol{s}}_n} = \tanh \left( {{\boldsymbol{s}}_n^{{\rm{q2a}}}, {\boldsymbol{s}}_n^{{\rm{a2q}}}} \right). $ (3)

基于上述方法,模型反复对问答文本进行学习,不断迭代问答立场表示。当循环网络达到预设定的n次阅读理解时,模型停止迭代,并将经过n轮问答文本学习到的立场表示结果sn作为Softmax函数的输入,获得最终的问答立场分类结果。

1.3 基于问题的回答注意力

图 1中的q2a结构所示,基于问题的回答注意力模型目的是根据sn-1QA的关系,构建一个基于问题依赖的回答表示。q2a结构由2个注意力机制组成,分别为问题注意力和回答注意力。

问题注意力的思想是通过将sn-1Q进行注意力交互,获得一个加权的问题语义表示,从而更好地强化与立场表达相关词汇的重要性,计算如下:

$ {\boldsymbol{u}}_{ni}^Q = {\boldsymbol{s}}_{n - 1}^{\rm{T}} \cdot {\boldsymbol{h}}_i^Q, $ (4)
$ {\boldsymbol{a}}_{ni}^Q = \frac{{\exp \left( {{\boldsymbol{u}}_{ni}^Q} \right)}}{{\sum\limits_{l = 1}^k {\exp \left( {{\boldsymbol{u}}_{nl}^Q} \right)} }}, $ (5)
$ {\boldsymbol{Q}}_n^{{\rm{q2a}}} = \sum\limits_{i = 1}^k {{\boldsymbol{a}}_{ni}^Q \cdot {\boldsymbol{h}}_i^Q} . $ (6)

其中:hiQQ中每一个词的隐状态,uniQaniQ分别为第n轮问题理解中问题表示第i个词的权值和归一化权值,Qnq2a为q2a模型输出的带权问题表示。

基于q2a获得的加权问题表示Qnq2asn-1相结合,经过单层GRU[14],目的是整合问题和立场信息。此外,为了引入非线性因素改善模型,本文还将整合后的立场信息作为激活函数tanh的输入,获得一个基于问题的立场表示:

$ {\boldsymbol{s}}_{n - 1}^{{{\rm{q}}^ * }} = \tanh \left( {{\rm{GRU}}\left( {{{\boldsymbol{s}}_{n - 1}}, {\boldsymbol{Q}}_n^{q2a}} \right)} \right). $ (7)

回答注意力的目的是基于问题立场的前置条件,来更好地发现回答的重点。该方法利用注意力机制,根据sn-1q*A,获得基于问题的加权回答语义表示:

$ {\boldsymbol{u}}_{ni}^A = {\left( {{\boldsymbol{s}}_{n - 1}^{{q^ * }}} \right)^{\rm{T}}} \cdot {\boldsymbol{h}}_i^A, $ (8)
$ {\boldsymbol{a}}_{ni}^A = \frac{{\exp \left( {{\boldsymbol{u}}_{ni}^A} \right)}}{{\sum\limits_{l = 1}^m {\exp \left( {{\boldsymbol{u}}_{nl}^A} \right)} }}, $ (9)
$ {\boldsymbol{A}}_n^{{\rm{q2a}}} = \sum\limits_{i = 1}^m {{\boldsymbol{a}}_{ni}^A \cdot {\boldsymbol{h}}_i^A} , $ (10)
$ {\boldsymbol{s}}_n^{{\rm{q2a}}} = {\rm{GRU}}\left( {{\boldsymbol{s}}_{n - 1}^{{{\rm{q}}^ * }}, {\boldsymbol{A}}_n^{{\rm{q2a}}}} \right). $ (11)

其中:hiAA中每一个词的隐状态,unlAanlA分别为第n轮问题理解中基于问题的回答表示中第i个词的权值和归一化权值,Anq2a为q2a结构中带权的回答表示。

1.4 基于回答的问题注意力

基于回答的问题注意力模型目的是构建一个回答依赖的问题表示, 结构与基于问题的回答注意力结构正好相反。该方法首先基于GRU结合sn-1Ana2q,并将其通过激活函数tanh,获得基于回答的立场表示sn-1a*。然后,基于GRU将回答的立场表示sn-1a*与带权的问题表示Qna2q进行结合,获得基于回答的加权问题语义表示sna2q

1.5 模型训练

给定QAn,基于循环交互注意力网络模型,可以获得经过n轮问答理解后的问答立场表示sn。然后,基于Softmax函数,将sn归一化并映射为各立场对应的概率表示p。由于存在问答立场类别(支持、中立和反对)数据不均衡等问题,为了更好地训练循环交互注意力模型,本文在最小化交叉熵损失函数的基础上,引入焦点损失的思想进行改善。损失函数为

$ {\rm{FL}}\left( p \right) = - a{\left( {1 - p} \right)^\gamma }\log p. $ (12)

其中:a为类别共享权值,用于平衡各类别对总损失的影响;γ为调制系数,用于平衡难分和易分样本的权重。

1.6 问题陈述化

问题文本经常是一种疑问表述形式,例如“雅培奶粉好不好?”和“世界上有没有美人鱼?”。这种表述形式包含着众多“好不好”“有没有”和“是不是”等疑问词,使得问题文本不能有效地传递出问题自身是何种立场信息。针对上述问题,本文采用问题陈述化的方法,即应用基于规则的方式将问题文本由疑问表述转换成陈述句表示,如“雅培奶粉好”和“世界上没有美人鱼”。问题陈述化转换的目的是使模型能更高效地明确问题文本的立场信息,加强循环交互注意力模型对问答文本的表示学习能力。

2 实验结果及分析 2.1 实验数据集

本文的实验在公开的中文社交问答数据集[2]上进行,其源数据主要来源于百度知道、搜狗问答等流行互联网社区平台,涉及包括日常生活和医疗疾病等领域内容。中文社交问答数据集中每个数据为一个三元组的表示<问题, 回答, 立场>,且该数据集的立场类别分布如表 2所示。

表 2 中文社交问答数据集立场标签数量
数据 支持 中立 反对
训练集 5 088 1 060 4 050
测试集 1 119 1 018 856

2.2 实验参数设置和评价指标

在循环交互注意力模型中,本文设置问题和回答文本长度分别为25和45(文本过长则进行截断,否则进行0补全),采用100维的Glove.6B词向量[15]作为文本的初始输入。此外,模型中Bi-GRU隐层维度为100,dropout为0.5,模型最小批大小Batch_size为16,模型阅读最大次数n为3,模型训练周期epoch为10轮。在模型训练方面,采用Adam[16]作为优化器,学习率为6×10-4。同时,采用焦点损失函数,a为0.25,γ为1.5。

本文使用准确率(accuracy)、支持类标的F1值(F1-支持)、反对类标的F1值(F1-反对)、宏平均F1(macro-average F1)和微平均F1(micro-average F1)作为问答立场任务的评价指标。其中,针对宏平均和微平均指标,本文与Yuan等[2]采用相同的评估策略,即不考虑中性立场结果。

2.3 对比模型

为了评估本文提出的RIA模型在问答立场分析任务中的性能,本文将在中文社交问答数据集上与现有基于统计机器学习的方法、传统深度学习方法和基于注意力机制的模型对比。

基于统计的机器学习方法模型包括逻辑回归(LR)、支持向量机(SVM)、决策树(DT)和词袋模型(BOW)等。此类模型主要是基于统计分析的思想,通过统筹文本数据特征及其概率分布,获得一个相对概率最优的模型。

传统深度学习方法模型包括CNN[17]、LSTM和Bi-LSTM[18]等。此类模型是一种端到端的模型,其主要以拼接的问答文本作为模型特征,通过深度神经网络进行学习和拟合。

基于注意力机制的模型包括TAN(target-specific attention network)[19]、IAN(interactive attention network) [20]、BiCond[4]、AoA[14]、RAM[6]和RCA[2]等。此类模型以问题作为源,以回答作为目标,以注意力机制为基础,基于语义权值构建目标相对于源的依赖关系。其中,TAN模型为结合目标信息和注意力机制的神经网络立场检测模型;IAN模型为基于目标和文本交互依赖的立场分析模型。在这些对比模型中,RCA模型是现阶段用于分析中文社交问答立场数据集的最优模型。

2.4 实验结果及分析

首先,本文在中文社交问答数据集上,比较RIA和各类模型在问答立场任务上的总体性能,实验结果如表 3所示。可以看出,基于统计的机器学习方法模型在各个评价指标上表现最差。传统深度学习方法模型的效果比基于统计的机器学习方法模型有所提升。基于注意力机制的模型则有进一步提升。此外,应用交互思想的IAN模型和循环思想的RAM模型比其他基于注意力机制的模型在F1-支持指标上均有不同程度的提升。其中,应用循环思想的RAM模型在除同样使用该思想的RCA模型外,在宏平均F1和微平均F1指标上达到最优性能,这显示交互和循环思想的引入对模型性能提升是有作用的。RIA模型取得了最好的问答立场分析性能,在精确率和F1值方面均优于其他模型,且在宏平均F1和微平均F1指标上分别比RCA模型提升了0.85%和0.76%。这也侧面印证了RIA模型基于问答理解机制思想对问答对进行交互依赖和反复理解的策略是有效的。

表 3 问答立场分析实验结果
模型 准确率 F1-支持 F1-反对 宏平均F1 微平均F1
LR 0.530 2 0.645 2 0.603 4 0.624 3 0.628 2
SVM 0.528 9 0.638 8 0.602 5 0.620 6 0.623 4
DT 0.525 2 0.635 0 0.572 8 0.603 9 0.607 6
BOW 0.513 2 0.651 9 0.577 9 0.615 7 0.618 1
CNN 0.535 9 0.642 2 0.637 3 0.640 8 0.640 2
LSTM 0.531 6 0.654 1 0.614 8 0.634 6 0.636 7
Bi-LSTM 0.574 7 0.685 4 0.633 6 0.659 9 0.662 3
TAN 0.578 0 0.691 7 0.641 0 0.666 7 0.669 2
IAN 0.563 6 0.696 6 0.641 8 0.670 6 0.671 3
BiCond 0.588 7 0.688 5 0.662 3 0.675 4 0.677 1
AoA 0.586 4 0.696 3 0.658 6 0.677 5 0.679 6
RAM 0.587 4 0.688 5 0.674 2 0.681 5 0.682 4
RCA 0.620 4 0.704 3 0.706 6 0.704 3 0.703 7
RIA 0.627 8 0.710 7 0.713 2 0.712 8 0.711 3

为了进一步探索多次问答理解对RIA模型的影响,本文以RCA作为对比模型,基于问答理解次数参数进行实验。RIA和RCA模型在不同问答理解次数下的准确率、宏平均F1和微平均F1如图 2所示。可以发现,使用多次问答理解的思想有助于模型更好地表示问答文本间的依赖关系。当n为[1,4]时,RIA模型在准确率上明显优于RCA模型。当n为[1,7]时,RIA模型在宏平均F1和微平均F1上优于RCA模型,说明RIA的交互注意力思想在浅层多次阅读理解中能更有效地构建问答文本间的依赖表示并获得问答立场信息。但如果模型阅读次数过多(n>7),RIA模型的性能比RCA模型有所下降,可能的原因是过多的问答理解导致了模型的过拟合。

图 2 多次问答理解对实验结果的影响

2.5 消融实验结果

为了评估本文提出的RIA模型中各个部分对实验结果的影响,本文对RIA模型进行了消融实验,结果如表 4所示。RIA模型由4个部分构成,分别为q2a、a2q、焦点损失函数和问题陈述化表示。“RIA-q2a”和“RIA-a2q”分别指RIA模型不采用q2a和a2q部分;“RIA-focal loss”指模型以交叉熵损失函数替代焦点损失函数进行模型训练;“RIA-问题陈述化表示”指问题用原始疑问形式表示。可以发现,去除q2a或a2q结构会导致模型准确率、宏平均F1和微平均F1分别平均下降3.76%、2.15%和2.12%,说明RIA模型中q2a和a2q的交互对模型性能具有提升作用,也意味着交互注意力在问答立场分析任务中是有效的。同时可以发现,相比交叉熵损失函数,焦点损失函数有助于提升模型性能,对问答立场类别数据不均衡有改善作用。此外,表 4显示出问题陈述化表示能有效提升模型性能,可以改善疑问表述下模型无法有效识别问题立场的问题。

表 4 消融实验结果
模型 准确率 F1支持 F1-反对 宏平均F1 微平均F1
RIA 0.627 8 0.710 7 0.713 2 0.712 8 0.711 3
RIA-q2a 0.577 3 0.686 8 0.679 5 0.684 7 0.683 8
RIA-a2q 0.603 0 0.694 3 0.699 5 0.697 8 0.696 4
RIA-focal loss 0.618 1 0.716 9 0.683 6 0.700 5 0.702 1
RIA-问题陈述化表示 0.611 7 0.707 7 0.696 5 0.702 6 0.703 0

由于部分问题本身具有陈述性质,致使实验无法有效验证陈述化表示方法所产生的作用,因此本文进一步探讨问题陈述化表示对模型性能的影响。本文对问题陈述化表示处理前后的中文社交问答数据结果进行消融分析,结果如表 5所示,其中原始数据集指中文社交问答数据的测试集;疑问表示数据集指在原始数据集中不具有陈述性质的数据集,该数据集的支持、中立和反对标签数量分别为1 079、964和832。从模型在原始数据集上的结果看,采用问题陈述化表示方法后模型准确率指标提升0.016 1;从模型在疑问表示数据集上的结果看,采用该方法后模型准确率指标提升0.015 4。基于上述结果,可以得出问题陈述化表示方法能有效提升模型性能,更明确地表达出问答文本中问题自身的立场信息。

表 5 针对问题陈述化表示的消融实验
数据集 模型 准确率 F1-支持 F1-反对 宏平均F1 微平均F1
原始数据 RIA 0.627 8 0.710 7 0.713 2 0.712 8 0.711 3
RIA-问题陈述化表示 0.611 7 0.707 7 0.696 5 0.702 6 0.703 0
疑问表示数据 RIA 0.640 0 0.722 3 0.730 7 0.726 5 0.725 8
RIA-问题陈述化表示 0.624 6 0.719 1 0.712 9 0.716 0 0.716 5

3 结论

本文借鉴人类理解问答类问题时多轮交互阅读理解机制,提出一种基于循环交互注意力网络的问答立场分析方法。该模型首先结合基于问题信息的回答表示和基于回答信息的问题表示来挖掘问题和回答之间的依赖关系。然后,本文通过迭代更新立场信息来加强问题和回答中能突出立场信息的关键部分的表示学习。此外,针对疑问句文本在表达立场时信息模糊的问题,本文将文本中的疑问句表示成陈述句来增强问题文本的立场信息表达。在中文社交问答数据集上的实验结果表明,本文提出的RIA模型性能优于已有模型,多轮交互理解的策略是有效的。

参考文献
[1]
KUCUK D, CAN F. Stance detection: A survey[J]. ACM Computing Surveys, 2020, 53(1): 1-37.
[2]
YUAN J H, ZHAO Y Y, XU J F, et al. Exploring answer stance detection with recurrent conditional attention [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii, USA: AAAI Press. 2019, 33: 7426-7433.
[3]
MOHAMMAD S, KIRITCHENKO S, SOBHANI P, et al. SemEval-2016 Task 6: Detecting stance in tweets [C]//Proceedings of the 10th International Workshop on Semantic Evaluation. San Diego, USA: Association for Computational Linguistics. 2016: 31-41.
[4]
MENINI S, TONELLI S. Agreement and disagreement: Comparison of points of view in the political domain [C]//Proceedings of the 26th International Conference on Computational Linguistics. Osaka, Japan: COLING Organizing Committee. 2016: 2461-2470
[5]
ADDAWOOD A, SCHNEIDER J, BASHIR M. Stance classifica-tion of twitter debates: The encryption debate as a use case [C]//Proceedings of the 8th International Conference on Social Media & Society. New York, USA: Association for Computing Machinery. 2017: 1-10.
[6]
LOZANO M G, LILJA H, TJORNHAMMAR E, et al. Mama Edha at SemEval-2017 Task 8: Stance classification with CNN and rules [C]//Proceedings of the 11th International Workshop on Semantic Evaluation. Vancouver, Canada: Association for Computational Linguistics. 2017: 481-485.
[7]
DEY K, SHRIVASTAVA R, KAUSHIK S. Topical stance detection for Twitter: A two-phase LSTM model using attention [C]//Proceedings of the European Conference on Information Retrieval. Grenoble, France: Springer, 2018: 529-536.
[8]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[9]
XU C, PAIRS C, NEPAL S, et al. Cross-target stance classification with self-attention networks [C]//Proceedings of the 56th Association for Computational Linguistics, Melbourne, Australia: Association for Computational Linguistics. 2018: 778-783.
[10]
AUGENSTEIN I, ROCKTASCHEL T, VLACHOS A, et al. Stance detection with bidirectional conditional encoding [C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics. 2016: 876-885.
[11]
CHEN P, SUN Z Q, BING L D, et al. Recurrent attention network on memory for aspect sentiment analysis [C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics. 2017: 452-461.
[12]
CUI Y M, CHEN Z P, WEI S, et al. Attention-over-attention neural networks for reading comprehension [C]//Proceedings of the 55th Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics. 2017: 593-602.
[13]
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]//Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE Press. 2017: 2980-2988.
[14]
CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics. 2014: 1724-1734.
[15]
PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics. 2014: 1532-1543.
[16]
KINGMA D P, BA J. Adam: A method for stochastic optimization [C]//Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR Press. 2015: 1-15.
[17]
WEI W, ZHANG X, LIU X Q, et al. Pkudblab at SemEval-2016 Task 6: A specific convolutional neural network system for effective stance detection [C]//Proceedings of the 10th International Workshop on Semantic Evaluation. San Diego, USA: Association for Computational Linguistics.?2016: 384-388.
[18]
ZHANG B, YANG M, LI X T, et al. Enhancing cross-target stance detection with transferable semantic-emotion knowledge [C]//Proceedings of the 58th Association for Computational Linguistics. Seattle, USA: Association for Computational Linguistics. 2020: 3188-3197.
[19]
DU J C, XU R F, HE Y L, et al. Stance classification with target-specific neural attention networks [C]//Proceedings of the 26th International Joint Conferences on Artificial Intelligence. Melbourne, Australia: AAAI Press. 2017: 3988-3994.
[20]
MA D H, LI S J, ZHANG X D, et al. Interactive attention networks for aspect-level sentiment classification [C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: AAAI Press. 2017: 4068-4074.