国防科技领域两阶段开放信息抽取方法
胡明昊, 王芳, 徐先涛, 罗威, 刘晓鹏, 罗准辰, 谭玉珊    
军事科学院军事科学信息研究中心, 北京 100142
摘要:互联网开源渠道蕴含大量国防科技信息资源, 是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取, 其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而, 相比其他领域的信息抽取, 国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法, 首先利用基于预训练语言模型的序列标注算法抽取谓语, 然后引入多头注意力机制来学习预测要素边界。结合领域专家知识, 利用基于实体边界的标注策略构建了国防科技领域标注数据集, 并在该数据集上进行了实验, 结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。
关键词国防科技    开放信息抽取    主谓宾-宾补结构    知识图谱    预训练语言模型    
Two-stage open information extraction method for the defence technology field
HU Minghao, WANG Fang, XU Xiantao, LUO Wei, LIU Xiaopeng, LUO Zhunchen, Tan Yushan    
Information Research Center of Military Science, PLA Academy of Military Science, Beijing 100142, China
Abstract: [Objective] The abundant information resources available on the internet about defense technology are of vital importance as data sources for obtaining high-value military intelligence. The aim of open information extraction in the field of defense technology is to extract structured triplets containing subject, predicate, object, and other arguments from the massive amount of information available on the internet. This technology has important implications for ontology induction and the construction of knowledge graphs in the defense technology domain. However, while information extraction experiments in the general domain yield good results, open information extraction in the defense technology domain faces several challenges, such as a lack of domain annotated data, arguments overlapping unadaptability, and unrecognizable long entities. [Methods] In this paper, an annotation strategy is proposed based on the entity boundaries, and an annotated dataset in the defense technology field combined with the experience of domain experts was constructed. Furthermore, a two-stage open information extraction method is proposed in the defense technology field that utilizes a pretrained language model-based sequence labeling algorithm to extract predicates and a multihead attention mechanism to learn the prediction of argument boundaries. In the first stage, the input sentence was converted into an input sequence<[CLS], input sentence[SEP]>, and the input sequence was encoded using a pretrained language model to obtain an implicit state representation of the input sequence. Based on this sentence representation, a conditional random field (CRF) layer was used to predict the position of the predicates, i.e., to predict the BIO labels of the words. In the second stage, the predicated predicates from the first stage were concatenated with the original sentence and converted into an input sequence<[CLS], predicate[SEP], and input sentence[SEP]>, which was encoded using a pretrained language model to obtain an implicit state representation of the input sequence. This representation was then fed to a multihead pointer network to predict the position of the argument. The predicted position was tagged with the actual position to calculate the cross-entropy loss function. Finally, the predicates and the arguments predicted by the predicate and argument extraction models were combined to obtain the complete triplet. [Results] The experimental results from the extensive experiments conducted on a self-built annotated dataset in the defense technology field reveal the following. (1) In predicate extraction, our method achieved a 3.92% performance improvement in the F1 value as compared to LSTM methods and more than 10% performance improvement as compared to syntactic analysis methods. (2) In argument extraction, our method achieved a considerable performance improvement of more than 16% in the F1 value as compared to LSTM methods and about 11% in the F1 value as compared to the BERT+CRF method. [Conclusions] The proposed two-stage open information extraction method can overcome the challenge of arguments overlapping unadaptability and the difficulty of long-span entity extraction, thus improving the shortcomings of existing open information extraction methods. Extensive experimental analysis conducted on the self-built annotated dataset proved the effectiveness of the proposed method.
Key words: defense technology    open information extraction    subject-verb-object complement    knowledge graph    pretrained language model    

大数据时代背景下,互联网上海量数据不断涌现,其中蕴含了丰富的国防科技信息资源,如新闻动态、社交媒体、智库报告等。对上述科技信息资源进行挖掘、抽取、分析、聚合,是开展国防科技领域情报分析、态势感知的重要技术手段。为实现上述目标,信息抽取技术被广泛用于从非结构化文本中抽取结构化知识。其中,国防科技领域开放信息抽取(open information extraction,OpenIE)[1]是从海量科技信息文本中抽取主谓宾-宾补(SAO-C)结构元组的基础任务,该任务对于领域本体归纳、知识图谱构建等[2]具有重要意义。不同于限定本体的信息抽取任务[3-4],开放信息抽取无需限定本体,直接从非结构化文本数据中抽取关系短语和要素短语组成的结构化知识。面对高度专业、多源异构的国防科技信息资源,开放信息抽取具有领域适用性高、易于部署实用的优点。

国防科技领域开放信息抽取面临以下问题和挑战:1) 国防科技领域语料中普遍存在多个元组重叠嵌套的问题。例如,在表 1中,“RQ-180”作为主语和宾语分别出现在两个SAO-C元组中,这为传统的序列标注方法带来了严峻挑战。RnnOIE[5]通过引入一种自定义序列标注方案进行多次元组抽取。然而,同一短语的不同BIO标签易造成模型混淆,进而影响抽取性能。2) 国防科技领域语料中实体描述普遍晦涩复杂,实体文本跨度长,序列标注类方法难以识别长跨度实体。如表 1中“高空长航时隐身无人侦察机”,抽取该要素短语难度较大。3) 国防科技领域专业化程度高、标注难度大,本文目前未发现面向国防科技领域开放信息抽取的公开标注数据集,这阻碍了开放信息抽取的研究工作开展。

表 1 国防科技领域开放信息抽取任务
输入句子 RQ-180是诺·格公司为美国空军研制的高空长航时隐身无人侦察机。
主谓宾-宾补结构元组 <RQ-180,是,高空长航时隐身无人侦察机,->,<诺·格公司,研制,RQ-180,为美国空军>
注:“<>”表示SAO-C元组,“-”表示无相关要素。

本文提出一种国防科技领域两阶段开放信息抽取方法,该方法包含2个阶段:谓语抽取和要素抽取。在谓语抽取阶段,利用基于预训练语言模型的序列标注模型一次性抽取输入句中所有谓语;在要素抽取阶段,通过引入多头注意力机制学习多个要素在输入句中的边界位置,一次性地抽取给定谓语的多个元组要素。通过两阶段解耦方式,使序列标注方法专注于谓语抽取,从而避免型混淆;同时利用多头注意力机制,实现给定谓语的多要素并行抽取,从而自然地避免了元素重叠嵌套问题,且能有效处理长实体识别。为开展实验,采用基于实体边界的标注策略,构建了国防科技领域标注数据集。实验结果显示本文方法比长短期记忆结合条件随机场(LSTM+CRF)方法具有更优的抽取效果。

1 开放信息抽取相关工作

开放信息抽取是信息抽取的分支任务,其中待抽取的知识并没有限制在特定的领域,而是直接从非结构化文本数据中抽取谓语以及对应的要素[1]。开放域信息抽取对于知识的重构,获取结构化信息至关重要,不仅能够有效减少人工成本,并且能够适用于开放世界的自然语言理解场景。此外,OpenIE已在许多下游NLP任务中被广泛使用[6],例如文本问答[7]、本体归纳[8]、单词嵌入生成[9]等。近年来,虽然神经网络在开放域信息抽取上获得了初步的成功,但是神经网络抽取算法依然面临抽取精度低、无法有效识别嵌套元组等问题。随着近年来BERT[10]等预训练语言模型的提出,OpenIE也得到进一步推动发展。

当前的开放信息抽取方法主要分为两大类。一类是基于序列标注的方法[5, 11],主要是指通过将句子中的每个单词标记为主语、谓语、宾语或无词以进行三元组的提取。RnnOIE[5]为了解决一个句子中的多个元组重组问题,提出了两阶段抽取方案,首先使用PoS标记器提取文本中的谓语,其次利用长短期记忆结合条件随机场(LSTM+CRF)方法抽取要素;SenseOIE[11]为了缓解标记训练数据缺乏问题,采用无监督学习方式,基于不同词汇和语法信息进行开放信息抽取;Multi2OIE[12]则与基于双向长短期网络为框架的模型不同,它基于预训练语言模型,并利用跨度预测的方式抽取元组;OpenIE6[13]将OpenIE视为一个二维网格标注任务,并提出了一种迭代的网格标注体系。另一类是基于序列生成的方法[14-16],这类方法通常利用编码器-解码器框架来生成元组,例如首次尝试使用seq2seq模型来学习生成元组的CopyAttention[14];Logician[16]训练受限序列生成模型,将句子转化为事实;IMoJIE[15]在这次基础之上进行了扩展,该方法根据所有先前提取的元组生成下一次提取的元组。这些编码器-解码器框架可以捕获提取之间的依赖关系,从而提高整体性能,但其计算效率与序列标注方法相比存在差距。

目前,一种基于边界预测的信息抽取方法已被广泛应用于各类自然语言处理任务,并取得了理想的效果,这是受到机器阅读理解(MRC)的最新进展的启发[17]。机器阅读理解任务是从问题的文档中抽取答案范围[18],Lee等[19]通过对比表明在该任务上边界预测方法优于序列标注方法。不久,Li等[20]将实体关系抽取视为多轮问答式边界预测任务。之后,Li等[21]引入了一个统一的MRC框架来解决嵌套和重叠命名实体识别。这些工作表明,基于边界预测的抽取方法比序列标注方法更加有效。针对开放信息抽取任务,Zhan等[22]提出了SpanOIE,这是一种基于边界预测的OpenIE模型,该模型采用跨度枚举法,在处理长文本时容易造成计算成本过高,进而损害模型性能。

2 国防科技领域两阶段开放信息抽取方法 2.1 问题定义

国防科技领域开放信息抽取任务主要涉及以下2个关键子任务:

1) 谓语抽取:给定句子XX={x1, x2, …, xn},其中xj为句子中的一个字,任务目标是抽取该句子内的候选谓语集合P={p1, p2, …, pm},其中pi为输入句子中的一个谓语。

2) 要素抽取:元组完整信息不仅包含谓语,还包含主语、宾语及宾补,因此还需要抽取后三者。给定XP,抽取每个谓语pi对应的三元组要素hitiri,其中hi为主语,ti为宾语,ri为宾补。

2.2 整体流程

国防科技领域两阶段开放信息抽取方法整体流程如图 1所示,分为谓语抽取和要素抽取两阶段。

图 1 两阶段开放信息抽取方法整体流程图

谓语抽取阶段主要进行谓语抽取模型训练与谓语位置预测。具体来说,首先将输入句子转换为输入序列。接着,使用预训练语言模型对输入序列编码,获得输入序列的隐状态表示。然后,基于该表示,使用条件随机场(CRF)层来预测输入句子中单词表示谓语开始/中间/无(BIO)的标签。随后,将预测标签与真实标签计算交叉熵损失函数,通过优化损失函数训练谓语抽取模型。最后,使用训练的模型预测谓语位置。

要素抽取阶段主要进行要素抽取模型训练与要素位置预测。具体来说,首先将输入句子与预测谓语进行拼接并转换为输入序列。接着,使用预训练语言模型对该序列进行编码,获得输入序列的隐状态表示。然后,将该表示输入多头指针网络,输出元组要素在输入序列中位置。随后,将预测位置与真实位置标签计算交叉熵损失函数,通过优化损失函数训练要素抽取模型。最后,利用训练模型抽取要素,通过结合谓语抽取模型和要素抽取模型预测的谓语和要素,拼接得到完整的SAO-C元组。

2.3 基于序列标注的谓语抽取模型

开放信息抽取方法主要包括序列标注和序列生成2种方法。由于序列生成方法的提取速度缓慢和使用范围有限,所以许多工作都倾向于序列标注方法。然而,传统的序列标注方法无法有效解决元组重叠与嵌套,而仅抽取谓语则不会出现谓语重叠与嵌套。因此,本文在谓语抽取阶段提出一种基于序列标注的谓语抽取模型,可实现对输入句中多个谓语的高效抽取。该模型主要包括基于BERT(bidirectional encoder representations from transformer)的预训练语言模型和CRF层,模型结构如图 2a所示。

图 2 两阶段开放信息抽取模型示意图

给定国防领域开放信息抽取任务输入X,首先将输入句子转换为输入序列([CLS], X, [SEP]),其中[CLS]和[SEP]为特殊分隔符。接着利用预训练语言模型的字向量表示层将输入序列转换为字向量嵌入表示H0,该表示由字嵌入、位置嵌入和分段嵌入3部分构成。在此基础上,将H0作为输入通过L个依次连接的预训练变压器(Transformer)块依次进行编码:

$ H_l=\text { TransformerBlock }\left(H_{l-1}\right), \forall l \in[1, L] \text {. } $ (1)

其中:Hl为第l个Transformer块输出的序列隐状态表示,TransformerBlock()表示Transformer函数。

在通过预训练语言模型编码过后,得到HL。然后通过CRF层预测谓语。令T′=(t′1, t′2, …, t′n)表示预测谓语BIO标签序列,T=(t1, t2, …, tn)表示真实谓语BIO标签序列,则可以使用softmax函数计算T的概率:

$ P\left(T \mid H_L\right)=\frac{\prod\limits_{i=1}^n \phi\left(t_{i-1}, t_i, H_L\right)}{\sum\limits_{T^{\prime}} \prod\limits_{i=1}^n \phi\left(t_{i-1}^{\prime}, t_i^{\prime}, H_L\right)} . $ (2)

其中:t′iti分别表示第i个字对应的预测和真实谓语BIO标签,ϕ(ti-1tiHL)为势函数。

训练时,通过最小化以下损失函数Lpre来优化谓语抽取模型参数θ

$ L_{\text {pre }}(\theta)=-\log P\left(T \mid H_L\right). $ (3)
2.4 基于多头注意力机制的要素抽取模型

序列标注方法虽然已被证明对开放信息提取有效,但是由于国防科技领域数据普遍存在元组重叠嵌套现象,导致可能出现单个字词具有多种不同标签的现象,这会造成模型对多标签单词预测出现混淆问题,进而影响抽取性能。此外,国防科技领域开放元组中的主语和宾语文本跨度普遍较长,导致序列标注方法的语义搜索空间巨大,同样会降低抽取精度。针对这些问题,本文提出了一种基于多头注意力机制的要素抽取模型,该模型利用预训练语言模型对给定谓语和句子进行编码,并利用多头指针网络预测该谓语对应要素在原句子中的候选开始与结束位置,并进一步通过一个二元分类器实现对要素位置的判定。通过这种方式,可有效缓解重叠嵌套元组与长跨度实体识别问题。

本文提出的要素抽取模型结构如图 2b所示,要素提取模型主要包括2部分:基于BERT的预训练语言模型和多头指针网络。在第1阶段的基础上,将候选谓语pi与输入句X进行拼接构成新的输入序列([CLS], pi, [SEP], X, [SEP])。接着,使用基于BERT的预训练语言模型来编码输入序列,该模型也包含L个依次连接的预训练Transformer块,通过该方式可获得输入序列的词嵌入表示H0*,通过L个Transformer块的编码之后,获得输入序列的隐状态表示HL*

多头指针网络利用多个头指针来预测元组各要素在输入序列中的开始与结束位置。具体来说,将HL*作为多头指针网络的输入,其中第i个头指针输出oisoie分别表示第i个要素的开始位置和结束位置概率分布:

$ \begin{aligned} & o_i^{\mathrm{s}}=\operatorname{softmax}\left(\boldsymbol{W}_i^{\mathrm{s}} H_L^*\right) \\ & o_i^{\mathrm{e}}=\operatorname{softmax}\left(\boldsymbol{W}_i^{\mathrm{e}} H_L^*\right) . \end{aligned} $ (4)

其中:WisWie为1×d维的可训练的矩阵参数, d表示隐状态维度。通过获取oisoie中较大概率对应的若干位置,可以确定该要素在句子序列中的潜在开始位置和结束位置。

然而,在一个输入序列中,一个要素可能有多个潜在开始和结束位置。为进一步从这些候选位置中确认要素边界,本文提出一种二元分类模型来判断某组候选位置是否真实包含了该要素。假设第i个要素最多有m对候选开始和结束位置,表示为$S_i=\left(s_1^i, s_2^i, \cdots, s_m^i\right) \text { 和 } E_i=\left(e_1^i, e_2^i, \cdots, e_m^i\right) $

然后,基于HL*提取成对的开始-结束位置处的向量,并使用二元分类器预测第i个要素的第j个候选开始-结束位置对的分类概率如下:

$ v_j^i=\sigma\left(\boldsymbol{W}^v\left[H_L^*\left(s_j^i\right), H_L^*\left(e_j^i\right)\right]\right) . $ (5)

其中:σ表示sigmoid函数,Wv表示可训练的矩阵参数,[,]表示串联操作。通过对多个候选开始-结束位置对进行二元分类后,得到第i个要素的所有候选开始-结束位置对的分类概率分布$V^i=\left(v_1^i, v_2^i, \cdots, v_m^i\right) $。通过取出概率分布中的最大概率,可以最终确定该要素在原句中的位置。

在训练时,本文使用2个列表$Y^{\mathrm{s}}=\left(y_1^{\mathrm{s}}, y_2^{\mathrm{s}}, \cdots, y_k^{\mathrm{s}}\right) $$ Y^{\mathrm{e}}=\left(y_1^{\mathrm{e}}, y_2^{\mathrm{e}}, \cdots, y_k^{\mathrm{e}}\right)$来分别表示k个要素的真实开始位置和结束位置。此外,列表$Y^{\mathrm{v}}=\left(y_1^{\mathrm{v}}, y_2^{\mathrm{v}}, \cdots, y_k^{\mathrm{v}}\right) $表示k个要素的真实开始-结束位置对,$y_i^{\mathrm{v}}=\left(y_i^{\mathrm{s}}, y_i^{\mathrm{e}}\right) $。最终最小化以下损失函数Larg以训练要素抽取模型参数:

$ \begin{gathered} L_{\text {arg }}(\psi)=\sum\limits_{i=1}^k \operatorname{CE}\left(o_i^{\mathrm{s}}, y_i^{\mathrm{s}}\right)+ \\ \sum\limits_{i=1}^k \operatorname{CE}\left(o_i^{\mathrm{e}}, y_i^{\mathrm{e}}\right)+\sum\limits_{i=1}^k \operatorname{CE}\left(V^i, y_i^{\mathrm{v}}\right) \end{gathered} $ (6)

其中:ψ表示要素抽取模型参数,CE表示交叉熵损失函数。

3 国防科技领域标注数据集构建

通用领域的开放信息抽取具有丰富的英文标注数据集如OIE2016[23]、Carb[24]等。然而,国防科技领域缺乏用于开放信息抽取的中文标注数据集。国防科技动态新闻是高价值的信息资源,蕴含着丰富且真实的领域知识。针对国防科技领域开放信息抽取标注数据匮乏的问题,本文基于国防科技要闻类动态构建了国防科技领域标注数据集,为开展面向国防科技领域的开放信息抽取实验奠定基础。

构建标注数据集分为2个步骤:1) 爬取国防科技信息网上的要闻类动态作为原始数据来源,对数据进行清洗,删除与国防科技领域无关的文档,过滤得到待标注文档,并将每篇文档进行切句并导入数据标注平台。2) 结合领域专家知识,基于本文提出的基于实体边界的标注策略对句子进行标注,最终构建出包含主谓宾-宾补(SAO-C)结构元组的标注数据集。

3.1 基于实体边界的标注策略

由于国防科技领域语料中单个句子可能包含多个重叠嵌套元组,简单使用BIO标注策略会导致某个单词出现多个标签,造成标注混乱。采用一次只标一个元组的方法虽然能避免上述问题,但是却使标注数据集规模扩大了k倍,其中k表示每条句子包含的平均元组数。为解决上述问题,本文提出一种基于实体边界的标注策略,主要分为谓语标注以及要素标注2个步骤。具体标注规则如下。

规则1  在谓语标注过程中,基于实体边界信息标注句子中出现的所有谓语短语。

表 1中输入句子为例,标注后结果如表 2所示。标注出“是”与“研制”2个谓语,其中谓语提及表示谓语在原文中的提及、谓语编号是该谓语的ID号、谓语开始位置和结束位置表示该谓语在原句中的边界信息。

表 2 谓语标注示意
谓语提及 研制
谓语编号 P-1 P-2
谓语开始位置 6 17
谓语结束位置 6 18

规则2  在要素标注过程中,根据抽取得到的各谓语, 继续基于实体边界信息标注谓语对应的要素短语。

表 1中输入句子为例,各谓语对应的主语标注结果如表 3所示。其中主语提及表示主语在原文中的提及、主语编号是该主语的ID号、主语开始位置和结束位置表示该主语在原句中的边界信息。

表 3 主语标注示意
谓语提及 研制
谓语编号 P-1 P-2
主语提及 RQ-180 诺·格公司
主语编号 A0-1 A0-2
主语开始位置 0 5
主语结束位置 7 11

对宾语和宾补的标注策略与主语相同。

3.2 标注数据集统计

通过上述标注方法,共标注200条句子,506条三元组信息,其中主语、谓语、宾语和宾补的平均长度分别为9.88、2.33、9.80和4.56个字符。统计分析可知,平均每条句子包含约2.5条元组,说明该数据集中存在一定的三元组重叠和嵌套的情况。此外,从主语、宾语长度可以看出,部分实体存在跨度较长的现象。

4 实验分析 4.1 实验设置

本文将国防科技领域标注数据集按照数据条数8∶2的比例划分为训练集和验证集,各数据集的统计信息如表 4所示。

表 4 数据集信息统计情况
数量种类 训练集 验证集
句子数量 160 40
三元组数量 398 108

本文使用中文BERT模型作为默认预训练语言模型,在超参数设置方面,学习率设为5×10-5,批处理大小为16,最大序列长度为128,训练轮次设为10,元组要素个数设置为3,所有实验都在一张Nvidia V100 GPU上完成。本文使用精确率(precision)、召回率(recall)和F1来评估性能。

谓语抽取阶段,本文方法与句法分析方法和LSTM+CRF方法对比;要素抽取阶段,本文方法与LSTM+CRF和BERT+CRF的方法对比。

4.2 实验结果与分析

本文在自建国防科技领域开放信息抽取数据集上进行了实验,结果见表 5。可以看到,在谓语抽取阶段,本文方法的F1值比LSTM+CRF方法取得了3.92百分点的性能提升,比句法分析方法更是取得超过10百分点的提升,有效验证了本文谓语抽取方法有效性。此外,在精确率与召回率方面,本文方法比其他2个方法也取得了较为明显的性能提升。在要素抽取阶段,本文方法的F1比LSTM+CRF方法取得了极大提升,超过16百分点,比BERT+CRF方法提高大约11百分点。其中的原因很大程度上是因为本文使用的多头注意力机制能有效地解决重叠嵌套元组与长实体识别的问题,而这类问题在国防科技领域开放信息抽取任务中比较普遍。

表 5 国防科技领域开放信息抽取验证集实验结果
阶段 方法 精确率% 召回率% F1%
谓语抽取 句法分析 66.93 68.51 67.85
LSTM+CRF 74.26 75.03 74.81
本文方法 78.38 79.09 78.73
要素抽取 LSTM+CRF 59.27 58.03 58.78
BERT+CRF 65.56 63.82 64.35
本文方法 74.86 75.97 75.45

4.3 案例分析

为了进一步将本文方法与LSTM方法进行对比,本文从国防科技领域开放信息抽取验证集中挑选了2个样例进行分析。如表 6所示,首先发现LSTM对于长跨度实体以及实体边界的抽取效果不佳,例如在样例1中将“小型腿式侦察机器人”抽取为“侦察机器人”,在样例2中将“装备于”识别为“装备”等。与之相比,本文方法能有效处理长跨度实体识别与实体边界识别情况。部分原因来自于本文要素抽取模型所引入的多头注意力机制。

表 6 样例抽取结果分析
序号 句子 LSTM方法 本文方法
1 “莱克斯”六腿机器人是由波士顿动力公司(2013年被谷歌公司收购)研发的一款小型腿式侦察机器人。 <“莱克斯”六腿机器人, 是, 侦察机器人, ->×
<波士顿动力公司, 研发, “莱克斯”六腿机器人, ->√
<谷歌公司, 收购, 波士顿动力公司, ->×
<“莱克斯”六腿机器人, 是, 小型腿式侦察机器人, ->√
<波士顿动力公司, 研发, “莱克斯”六腿机器人, ->√
<谷歌公司, 收购, 波士顿动力公司, 2013年>√
2 AN/APS-138是装备于E-2C空中预警和控制系统飞机的预警雷达,用于搜索、监视、跟踪、识别飞机、巡航导弹、无人机等空中和海上目标。 <AN/APS-138, 装备, E-2C空中预警和控制系统飞机, ->×
<AN/APS-138, 用于, 巡航导弹、无人机等空中和海上目标, ->×
    <-, -, -, ->×
<AN/APS-138, 装备于, E-2C空中预警和控制系统飞机, ->√
<AN/APS-138, 用于, 搜索、监视、跟踪、识别飞机、巡航导弹、无人机等空中和海上目标, ->√
<AN/APS-138, 搜索、监视、跟踪、识别, 飞机、巡航导弹、无人机等空中和海上目标, ->√
注:抽取结果用<>标识,结果正确和错误分别用“√”和“×”标识。

此外,表 6显示LSTM方法还出现了遗漏识别的问题,如样例1中第3个元组的宾补“2013年”和样例2中整个第3个元组。这说明LSTM+CRF方法无法有效处理多要素抽取。与之相比,本文方法能有效处理多要素抽取,避免了遗漏识别问题。

5 结论

本文提出了一种国防科技领域两阶段开放信息抽取方法,通过引入基于预训练语言模型的序列标注方法与多头注意力机制实现了谓语抽取与要素抽取的分离解耦,能够有效解决元组重叠嵌套以及长跨度实体识别问题。基于实体边界的标注策略,构建了国防科技领域标注数据集,能够有效解决领域高质量标注数据缺乏问题;在自建数据集上进行实验,结果显示本文方法优于LSTM+CRF方法,验证了本文方法的有效性。

下一步工作拟从以下几个方面展开:一是设计开放信息抽取与命名实体识别联合任务,并在当前数据集基础上进行扩展标注;二是实现多阶段开放信息抽取与命名实体识别方法,以进一步完成对抽取要素实体类型的识别;三是探索实现统一的开放信息与实体识别联合抽取框架,以有效缓解流水线模型的误差累积问题。

参考文献
[1]
ETZIONI O, BANKO M, SODERLAND S, et al. Open information extraction from the web[J]. Communications of the ACM, 2008, 51(12): 68-74.
[2]
MAUSAM M. Open information extraction systems and downstream applications[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York, USA: AAAI Press, 2016: 4074-4077.
[3]
GUO Z J, ZHANG Y, LU W. Attention guided graph convolutional networks for relation extraction[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 241-251.
[4]
ZHAO S, HU M H, CAI Z P, et al. Modeling dense cross-modal interactions for joint entity-relation extraction[C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. Yokohama, Japan: International Joint Conferences on Artificial Intelligence, 2021: 4032-4038.
[5]
STANOVSKY G, MICHAEL J, ZETTLEMOYER L, et al. Supervised open information extraction[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long Papers). New Orleans, Louisiana: Association for Computational Linguistics, 2018.
[6]
PAL H M. Demonyms and compound relational nouns in nominal open IE[C]// Proceedings of the 5th Workshop on Automated Knowledge Base Construction. San Diego, USA: Association for Computational Linguistics, 2016: 35-39.
[7]
FAN A, GARDENT C, BRAUD C, et al. Using local knowledge graph construction to scale seq2seq models to multi-document inputs[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics, 2019: 4186-4196.
[8]
BALASUBRAMANIAN N, SODERLAND S, MAUSAM, et al. Generating coherent event schemas at scale[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, USA: Association for Computational Linguistics, 2013.
[9]
STANOVSKY G, DAGAN I, MAUSAM. Open IE as an intermediate structure for semantic tasks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Beijing, China: Association for Computational Linguistics, 2015: 303-308.
[10]
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019: 4171-4186.
[11]
ROY A, PARK Y, LEE T, et al. Supervising unsupervised open information extraction models[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019.
[12]
RO Y, LEE Y, KANG P. Multi2OIE: Multilingual open information extraction based on multi-head attention with BERT[C]// Findings of the Association for Computational Linguistics: EMNLP 2020. Online: Association for Computational Linguistics, 2020: 1107-1117.
[13]
KOLLURU K, ADLAKHA V, AGGARWAL S, et al. OpenIE6: Iterative grid labeling and coordination analysis for open information extraction[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics, 2020: 3748-3761.
[14]
CUI L, WEI F, ZHOU M. Neural open information extraction[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne, Australia: Association for Computational Linguistics, 2018.
[15]
KOLLURU K, AGGARWAL S, RATHORE V, et al. IMoJIE: Iterative memory-based joint open information extraction[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 5871-5886.
[16]
SUN M M, LI X, WANG X, et al. Logician: A unified end-to-end neural approach for open-domain information extraction[C]// Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. Marina Del Rey, USA: Association for Computing Machinery, 2018: 556-564.
[17]
SEO M J, KEMBHAVI A, FARHADI A, et al. Bidirectional attention flow for machine comprehension[C]// 5th International Conference on Learning Representations. Toulon, France: OpenReview. net, 2017.
[18]
RAJPURKAR P, ZHANG J, LOPYREV K, et al. SQuAD: 100, 000+ questions for machine comprehension of text[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: Association for Computational Linguistics, 2016.
[19]
LEE K, SALANT S, KWIATKOWSKI T, et al. Learning recurrent span representations for extractive question answering[Z]. arXiv preprint arXiv: 1611.01436, 2016.
[20]
LI X Y, YIN F, SUN Z J, et al. Entity-relation extraction as multi-turn question answering[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 1340-1350.
[21]
LI X Y, FENG J R, MENG Y X, et al. A unified MRC framework for named entity recognition[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 5849-5859.
[22]
ZHAN J L, ZHAO H. Span model for open information extraction on accurate corpus[C]// Proceedings of the Thirty-Sixth AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2020: 9523-9530.
[23]
STANOVSKY G, DAGAN I. Creating a large benchmark for open information extraction[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: Association for Computational Linguistics, 2016: 2300-2305.
[24]
BHARDWAJ S, AGGARWAL S, MAUSAM M. CaRB: A crowdsourced benchmark for open IE[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics, 2019: 6262-6267.