计算机科学与技术

基于原型表示的持续复杂关系抽取网络模型

  • 刘英莉 1, 2 ,
  • 张晋渝 1, 2 ,
  • 温绍杰 1, 2 ,
  • 沈韬 , 1, 2, *
展开
  • 1. 昆明理工大学 信息工程与自动化学院, 昆明 650500
  • 2. 昆明理工大学 云南省计算机技术应用重点实验室, 昆明 650500
沈韬,教授,E-mail:

刘英莉(1978—),女,副教授

收稿日期: 2025-04-27

  网络出版日期: 2025-11-07

基金资助

国家自然科学基金资助项目(52061020)

云南省重大科技专项计划项目(202302AG050009)

云南省计算机技术应用重点实验室开放基金(2024G05)

版权

版权所有,未经授权,不得转载。

Prototype-based continuous complex relation extraction network model

  • Yingli LIU 1, 2 ,
  • Jinyu ZHANG 1, 2 ,
  • Shaojie WEN 1, 2 ,
  • Tao SHEN , 1, 2, *
Expand
  • 1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
  • 2. Yunnan Key Laboratory of Computer Technology Application, Kunming University of Science and Technology, Kunming 650500, China

Received date: 2025-04-27

  Online published: 2025-11-07

Copyright

All rights reserved. Unauthorized reproduction is prohibited.

摘要

针对现有方法在中文复杂语义环境下无法实现持续关系抽取,该文基于持续学习理念,旨在缓解持续关系抽取任务中存在的灾难性遗忘问题,构建了基于原型表示的持续复杂关系抽取网络(PBCRE-Net)模型。该模型采用记忆回放策略并结合监督对比学习方法,增强了对复杂句子中各关系类别独特特征的捕捉能力,提升了关系分类性能,从而能够高效地从新数据中学习知识关系。同时,利用一致性损失约束,确保样本在嵌入空间中的稳定性和一致性。此外,为应对记忆样本不足可能导致的过拟合问题,设计了一种记忆增强机制,通过扩充记忆样本有效避免了过拟合风险。实验结果表明,PBCRE-Net不仅在单领域数据集上表现出色,更在跨领域数据集上展现出卓越的性能,验证了其在处理跨领域复杂关系抽取任务中的有效性和优越性。

本文引用格式

刘英莉 , 张晋渝 , 温绍杰 , 沈韬 . 基于原型表示的持续复杂关系抽取网络模型[J]. 清华大学学报(自然科学版), 2025 , 65(11) : 2245 -2258 . DOI: 10.16511/j.cnki.qhdxxb.2025.21.035

Abstract

Objective: Existing methods for continuous relation extraction (CRE) face remarkable challenges in complex Chinese semantic environments, particularly the problem of catastrophic forgetting when learning new tasks while retaining knowledge from old tasks. Traditional approaches often retrain models on a combination of historical and new data, leading to inefficiencies and resource constraints as data volumes increase. To address these limitations, this study aims to develop a robust CRE model that can efficiently learn new knowledge while preserving historical relationships, even in scenarios with complex sentence structures, overlapping entities, and imbalanced data distributions. The proposed model integrates prototype representations, memory replay strategies, and contrastive learning to enhance feature discrimination and stability in embedding spaces, thereby improving the classification performance across single-domain and cross-domain datasets. Methods: The proposed prototype-based continuous complex relation extraction network (PBCRE-Net) model consists of two primary stages: initial training and memory replay, designed to mitigate catastrophic forgetting and improve adaptability in dynamic learning environments. The initial training includes: 1) Entity-aware feature extraction: Input texts are processed using a pretrained BERT model to generate contextual embeddings with special tokens ([E11], [E12], [E21], and [E22]) that mark entity boundaries. 2) Supervised contrastive learning: A dual-head classifier (classification and contrast) is employed to minimize intraclass distances and maximize interclass distances in the embedding space. This objective is achieved through a combination of cross-entropy loss and contrastive loss. 3) Prototype generation: For each relation category, representative samples are selected via K-means clustering and their prototypes are computed as weighted averages of cluster centroids to capture category-specific features. The memory replay includes: 1) Memory sample selection: Memory modules store exemplars from previous tasks using K-means clustering. Weights are assigned based on cluster distribution to balance sampling during replay. 2) Memory augmentation: To prevent overfitting, synthetic samples are generated by swapping entity pairs or appending unrelated sentences to existing exemplars, thereby expanding the memory pool. 3) Consistency Loss: During replay, an embedding consistency constraint is applied to maintain stability in the embedding space across tasks. 4) Joint optimization: The model is trained on a mixture of new task data, historical memory samples, and augmented samples, combining cross-entropy loss and consistency loss. Results: Experimental evaluations on CMeIE (medical domain) and ASaRED (alloy domain) datasets demonstrate the superiority of PBCRE-Net in complex CRE scenarios. Single-domain Performance: On the CMeIE dataset, PBCRE-Net achieved an average accuracy (ACC) of 84.27% and a macro F1-score (Macro-F1) of 81.93% across 10 incremental tasks. Notably, the proposed model outperformed baseline models, such as EMAR and CRL, by 3%-5% in subsequent tasks (T8—T10), where catastrophic forgetting is highly severe. The model effectively handled triplet overlap (e.g., entity-pair and single-entity overlaps) and class imbalance, an objective accomplished through prototype-based contrastive learning and memory augmentation. Cross-domain adaptability: In cross-domain experiments combining CMeIE and ASaRED, PBCRE-Net maintained an ACC of 74.16% and Macro F1 of 69.34% across 10 tasks, considerably surpassing competing models (e.g., CRECL and DPCRE). The memory replay mechanism and consistency loss ensured stable embedding spaces despite domain shifts, thus reducing catastrophic forgetting in critical relation categories like material composition and alloy property. Robustness to memory constraints: Reducing the memory size from 20 to 5 samples per task decreased the performance of the proposed model by 15%, yet PBCRE-Net outperformed the alternatives under constrained memory conditions. This highlights its efficiency in real-world scenarios with limited storage. Conclusions: This study introduces PBCRE-Net, a novel CRE framework that mitigates catastrophic forgetting through prototype representations, memory replay, and contrastive learning. Key contributions include a supervised contrastive learning strategy to enhance feature discriminability in complex semantics and a memory augmentation mechanism to mitigate overfitting and stabilize embedding spaces. Superior performance in single-domain and cross-domain CRE tasks was validated by extensive experiments. Future work will extend PBCRE-Net to multilingual settings via cross-lingual transfer learning and incorporate physical constraints to improve relation extraction accuracy in scientific domains. In addition, addressing polysemy through semantic alignment techniques will further enhance the applicability of PBCRE-Net.

随着信息技术的迅猛发展,科学智能(AI for science, AI4S)[1]迅速崛起,数据蕴含着巨大的潜在价值, 对数据进行抽取不仅用于科学研究领域,还广泛用于其他需要处理复杂关系的领域,如金融、法律和社会网络分析等。 如何高效地提取结构化信息,已成为人工智能在各个领域应用中亟待解决的重要课题。 传统人工智能方法需要大量的时间和资源,其效率和可靠性难以满足不断增长的专业领域的设计需求[2]。 关系抽取(relation extraction,RE)作为信息抽取(information extraction, IE)的一个子任务,利用自然语言处理(natural language processing,NLP)技术,从文本中识别并提取出实体的属性和关系,已经成功用于农业[3]、生物医学[4]、化学[5]、材料科学[6-7]和国防科学[8]等多个专业领域。 现阶段,关系抽取技术已被广泛用于知识图谱构建、专家系统、专业领域逆向设计等诸多下游任务中[9-14]。 卷积神经网络(convolutional neural network,CNN)[15]、循环神经网络(recurrent neural network,RNN)[16]、长短期记忆(long short-term memory,LSTM)网络[17]、图神经网络(graph neural network,GNN)[18]、注意力机制[19]及Transformer[20]等技术已广泛用于信息抽取任务,并取得了成效。 然而,在句式复杂时,存在实体重叠和关系多样的情况,导致关系抽取效果不佳。
传统方法通常将历史数据与新数据混合后重新训练模型,但随着新数据量的不断增长,这种方式对存储和计算资源的需求越来越高,难以满足实际应用需求。 学者提出了持续关系抽取(continual relation extraction, CRE)[21],旨在帮助模型在学习新关系的同时,保持对旧关系的准确分类。 该过程可以视为2个任务的结合: 保留先验知识和学习新知识。 模型在这一过程中面临的主要挑战是,在学习新任务时可能出现对旧任务的灾难性遗忘。 缓解灾难性遗忘常见的方法主要分为: 1) 基于参数正则化的方法; 2) 基于动态架构的方法; 3) 基于记忆回放的方法。 针对NLP任务的复杂性,基于记忆回放的持续学习方法被证明是最有效的[21],且优于其他CRE方法的性能。
近年来的研究提出了多种基于记忆回放的持续关系抽取模型来缓解灾难性遗忘。 EMAR[22]模仿人类长期记忆的形成机制,引入情景记忆和再巩固策略来减轻灾难性遗忘,但在很大程度上取决于重放阶段中的记忆样本大小。 CRL[23]使用知识蒸馏让模型保留历史关系的知识,从而防止对旧任务的灾难性遗忘。 此外,RPECRE[24]作为一种基于关系原型的方法,通过优化样本嵌入,以充分利用典型样本的特征。 尽管这些方法在持续关系抽取任务中取得一定的效果,但大多数方法并没有考虑在复杂语义任务前后的记忆样本在特征空间中表示的一致性,导致持续关系抽取效果表现不佳,同时基于记忆的方法容易因记忆样本过拟合而导致性能下降,在处理不平衡数据问题时表现较差。
针对上述问题,本文提出了一种基于原型表示的连续关系抽取网络(prototype-based continuous relation extraction network, PBCRE-Net)模型,以克服现有方法的局限性。该模型使用监督对比学习方法,通过在特征空间中减小同类别样本的表示距离,增大不同类别样本的表示距离,使得模型能够更好地捕获复杂句子中每个关系类别的独特特征,提升关系分类性能。同时,引入一致性约束损失,保证了样本嵌入的稳定性和一致性。此外,为了进一步优化模型性能,根据实体关系三元组设计了一种记忆增强机制,对记忆样本进行扩充,以减轻过拟合问题。扩充后的样本仅用于模型的训练阶段,而不用于关系原型的生成。在单领域和跨领域数据集上的实验结果表明,本文模型在性能上显著优于其他对比模型,验证了其在持续关系抽取任务中的有效性,尤为适合现实的复杂场景。

1 相关工作

1.1 关系抽取

关系抽取建立在实体识别的基础之上,进一步从文本中挖掘实体对之间的语义关联。通过这一过程,不仅可以有效揭示实体间的深层次逻辑关联,还能够将零散的、无序的信息转化为结构化的知识体系。传统的关系抽取方法通常在静态数据集上进行训练,难以适应新领域、新关系类型或数据分布的动态变化,且容易受到灾难性遗忘问题的影响。为应对这一挑战,持续学习应运而生。

1.2 持续学习

持续学习(continual learning),也称为增量学习,是一种专注于从连续数据流中不断学习新知识,同时避免遗忘旧知识的学习范式。具备持续学习能力的模型能够在不同任务之间逐步积累知识,而无需反复从头开始训练,从而显著提高学习效率和适应能力。持续学习面临的主要挑战是缓解灾难性遗忘,这意味着在学习新任务时,模型对先前任务的知识不应随着时间推移而显著退化,从而保持其在旧任务上的表现稳定。最近的研究可以分为3类。
1) 基于参数正则化的方法,通过对重要的参数施加约束,防止其在新任务的学习过程中发生明显的变化。EWC(elastic weight consolidation)[25]首次通过约束重要参数来减少灾难性遗忘, 该方法对训练数据的参数相关性进行建模,最后由Fisher信息矩阵来确定精度。SI(synaptic intelligence)[26]通过借鉴神经生物学,以在线的方式计算损失函数对参数变化的敏感度来估计参数重要性以减缓遗忘。权重对齐(weight alignment,WA)[27]方法首先利用知识蒸馏保持旧类别的区分性,然后在正常训练过程结束后对全连接层中的偏置权重进行修正。基于参数正则化的方法模型参数更新速度快,不需要额外保存样本,但类别增量性能较差。
2) 基于动态架构的方法,通过动态调整网络结构以适应新任务的学习。Fernando等[28]通过动态扩展模型架构学习新任务,并防止对旧任务的遗忘。Dualnet方法[29]通过2个互补的系统进行有效的持续学习,一个快速学习系统用于快速学习具体的个体经验和细节,一个慢速学习系统用于逐步获得关于环境的结构化知识。DER(dynamically expandable representation)[30]是一种新的两阶段学习方法,利用动态可扩展的表示来更有效地进行增量概念建模。基于动态架构的方法能在新样本到来时,获得新的特征参数生成,但模型的大小会快速增加。
3) 基于记忆回放的方法,采用缓冲区存储历史典型样本,并在学习新任务的样本时用于回放训练。Mai等[31]通过保存一些旧任务的样本,在学习新任务的样本的同时学习旧任务的样本,以减轻灾难性遗忘。iCaRL(incremental classifier and representation learning)[32]被用于类增量学习,通过知识蒸馏和原型训练同时学习分类器和特征表示,以避免灾难性遗忘。EA-EMR[21]利用一个显式对齐模型来减轻学习模型在新数据和新关系上训练时的句子嵌入变化。KIP-Framework[33]利用关系原型通过基于多头注意力的记忆网络来改进样本表示,并通过注入知识的提示来指导关系原型的生成。基于记忆回放的方法是近年来研究最多的方法,但其性能通常受到内存大小的限制。

1.3 对比学习

对比学习(contrastive learning)通过设计适当的损失函数,将相似的样本映射到特征空间中的更近位置,同时将不同类别的样本映射到更远的位置,从而提升模型的判别性能[34]。近年来,对比学习被广泛引入到自监督学习框架中[35],用于计算机视觉、自然语言处理等多个领域。Wang等[36]探讨了无监督对比损失的行为表现,证明了对比学习可以促进数据分布的一致性和稳定性。Van de Oord等[37]使用了一种概率对比损失,使潜在空间能够捕获对预测未来样本最有用的信息,并通过负采样提高模型的可行性。Deng等[38]通过使用一种上下文丰富的对比损失函数获得了更好的泛化性能和更快的学习收敛速度。Wei等[39]构建多级对比学习,以自我监督的方式充分利用模态内和模态间语义信息。在CRE任务中,Cui等[24]提出了一种一致性表示学习方法,通过在回放记忆时采用对比学习和知识蒸馏来保持关系嵌入的稳定性。Hu等[40]结合对比学习提出了一种持续关系抽取框架,在对比网络中对比给定的实例与存储在记忆模块中的每个候选关系的原型,确保了所有任务的数据分布更加可区分,从而进一步缓解灾难性遗忘。

2 方法

2.1 任务描述

持续关系抽取由一系列任务组成,每个任务均表示1个常规的关系抽取任务。具体而言,第k个任务Tk包含自身的训练集Dktrain、验证集Dkvalid、测试集Dktest和对应的关系集RkRk至少包含1种关系类别。$ \left\{\left(x_i, y_i\right)\right\}_{i=1}^N=D_k^{\text {train }} \bigcup D_k^{\text {test }} \bigcup D_k^{\text {valid }}$,其中xi是输入样本,$ \left\{x_i\right\}_{i=1}^N=X_k^{\text {train }} \bigcup X_k^{\text {test }} \bigcup X_k^{\text {valid }}$包含输入样本训练集Xktrain、输入样本验证集Xkvalid和输入样本测试集Xktestyi表示输入样本xi的真实标签。持续关系学习的目标是不断训练模型,使其能够在学习新任务的同时,避免对旧任务的灾难性遗忘。具体来说,模型在学习了第k个任务后,需要使用前k个任务的测试集的并集$ \widetilde{D}_k^{\text {test }}=\bigcup\limits_{i=1}^k D_i^{\text {test }}$对模型进行评估,要求模型能够识别所有可见的关系$ \widetilde{R}_k=\bigcup\limits_{i=1}^k R_i$,保持在第k个任务和前(k-1)个任务上均具有良好的性能。然而随着任务的不断增加,模型性能的评估将更加具有挑战性。任务流程如图 1所示。

2.2 模型整体框架

PBCRE-Net模型总体框架如图 2所示,主要分为初始化训练和记忆回放2个阶段。对于新任务Tk,在初始化训练阶段,模型首先在新任务训练集Dktrain上进行训练,在训练过程中采用交叉熵损失与监督对比损失相结合的方式,以提高模型的判别能力。接下来,使用K-means算法为每个关系类别rRk选取具有代表性的样本并计算其原型表示Pr。针对典型样本使用样本增强策略进行数据扩充,从而增加记忆回放阶段的训练样本,防止模型因数据稀缺而出现过拟合现象。在记忆回放阶段,本文通过记忆重放策略对模型进行综合训练,在巩固先前任务的知识的同时有效缓解了灾难性遗忘。在完成任务Tk的学习后,模型将继续进入到下一个任务Tk+1的学习流程,以实现持续学习的目标。

2.3 初始学习

当新任务Tk出现时,由于提取的关系类别与Dktrainxi的实体对有关,因此先使用特殊字符[E11]、[E12]、[E21]和[E22]对实体进行标记。其中,[E11]和[E21]分别作为头实体和尾实体的开始标记,[E12]和[E22]分别作为头实体和尾实体的结束标记。本文使用BERT预训练语言模型对第Tk个任务的xi进行特征提取:
$z_{x_i}^k=E\left(W_1^k\left[h_{x_i}^1, h_{x_i}^2\right]+b_1^k\right) .$
其中$ h_{x_i}^1, h_{x_i}^2 \in \mathbb{R}^d$分别表示头实体和尾实体,$ W_1^k \in \mathbb{R}^{d \times 2 d}$$ b_1^k \in \mathbb{R}^d$为可训练参数。
在特征提取后,使用分类器,分类器层包含对比头和分类头。通过分类头将zkxi嵌入到关系类别空间f(zkxi)中。然后,使用线性softmax分类器计算xi的分类概率:
$f\left(z_{x_i}^k\right)=W_2^k z_{x_i}^k+b_2^k, $
$P\left(x_i ; \theta_k\right)=\operatorname{softmax}\left(f\left(z_{x_i}^k\right)\right)$
其中P(xi; θk)表示xi在任务k全部样本θk中的分类概率,$ W_2^k \in \mathbb{R}^{d \times 2 d}$$ b_2^k \in \mathbb{R}^d$均为可训练参数。
在将特征映射到类别空间时,本文使用交叉熵损失函数Lce1对模型进行优化。
$\begin{gathered}L_{\mathrm{cel}}=\sum\limits_{\left(x_i, y_i\right) \in D_k^{\text {train }}} \frac{-1}{\left|D_k^{\text {train }}\right|} \sum\limits_{r_j \in R_k} \delta_{y_i=r_j} \log P\left(r_j \mid x_i ; \theta_k\right) ; \\\delta_{y_i=r_j}= \begin{cases}1, & y_i=r_j ; \\0, & y_i \neq r_j .\end{cases}\end{gathered}$
其中P(rj|xi; θk)表示xi分类为关系类别rj的概率。
对比学习有助于获得更好的特征空间,它可以最大化同类别样本的相似度和最小化不同类别样本的相似度,从而提升样本在特征空间中的可分性。通过分类器的对比头,将Tk任务的zkxi嵌入到对比空间hk(zkxi):
$h_k\left(z_{x_i}^k\right)=W_4^k\left(\operatorname{ReLU}\left(W_3^k z_{x_i}^k+b_3^k\right)\right)+b_4^k .$
其中:ReLU为激活函数,W3kW4kb3kb4k均为可训练参数。
在此过程中本研究使用监督对比损失函数训练模型。对于每个锚点样本,在同一关系类别中随机选取一个作为阳性样本,并在同一批次中随机选取不同的关系类别样本作为阴性样本,计算监督对比损失LSupCon
$\begin{gathered}L_{\text {SupCon }}=\sum\limits_{\left(x_i, y_i\right) \in D_k^{\text {train }}} \frac{-1}{\left|D_k^{\text {train }}\right|} \cdot \\\sum\limits_{x_e \in X_k^{\text {train }}} \delta_{y_i}=r_j \log \frac{\exp \left(h_k\left(z_{x_i}^k\right) h_k\left(z_{x_i}^k\right) / \tau\right)}{\sum\limits_{x_e \in X_k^{\text {train }}} \exp \left(h_k\left(z_{x_i}^k\right) h_k\left(z_{x_i}^k\right) / \tau\right)} .\end{gathered}$
其中τ为温度系数。
在新的任务Tk到来时,使用新的训练集Dktrain来训练模型,获取新的知识,如图 2所示。如果在一开始就过于注重保留先前的任务信息,就会阻碍模型学习新关系rj的能力。同时,通过交叉熵损失Lce1和监督对比学习损失LSupCon之和来减小嵌入空间中相似关系样本之间的距离,即目标函数为
$L_{\text {initial }}=L_{\text {cel }}+L_{\text {SupCon }} .$

2.3.1 记忆样本选取策略

为了在持续学习过程中保留之前任务中学到的知识,同时尽量减小内存占用,本文使用K-means算法对每个关系类别rjRk的训练数据进行聚类,计算其每个样本向量编码到K个聚类簇心的距离,然后选取距离聚类中心最近的m个样本,并将其作为记忆样本存储在集合Mrj中,用于记忆回放阶段的模型训练,以帮助模型有效巩固先前任务的知识,缓解灾难性遗忘问题。记忆样本集合为$ \widetilde{M}_k$,其中记忆样本集合中的输入样本集合为$ \widetilde{X}_k$。为了更准确地计算原型表示,将rj的训练数据每个聚类的中心数量占所有聚类中心数量的比例记为记忆样本的权重$ w_{r_j}, s$
$w_{r_j, s}=\frac{\left|C_{r_j, s}\right|}{\sum\limits_{s=1}^K\left|C_{r_j, s}\right|} .$
其中|Crj, s|为rj聚类s的中心数量。之后,对于Mrj中记忆样本xirj计算加权平均嵌入作为rj的原型,将其表示为
$P_{r_j}=\sum\limits_{i=1}^m w_{r_j} {z^k}_{x_i^{r_j }} .$

2.3.2 记忆增强策略

为了解决样本在持续学习过程中可能会被重复回放多次,从而导致模型存在过拟合的问题,本文根据数据样本的特性采用一种记忆增强策略为记忆回放提供更多的训练样本,同时避免模型的过拟合。
具体来说,对于Mrj中关系类别为rj的样本xirj,首先从Mrj中选出同类别的样本xerjxerjxirj。然后,将xerj的头实体和尾实体与xirj互换,其余文本内容保持不变,得到新扩充的样本数据xierj,作为关系rj的额外扩充样本。同样,从Mrj中随机选择一个样本xqrj,将其添加到xierj文本的末尾,注意,xqrj不是关系rj的典型样本,然后,将得到关系rj的新扩充样本,表示为xie+qrj。值得注意的是,尽管整个输入中包含一个不相关的句子,但该模型仍有望识别实体对的关系rj。本文按照这种策略,对$ \widetilde{M}_k$中的所有典型样本进行扩充,将扩充的记忆样本集合表示为$ \widetilde{M}$经过数据增强策略扩充的句子仅用于记忆回放阶段训练模型来学习实体对之间的关系表示,而不用于关系原型的生成。

2.4 记忆重放学习

本文结合了对比学习有助于获得更好的特征空间及线性分类器将表示和分类过程解耦的优点,在记忆重放阶段,模型学习的首要目的是获取新的知识,同时不遗忘旧的知识。本文将新任务的训练集Dktrain、前k个任务的记忆样本集合和扩充的记忆样本集合进行混合,以此来进行模型训练。与初始化训练一致,仍然采用分离的分类器模型,使用交叉熵损失和对比损失进行训练。
$\begin{array}{l}&L_{\mathrm{ce} 2}=\sum\limits_{\left(x_i, y_i\right) \in D_k^{\text {train }} \cup \widetilde{M}_k \cup \hat{M}_k} \frac{-1}{\left|D_k^{\text {train }} \cup \widetilde{M}_k \cup \hat{M}_k\right|} \cdot\\&\;\;\;\;\;\;\;\sum\limits_{r_j \in R_k} \delta_{y_i=r_j} \log P\left(r_j \mid z_{x_i}^k ; \theta_k\right) .\end{array}$
其中Lce2为交叉熵损失,$ D_k^{\text {train }} \cup \widetilde{M}_k \cup \hat{M}_k$为混合后的数据集合。
过度地对记忆样本进行训练,可能会导致信息丢失。同时,模型可能会产生过拟合的风险。在此过程中,新任务数据和记忆样本数据采用分离的方式,只使用新任务的数据来计算对比损失Lcon
$\begin{aligned}& L_{\text {con }}=\sum\limits_{\left(x_i, y_i\right) \in D_k^{\text {train }}} \frac{-1}{\left|D_k^{\text {train }}\right|} \sum\limits_{x_e \in X_k^{\text {train }}} \delta_{y_i=r_j} . \\& \log \frac{\exp \left(h_k\left(z_{x_i}^k\right) h_k\left(z_{x_i}^k\right) / \tau\right)}{\sum\limits_{x_e \in X_k^{\text {train }} \cup \widetilde{X}_k} \exp \left(h_k\left(z_{x_i}^k\right) h_k\left(z_{x_i}^k\right) / \tau\right)} .\end{aligned}$
分离新任务样本后,对比学习减小了新任务样本之间的距离,记忆样本仅作为负锚点,不用于同类样本之间距离的减小。因此,这一部分是一个单独的新知识获取。
为了使模型在持续学习过程中能够保持对旧任务的学习能力,同时保持记忆样本在嵌入空间中的一致性,本文在记忆回放阶段引入了一种嵌入一致性损失约束机制。具体来说,在上一次任务训练完成后,保存上一次任务的记忆样本嵌入作为当前任务的参照,通过限制这些旧样本嵌入的变化,确保模型在处理新任务时仍能维持嵌入空间的结构信息。目标函数定义为
$\begin{aligned}& L_{\text {ecl }}=\sum\limits_{x_i, x_e \in \widetilde{X}_k} \frac{1}{\left|\widetilde{X}_k\right|} \delta_{y_i=r_j} \|\left(h_k\left(z_{x_i}^k\right)-\right. \\& h_{k-1}\left(z_{x_i}^{k-1}\right)-\left(h_k\left(z_{x_e}^k\right)-h_{k-1}\left(z_{x_e}^{k-1}\right)\right) \| .\end{aligned}$
其中zk-1xihk-1分别是上一次(k-1)任务编码层和分类器层的嵌入。
通过上述方法,模型在学习新任务的过程中,能够不断回顾和巩固旧任务的关键特征,确保了不同任务的决策边界一致。这种方式不仅有效平衡了对新旧任务的学习能力,同时也避免了因新任务的学习而导致对旧任务的遗忘。记忆回放阶段的目标函数定义为
$L_{\text {replay }}=L_{\mathrm{ce} 2}+L_{\mathrm{con}}+L_{\mathrm{ecl}} .$

2.4.1 关系预测

在预测阶段,对于给定的输入样本xi,采用最近类均值(nearest-class-mean, NCM)分类器[31],计算xi的嵌入与所有关系原型之间的距离,因为加权平均嵌入会丢失一部分信息,本文还利用原始记忆样本进一步提升了模型的预测精度,并将其分配到距离最近的原型标签:
$y_i^*=\underset{\substack{r_j \in R_k \\ o=1, 2, \cdots, k}}{\operatorname{argmin}}\left(\left\|z_{x_i}^o-P_{r_j}+\min \left(\left\|z_{x_i}^o-z^o_{x_i^{r_j}}\right\|\right)\right\|\right) .$
其中yi*表示xi预测的类别种类标签。
本文所提的基于原型表示的持续关系抽取算法如图 3所示。
图 3 持续关系抽取算法

3 实验

3.1 环境设置

本文所有实验全部在Ubuntu 22.04系统、Python 3.8版本、Pytorch1.8深度学习框架下实现,硬件环境为Intel(R) Xeon(R) Gold 5318Y CPU@ 2.10 GHz、NVIDIA GeForce GTX 4090,内存24 GB。训练过程中,记忆样本大小即m设置为20,学习率设置为10-6,训练轮数nl都设置为5,使用Adam优化器。为了防止梯度溢出,将梯度裁剪值设置为10。

3.2 评价指标

本文使用准确率ACC作为模型的主要评价指标。考虑到任务序列的不同可能会对模型的中间结果产生显著影响,为了确保与基准模型的比较公平,本文构建了5个不同的任务序列进行实验,并分别计算每个序列的实验结果。最终,将5个序列的结果取平均值作为模型的最终性能指标,以消除任务序列变化带来的随机性影响。
$\mathrm{ACC}=\frac{1}{T}\left(A_1+\sum\limits_{k=2}^T A_k\right) .$
其中T为任务总数;A1为第1个任务的准确率;Ak(k=2, 3, ···, T)表示模型学习第(k-1)个任务之后,对第k个任务在测试集上的准确率。
为了全面衡量模型在所有测试集上的有效性,考虑到任务数量多且每个任务下的类别不平衡,本文使用Macro-F1作为评价指标。
$\text { Macro-F1 }=\frac{1}{R} \sum\limits_{j=1}^R \mathrm{~F} 1_j .$
其中单类别F1值$ \mathrm{F}_1=\frac{2 \cdot \text { Precison }_j \cdot \text { Recall }_j}{\text { Precison }_j+\text { Recall }_j}$,Precisonj为在关系类别j的精确率,Recallj为在关系类别j的召回率。

3.3 数据集

CMeIE[42]: 一个公开的中文医学信息抽取数据集,包含53种关系类别和约2.8万条句子样本。旨在支持医学领域的自然语言处理任务,尤其是命名实体识别和关系抽取任务。
ASaRED[43]: 一个中文铝合金信息抽取数据集,共2 517个铝合金实体关系三元组。旨在支持合金领域的自然语言处理任务,尤其是命名实体识别和关系抽取任务。
以上2个中文数据集结构相似且句子复杂度较高,存在三元组重叠的情况,目前在中文数据集上三元组主要分为3类:三元组之间无重叠(Normal)、实体对重叠(EPO)和单实体重叠(SEO)。这些特性对持续关系抽取模型的泛化能力和学习能力提出了更高要求,因为模型不仅需要适应类别分布的不均衡,还要有效应对样本中复杂的关系结构与重叠现象。

3.4 实验结果与分析

为了验证模型对基础持续学习任务的有效性,本文进行了相关实验,结果如表 12所示,将本文模型与目前主流模型CRECL[40]、EMAR(BERT)[22] CRL[23]、RPECRE[24]和DPCRE[44]在CMeIE数据集上进行了全面对比。ACA为改进的记忆增强模块,本文在EMAR(BERT)和PRCRE中分别增加了ACA也作为对比模型。
表 1 在CMeIE数据集上不同模型的ACC  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
CRECL 97.00 88.12 72.47 68.79 58.46 57.09 47.99 47.91 44.10 38.62
EMAR(BERT) 96.89 85.36 80.39 81.04 71.70 73.62 68.78 64.84 61.59 59.33
EMAR(BERT)+ACA 97.25 82.91 78.96 80.49 70.47 74.58 68.63 66.06 61.37 61.72
PRCRE 97.70 83.99 65.91 62.93 63.78 58.24 60.45 58.40 57.18 55.31
PRCRE+ACA 97.24 83.31 74.07 76.88 71.47 57.02 61.65 57.79 56.39 59.09
CRL 97.87 88.11 80.99 78.63 77.14 73.86 71.24 70.00 67.34 65.53
DPCRE 92.69 86.17 80.09 80.82 78.24 79.22 74.97 74.25 72.22 70.96
PBCRE-Net 95.02 88.59 84.93 84.90 80.35 81.65 77.58 75.26 72.22 70.15
表 2 在CMeIE数据集上不同模型的Macro-F1  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
CRECL 96.90 87.22 71.57 66.89 59.06 56.89 48.99 47.91 45.10 39.52
EMAR(BERT) 96.79 84.86 81.49 80.84 73.10 72.72 68.68 63.44 61.79 59.63
EMAR(BERT)+ACA 96.35 84.01 77.96 76.39 72.06 71.28 66.67 64.86 63.47 62.52
PRCRE 96.04 83.79 84.84 75.71 75.65 70.85 65.60 59.21 58.68 53.31
PRCRE+ACA 97.14 82.21 74.97 74.78 69.47 65.02 61.85 60.79 59.49 58.09
CRL 97.15 86.26 82.99 79.13 76.61 73.55 70.14 67.87 65.55 63.58
DPCRE 90.19 85.76 79.00 75.83 66.92 64.78 61.46 60.87 59.87 55.42
PBCRE-Net 94.27 88.31 82.98 81.93 76.79 78.15 71.60 69.70 67.08 66.13
从所有任务的实验结果综合来看,本文模型在绝大多数任务上都取得了较高的准确率,比其他模型具有较为明显的优势,仅有在任务1和10上低于其他模型,但差距不大,这充分表明本文模型在整个CMeIE数据集的多任务持续关系抽取场景下,整体性能最为出色,具有很强的通用性和优越性,能更好地应对复杂场景下的多种关系抽取需求。
1) 类别分布不平衡:在面对类别分布不平衡这一挑战时,本文模型依然能取得良好表现。从各任务准确率来看,对于那些可能属于长尾分布、样本数量相对较少的关系类别,本文模型也能较好地识别,如任务10中准确率仍能达到70.15%,这表明监督对比损失和一致性约束损失在嵌入空间中对不同类别嵌入向量具有调节作用,使得即使是样本稀少的类别,其嵌入向量也能将其与其他类别有效区分,减少了类别不平衡导致少数类别被忽视或误分类的情况,增强了模型对长尾分布数据的鲁棒性。
2) 三元组重叠情况:在存在三元组重叠等复杂样本句子的场景下,本文模型准确率未出现大幅下降,这得益于在嵌入空间中对关系类别重叠问题的解决。监督对比损失促使同一关系类别的嵌入向量聚集,一致性约束损失则进一步强化了这一聚集效果并拉开不同类别嵌入向量的距离,使得即使在复杂句子结构和三元组重叠情况下,模型也能准确地抽取各个关系三元组,精准区分不同关系,避免了关系混淆和误判,凸显了模型在处理复杂文本关系抽取任务中的强大能力。
3) 记忆回放不稳定:随着任务数量的增加,从任务1到10,新任务和记忆样本数量的不平衡性逐渐加剧,但本文模型的准确率并未出现明显的波动或大幅下降趋势,整体较为稳定。这主要归功于记忆样本增强策略,在记忆回放阶段合理平衡了不同任务的训练样本分布,确保了本文模型在每个任务中都有足够的有效样本进行学习和巩固,避免了因部分任务样本过少而导致模型在这些任务中性能大幅下滑,同时有效防止了模型过拟合新任务样本而遗忘旧任务知识,保证了模型在持续学习过程中的稳定性,使其能够持续稳定地处理不断增加的任务和复杂多变的文本关系抽取需求。

3.5 消融实验

为了验证PBCRE-Net模型中各个模块的有效性和必要性,本文进行了相关消融实验,具体而言,“w/o aug”表示消除了记忆回放中的记忆增强模块;“w/o con_loss”表示消除了初始化训练阶段和记忆回放中的监督对比损失函数;“w/o diss_loss”表示消除了记忆回放阶段中的一致性约束损失函数。实验结果如表 3所示,根据实验结果可以观察到,本文模型在缺失每个相关模块组件时,整体性能均有一定程度的下降,表明每个模块对于整体模型来说都是必要的。
表 3 消融实验ACC  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
PBCRE-Net 95.02 88.59 84.93 84.9 80.35 81.65 77.58 75.26 72.52 70.25
w/o aug 95.02 87.22 84.03 83.46 78.10 80.07 75.59 73.38 70.66 68.39
w/o con_loss 95.45 87.93 84.48 84.20 78.79 80.69 77.06 75.13 72.46 70.03
w/o diss_loss 95.53 87.69 83.89 83.71 77.62 80.15 76.85 74.85 71.35 69.11
为了进一步探讨记忆样本内存大小对模型性能的影响,将m分别设置为20、15、10、5,同时保持其他实验参数不变。表 4的实验结果表明,随着记忆样本内存的减小,本文模型性能呈现出相应的下降趋势。这种现象的主要原因在于,在记忆回放阶段,来自旧任务的存储样本信息有所减少,导致模型对旧任务的样本的记忆能力减弱,从而影响了整体性能。
表 4 单一数据集上在不同记忆样本内存情况下PBCRE-Net的ACC  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
20 95.02 88.59 84.93 84.90 80.35 81.65 77.58 75.26 72.22 70.15
15 95.31 86.53 82.80 82.98 76.83 79.34 75.04 72.55 69.30 67.40
10 95.36 84.21 81.27 81.18 74.36 77.61 72.93 70.55 66.61 64.25
5 95.37 81.38 78.91 77.97 70.53 73.82 67.67 64.66 60.66 57.03
此外,本文模型与多个整体性能表现较强的模型进行了全面的对比。在实验中,将m从20逐步减小到5,以评估不同记忆样本大小下模型的性能表现,相关实验结果如图 4所示。尽管m的减小对模型性能带来了一定程度的降低,但本文模型的性能下降比其他模型更为缓慢,这进一步验证了其在记忆样本受限的情况下或者内存不断减小的任务环境下的优越性。本文模型为持续关系抽取任务提供了一种有效的解决方案并为未来在资源受限的真实环境下的模型优化提供了新的思路和方向。
图 4 不同模型在不同记忆样本内存下的性能表现

3.6 跨领域扩展实验分析

由于在持续关系抽取任务中,后续任务的关系类别和数据内容是未知的,模型对于新任务的关系抽取不依赖于历史任务的具体内容。为了更好地满足持续学习场景的实际需求,并确保实验具有广泛的覆盖性和多样性,本文选取了CMeIE和ASaRED组成跨领域混合数据集。本文从ASaRED中选取了12种关系类别,同时从CMeIE中选取48种关系类别来模拟增量学习场景,以此构建了一个包含10个任务的跨领域增量学习场景,每个任务包含6种关系类别,这样能够最大限度地来模拟未知的不同关系类别数据,符合实验对于持续关系抽取任务的真实实验环境设定。跨领域数据集不仅满足了持续学习的基本任务内容,而且对模型的泛化能力有更高的要求,从而更加贴近现实场景的实际需求。特别地,在不同领域的学习会导致模型对高维的特征空间的不对齐,从而使模型分类效果变差,在持续学习下,往往会出现更加严重的灾难性遗忘问题。
为了验证模型的结果具有更高的泛化能力,本文进行了跨领域的实验,结果如表 56所示,PBCRE-Net模型在整体性能上表现最为优异,几乎在所有子任务中均取得显著性能提升。
表 5 跨领域数据集上不同模型的ACC  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
CRECL 98.32 91.53 71.21 69.42 60.26 57.31 45.24 39.70 36.81 39.29
PRCRE 98.45 78.38 75.55 58.68 50.59 39.28 38.84 40.76 34.79 39.11
PRCRE+ACA 98.50 76.44 64.39 54.53 44.13 41.35 36.57 29.43 32.60 38.53
EMAR(BERT) 98.50 87.60 82.55 75.17 72.63 69.31 63.56 63.25 62.03 59.34
EMAR(BERT)+ACA 97.78 86.34 84.00 75.87 72.95 70.02 64.84 65.40 60.85 59.75
DRCRE 97.98 86.72 82.71 76.89 75.29 71.33 64.27 65.43 62.58 60.47
CRL 98.64 86.37 79.42 80.87 78.53 76.46 74.39 73.19 71.00 70.35
PBCRE-Net 98.61 90.54 88.81 84.84 83.88 82.76 76.85 75.99 75.73 74.16
表 6 跨领域数据集上不同模型的Macro-F1  %
模型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
CRECL 88.32 81.63 70.81 65.52 66.96 56.91 43.44 36.70 35.71 37.69
PRCRE 89.45 79.08 68.65 56.88 51.09 42.78 39.84 39.86 34.39 38.21
PRCRE+ACA 79.50 80.44 73.02 60.63 55.93 43.55 37.67 35.43 36.06 36.53
EMAR(BERT) 92.50 83.68 79.65 74.67 72.33 67.51 64.66 63.25 62.03 57.88
EMAR(BERT)+ACA 90.78 81.34 79.60 74.97 71.99 69.52 66.34 65.40 60.85 58.65
DRCRE 91.88 84.72 81.01 76.95 74.99 72.33 66.87 65.43 62.58 64.77
CRL 92.64 85.37 81.52 80.67 76.63 74.96 69.59 73.19 71.00 66.65
PBCRE-Net 92.60 88.54 86.81 84.84 79.88 76.76 74.90 73.31 72.14 69.34
实验结果充分证明了本文模型在跨领域更加复杂场景下进行持续关系抽取任务的有效性和优势。特别值得注意的是,由于跨领域不同类别分布更加不平衡以及样本句子中存在更多三元组重叠等复杂情况,这些因素对持续关系抽取任务提出了更高的挑战。监督对比学习通过聚集同一类别的嵌入向量并分离不同类别的嵌入向量,显著增强了模型在跨领域复杂场景中的区分能力,不仅有效缓解了因三元组重叠引发的误分类问题,还改善了长尾分布不均衡带来的挑战,同时降低了噪声样本对模型的干扰,显著提升了模型在处理长尾分布和复杂数据时的鲁棒性。此外,随着任务数量的增加,新任务与记忆样本数量的不平衡问题更加突出。记忆样本数量的限制可能导致模型出现过拟合风险。针对这一问题,本文改进了记忆样本增强策略,在记忆回放阶段能够更加有效平衡不同任务的训练样本分布,降低过拟合对模型泛化能力的影响,从而显著提升了模型的稳定性。综合来看,本文模型在应对跨领域复杂场景和复杂语义情况下表现出较强的实际应用价值。
为了在真实的场景下深入探究记忆内存大小在持续关系抽取任务中对模型性能的影响,本文在混合数据集上保持其他实验参数不变的前提下,将m分别设置为20、15、10和5进行实验。实验结果如表 7所示,随着记忆样本内存的减小,模型在各个任务上的性能呈现出明显的下降趋势。具体而言,当m从20减少到5时,模型在T1T10上的表现逐渐降低,尤其是在T4T10等后续任务中,性能下降更为显著。这种现象的主要原因在于,随着内存容量的减少,模型在记忆回放阶段能够利用的旧任务样本信息也随之减少。这导致模型对旧任务的记忆能力减弱,从而影响了其在后续任务中的表现。
表 7 混合数据集上在不同记忆内存情况下PBCRE-Net的ACC  %
m T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
20 95.11 88.63 85.12 85.11 81.25 82.24 77.53 75.88 73.11 70.86
15 95.10 87.66 81.96 82.24 77.63 79.32 74.68 72.26 69.66 68.36
10 94.43 84.69 82.44 82.36 75.34 78.81 73.82 71.70 68.96 65.31
5 94.31 81.63 78.76 78.68 71.52 73.67 68.02 65.41 61.83 58.22
此外,将本文模型与多个在整体性能表现较强的模型进行了对比分析,实验结果如图 5所示。同样,尽管记忆样本内存的减小对性能带来了一定程度的挑战,但相比其他模型,PBCER-Net在多项任务中均展现出了更加优异的性能。在实际场景中随着任务数量的增加,灾难性遗忘的问题更加严重,但PBCRE-Net的性能下降幅度相对较小,进一步证明了其在资源受限场景下的稳健性。
图 5 不同模型在不同记忆样本内存下的性能表现

4 结论

本文针对复杂语义场景下持续关系抽取任务中存在的灾难性遗忘问题,提出了一种基于原型表示的持续关系抽取网络(PBCRE-Net)模型。该模型采用基于记忆回放的思想,结合预训练语言模型、K-means算法和监督对比学习等方法,通过初始化训练和记忆回放2个阶段,有效地缓解了灾难性遗忘问题。此外,为了防止模型在训练过程中记忆样本容量过小导致的过拟合问题,引入了记忆样本增强策略,以扩充记忆样本,从而降低过拟合的风险。通过跨领域的实验验证,证明了该模型不仅在单领域数据集上表现出色,更在跨领域数据集上展现出显著的性能优势,显著提升了泛化能力与可扩展性。下一步可以从以下3个方面进行改进:1) 将针对多语言的场景,通过跨语言模型技术对不同语言的任务进行持续抽取分析,进一步提升模型的通用性;2) 由于在抽取过程中,会抽取到错误的三元组造成如“元素成分含量之和大于100%”的结果。可加入相关的物理约束对抽取的实体关系进行规范;3) 在通用数据集中,还会存在一词多义等情况,可通过实体对齐或者语义嵌入,研究相应的针对性处理手段。
1
张林峰, 孙伟杰, 李鑫宇, 等. 科学智能(AI4S)全球发展观察与展望[R]. 北京: 科学智能研究院、深势科技、络绎科学, 2023.

ZHANG L F, SUN W J, LI X Y, et al. AI for science global outlook[R]. Beijing: Beijing Academy of AI for Science, DP Technology, Science L, 2023. (in Chinese)

2
KIM H , CHOI H , KANG D J , et al. Materials discovery with extreme properties via reinforcement learning-guided combinatorial chemistry[J]. Chemical Science, 2024, 15 (21): 7908- 7925.

DOI

3
QIAO B , ZOU Z Y , HUANG Y , et al. A joint model for entity and relation extraction based on BERT[J]. Neural Computing and Applications, 2022, 34 (5): 3471- 3481.

DOI

4
YUAN J Y , ZHANG F Y , QIU Y M , et al. Document-level biomedical relation extraction via hierarchical tree graph and relation segmentation module[J]. Bioinformatics, 2024, 40 (7): btae418.

DOI

5
HE J Y , NGUYEN D Q , AKHONDI S A , et al. ChEMU 2020:Natural language processing methods are effective for information extraction from chemical patents[J]. Frontiers in Research Metrics and Analytics, 2021, 6, 654438.

DOI

6
LI Y, HE J Y, YOSHIKAWA H, et al. End-to-end chemical reaction extraction from patents[C]//Proceedings of PatentSemTech'22. New York, USA: ACM, 2022: 123-130.

7
MULLICK A , GHOSH A , CHAITANYA G S , et al. MatSciRE: Leveraging pointer networks to automate entity and relation extraction for material science knowledge base construction[J]. Computational Materials Science, 2024, 233, 112659.

DOI

8
胡明昊, 王芳, 徐先涛, 等. 国防科技领域两阶段开放信息抽取方法[J]. 清华大学学报(自然科学版), 2023, 63 (9): 1309- 1316.

DOI

HU M H , WANG F , XU X T , et al. Two-stage open information extraction method for the defence technology field[J]. Journal of Tsinghua University (Science and Technology), 2023, 63 (9): 1309- 1316.

DOI

9
张江石, 李泳暾, 吴静茹, 等. 煤矿事故原因智能分析方法研究与应用[J]. 清华大学学报(自然科学版), 2025, 65 (3): 555- 568.

DOI

ZHANG J S , LI Y T , WU J R , et al. Research and application of intelligent methods for analyzing the causes of coal mining accidents[J]. Journal of Tsinghua University (Science and Technology), 2025, 65 (3): 555- 568.

DOI

10
LIU Y L , NIU C , WANG Z , et al. Machine learning in materials genome initiative: A review[J]. Journal of Materials Science & Technology, 2020, 57, 113- 122.

11
ZHANG Y , HU W , YAO W , et al. Offline data-driven multiobjective optimization evolutionary algorithm based on generative adversarial network[J]. IEEE Transactions on Evolutionary Computation, 2024, 28 (2): 293- 306.

DOI

12
GAO Q , WANG W B , REN J Q , et al. Optimizing strength-ductility in NiCoMn medium entropy alloys with atomic-scale rapid composition design[J]. Journal of Materials Science & Technology, 2025, 215, 71- 85.

13
LIU Y L , CUI Y T , ZHOU H H , et al. Machine learning based methods for materials inverse design: A review[J]. Computers, Materials & Continua, 2025, 82 (2): 1463- 1492.

14
王立平, 张超, 蔡恩磊, 等. 面向自主工业软件的知识提取和知识库构建方法[J]. 清华大学学报(自然科学版), 2022, 62 (5): 978- 986.

DOI

WANG L P , ZHANG C , CAI E L , et al. Knowledge extraction and knowledge base construction method from industrial software packages[J]. Journal of Tsinghua University (Science and Technology), 2022, 62 (5): 978- 986.

DOI

15
ZENG D J, LIU K, LAI S W, et al. Relation classification via convolutional deep neural network[C]//Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. Dublin, Ireland: Dublin City University and Association for Computational Linguistics, 2014: 2335-2344.

16
LI F, ZHANG M S, FU G H, et al. A Bi-LSTM-RNN model for relation classification using low-cost sequence features[EB/OL]. (2016-08-27)[2023-01-01]. https://arxiv.org/abs/1608.07720.

17
XU Y, MOU L L, LI G, et al. Classifying relations via long short term memory networks along shortest dependency paths[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association Linguistics, 2015: 1785-1794.

18
SUN C Z, GONG Y Y, WU Y B, et al. Joint type inference on entities and relations via graph convolutional networks[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 1361-1370.

19
KATIYAR A, CARDIE C. Going out on a limb: Joint extraction of entity mentions and relations without dependency trees[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics, 2017: 917-928.

20
SUI D , ZENG X R , CHEN Y B , et al. Joint entity and relation extraction with set prediction networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35 (9): 12784- 12795.

DOI

21
WANG H, XIONG W H, YU M, et al. Sentence embedding alignment for lifelong relation extraction[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019: 796-806.

22
HAN X, DAI Y, GAO T Y, et al. Continual relation learning via episodic memory activation and reconsolidation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020: 6429-6440.

23
ZHAO K, XU H, YANG J G, et al. Consistent representation learning for continual relation extraction[C]//Findings of the Association for Computational Linguistics: ACL 2022. Dublin, Ireland: Association for Computational Linguistics, 2022: 3402-3411.

24
CUI L, YANG D Q, YU J X, et al. Refining sample embeddings with relation prototypes to enhance continual relation extraction[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics, 2021: 232-243.

25
KIRKPATRICK J , PASCANU R , RABINOWITZ N , et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114 (13): 3521- 3526.

26
ZENKE F, POOLE B, GANGULI S. Continual learning through synaptic intelligence[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR, 2017: 3987-3995.

27
ZHAO B W, XIAO X, GAN G J, et al. Maintaining discrimination and fairness in class incremental learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 13205-13214.

28
FERNANDO C, BANARSE D, BLUNDELL C, et al. PathNet: Evolution channels gradient descent in super neural networks[EB/OL]. (2017-02-02)[2023-01-01]. https://arxiv.org/abs/1701.08734.

29
PHAM Q, LIU C H, HOI S C H. DualNet: Continual learning, fast and slow[C]//Proceedings of the 35th International Conference on Neural Information Processing Systems. Curran Associates Inc., 2021: 16131-16144.

30
YAN S P, XIE J W, HE X M. DER: Dynamically expandable representation for class incremental learning[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021: 3013-3022.

31
MAI Z D, LI R W, KIM H, et al. Supervised contrastive replay: Revisiting the nearest class mean classifier in online class-incremental continual learning[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Nashville, USA: IEEE, 2021: 3584-3594.

32
REBUFFI S A, KOLESNIKOV A, SPERL G, et al. iCaRL: Incremental classifier and representation learning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017: 5533-5542.

33
ZHANG H , LIANG B , YANG M , et al. Prompt-based prototypical framework for continual relation extraction[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30, 2801- 2813.

DOI

34
CHEN X L, HE K M. Exploring simple Siamese representation learning[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021: 15745-15753.

35
JAISWAL A , BABU A R , ZADEH M Z , et al. A survey on contrastive self-supervised learning[J]. Technologies, 2021, 9 (1): 2.

36
WANG F, LIU H P. Understanding the behaviour of contrastive loss[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021: 2495-2504.

37
VAN DEN OORD A, LI Y Z, VINYALS O. Representation learning with contrastive predictive coding[EB/OL]. (2018-07-10)[2023-01-01]. https://arxiv.org/abs/1807.03748.

38
DENG H J , YANG Y M . Context-enriched contrastive loss: Enhancing presentation of inherent sample connections in contrastive learning framework[J]. IEEE Transactions on Multimedia, 2025, 27, 429- 441.

DOI

39
WEI Y B , XU Y , ZHU L , et al. Multi-level cross-modal contrastive learning for review-aware recommendation[J]. Expert Systems with Applications, 2024, 247, 123341.

DOI

40
HU C W, YANG D Q, JIN H L, et al. Improving continual relation extraction through prototypical contrastive learning[C]//Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, 2022: 1885-1895.

41
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019: 4171-4186.

42
ZAN H , LIU T , CHEN J , et al. Corpus construction for named-entity and entity relations for paediatric diseases[J]. Journal of Chinese Information Processing, 2020, 34 (2): 34- 56.

43
LIU Y L , WEN S J , YIN J C , et al. ASaRE-Net: Automatic information extraction from Al-Si alloy materials science literature for corpus construction[J]. Journal of Materials Science, 2024, 59 (32): 15330- 15346.

DOI

44
HUANG M Y, XIAO M, WANG L D, et al. DP-CRE: Continual relation extraction via decoupled contrastive learning and memory structure preservation[C]//Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Torino, Italia: ELRA, 2024: 5338-5349.

文章导航

/