基于语义边界增强的司法命名实体识别
张天宇1, 孙媛媛1, 杜文玉2, 邢铁军3, 林鸿飞1, 杨亮1    
1. 大连理工大学 计算机学院,大连 116024;
2. 最高人民检察院 检察技术信息研究中心,北京 100726;
3. 东软集团股份有限公司,大连 116024
摘要:法律文书命名实体识别是智慧司法的关键任务。现有的序列标注模型仅关注字符信息,导致在法律文书命名实体识别任务中无法获得语义和词语的上下文信息,且无法对实体的边界进行限制。因此,该文提出了一个融合外部信息并对边界限制的司法命名实体识别模型(semantic and boundary enhance named entity recognition,SBENER)。该模型收集了40万条盗窃罪法律文书,首先,预训练模型,将获得的司法盗窃罪词向量作为输入模型的外部信息;其次,设计Adapter,将司法盗窃罪的信息融入字符序列以增强语义特征;最后,使用边界指针网络对实体边界进行限制,解决了序列标注模型丢失词语信息及缺少边界限制的问题。该模型在CAILIE 1.0数据集和LegalCorpus数据集上进行实验,结果表明,SBENER模型在2个数据集上的F1值(F1-score)分别达88.70%和87.67%,比其他基线模型取得了更好的效果。SBENER模型能够提升司法领域命名实体识别的效果。
关键词法律文书    外部法律信息    实体边界    命名实体识别    
Judicial named entity recognition enhanced with semantic and boundary
ZHANG Tianyu1, SUN Yuanyuan1, DU Wenyu2, XING Tiejun3, LIN Hongfei1, YANG Liang1    
1. Shenzhen Research Institute, China University of Mining and Technology, Shenzhen 518057, China;
2. Ruinengsaite Technology (Shenzhen) Co., Ltd., Shenzhen 518118, China;
3. Jiangsu Firemana Safety Technology Co., Ltd., Xuzhou 221100, China
Abstract: [Objective] Named entity recognition (NER), a central task in the information extraction realm, aims to precisely identify various named entity types in textual content, including personal names, locations, and organizational names. In Chinese NER domain, deep learning techniques are crucial for character and vocabulary representations and feature extractions, yielding remarkable research achievements. Common deep learning models for NER include sequence labeling, span-based approaches, generative methods, and table-based strategies. Nevertheless, this task suffers from the scarcity of lexical information. Hence, this challenge is perceived as a primary hindrance limiting the development of high-performance Chinese NER systems. Despite developing extensive lexical dictionaries encompassing rich vocabulary boundaries and semantic insights, effective incorporation of this lexical knowledge into Chinese NER task remains a considerable challenge. Particularly, the seamless integration of semantic information from matching vocabulary and its contextual cues into Chinese character sequence remains intricate. Moreover, ensuring the accurate delimitation of named entity boundaries is still a remarkable concern. [Methods] In the realm of intelligent judicial systems, the NER task within legal documents has garnered significant attention. Nonetheless, prevailing sequence labeling models predominantly rely on character information, constraining their capacity to capture semantic and lexical contextual nuances and inadequately addressing entity boundary constraints. To resolve these challenges, this paper introduces an innovative model called semantic and boundary enhanced named entity recognition (SBENER). To enhance the semantic features of legal documents within the SBENER model, external information containing vocabulary pertinent to theft crimes is smartly integrated. Initially, word vectors for theft crime terms are acquired through pretraining. Subsequently, a vocabulary dictionary tree is constructed, enabling the potential vocabulary candidate identification for each character. Further, these candidates are amalgamated into a final external information vector via a bilinear attention mechanism. Additionally, a linear gating structure is introduced to mitigate interference from external information in the original text. To overcome the limitations of sequence labeling models for managing entity boundary constraints, this study designs a boundary pointer network within the model to confine entity boundaries. This involves embedding the character sequence into hidden layer representations via bidirectional long short-term memory followed by decoding to introduce probability constraints for each entity span. Ultimately, contextual and boundary information is inputted into a conditional random field for obtaining the ultimate entity classification outcomes. This design adroitly tackles the issues of vocabulary loss and boundary constraint scarcity within sequence labeling models. [Results] Experimental results on the CAILIE 1.0 and LegalCorpus datasets corroborated the effectiveness of the proposed method, yielding F1 scores of 88.70% and 87.67%, respectively, surpassing other baseline models. Additionally, the study conducted ablation experiments to validate the effectiveness of each component. The experimental results showed that integrating external semantic information related to theft, enhancing entity boundary constraints through pointer networks, and incorporating gating mechanisms to restrict irrelevant information fusion were all effective approaches for achieving higher F1 scores for the model. Furthermore, this paper applied dimensionality reduction to external semantic word vector information and conducted experimental analysis on different fusion layers. Single-layer fusion outperformed multilayer fusion, while fusion at intermediate levels yielded better results. This underscored the marked enhancement in judicial NER facilitated by the proposed approach. [Conclusions] The SBENER model effectively enhances the proficiency of recognizing named entities in legal documents through the fusion of external information and reinforcement of boundary constraints. This pioneering method substantially contributes to advancements within the intelligent judicial systems.
Key words: legal document    external law informationV    entity boundary    named entity recognition    

近年来,人工智能和深度学习技术的应用领域越来越广。对于司法领域,如何实现智能化处理和分析海量法律文书[1]已成为自然语言处理(natural language processing,NLP) 研究的重要方向。在司法领域中,命名实体识别(named entity recognition,NER) 既是智慧司法的基础任务,也是重要任务,且在法律问答、关系抽取、刑期预测和司法知识图谱构建等下游任务中具有重要的作用。

相比于通用领域,NER在司法领域会面临更大的挑战。司法领域NER关注的均是与法律文书相关联的司法内容和属性。如案例“2018年6月22日20时许,被告人曾某某、粟某某沿靖州县***镇***路由***往***方向步行,行至被害人邓某某、洪某某经营的‘******’店铺门口时,曾某某进入店内将邓某某的一部‘苹果8’手机、洪某某的一部黑色华为手机从收银台处拿走。”其中,描述“曾某某、粟某某”“邓某某、洪某某”在通用领域的数据集中仅需要被识别为人物即可,而在司法领域中需要分别被识别为2种不同的实体,即犯罪嫌疑人和受害人,而“‘苹果8’手机”和“黑色华为手机”在司法领域需要被识别为被盗物品和非被盗物品。因此,将这些实体仅标注为通用领域标签,并应用于司法领域的下游任务,这在司法领域中是不准确的。

在法律文书中,数据需要经过脱敏处理,存在较多如“*”的脱敏词汇,脱敏词汇会减少模型的可学习内容,使模型无法获取有效信息。对于如何帮助模型获取更多有效信息,目前较有效的方法是将引入的外部信息融入模型内部。由于法律文书文本内容具有特殊性,如实体长度一般较长、粒度更细和存在干扰信息的脱敏词汇等,因此,如何将更多有效信息融入模型以及如何更好地分割实体边界至关重要。

受特定方法——实体识别任务中将外部语义信息融入模型内部以增强语义信息的启发,本文尝试将外部法律信息整合到基于Transformers的双向编码器表示模型(bidirectional encoder represen-tations from transformers, BERT)[2]的编码层中,提出了一种基于外部语义和边界增强的法律文书命名实体识别模型(semantic and boundary enhance named entity recognition,SBENER)。SBENER使用BERT将字符上下文表示作为模型的输入,并将融合外部法律信息的BERT编码层作为模型的输出。

1 相关研究

NER是指从非结构化的文本中提取具有特定含义的实体,主要关注识别文本的跨度并进行分类。常见的命名实体包括实体(组织名称、人名、地名)、时间表达式(日期、时刻)和数字表达式(货币值、百分比)等[3]

NER通常应用于NLP任务中的众多下游任务,而序列标注是指对每个序列单元分配标签,是处理NLP任务的经典方法,如词性标注、命名实体识别等任务均可转换为序列标注。对于中文句子的序列标注,由于中文句子缺少详细的词语边界,因此中文字符一般被当作序列单元,这会导致中文句子在序列标注处理过程中丢失较多与词相关的信息。综上,使用序列标注处理中文任务将面临更多挑战。Zhang等[4]提出了栅格长短期记忆网络(lattice long short-term memory network, Lattice-LSTM)模型结构,该模型结构既可以减少分词造成的误差传播,又可以利用词序信息。Li等[5]提出了扁平栅格(flat-lattice transformer,FLAT)模型,在此基础上使用Transformer的自注意力机制[6]并增加词语间的相对位置嵌入对模型进行改进,改进模型可以并行运算。

NER的另一种常见形式是跨度分割方法,即先将中文字符分割为多个跨度,再对每个跨度进行标签分类。然而,跨度的分割往往采用枚举方式,分割不准确会造成整个系统存在较大误差。鉴于此,Shen等[7]提出了两阶段模型,先动态学习跨度位置信息,再根据获得的跨度位置对实体进行分类。Li等[8]提出了模块化交互网络(modularized interaction network,MIN)模型,可以使实体类型和实体界限相互作用,并采用多任务方式预测实体跨度的实体类别。Zhu等[9]提出,采用边界平滑方式解决跨度标签过度自信的问题,边界平滑提升模型效果较显著。虽然这种基于跨度的预测方式可以解决实体嵌套等问题,但是增加了模型复杂度且需要考虑跨度预测误差,因此,大部分NER任务仍采用序列标注,直接将数据划分为字符级别后进行处理。

随着ELMO(embeddings from language models)[10]、BERT[2]、生成式预训练模型(generative pre-trained transformer,GPT)[11]等预训练语言模型被提出,如何更好地引入外部知识帮助模型学习成为研究的重要方向。Wang等[12]通过建立检索系统引入了文档级的外部知识,先收集与预测数据相关的内容,再通过检索系统内部的重排序机制选择最合适的外部信息,进而增强实体识别效果。Sun等[13]提出了ChineseBERT,先将字形和拼音信息与字符嵌入进行融合,再采用多模态方式,获得了可应用于下游任务的中文增强的BERT。Li等[14]提出了统一化的机器阅读理解(machine reading comprehension,MRC)框架,该框架将NER由传统的序列标注任务转化为问答任务,并且在问题模板构建过程中融入了与实体相关的外部信息。Wu等[15]在FLAT的基础上提出了多元嵌入交叉变化(multi-metadata embedding based cross-transformer, MECT)模型,该模型在融合词信息和相对位置信息的基础上,通过卷积神经网络(convolutional neural network,CNN)提取嵌入词的字形和部首信息并进行融合,实验效果良好。

司法领域命名实体识别也有一些相关工作。例如,李春楠等[16]使用预训练模型和ON-LSTM[17]结构使神经元经过特定排序,可以将层级结构和句法的信息整合到模型中;邓依依[18]将字符信息与外部预训练的词向量直接拼接,二者融合使模型能够获得更多有效信息;朱明[19]提出的双向长短期记忆注意力条件随机场(bidirectional long short-term memory attention conditional random field,BLAC)模型融合了词性和语义信息,模型效果提升较大。

Liu等[20]提出了语义增强BERT(lexicon enhance bidirectional encoder representations from transformers,LEBERT)模型,该模型增加了字符序列对应的外部语义信息,并修改了BERT编码层。但是,LEBERT模型存在以下缺陷:1) 对于外部信息,LEBERT模型使用通用领域的词向量对特定领域并不能起到较好的识别效果;2) LEBERT模型在融合外部信息的过程中仅仅将外部词嵌入和BERT的动态嵌入进行加和操作,若外部词信息质量较差,则可能会污染原始数据;3) LEBERT模型使用序列标注方法分类,对实体边界信息的限制作用较差。

针对上述3点缺陷,本文提出了SBENER模型,首先,将外部信息更换为司法盗窃罪的词向量;其次,针对Adapter,通过设计门控结构限制无效信息融入,以确保原始数据不被无用外部信息污染;最后,设计了边界指针网络,用于学习句子中实体分割的边界信息。

2 SBENER模型

SBENER模型结构如图 1所示。模型由BERT编码层、外部信息嵌入、基于Adapter的门控融合、边界模块和基于条件随机场(conditional random field,CRF)[21]的解码层组成。模型的外部法律信息为训练得到的司法盗窃罪词向量,需嵌入Transformer内部。过程如下:首先,使用BERT进行字符编码,将其嵌入外部法律信息的Adapter,并通过门控结构与Transformer进行整合;其次,在边界模块中,通过双向LSTM(bidirectional long short-term memory,BiLSTM)获取隐藏层的上下文表示,并采用指针网络获取实体的边界限制特征;最后,将二者输入CRF进行解码,输出预测序列。

图 1 SBENER模型结构图

2.1 字符-外部法律信息匹配序列

中文句子通常可以表示为字符序列,然而字符序列仅有字符含义,存在较大歧义,并且可能丢失与语义语序相关的信息。为充分利用文本中的词信息,本文将字符序列扩展为字符-外部法律信息序列对。

对于盗窃罪法律字典D和包含n个字符c的句子ss={c1, c2, …, cn},一般可以从D中找到所有的和当前字符匹配的潜在词汇。过程如下:先基于D构建字典树,以减少查找字符时所需的时间复杂度,再遍历所有在此字典树中可能匹配的潜在词汇。

字符-外部法律信息匹配示例如图 2所示。对于某一句话中的一部分“黑色华为手机”,首先,通过字典树获得该部分的4个潜在词汇“黑色”“华为”“手机”“华为手机”;其次,将每一个匹配的潜在词汇分配至该潜在词汇对应的字符,如“黑色”被分配至字符“黑”和“色”;最后,用潜在词汇对应的每一个字符将中文句子转换为字符-外部法律信息的二元组序列scksck={(c1, k1), (c2, k2), …, (cn, kn)},cis中的第i个字符, kij为与ci匹配的第j个潜在词汇,j=1, 2, …, mm为潜在词汇的个数。<PAD>表示当缺乏与字符ci匹配的潜在词汇时使用初始化的零向量进行占位。需要指出的是,每个字符可能与多个潜在词汇匹配,当字符与潜在词汇匹配时,即潜在词汇嵌入字符构成字符级别的特征嵌入,每个潜在词汇对特征嵌入增强语义的重要性不同。

图 2 字符-外部法律信息匹配示例

2.2 融合层

句子中每个位置由2种信息组成,分别为字符级别的特征嵌入(以下简称字符嵌入)和外部法律信息嵌入(以下简称法律嵌入)。本文将字符嵌入和法律嵌入在融合层(fusion layer,FL)进行融合,Adapter模型结构如图 3所示。融合层将接收字符嵌入和法律嵌入2种输入,其中Hc为字符嵌入,是BERT中Transformer的隐藏层输出向量;V为法律嵌入,由潜在词汇提取。hcici的字符嵌入;vini, i, jk为与ci对应的第j个潜在词汇的法律嵌入,表示如下:

$ \boldsymbol{v}_{\mathrm{ini}, i, j}^k=e^k\left(k_{i j}\right) \text {. } $ (1)

其中ek为预训练词嵌入表。则ci对应的法律嵌入为集合vini, ikvini, ik={vini, i, 1k,vini, i, 2k, …,vini, i, mk}。

为了整合2种不同的嵌入,本文对vini, i, jk采取非线性变换,表示如下:

$ \boldsymbol{v}_{i j}^k=\boldsymbol{W}_2 \tanh \left(\boldsymbol{W}_1 \boldsymbol{v}_{\mathrm{ini}, i, j}^k+\boldsymbol{b}_1\right)+\boldsymbol{b}_2 . $ (2)

其中:W1W2为线性层参数矩阵,$\boldsymbol{W}_1 \in \mathbb{R}^{d_k \times d_c}$$\boldsymbol{W}_2 \in \mathbb{R}^{d_c \times d_c}$b1b2为一维偏置参数矩阵,b1$\boldsymbol{b}_2 \in \mathbb{R}^{d_c}$dkdc分别为法律嵌入的维度和BERT中Transformer的隐藏层输出向量的维度。

Adapter模型结构图如图 3所示。其中:Vi为第i个法律嵌入,$\boldsymbol{V}_i \in \mathbb{R}^{d_m \times d_c}$dmVi的维度,Vi= {vi1k,vi2k, …,vimk};aiVi的权重矩阵;W3为线性层参数矩阵,用于计算aizikci对应的所有法律嵌入的加权和;himid为中间隐藏层输出向量;hiend为融合后的最终输出向量,$\boldsymbol{h}_i^{\text {end }} \in \mathbb{R}^{d_c}$。由于融合层在整合字符嵌入和法律嵌入的过程中需要考虑与字符匹配的外部法律信息的重要性,因此本文先使用注意力机制计算ai,并通过加权和计算zik,再将zikhic相加获得himid,最终在hichimid的基础上获得hiend。相关计算表示如下:

$ \boldsymbol{a}_i=\operatorname{softmax}\left(\boldsymbol{h}_i^c \boldsymbol{W}_3 \boldsymbol{V}_i^{\mathrm{T}}\right), $ (3)
$ \boldsymbol{z}_i^k=\sum\limits_{j=1}^m a_{i j} \boldsymbol{v}_{i j}^k, $ (4)
$ \boldsymbol{h}_i^{\text {mid }}=\boldsymbol{h}_i^c+\boldsymbol{z}_i^k, $ (5)
$ \boldsymbol{h}_i^{\text {end }}=t_1 \boldsymbol{h}_i^c+t_2 \boldsymbol{h}_i^{\text {mid }} \text {. } $ (6)
图 3 Adapter模型结构图

其中:aijaivijk对应的权重值;t1t2为式(6)对应的权重参数,$t_1 \in \mathbb{R}^2, t_2 \in \mathbb{R}^2 $,需要说明的是,对融合后的内容和未融合法律信息的内容进行加权求和,可以减少融入无效信息对模型数据的污染。

2.3 外部法律信息融合

本文使用的外部法律信息通过搜集的40万条盗窃罪法律文书获得,处理过程如下:先对盗窃罪法律文本进行预处理,包括去除标点符号、数字和停用词等,再通过skip-gram模型根据上下文单词预测目标单词,最终获得100维词向量,作为输入模型的外部法律信息。

外部法律信息通过融合层和BERT整合到一起,如图 1模型结构所示,将字符嵌入输入Transformer的编码器中,并在BERT的所有Transformer层均进行如下计算:

$ \boldsymbol{M}=\mathrm{LN}\left(\boldsymbol{H}^{c, l-1}+\operatorname{MulHAtt}\left(\boldsymbol{H}^{c, l-1}\right)\right), $ (7)
$ \boldsymbol{H}^{c, l}=\operatorname{LN}(\boldsymbol{M}+\operatorname{FFNN}(\boldsymbol{M})) . $ (8)

其中:Hc, l为第l层的隐藏层输出,l=1, 2, …, LHc, l={h1c, l,h2c, l, …,hnc, l};LN (layer normalization)为正规化层;MulHAtt (multi-head attention)为多头注意力机制;FFNN (feed-forward neural network)为双层前馈神经网络,并使用ReLU作为隐藏层的激活函数。为了将外部法律信息整合到Transformer的第l层,先在连续的l层Transformer后获得Hc, l,再将第i个字符-外部法律信息匹配对(hic, l,vini, ik)通过融合层进行融合,得到hiend,表示如下:

$\boldsymbol{h}_i^{\text {end }}=\operatorname{FL}\left(\boldsymbol{h}_i^{c, l}, \boldsymbol{v}_{\text {ini }, i}^k\right) \text {. } $ (9)

本文将Hend={h1end,h2end, …,hnend}输入剩余的Transformer层中,将最后一层的输出Hc, L用于下游的序列标注任务。

2.4 实体边界信息

考虑序列标注模型对实体边界缺少有效约束,本文通过增加边界信息模块对实体边界进行限制,边界信息模块模型图如图 4所示。

图 4 边界模块模型图

先使用双向LSTM作为编码器提取不同的上下文边界条件,再利用单向LSTM搭建解码指针网络,从而推测实体的分割信息。具体而言,使用双向LSTM获取不同边界的隐藏层输出向量HencHenc={henc, 1,henc, 2, …,henc, n}。哨兵向量<end>填充在句子的最后一个位置,用于表示边界位置αβ之间,即区间[β, α]没有目标实体类型出现,其中α∈[β, n+1]。使用单向LSTM作为解码器生成边界位置β的输出hdec, β。为在LSTM中添加额外信息,对当前位置输出向量henc, β、前一位置输出向量henc, β-1、后一位置输出向量henc, β+1进行求和计算,并将结果作为解码器的输入,表示如下:

$ \boldsymbol{h}_{\mathrm{enc}, \beta}=\left[\overrightarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta} ; \overleftarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}\right], $ (10)
$ \overrightarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}=\operatorname{LSTM}\left(\boldsymbol{h}_\beta^c, \overrightarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta-1}\right), $ (11)
$ \overleftarrow{\boldsymbol{h}}_{\text {ecc }, \beta}=\operatorname{LSTM}\left(\boldsymbol{h}_\beta^c, \overleftarrow{\boldsymbol{h}}_{\text {enc }, \beta+1}\right) $ (12)
$ \boldsymbol{g}_\beta=\boldsymbol{h}_{\mathrm{enc}, \beta-1}+\boldsymbol{h}_{\mathrm{enc}, \beta}+\boldsymbol{h}_{\mathrm{enc}, \beta+1}, $ (13)
$ \boldsymbol{h}_{\mathrm{dec}, \beta}=\operatorname{LSTM}\left(\boldsymbol{g}_\beta, \boldsymbol{h}_{\mathrm{dec}, \beta-1}\right) \text {. } $ (14)

其中:第一个词和最后一个词没有前置词和后置词,使用零向量填充,如图 4中灰色块所示;hβc为边界位置β的字符嵌入;$\overrightarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}$$\overleftarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}$分别为双向LSTM中的正反向隐层输出向量;henc, β$\overrightarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}$$\overleftarrow{\boldsymbol{h}}_{\mathrm{enc}, \beta}$的拼接;gβ为编码器当前位置与相邻位置相加得到的向量;hdec, β为将gβhdec, β-1作为单向LSTM输入进行解码得到的输出向量。

在式(10)—(14)的基础上,使用双仿射注意力机制生成边界位置[β, α]的特征表示,并使用Softmax函数获取以起始位置字符cβ开头、结束位置字符cα结尾的实体置信度矩阵uαβ

$ \boldsymbol{u}_\alpha^\beta=\boldsymbol{h}_{\mathrm{dec}, \beta}^{\mathrm{T}} \boldsymbol{W}_4 \boldsymbol{h}_{\mathrm{enc}, \beta}+\boldsymbol{W}_5 \boldsymbol{h}_{\mathrm{dec}, \beta}+\boldsymbol{W}_6 \boldsymbol{h}_{\mathrm{enc}, \beta}+\boldsymbol{b}_3 ; $ (15)
$ p\left(c_\alpha \mid c_\beta\right)=\operatorname{Softmax}\left(\boldsymbol{u}_\alpha^\beta\right), \alpha \in[\beta, n+1] . $ (16)

其中:W4为一个双线性权重矩阵,$\boldsymbol{W}_4 \in \mathbb{R}^{d_c \times m \times d_c}$W6均为单线性权重矩阵,$\boldsymbol{W}_5 \in \mathbb{R}^{m \times d_c}$$\boldsymbol{W}_6 \in\mathbb{R}^{m \times d_c}$b3为一维偏置矩阵,$\boldsymbol{b}_3 \in \mathbb{R}^m$p(cαcβ)为cαcβ发生的条件下发生的概率。

现有基于跨度分割的方法会等概率枚举所有以cβ为起始位置可能出现的实体分割,使用p(cαcβ) 作为以cβ为起始位置并以cα为结束位置的置信度,并且对p(cαcβ)进行求和计算,表示如下:

$ \boldsymbol{H}_\beta^{\mathrm{Seg}}=\sum\limits_{\alpha=\beta}^n p\left(c_\alpha \mid c_\beta\right) \boldsymbol{\xi}_{\beta, \alpha}^{\mathrm{pos}}, $ (17)
$ \boldsymbol{\xi}_{\beta, \alpha}^{\text {pos }}=\left[\boldsymbol{\xi}_\beta ; \boldsymbol{\xi}_\alpha ; \boldsymbol{\xi}_\alpha-\boldsymbol{\xi}_\beta ; \boldsymbol{\xi}_\alpha \odot \boldsymbol{\xi}_\beta\right], $ (18)
$ \boldsymbol{H}^{\mathrm{BD}}=\sigma\left(\boldsymbol{W}_7 \boldsymbol{H}_{\mathrm{enc}}+\boldsymbol{W}_8 \boldsymbol{H}_\beta^{\mathrm{Seg}}\right) \odot \boldsymbol{H}_\beta^{\mathrm{Seg}} $ (19)

其中:HβSeg为分割概率矩阵;ξβ, αposcβ作为起始位置、cα作为结束位置的分割表征,$\xi_{\beta, \alpha}^{\text {pos }} \in \mathbb{R}^{4 \times d_c}$;⊙表示元素乘积运算;HBD为边界模块的分割信息输出;W7W8为线性层参数矩阵;σ为Sigmiod激活函数。

2.5 CRF解码层

本文仍采用序列标注模型,将每一个字符最终映射到一个标签集合中。考虑到连续标签之间的依存关系,本文将BERT隐层输出和边界模块信息作为CRF层的输入,从而学习标签的概率分布。通过Hc, LHBD,计算得到每个标签对应的得分矩阵O,表示如下:

$ \boldsymbol{O}=\boldsymbol{W}_0\left[\boldsymbol{H}^{c, L}+\boldsymbol{H}^{\mathrm{BD}}\right]+\boldsymbol{b}_0 . $ (20)

其中:W0为线性参数矩阵,b0为一维线性偏置矩阵。

对于每一个输入的句子ss={c1, c2…, cn},s的标签序列为yy={y1, y2…, yn},y的预测得分矩阵表示如下:

$ \boldsymbol{S}_{\mathrm{CO}}(s, y)=\sum\limits_{i=0}^n \boldsymbol{T}_{y_i, y_{i+1}}+\sum\limits_{i=1}^n \boldsymbol{O}_{i, y_i} . $ (21)

其中:yici对应的标签;Tyi, yi+1为标签从yiyi+1ci的转移得分矩阵;Oi, yi为标签为yici的得分矩阵。CRF模型描述了在所有可能的标签序列集合Y上预测y的概率,表示如下:

$ p(y \mid s)=\frac{\boldsymbol{S}_{\mathrm{CO}}(s, y)}{\sum\limits_{\tilde{y} \in Y} \exp \left(\boldsymbol{S}_{\mathrm{CO}}(s, \tilde{y})\right)} . $ (22)

对于N个给定的实体标签{sj, yj }|j=1N,本文通过计算负对数似然损失,并使用梯度反向传播方法使损失函数$\mathcal{L}$最小化,表示如下:

$ \mathcal{L}=\sum\limits_j \ln (p(y \mid s)) . $ (23)

在解码阶段,本文使用Viterbi算法获取标签序列的最高得分,作为预测的对应实体类别。

3 数据集和实体分布

本文实验所使用的数据集来自CAILIE 1.0[22]和Legal Corpus[16]

CAILIE 1.0[22]数据集包含5 500多个样本,335 010个字符,共计26 661个实体。数据集包含的10类相关实体,分别为犯罪嫌疑人、受害人、作案工具、被盗物品、被盗货币、物品价值、盗窃获利、案发时间、案发地点和组织机构。

Legal Corpus[16]数据集包括9 657个样本、615 757个字符,共计49 520个实体。数据集包含12类相关实体,分别为犯罪嫌疑人、受害人、相关人、作案工具、被盗物品、其他物品、被盗货币、物品价值、盗窃获利、地点、时间和机构。

法律文本数据集命名实体分布如图 5所示。可以看出,各实体分布较不平衡,其中“犯罪嫌疑人”“被盗物品”“地点”和“时间”占总数的60%以上,而“组织机构”“作案工具”“盗窃获利”和“被盗货币”等仅占总数的约10%。数据集按8∶1∶1分割为训练集、验证集和测试集。

图 5 法律文本数据集命名实体分布

4 实验与结果分析 4.1 评估标准

本文实验采用精确率P、召回率RF1值(F1-score)作为司法命名实体识别的评估指标,表示如下:

$ P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}} \times 100 \%, $ (24)
$ R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \times 100 \%, $ (25)
$ F_1=\frac{2 P R}{P+R} \times 100 \% \text {. } $ (26)

其中:TP(true positive)为模型正确预测正类别样本的个数;FP(false positive)表示模型错误地将负类别样本预测为正类别样本的个数;FN(false negative)表示模型错误地将正类别样本预测为负类别样本的个数。由于实验中实体分布不均匀,因此采用微平均的方式反映整体识别效果。

4.2 实验设置

本实验在Pytorch环境下运行,在Ubuntu系统上使用一张型号为RTX 3090的GPU训练模型。BERT的初始学习率为2×10-5,epoch为50。使用AdamW作为优化器,并且为减少过拟合现象,采取权重递减方法,递减系数为0.01。batchsize设置为32,Dropout为BERT默认参数0.1。考虑数据集句子长度的分布,设置最大序列长度为300,词嵌入隐藏层的维度为768。后文实验中所使用的预训练模型均为RoBERTa-wm-ext(base)。

4.3 实验分析/基线模型

BERT-CRF和BERT-LSTM-CRF:采用这2个模型作为序列标注方法,进行实体识别,使用BERT获取上下文表示,可以有效捕捉长句子之间的关系,并消除歧义,以更好地理解上下文内容。后者在前者的基础上加入LSTM模块获取句子的语序信息。

PromptNER[23]:使用生成模型构造提示学习的模板,根据模板生成的槽位词预测实体类别,可以使实体识别任务在低资源小样本的条件下具有较好表现。

Lattice-LSTM[4]/FLAT-Lattice[5]:均使用栅格网络捕捉句子信息,从而增强单个字符的语义特征。

MECT[15]:通过CNN融合中文的偏旁部首作为外部信息,使用多模态信息融合的方式提升模型效果。

本文模型SBENER基于LEBERT[20]模型进行了改进,与上述所有基线模型相比,SBENER的识别效果有所提升,模型实体识别实验结果如表 1所示。与通用领域的LEBERT模型相比,SBENER在CAILIE 1.0和LegalCorpus数据集上的F1值分别提升了1.28%和1.70%。SBENER采用2种方式优化模型,如下:1) 对于外部信息选择,采用了司法领域盗窃案件的预训练词向量,这使引入的外部法律信息更适用于下游任务;2) 对于融合过程,SBENER通过增加门控结构降低了无效噪声信息对原始数据的污染,并且采用添加边界模块的方式限制实体边界划分,F1值在2个数据集上均取得最好效果。

表 1 模型实体识别实验结果
%
模型 CAILIE 1.0 Legal Corpus
P R F1 P R F1
BERT-CRF 86.20 86.32 86.26 86.60 84.95 85.77
BERT-LSTM-CRF 86.45 86.11 86.38 83.78 83.72 83.75
PromptNER 85.62 87.22 86.41 82.55 82.02 82.28
MECT 85.21 86.34 85.77 81.55 85.21 83.34
Lattic-LSTM 83.60 87.07 85.30 79.85 76.79 78.29
FLAT-Lattice 85.53 88.23 86.86 85.78 86.29 86.03
BERT-ON-LSTM[16] 87.07 85.14 86.09
LEBERT 87.28 87.56 87.42 85.52 86.43 85.97
SBENER 88.31 89.10 88.70 86.89 88.47 87.67

4.4 消融实验

为证明上述2种方式对SBENER有效,本文进行了消融实验。CAILIE 1.0数据集消融实验结果如表 2所示。其中:G+I+B表示SBENER添加门控结构和边界信息结构,并采用外部法律信息;(w/o) G表示SBENER仅剔除门控结构,(w/o) I表示SBENER仅替换外部法律信息,(w/o) B表示SBENER仅剔除边界信息结构,(w/o) G & I & B表示SBENER剔除门控结构和边界信息结构,并替换外部法律信息。可以看出,当仅剔除门控结构时,F1值下降了0.24%,这表明添加门控结构可以在一定程度上防止引入噪声,从而避免原始数据被污染;当仅替换外部法律信息时,如更换为Song等[24]通过使用skip-gram模型在新闻和网页文本进行训练得到的预训练词向量,F1值下降了0.48%,这表明法律外部信息比通用领域外部信息在司法数据集的任务方面更有效;当仅剔除边界信息结构时,F1值下降了0.4%,这表明边界模块可以有效分割实体边界;当剔除门控结构和边界信息结构并替换外部法律信息时,F1值下降了1.28%,此时引入的通用领域外部信息对模型效果提升较小,并且引入的通用领域外部信息对原始的隐藏层信息造成干扰。因此,本文提出的2种优化方式对SBENER有效。

表 2 CAILIE 1.0数据集消融实验结果
%
消融方式 P R F1
G+I+B 88.31 89.10 88.70
(w/o)G 88.21 88.73 88.46
(w/o)I 87.89 88.56 88.22
(w/o)B 87.68 88.92 88.30
(w/o)G & I & B 87.28 87.56 87.42

4.5 外部法律信息分析

抽取外部盗窃罪法律词典中的一些高频词汇,通过t-SNE(t-distributed stochastic neighbor embedding)可以在高维空间保留样本间的相对距离,并把数据映射至低维空间。将100维词向量压缩成二维向量,并进行可视化展示,词向量分析图如图 6所示。图 6词向量分析图可以看出,“陈”“刘”等姓氏词,“市”“区”等地域词,“年”“月”等日期词汇,“2014”“2016”等年份词,“电脑”“现金”“手机”“人民币”等物品词,“汇”“小区”“街道”等地点词,分别聚集在一起,因此可以在BERT进行随机初始化的过程中,引入词语之间的特征信息,从而帮助SBENER学习法律相关的内容,进而提升SBENER在下游任务中的表现能力。

图 6 词向量分析图

4.6 融合层分析

本文将外部法律信息融入不同的中间层,并对此进行了实验,使用RoBERTa-wwm-ext在50个epoch的条件下进行实验,融合层分析如图 7所示。可以看出,在单层融合的情况下,将外部法律信息整合到第6层的位置获得的融合结果最好,并且在前几层进行融合的效果要优于后几层。

图 7 融合层分析

多层融合相比单层融合,模型的F1值在各层级均降低,原因可能是模型引入了较多的不准确信息。因此,当融合外部法律信息时,只有使用适当的方式才能实现有效融合。

Jawahar等[25]通过实验分析BERT各层级学习的语义信息发现,低层级会学习更多的句子表层特征,中间层级会学习更多的短语和句法级内容,高层级会学习更多的句子语义特征。

本文使用的是盗窃罪的外部词向量,更多地表示的仍是词语之间的分布特征,因此中间层级的融合效果更好。由于各个层级学习的内容并不一致,因此多层级融合时将相同特征同时融合在不同层级中反而会引入噪声,干扰模型的学习,造成融合效果下降。

4.7 案例分析

在测试集案例中随机抽取2条进行分析,案例分析如图 8所示。可以看出,对于“被盗物品”“物品价值”“时间”“组织机构”“被告人”“犯罪嫌疑人”等实体,LEBERT和SBENER的识别效果较好;对于“地点”“作案工具”等实体,LEBERT的识别效果较差,原因是实体“地点信息”主要受脱敏词汇干扰。SBENER通过引入外部法律信息和边界限制,提升了对“作案工具”“地点”等实体的识别效果。由于数据集中“盗窃获利”的分布较少,模型无法获得更多该类实体信息,2个模型对该类实体的识别效果较差。

图 8 案例分析

5 结论

本文提出的SBENER模型有以下3点结论:

1) 在司法命名实体识别任务中,通过整理由裁判文书网获得的盗窃罪词向量,并将盗窃罪词向量作为外部法律信息输入模型,以增强字符序列在相关司法领域的词嵌入特征,使模型获得更多的盗窃罪词语边界信息,提升实体识别效果。

2) 使用边界指针网络学习实体分割信息,使序列标注模型能够获取更多的实体边界内容,提升模型效果。

3) 针对引入外部无效信息会污染模型原始数据的问题,设计了带有门控结构的Adapter适配器,用于融合司法信息。

本文在CAILIE 1.0和LegalCorpus数据集上进行了实验,SBENER在2个数据集上的F1值分别达88.70%和87.67%,与NER经典模型和其他通用领域融合外部信息模型相比效果更好。

相较于其他基线模型,融合外部法律信息的SBENER的识别效果更好,在司法领域数据集中表现较好。但是SBENER仍为序列标注模型,难以解决复杂的实体嵌套问题。此外,司法实体识别存在各类型实体的标签不平衡问题,导致模型识别分布较少标签的实体的效果较差。下一步研究将通过以下2个方面展开:1) 提高外部法律信息有效性,减少融合过程引入的噪声;2) 解决标签不平衡问题,如通过引入更强的外部知识进行改进。

参考文献
[1]
田荔枝. 法律文书学[M]. 济南: 山东人民出版社, 2008.
TIAN L Z. Legal documents[M]. Ji'nan: Shandong People's Publishing House, 2008. (in Chinese)
[2]
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019: 4171-4186.
[3]
郭喜跃, 何婷婷. 信息抽取研究综述[J]. 计算机科学, 2015, 42(2): 14-17, 38.
GUO X Y, HE T T. Survey about research on information extraction[J]. Computer Science, 2015, 42(2): 14-17, 38. (in Chinese)
[4]
ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018: 1554-1564.
[5]
LI X N, YAN H, QIU X P, et al. FLAT: Chinese NER using flat-lattice transformer[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, USA: Association for Computational Linguistics, 2020: 6836-6842.
[6]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[7]
SHEN Y L, MA X Y, TAN Z Q, et al. Locate and label: A two-stage identifier for nested named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics, 2021: 2782-2794.
[8]
LI F, WANG Z, HUI S C, et al. Modularized interaction network for named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics, 2021: 200-209.
[9]
ZHU E W, LI J P. Boundary smoothing for named entity recognition[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin, Ireland: Association for Computational Linguistics, 2022: 7096-7108.
[10]
PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). New Orleans, USA: Association for Computational Linguistics, 2018: 2227-2237.
[11]
RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[J/OL]. Openai. (2023-01-06)[2023-06-20]. https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035.
[12]
WANG X Y, JIANG Y, BACH N, et al. Improving named entity recognition by external context retrieving and cooperative learning[J/OL]. arXiv. (2023-05-08)[2023-06-20]. https://arxiv.org/abs/2105.03654.
[13]
SUN Z J, LI X Y, SUN X F, et al. ChineseBERT: Chinese pretraining enhanced by glyph and pinyin information[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics, 2021: 2065-2075.
[14]
LI X Y, FENG J R, MENG Y X, et al. A unified MRC framework for named entity recognition[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, USA: Association for Computational Linguistics, 2020: 5849-5859.
[15]
WU S, SONG X N, FENG Z H. MECT: Multi-metadata embedding based cross-transformer for Chinese named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics, 2021: 1529-1539.
[16]
李春楠, 王雷, 孙媛媛, 等. 基于BERT的盗窃罪法律文书命名实体识别方法[J]. 中文信息学报, 2021, 35(8): 73-81.
LI C N, WANG L, SUN Y Y, et al. BERT based named entity recognition for legal texts on theft cases[J]. Journal of Chinese Information Processing, 2021, 35(8): 73-81. (in Chinese)
[17]
SHEN Y K, TAN S, SORDONI A, et al. Ordered neurons: Integrating tree structures into recurrent neural networks[J/OL]. arXiv. (2018-10-22)[2023-06-20]. https://arxiv.org/abs/1810.09536.
[18]
邓依依. 面向裁判文书的命名实体识别研究[D]. 南昌: 华东交通大学, 2021.
DENG Y Y. Research on named entity recognition for judgment documents[D]. Nanchang: East China Jiaotong University, 2021. (in Chinese)
[19]
朱明. 基于语义树的司法判决文书分析方法研究[D]. 南京: 南京邮电大学, 2021.
ZHU M. Research on the analysis method of judicial judgment documents based on semantic tree[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2021. (in Chinese)
[20]
LIU W, FU X Y, ZHANG Y, et al. Lexicon enhanced Chinese sequence labeling using BERT adapter[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics, 2021: 5847-5858.
[21]
LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning. Williamstown, USA: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[22]
CAO Y, SUN Y Y, XU C, et al. CAILIE 1.0: A dataset for challenge of AI in law-information extraction V1.0[J]. AI Open, 2022, 3: 208-212.
[23]
CUI L Y, WU Y, LIU J, et al. Template-based named entity recognition using BART[C]// Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Bangkok, Thailand: Association for Computational Linguistics, 2021: 1835-1845.
[24]
SONG Y, SHI S M, LI J, et al. Directional skip-gram: Explicitly distinguishing left and right context for word embeddings[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Association for Computational Linguistics, 2018: 175-180.
[25]
JAWAHAR G, SAGOT B, SEDDAH D. What does BERT learn about the structure of language?[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 3651-3657.