基于混合深度神经网络模型的司法文书智能化处理
王文广, 陈运文, 蔡华, 曾彦能, 杨慧宇     
达观数据 上海, 201203
摘要:在法律文书智能化处理过程中,针对罪名预测、法条推荐、刑期预测,该文提出了一种长文本分类的混合深度神经网络模型HAC(hybrid attention and CNN model),该模型利用残差网络融合了改进的层次注意力网络(iHAN)和深度金字塔卷积神经网络(DPCNN)。在"中国法研杯"司法人工智能挑战赛(CAIL-2018)的测试数据集上,该模型对罪名的预测与相关法条的推荐的F1-Score(Micro-F1和Macro-F1的均值)分别为85%和87%。对于刑期的预测,由于地区、年代、法院、法官、被告人的态度等方面的差异会导致刑期预测难度加大。该模型具有优良的预测性能和泛化能力,能够很好地适应这些差异。同时,将该模型在罪名预测和法条推荐的输出结果加入到刑期预测任务的输入中,并使用分类方法对刑期进行预测,进一步提升了模型的效果,最终在刑期预测任务中F1-Score超过77%,获得CAIL-2018刑期预测优秀成绩。
关键词司法文书处理    自然语言理解    判决预测    深度神经网络    注意力模型    
Judicial document intellectual processing using hybrid deep neural networks
WANG Wenguan, CHEN Yunwen, CAI Hua, ZENG Yanneng, YANG Huiyu     
DataGrand Inc., Shanghai 201203, China
Abstract: This article presents a neural network model for crime prediction, legal article recommendation, and sentence prediction from judicial documents. The model is based on a hybrid attention and CNN model which combines the improved hierarchical attention network (iHAN) and the deep pyramid convolutional neural network (DPCNN) by ResNet. The F1-Scores (mean value of Micro-F1 and Macro-F1) for the crime prediction and related law samples from CAIL-2018 were 85% and 87%. The sentence prediction accuracy is impacted by differences in locations, dates, courts, judges, and defendant attitudes. The model adjusts well to these differences because of its high predictive ability and model generalization. The model prediction outputs for the recommended crime prediction and law items were then added to the model input for the sentence prediction task to further improve the model performance. The model got an excellent result in the sentence prediction task (CAIL-2018) with an F1-Score of over 77%.
Key words: judicial document processing     natural language understanding     verdict prediction     deep neural networks     attention model    

近年来,研究人员成功地利用人工智能(artificial intelligence,AI)技术来自动化以前被认为需要人类认知的各种复杂任务, 包括汽车自动驾驶、语言翻译、文档自动审核和机器写作等。研究人员也开始在法律的背景下应用AI技术[1-2]来补充和增强法律。从法律检索、法律文件准备到合同审核、法律咨询再到案件结果预测、诉讼策略选择都有AI技术的应用。通常,AI技术不是取代司法从业人员,而是作为补充来提高司法从业人员的效率,优化司法审判的方式和手段,减少量刑失衡的现象,提升司法审判能力。现在,以AI技术为标志的司法智能正在搅动法律服务市场[3]。2016年6月,IBM Watson支撑的人工智能律师ROSS “受雇于”一家美国律所;英国一款名为DoNotPay的机器人律师可以提供交通罚单申述、政府住房申请、难民申请等方面的法律服务。欧洲人权法院使用AI算法做出的司法判决预测准确率达到79%[4]。有预测认为,在15年内,司法服务市场在市场和技术的双重作用下,正在快速进入智能时代[5]

司法智能主要研究内容包括:1)法律文件审阅,通过算法过滤掉大量与之无关的信息,可以使律师不必浪费有限的认知资源去分析它们;2)关键要素抽取,利用算法可以将案例中相关要素进行结构化处理,抽取输出为固定格式的信息,并以统一的形式集中在一起,便于司法人员进行分析、归纳和处理;3)司法案件预测,利用AI算法来学习过去法律情景的案例信息集,构建预测模型,推断未来案情结果,可以成为法律咨询方面的一个有价值的补充;4)潜在关系挖掘,机器学习技术擅长挖掘现有数据中难以检测的隐藏关系,理清当前数据的复杂关系,突出某些需要律师提高注意力的潜在相关文件;5)类似案件推荐,算法可以根据案情描述进行历史相关案例检索,为律师找到做出判断的依据;6)司法文书写作,自然语言生成技术可以从历史的司法文书中总结规律,抽象出模板,并根据同样场景下新的情况自动或半自动生成司法文书。

近些年,基于深度学习的自然语言处理(NLP)技术得到极大的发展,利用深度学习算法解决诸如分词、词性标注、机器翻译、信息抽取、分类、自动摘要等问题的模型的效果超越了传统模型[6]。本文首先研究了适用于司法文书判决预测的几个前沿的深度网络模型,并针对司法智能应用对模型进行改进,提出了混合注意力和卷积网络的深度网络模型——HAC(hybrid attention and CNN model)模型。该模型对法律裁判文书进行智能化处理,根据案件的案情陈述,预测罪名、所引用的法条以及刑期的判决结果。在“中国法研杯”司法智能挑战赛的刑期预测中,该模型表现出色,刑期预测的F1-Score达到77.14%,获得刑期预测优秀成绩。

1 相关工作

深度学习在计算机视觉上的成功之后,不断扩展到各个领域,其中包括在文本智能处理上的应用。当前,深度学习模型在多种文本处理的任务上都达到了最优的效果,其中包括对文本的理解和分类。

从Word2Vec[7]开始,深度学习在NLP方面的研究不断发展,词嵌入(word embedding)成为了NLP领域深度神经网络模型的基本输入组件,诸如GloVe[8]、FastText[9]等词向量相关模型被广泛使用。在此之上,TextRNN[10]、TextCNN[11-12]等各种深度神经网络被广泛应用于文本分类等NLP任务上。递归神经网络(recurrent neural network,RNN)能够很好表达时序信息,TextRNN利用这个特点对文本上下文信息进行表示学习。在其之上演进的长短时序记忆(long short-term memory,LSTM)神经网络能够捕获变长且双向的n-gram信息,在语言模型、文本语义理解中有着广泛的应用。门控循环单元(gated recurrent unit,GRU)[13]是LSTM神经网络的一个变种,在稍微损失精度的情况下大幅减少内存使用,提升运行速度。相比RNN,卷积神经网络(convolutional neural network,CNN)具有更高的并行特性,首先在图像处理和计算机视觉等领域取得巨大的成功。从TextCNN开始,CNN也逐步被应用于文本分类任务中,并获得了显著的效果,深度金字塔卷积网络(deep pyramid CNN,DPCNN)[14]是其中的佼佼者。注意力机制(attention mechanism)的出现进一步提升了深度神经网络在语义层面的理解[15],由此发展出的层次注意力网络(hierarchy attention network,HAN)[16]在文本分类中效果非常优秀,同时还具有可解释的优点。

1.1 HAN

文档通常是由句子组成,而句子由词汇组成。人们在阅读文档的时候会重点关注某些句子,而对句子的理解会重点关注某些词汇。HAN最重要的优点是其具有词语和句子这2个层次的注意力机制,具有处理文档层次结构的能力。图 1为HAN的网络结构,包含1个词编码器、1个词注意力层(下层)、1个句子编码器和1个句子注意力层(上层)。

图 1 层次注意力网络

在篇章文本的分类任务中,不同词语和句子在不同文章中的重要性不同,它们对分类决策的贡献大小也不一样。在HAN的下层,LSTM结合注意力机制,能够很好地对句子建模,并且予以关键的词汇更高权重输出;而在上层,对整个文档进行表示学习时,可以突出关键的句子。这样的两层结构具有处理文档层次结构的能力,能够捕捉重要词汇和句子,从而激活更高层次的语义信息,使得文本分类的效果达到一个新的高度。

此外,HAN模型还具有可解释的优点,这在司法智能领域的优势非常明显,同时对分析错误样本(badcase)的帮助很大。

下面给出了词和句子注意力机制的公式:

$ {{{\mathit{\boldsymbol{u}}}_{it}} = \tanh \left( {{{\mathit{\boldsymbol{W}}}_{\rm{w}}}{{\mathit{\boldsymbol{h}}}_{it}} + {{\mathit{\boldsymbol{b}}}_{\rm{w}}}} \right), } $ (1)
$ {{{\mathit{\boldsymbol{s}}}_i} = \sum\limits_t {{\alpha _{it}}} {{\mathit{\boldsymbol{h}}}_{it}}, } $ (2)
$ {{{\mathit{\boldsymbol{u}}}_i} = \tanh \left( {{{\mathit{\boldsymbol{W}}}_{\rm{s}}}{{\mathit{\boldsymbol{h}}}_i} + {{\mathit{\boldsymbol{b}}}_{\rm{s}}}} \right), } $ (3)
$ {{{\mathit{\boldsymbol{v}}}_i} = \sum\limits_t {{\alpha _i}} {{\mathit{\boldsymbol{h}}}_i}. } $ (4)

式(1)和(2)中uit是词标签信息hit编码后的隐含表示,可以表征该词在句子中的重要性;si为句子向量,是带有相应归一化权重αit(αit=exp(uitTuw)/$ \sum\limits_t {\exp } $(uitTuw))的词标签uit之和。式(3)和(4)中uisi经过编码后的表示,可以表征该句子在文档中的重要性;v为文档向量,是带有归一化权重αi(αi=exp(uiTus)/$ \sum\limits_t {\exp } $(uiTus))的句子标签ui之和[15]

1.2 DPCNN

DPCNN是由TextCNN发展而来,利用CNN来实现文本分类中的特征表达,是文本分类领域词层面的深度学习模型,因网络的序列长度逐层减少而形似金字塔,从而得名。DPCNN能够学习更复杂的非线性特征,提取更深层次特征,从而高效地建立长距离文本的语义。

图 2为DPCNN结构,在叠加模块中,除了卷积层外,网络包含步长为2的下采样,使得模型能够在文本中有效地表征词之间的长程关联性,保留更多的全局信息;同时使计算量逐层大幅减少,极大地提升训练和预测的运行效率。此外,网络还包含一个残差连接(shortcut),这样有利于深层网络的训练。

图 2 深度金字塔卷积神经网络

2 裁判文书智能化处理 2.1 数据分析

在CAIL-2018提供的约170万裁判文书中公开的刑事法律文书训练集中[17],首先对罪名、法条和刑期等关键信息进行了统计,分别如图 3a3b3c所示。统计发现有罪名183个,法条202条,刑期也可以大致分为3类:0~25年、无期和死刑。同时,数据分布很不均匀,例如在罪名分布中,盗窃和故意伤害罪名占数据的大部分,而引诱和敲诈勒索罪名占数据的很少一部分;在法条分布中,法条133约占数据量的25%,法条232只有几十条;在刑期分布中,发现1到12个月的刑期比较多,刑期月数与6的整数倍呈现出一定关系,在180个月之后,样本数量也非常少,这为后面刑期预测任务中的回归问题转化为分类问题提供了一定依据。

图 3 罪名、法条和刑期分布

2.2 数据预处理

数据质量很大程度地影响后续模型的训练效果,为提高数据质量,本文对裁判文书进行大量的预处理工作。首先是数据清洗,去除一些无效样本。其次,根据分词和分句的分析结果,对部分如“中华人民共和国刑法”等词语以及一些无效短句作为停用词予以去除。再次,将大量的干扰信息归一化,例如把各种形式的名字(如张*、陆某,钱某某等)归一为李某;将车牌号、车架号、手机号、电话号码、身份证号码、银行卡号、计量单位等归一化;将涉案金额进行分段归一化。

在数据预处理阶段,将刑期预测任务的目标进行分段对最终结果也产生了重要影响。刑期预测的原始目标分为3类:死刑、无期徒刑和有期刑罚(包括有期徒刑和拘役),其中有期刑罚从0到300个月分布。本文首先注意到刑期的分布不均衡但有一定的规律。同时,根据竞赛的评判标准,对于月数越大的有期刑罚,预测结果被认可的冗余空间越大。根据刑法法条对刑期的自然分段(如3个月、6个月、9个月、1年、3年、5年和10年等),刑期的数据分布分析结果,以及对竞赛评判标准的研究,把刑期月数按如下间隔断点进行类别划分:-2、-1、0、1、2、3、6、9、12、18、24、36、48、60、84、120、180、240和300,其中,死刑表示为-2,无期表示为-1,并依次从0开始编号成类别代码。而预测结果从类别代码映射回原始刑期,与从0开始的类别代码对应的刑期月数依次为:-2、-1、0、1、2、3、5、8、11、15、21、30、42、54、70、100、148、220和260(从0开始依次编号)。

2.3 输入和嵌入(embedding)

深度神经网络的输入一般使用嵌入的方式,将稀疏的one-hot编码转化为稠密向量表示。同时,有研究表明多个不同类型的嵌入的联合使用能够有效提升模型的能力[18]。在本文的模型中,使用了3个嵌入连接(concatenate):跟随训练的256维的字嵌入(char embedding)、预训练的100维字向量和预训练的200维词向量。预训练使用Google发布的C语言版本的Word2Vec,对主办方提供的数据集的案情描述和事实的原文进行无监督训练,算法选择Skip-Gram。

对于HAN,本文尝试了利用标点符号(句号、问号、分号、感叹号等)进行自然分句以及固定长度强行截断分句这2种方式,通过对比试验,发现固定长度截断分句的方式效果更好。对于DPCNN,选择了上下文-词语区域嵌入(context-word region embedding)[19]跟随训练字向量,使模型在保持准确率的同时提高泛化能力。

2.4 HAC模型建立

本文在法律文书智能化处理中深入研究了HAN模型,发现在HAN网络自身的注意力机制之上叠加一个缩放点积注意力(scaled dot attention)[20],能够有效提升模型的整体效果。同时,在Bi-RNN的输入中加入位置编码(positional encoding)[20-21],也能进一步提升模型的效果。本文将这个改进过的模型命名为iHAN(improved HAN)。模型在词层级的网络结构如图 4所示,对于句子层级的结构与之类似。同样,本文在DPCNN中也加入了位置编码,使得模型能够获得词之间的相对距离关系,进一步提升了模型的语义学习能力。

图 4 词层级的iHAN网络

进一步,用残差网络将iHAN和DPCNN两个深度神经网络模型融合,充分利用这两个模型的优点,可以获得更好的预测效果。本文将这个堆叠了残差网络之后的模型称为HAC(hybrid attention and CNN model),如图 5所示。HAC既能够通过层次注意力机制实现对篇章和句子分别进行主题和重点词关注,捕捉到文章中特定区域的细节;同时,基于最大池化(max pooling)的多层CNN又能够很好地抽象出长文本中依赖于长距离的潜在的语义关系,获得更完善的全局语义信息。实验证明,HAC能够在罪名预测、法条推荐、刑期预测这3个任务上都表现出优良的性能。

图 5 HAC结构示意图

3 模型训练与结果分析

对HAC模型进行训练。首先,根据CAIL-2018数据集的裁判文书案情描述内容,使用Word2Vec无监督训练100维的字向量和200维的词向量。字向量训练参数选择为:window=7,negative=5,sample=1×10-4,min-count=5,hs=0;词向量的训练参数为:window=7,negative=5,hs=0,sample=1×10-4,min-count=20。输入的文本长度截断为1 024个字,顺序是从后往前数。测试发现,从后往前截取的效果好于从前往后截断,表明更多的信息集中在后面部分。

其次,对于iHAN部分,使用256维的bi-GRU,同时按固定长度128个字分句,最长的1 024个字的篇章会被分为8句。经验证,按固定长度分句的效果好于自然分句(按句号、问好、感叹号和分号等)。iHAN跟随训练的字嵌入选择256维,并随机初始化。对于DPCNN,卷积网络参数为:filter_size=3,max_pooling_size=3,max_pooling_strides=2,num_blocks=8。减小num_blocks会导致效果变差。同时,本文也尝试将输入序列的字数增加为2 048,增加num_blocks到9,发现并没有提升模型效果。对于DPCNN,将上下文-词语区域嵌入中的region参数大小设置为5。然后,使用了3层的残差网络来融合iHAN和DPCNN。

再次,训练中过程中,发现减少HAC中残差网络的层数会影响预测效果。训练中使用了Dropout方法,DPCNN卷积部分的dropout_keep_prob=0.5, 其他部分的dropout_keep_prob=0.85。同时,使用层归一化(layer normalize)代替批归一化(batch normalize),使模型效果得到提升。

最后,值得提出的是,针对CAIL-2018的3个任务中的刑期预测任务,把罪名预测和法条推荐的模型输出添加到刑期预测的输入(在HAC的残差网络部分)。同时,由于网络结构非常复杂,训练过程采用“逐阶段(phase)”训练的方式进行,如图 6所示。

图 6 HAC在CAIL-2018的三个任务中的应用示意图

CAIL-2018的3个任务中,罪名预测和法条推荐采用分类任务中的Micro-F1和Macro-F1平均值F1-Score作为评价指标。而刑期预测是根据预测出的刑期lp与案件标准刑期la之间的差值距离来计算score。当案件标准刑期为死刑(la=-2)或者无期徒刑(la=-1)时,如果预测结果与标准刑期相同(lp=la)则score=1,否则score=0。当案件标准刑期为有期徒刑(即la≥0),如果lp<0则score=0,否则根据式(5)来计算z,并通过z来计算score。

$ \begin{array}{l} z = |\ln (1{\rm{p}} + 1) - \ln ({\rm{la}} + 1)|, \;{\rm{la}} \ge 0, \;{\rm{lp}} \ge 0.\\ {\rm{score}} = \left\{ {\begin{array}{*{20}{l}} {1, }&{z \le 0.2;}\\ {0.8, }&{0.2 < z \le 0.4;}\\ {0.6, }&{0.4 < z \le 0.6;}\\ {0.4, }&{0.6 < z \le 0.8;}\\ {0.2, }&{0.8 < z \le 1.0;}\\ {0, }&{z > 1.0.} \end{array}} \right. \end{array} $ (5)

然后对所有测试点的score计算平均值作为刑期预测的评价指标F1-Score。在第一阶段预测任务中,对比了多个模型的F1-Score,如表 1所示。

表 1 模型在“中国法研杯”第1阶段预测任务中的F1-Score
%
模型 罪名预测 法条推荐 刑期预测
Attentive CNN 85.01 82.23 74.22
HAN 86.01 82.56 69.29
iHAN 87.47 84.97 77.75
DPCNN 88.58 86.50 77.39
HAC 86.50 89.81 79.38

表 1可以看出,相比HAN,iHAN模型在3个任务中的F1-Score均有显著的提升,特别是在刑期预测任务中提升非常明显,绝对提升了接近8.5%。值得一提的是,表中的注意力卷积网络(attentive CNN)[22]可以利用注意力机制为每个单词也同时抓取非近邻的信息,使得每一个单词都有更高层次的特征,其在刑期预测任务中超越了有注意力机制的HAN。而DPCNN模型性能出色,在3个任务中F1-Score均超过注意力卷积网络。对于刑期预测任务,由于地区、年代、法院、法官、被告人的态度等方面的差异会造成量刑失衡[23-24],进而导致刑期预测难度加大,使得F1-Score的进一步提升非常困难。HAC在该任务上的F1-Score得到进一步提升,达到了79.38%,表明了该模型拥有非常优秀的预测性能。同时,在法研杯第2阶段的测试结果和最终成绩也表明,HAC在刑期预测任务中也表现出了优良的泛化能力。这是因为其融合了iHAN和DPCNN的各自的优势,即iHAN可以对篇章和句子分别进行主题和重点词关注,捕捉文章中特定区域的细节;并且,DPCNN能够抽象出长文本中依赖于长距离的潜在的语义关系,获得更完善的全局语义信息。

最终,HAC在CAIL-2018刑期预测任务中获得了优秀成绩,F1-Score为77.14%,如表 2所示。表 2中的最终成绩是第1阶段成绩的30%与第2阶段成绩的70%之和。

表 2 HAC在“中国法研杯”预测任务中的F1-Score
%
任务 第1阶段 第2阶段 最终成绩
罪名预测 86.50 83.09 84.11
法条推荐 89.81 84.89 86.37
刑期预测 79.38 76.18 77.14

4 结论

本文在深入分析HAN和DPCNN深度学习文本分类模型的基础上,首先提出了基于HAN改进的模型iHAN。在iHAN之上结合DPCNN,提出了一种混合深度神经网络模型HAC,并将模型用于司法文书的智能化处理。HAC融合了iHAN和DPCNN模型的优点,既能够通过层次注意力机制实现对篇章和句子分别进行主题和重点词关注,捕捉到文章中特定区域的细节;也能够很好地抽象出长文本中依赖于长距离的潜在语义关系,获得更完善的全局语义信息。该模型在“中国法研杯”司法人工智能挑战赛(CAIL-2018)的裁判文书智能化处理的实际任务上具有优良的性能和较强的泛化能力。

HAC的能力还有更深入挖掘的地方。由于赛事中3个任务的输入一样,并且将罪名预测和法条推荐这2个任务的预测输出作为刑期预测的输入,能够提升刑期预测的准确率,这在某种程度上证明了3个任务之间的关联性。如果将这3个任务的参数共享,在提升效果方面是非常值得尝试的。而且,共享参数还能够有效提升运行效率,缩短模型训练和预测的时间,这对产业界的应用也非常重要。除此之外,利用最新的一些深度学习和自然语言理解方面的进展也能够进一步提升模型的效果,比如将前沿的预训练模型加入或者代替文中模型中所用的词向量。

参考文献
[1]
KATZ D M. Quantitative legal prediction-or-how I learned to stop worrying and start preparing for the data-driven future of the legal services industry[J]. Emory LJ, 2012, 62: 909-966.
[2]
ASHLEY K, BRANTING K, MARGOLIS H, et al. Legal reasoning and artificial intelligence:How computers" think" like lawyers[J]. University of Chicago Law School Roundtable, 2001, 8(1): 1-28.
[3]
SURDEN H. Machine learning and law[J]. Washington Law Review, 2014, 89: 87-115.
[4]
ALETRAS N, TSARAPATSANIS D, D, et al. Predicting judicial decisions of the European Court of Human Rights:A natural language processing perspective[J]. PeerJ Computer Science, 2016, 2: 1-19.
[5]
WILLIAMS T. Civilisation 2030: The near future for law firms[R]. London, UK: Jomati Consultants, 2014.
[6]
NAVIGLI R. Natural language understanding: Instructions for (present and future) use[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI). California, USA: Morgan Kaufman, 2018: 5697-5702. https://webmagazine.unitn.it/en/evento/disi/51724/natural-language-understanding-instructions-for-present-and-future-use
[7]
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems (NIPS). Massachusetts, USA: MIT Press, 2013: 3111-3119. https://arxiv.org/abs/1310.4546
[8]
PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: ACL, 2014: 1532-1543.
[9]
JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2017: 427-431.
[10]
LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligence(IJCAI). California, USA: Morgan Kaufman, 2016: 2873-2879. https://arxiv.org/abs/1605.05101
[11]
KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: ACL, 2014: 1746-1751 https://arxiv.org/abs/1408.5882
[12]
CONNEAU A, SCHWENK H, BARRAULT L, et al. Very deep convolutional networks for text classification[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2017: 1107-1116. https://arxiv.org/abs/1606.01781
[13]
CHO K, VAN MERRIЁNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: ACL, 2014: 1724-1734. https://arxiv.org/abs/1406.1078
[14]
JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2017: 562-570.
[15]
ZHOU X, WAN X J, XIAO J. Attention-based LSTM network for cross-lingual sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: ACL, 2016: 247-256.
[16]
YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: ACL, 2016: 1480-1489. https://arxiv.org/abs/1707.00896
[17]
XIAO C J, ZHONG H X, GUO Z P, et al. Cail2018: A large-scale legal dataset for judgment prediction[J/OL]. (2018-07-04). https://arxiv.org/abs/1807.02478
[18]
CHEN X X, XU L, LIU Z Y, et al. Joint learning of character and word embeddings[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence (IJCAI). California, USA: Morgan Kaufman, 2015: 1236-1242. https://www.mendeley.com/catalogue/joint-learning-character-word-embeddings/
[19]
QIAO C, HUANG B, NIU G C, et al. A new method of region embedding for text classification[C]//International Conference on Learning Representations. Massachusetts, USA: OpenReview, 2018: 1-12. https://openreview.net/forum?id=BkSDMA36Z
[20]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems (NIPS). Massachusetts, USA: MIT Press, 2017: 5998-6008.
[21]
SHEN Y T, HUANG X J. Attention-based convolutional neural network for semantic relation extraction[C]//The 26th International Conference on Computational Linguistics (COLIN). New York, NY, USA: ACM, 2016: 2526-2536. https://www.aclweb.org/anthology/C16-1238
[22]
YIN W, SCHVTZE H. Attentive convolution: Equipping CNNs with RNN-style attention mechanisms[J/OL]. (2017-10-02). https://arxiv.org/abs/1710.00519
[23]
顾永忠. 浅析个案间量刑的失衡[J]. 人民司法, 2003, 2: 64-66.
GU Y Z. Analysis on the unbalance of sentencing between cases[J]. People's Judicature, 2003, 2: 64-66. (in Chinese)
[24]
龙光伟. 论量刑失衡及其对策[J]. 吉林大学社会科学学报, 2003, 2: 58-61.
LONG G W. On the unbalance of measurement of penalty and the countermeasure[J]. Jilin University Journal Social Sciences Edition, 2003, 2: 58-61. (in Chinese)