融入罪名关键词的法律判决预测多任务学习模型

引用本文

刘宗林, 张梅山, 甄冉冉, 公佐权, 余南, 付国宏. 融入罪名关键词的法律判决预测多任务学习模型[J]. 清华大学学报(自然科学版), 2019, 59(7): 497-504.

LIU Zonglin, ZHANG Meishan, ZHEN Ranran, GONG Zuoquan, YU Nan, FU Guohong. Multi-task learning model for legal judgment predictions with charge keywords[J]. Journal of Tsinghua University (Science and Technology), 2019, 59(7): 497-504.

融入罪名关键词的法律判决预测多任务学习模型

刘宗林¹, 张梅山¹, 甄冉冉¹, 公佐权², 余南¹, 付国宏¹

1. 黑龙江大学计算机科学技术学院, 哈尔滨 150080;
2. 贵州财经大学信息学院, 贵阳 550025

收稿日期：2018-12-30

基金项目：国家自然科学基金资助项目（61672211，61602160，U1836222）；黑龙江省自然科学基金资助项目（F2016036）

作者简介：刘宗林(1993-), 男, 硕士研究生

通信作者：付国宏, 教授, E-mail:ghfu@hotmail.com

摘要：作为新兴的智慧法院技术之一，基于案情描述文本的法律判决预测越来越引起自然语言处理界的关注。罪名预测和法条推荐是法律判决预测的2个重要子任务。这2个子任务密切相关、相互影响，但常常当作独立的任务分别处理。此外，罪名预测和法条推荐还面临易混淆罪名问题。为了解决这些问题，该文提出一种多任务学习模型对这2个任务进行联合建模，同时采用统计方法从案情描述中抽取有助于区分易混淆罪名的指示性罪名关键词，并将它们融入到多任务学习模型中。在CAIL2018法律数据集上的实验结果表明：融入罪名关键词信息的多任务学习模型能够有效解决易混淆罪名问题，并且能够显著地提高罪名预测和法条推荐这2个任务的性能。

关键词：法律判决预测多任务学习罪名关键词

Multi-task learning model for legal judgment predictions with charge keywords

LIU Zonglin¹, ZHANG Meishan¹, ZHEN Ranran¹, GONG Zuoquan², YU Nan¹, FU Guohong¹

1. School of Computer Science and Technology, Heilongjiang University, Harbin 150080, China;
2. School of Information, Guizhou University of Finance and Economics, Guiyang 550025, China

Abstract: The legal field is using more artificial intelligence methods such as legal judgment prediction (LJP) based on case description texts using natural language processing. Charge prediction and law article recommendations are two important LJP sub-tasks that are closely related and interact with each other. However, previous studies have usually analyzed them as two independent tasks that are analyzed separately. Furthermore, charge prediction and law article recommendations both face the problem of confusing charges. To this end, this paper presents a multi-task learning model for joint modeling of charge prediction and law article recommendations. Confusing charges are handled by using a set of charge keywords extracted from case description texts using statistical techniques for integration into the multi-task learning model. This method was evaluated using the CAIL2018 legal dataset. The results show that incorporating the charge keywords into the multi-task learning model effectively resolves the confusing charge problem and significantly improves both the charge prediction and the law article recommendation results.

Key words: legal judgment prediction multi-task learning charge keywords

法律判决预测(legal judgment prediction, LJP)是一项自然语言处理技术在法律领域上的应用，不仅能够提高法律专业人士的工作效率、给予更加专业的法律建议，而且也能够给予没有法律背景知识人群相应的法律指导与援助。最近随着自然语言处理技术的突破性进展^[1-4]，法律判决预测引起不少研究者的广泛关注，并出现很多新的研究问题^[5-10]。本文主要关注其中的罪名预测和法条推荐这2个子任务，其主要目标为：通过给定的刑事法律文书中的案情描述部分，自动预测被告人的罪名以及本案涉及的相关法条。

过去的大部分工作都把罪名预测和法条推荐任务看成多标签分类问题，将案情描述作为输入，输出单个罪名^{[6-8, 10-11]}。然而，案情描述中往往存在多个罪名和法条的情况。因此，采用多个二元分类的方式对罪名预测和法条推荐任务建模更为合适：输入一段案情描述，对所有罪名和法条进行二元分类，判定这段案情描述是否包含这个罪名和法条。近年来，随着基于神经网络的语言建模技术的发展，在法律领域使用神经网络模型的方法越来越多^[6-10]。这些方法不再依赖人工精心设计的特征模板，而是通过预训练的方式将离散特征低维向量化，并结合各种神经网络结构例如长短期记忆(long short-term memory，LSTM)神经网络^[12]，从而能自动提取更有效的上下文特征表示。

实际上，罪名预测和法条推荐2个任务密切相关^[10]。如图 1所示，抢劫案例和对应的法条能够看出这2者之间存在密切联系，如果按照一般的方式对这2个任务分开建模，便很难利用到它们之间的关系。Zhong等^[10]在神经网络中应用拓扑结构信息提出联合模型，同时解决法律判决预测的多项子任务。受其启发，本文提出了一种基于多任务学习的方式对这2个子任务进行联合建模，在同一个模型中完成这2个子任务。

图 1 罪名与法条关系

图选项

另外，在案例文书中，很多案情描述具有很高的相似性，但是被判处的罪名不同，这种罪名一般被称为易混淆罪名^[7]，例如图 2所示的抢劫与抢夺2个案例。本文通过大量数据观察发现，易混淆罪名往往和特征的关键词紧密关联，表 1列出一些比较典型的罪名关键词。直觉上而言，如果能把这些关键词信息融入到罪名预测和法条推荐模型中，那么易混淆罪名问题可能得到很好的改善。

图 2 易混淆罪名案例

图选项

表 1 罪名关键词

罪名	关键词
抢劫	抢劫、抢走、截取、水果刀、匕首、被劫、反抗
抢夺	抢夺、手提包、挎包、抢得、夺走、夺取、尾随
故意伤害	故意伤害、发生争执、琐事、口角、厮打、砍伤、鼻骨、肋骨
故意杀人	颈部、捅、砍、杀人、刺、腹部、锐器、数刀、猛刺、连刺
破坏交通工具	轮胎、发动机、铁钉、道钉、蚂蟥钉、制动
破坏交通设施	铁路、高速公路、标志牌、钢轨、护栏、整杆器
交通肇事	车祸、事故现场、交通肇事、翻入、坠入、碰、刮、撞倒
危险驾驶	血液、乙醇、醉酒、酒精、浓度、呼气、血样、阈值、检测仪

表选项

为此，本文进一步开展了基于罪名的自动关键词抽取以及在多任务学习模型中融入罪名关键词信息的工作。对于自动关键词抽取，本文采用了2种无监督的方法利用大规模无标注法律数据^[13]自动构建罪名关键词表。对于关键词信息在多任务学习模型的融入，本文采用了一种简单的基于向量求和的方式。

简而言之，本文采用多任务学习模型对罪名预测和法条推荐进行联合建模。同时，针对易混淆罪名问题，将从案情描述文本中抽取的罪名关键词融入到多任务学习模型中，构建一种融入罪名关键词信息的多任务学习模型。最后，在公开的CAIL2018法律数据集^[13]上验证了融入罪名关键词的多任务学习模型能够有效反应罪名预测和法条推荐之间的相互影响，并能有效解决易混淆罪名问题。

1 相关工作

由于缺乏大规模的标注数据，LJP早期研究大多采用规则方法解决特定场景的罪名预测任务^[14-16]。随着机器学习的发展，越来越多的法律研究工作采用机器学习的方法提取稀疏特征解决罪名预测问题^[17-20]。Liu和Hsieh^[17]在罪名预测任务中考虑了短语特征信息。Lin等^[18]在案例分类中引入了21种法律要素。

近年来，越来越多的法律研究工作利用神经网络模型解决罪名预测问题^[6-10]。Luo等^[6]采用基于注意力机制的神经网络模型在罪名预测任务中融入法条信息，使罪名预测更具有合理性。Hu等^[7]把罪名分为10大类，人工标记罪名属性信息，利用神经网络模型结合罪名属性信息解决易混淆罪名问题。Jiang等^[8]采用神经网络模型抽取合理的、可读的、决定性的片段信息来强化法律判决预测，提升法律判决预测的性能。由于采用文本分类建模无法有效地解决案例信息之间的交互，为了解决这个问题，Long等^[9]根据判决流程采用阅读理解的方式对LJP进行建模。

另外，Zhong等^[10]在神经网络模型中结合多个子任务之间的拓扑结构信息提出联合模型同时完成法律判决预测的多个子任务。受此启发，本文利用罪名和法条之间的内在联系，采用多任务学习方式对罪名预测和法条推荐联合建模。

关键词能够以简洁概括性的词语表达文档的核心语义。目前，已经出现3种各具特点的关键词抽取方法，即统计方法^[21-23]、机器学习方法^[24-27]和神经网络模型方法^[28]。统计方法主要通过使用词频、词性等属性信息，利用某些规则计算词的得分，选取得分高的词作为关键词。典型的统计方法有TF-IDF方法^[21]、TextRank方法^[23]等。机器学习方法将关键词抽取问题看作一个分类或聚类问题，典型的方法有最大熵模型^[24]、SVM^[25]、层次聚类^[27]等。近年来，随着深度学习的发展，神经网络模型开始应用于关键词抽取，如Zhang等^[28]提出利用循环神经网络模型在Twitter上进行关键短语的抽取工作。

2 多任务学习模型

模型的整体结构图如图 3所示，其中蓝色虚线框内部分为多任务学习模型。

图 3 (网络版彩图)模型整体结构图

图选项

本文采用编码端-解码端的模型结构建立多任务学习模型，同时完成罪名预测和法条推荐这2个任务。其中，编码端采用层次化注意力机制(hierarchical attention networks，HAN)^[29]对案情描述进行编码，解码端采用多个二元分类进行建模同时预测罪名和法条。

2.1 案情描述编码

案情描述都是基于段落的，而段落由一系列句子组成，段落编码问题可以理解为词和句子的序列编码问题。参考Yang等^[29]的工作，本文的案情描述编码主要包含以下2部分：1)基于词级别的序列编码和词级别的注意力机制；2)基于句子级别的序列编码和句子级别的注意力机制。

考虑到双向长短期记忆(bi-directional long short-term memory, BiLSTM)神经网络^[30]能够同时捕捉正反2个方向的特征信息，本文采用BiLSTM对词和句子进行编码。假设给定案情描述的输入为{w₁, w₂, …, w_n}，每个词的向量集合{ e_w₁, e_w₂, …, e_{w_n}}作为神经网络的输入，那么把词向量集合经过式(1)得到BiLSTM的隐层向量表示：

$ \left\{ {{\mathit{\boldsymbol{h}}_{{w_1}}}, {\mathit{\boldsymbol{h}}_{{w_2}}} \cdots , {\mathit{\boldsymbol{h}}_{{w_n}}}} \right\} = {\mathop{\rm BiLSTM}\nolimits} \left( {\left\{ {{\mathit{\boldsymbol{e}}_{{w_1}}}, {\mathit{\boldsymbol{e}}_{{w_2}}} \cdots , {\mathit{\boldsymbol{e}}_{{w_n}}}} \right\}} \right). $

(1)

但是，直接使用BiLSTM的隐层向量表示不能够获取词语的重要程度信息。进一步利用注意力(attention)机制得到词级别的向量表示，其中图 3中采用ATT表示注意力机制。注意力机制的计算公式如下，BiLSTM的隐层向量表示作为输入。

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{g}} = \sum\limits_{t = 1}^N {{\alpha _t}} {\mathit{\boldsymbol{h}}_t}, \\ {\alpha _t} = \frac{{\exp \left( {\mathit{\boldsymbol{u}}_t^{\rm{T}}\mathit{\boldsymbol{u}}} \right)}}{{\sum\limits_{k = 1}^N {\exp } \left( {\mathit{\boldsymbol{u}}_k^{\rm{T}}\mathit{\boldsymbol{u}}} \right)}}, \\ {\mathit{\boldsymbol{u}}_t} = \tanh \left( {\mathit{\boldsymbol{W}}{\mathit{\boldsymbol{h}}_t} + \mathit{\boldsymbol{b}}} \right). \end{array} \right. $

(2)

其中: N为词的数量；g表示最终的向量；α表示词的贡献度值；W是权重矩阵；u表示全局向量，用于区分有信息词与无信息词，初始值采用随机初始化，并且在训练过程中进行权值更新。

案情描述经过词级别的BiLSTM编码和注意力机制，同样要经过句子级别的BiLSTM编码和注意力机制，具体参考式(1)和(2)，最终得到案情描述编码的向量表示h_f。

2.2 解码端

本文将案情描述编码得到的向量表示通过式(3)的多层感知器(multi-layer perception, MLP)学习相关特征，采用多任务学习模型分别预测罪名和法条，判断这个案情描述包含的罪名或适用的法条。多任务学习模型与罪名预测和法条推荐的单模型在解码端都采用多个二元分类任务进行建模，但是单模型仅仅预测其中的一项结果。

$ \mathit{\boldsymbol{o}} = {\mathop{\rm MLP}\nolimits} \left( {{\mathit{\boldsymbol{h}}_f}} \right). $

(3)

2.3 训练

本文采用交叉熵损失函数作为目标函数，先利用式(4)的Softmax计算金标答案概率，然后采用式(5)的交叉熵损失函数计算真实概率分布与预测概率分布的差距。

$ p\left( {{\mathit{\boldsymbol{o}}_{\rm{g}}}} \right) = \frac{{\exp \left( {{\mathit{\boldsymbol{o}}_{\rm{g}}}} \right)}}{{\sum\limits_{j = 1}^C {\exp } \left( {{\mathit{\boldsymbol{o}}_j}} \right)}}, $

(4)

$ {\mathop{\rm loss}\nolimits} = - \log p\left( {{\mathit{\boldsymbol{o}}_{\rm{g}}}} \right). $

(5)

其中：C为标签数量，g表示金标。

3 罪名关键词抽取与融入

本文采用2种无监督的方法在大量无标注文本中为每个罪名抽取若干关键词，构建罪名关键词表，这2种方法分别利用TF-IDF、TextRank对关键词候选词的得分进行排序。当罪名关键词表构建之后，采用二元分类的方式对罪名进行分类，利用SVM分类器获取与案情描述相关的罪名关键词，进一步将其融入到上面的多任务学习模型中，这里采用向量求和的方式对关键词编码，与案情编码结合，如图 3所示，红线框出的为关键词融入部分。

3.1 罪名关键词抽取

1) 基于TF-IDF的罪名关键词抽取。

为了评估一个词对一篇文档的重要程度，Salton等^[21]提出了TF-IDF算法，算法的基本指导思想是：字词的重要性随着它在当前文档中出现的次数成正比增加，但是同时会随着它在所有文档中出现的次数成反比下降，即一个词在一篇文档中出现的次数较多，同时在所有文档中出现的次数较少，越能够代表该词在文档中的重要程度。

2) 基于TextRank的罪名关键词抽取。

Mihalcea等^[23]提出一种用于提取关键词的TextRank算法。该算法是一种基于词图模型的关键词抽取算法，首先认为词与词之间共现代表一种推荐关系，即与重要词共现的词也重要，根据词之间的这种关系构造无向有权边的网络图，然后在图上迭代得到文档中词的重要度排序，最终把关键词抽取问题看作构成文档的词的重要性排序问题。

3.2 罪名关键词编码及融入

Luo等^[6]在神经网络模型中融入法条信息，采用二元分类方式对法条进行分类，获取K个法条。受其启发，同样采用二元分类的方式对罪名进行分类，利用SVM作为分类器^[31-32]，将案情描述作为输入，输出与案情描述相关的K个罪名，进一步通过构建的罪名关键词表获取罪名关键词{k₁, k₂, …, k_m}，对其向量表示为{ e_k₁, e_k₂, …, e_{k_m}}，进而采用向量求和的方式对关键词进行编码，得到关键词的向量表示h_k，再与案情编码进行向量拼接，作为编码端最终的向量表示。

4 实验及结果分析 4.1 数据集

公开的CAIL2018法律数据集^[13]包含268万条文书案例，考虑到其数据规模巨大，本文使用其中的小型数据集。该数据集总共包含19.6万条文书案例，涉及202条罪名、183条法条。另外，数据集还包含一些无案情描述信息的文书案例，本文实验中去除了这部分无信息数据，最终的实验数据包含训练集154 177条数据、开发集17 088条数据、测试集32 433条数据。

4.2 实验设置

本文采用Jieba分词器(https://github.com/fxsjy/jieba)对案情描述进行中文分词。使用word2vec^[2]在CAIL2018全部数据集上训练外部词向量，最终得到的外部预训练词表中总共包含183 578个词。同时，关键词的最大数量为100，词向量中的向量维度设置为200，BiLSTM隐层维度设置为200，Dropout值设置为0.5，批处理大小为80，优化器采用的是Adam(adaptive moment estimation)^[33]，学习率为0.001。同时，采用及时停止策略，值设置为10。

4.3 评价方法

实际上，法律领域的数据存在数据分布不平衡问题。图 4给出训练数据的罪名数量分布统计结果，从中可以看出数据分布极其不平衡：仅有不足300条训练数据的罪名数量占到50%以上，而有3 000条以上训练数据的罪名仅有7个。因此，本文采用宏平均F值、微平均F值以及这2者的平均值作为模型的评价指标。

图 4 罪名分布不均衡图

图选项

4.4 实验模型

实验中使用了以下模型：

SVM-TFIDF：该模型利用TF-IDF抽取案情描述部分的特征，其中TF-IDF提取的特征个数设置为5 000，并且使用SVM作为分类器。

Sin-Charges：该模型采用单模型建模方式完成罪名预测，与多任务学习模型性能进行对比。

Sin-Article：该模型采用单模型建模方式完成法条推荐，与多任务学习模型性能进行对比。

MTL：采用多任务学习方式对罪名预测和法条推荐联合建模，与2个单模型性能进行对比。

MTL-TRank、MTL-TFIDF、MTL-Fusion：在多任务学习模型中融入罪名关键词，罪名关键词提取分别采用TextRank、TF-IDF、以及方法融合。

MTL-Gold：该模型研究了当罪名关键词的预测准确率达到100%，与案情描述完全符合的情况下，融入罪名关键词信息的多任务学习模型在罪名预测和法条推荐这2个任务上面能够达到的性能上限。

4.5 实验结果及分析

1) 多任务学习模型结果与分析。

实验结果如表 2所示，本文采用了SVM-TFIDF作为基线模型。实验结果表明，本文提出的模型要比基线模型在性能上有明显的提升。

表 2 CAIL2018实验结果

%
模型	罪名预测			法条推荐
模型	宏平均F	微平均F	平均值	宏平均F	微平均F	平均值
SVM-TFIDF	62.033 4	79.030 8	70.532 1	58.452 9	76.050 9	67.251 9
Sin-Charges	75.993 8	86.394 5	81.194 2	—	—	—
Sin-Article	—	—	—	72.198 9	83.675 2	77.937 1
MTL	78.692 8	86.456 7	82.574 8	74.101 7	83.601 7	78.851 7
MTL-TRank	79.267 6	87.323 6	83.295 6	74.025 2	84.857 7	79.441 5
MTL-TFIDF	79.185 4	87.499 6	83.342 5	74.417 3	84.573 7	79.495 5
MTL-Fusion	81.355 8	88.099 9	84.727 9	75.528 5	85.188 6	80.358 6
MTL-Gold	95.334 5	97.529 0	96.431 8	84.495 9	92.227 5	88.361 7

表选项

根据表 2的实验结果可以看出，MTL模型在罪名预测和法条推荐这2个任务的各项评价指标中都比单模型有明显的性能提升。特别是在宏平均F值上面提升2%~3%，在2种F值的平均值上面也有1%~2%的提升，说明多任务学习模型在考虑了罪名和法条之间的内在联系信息之后，要比仅仅考虑罪名信息或者法条信息的单模型具有更加强大的学习能力。

进一步研究MTL和Sin-Charges模型在罪名预测任务上面的结果。结果表明，考虑了罪名和法条内在联系的MTL模型要比Sin-Charges模型在大多数罪名上面预测的准确率都有提升，图 5给出了5个罪名的预测准确率对比情况。

图 5 罪名准确率

图选项

但是，同样也存在一些罪名的预测准确率并没有提升，例如图 5的破坏交通设施罪名。进一步的研究发现，破坏交通设施的训练数据不足50条，而其他几个罪名的至少有300条训练数据，训练数据充足。MTL在训练数据不足的情况下还不能达到很好的效果。除此之外，通过对预测结果的观察，更为重要的一点是存在大量的易混淆罪名案例在MTL模型上无法区分，例如存在很多的盗窃案例被预测成为非法侵入住宅。

2) 融入罪名关键词信息模型的结果与分析。

本文首先采用TextRank和TFIDF的方法抽取关键词并构建罪名关键词表，分别把罪名关键词融入到多任务学习模型中得到MTL-TRank和MTL-TFIDF这2个模型。根据表 2的实验结果，虽然MTL-TRank模型在法条推荐任务上面的宏平均F值相比MTL模型并没有提高，但是在2个任务的微平均F值上面都有1%左右的提升，而且在平均值指标上面都有0.5%~1%左右的提升。

虽然MTL-TRank和MTL-TFIDF模型在性能上有提升，但是根据实验结果来看，2个任务在宏平均F值上面提升的幅度并不是十分明显。通过对构建的罪名关键词表仔细研究发现，罪名关键词表中有一定数量的关键词在大多数罪名中同时存在，导致不能够有效地区分易混淆罪名。由表 3可以发现：MTL-TFIDF模型的精确率指标要明显高于MTL-TRank模型的，但是召回率指标却低于MTL-TRank模型的。通过对罪名关键词表的观察和对实验结果的研究分析，本文提出采用TFIDF和TextRank方法融合的方式再次自动构建罪名关键词表，并且把关键词融入到多任务学习模型中得到MTL-Fusion模型。表 2的实验结果表明，MTL-Fusion模型在这2个任务上的各项评价指标都要比MTL模型的高出1%~2%。实验结果表明，融入罪名关键词信息的多任务学习模型能够进一步提升罪名预测和法条推荐的性能。

表 3 罪名预测任务宏平均各项指标

%
模型	精确率	召回率	宏平均F
MTL-TFIDF	84.715 3	77.082 4	79.185 4
MTL-TRank	83.969 7	77.222 8	79.267 5

表选项

另外，本文研究了当罪名关键词的预测准确率达到100%，与案情描述完全符合的情况下，罪名关键词信息是否能够带来更好的性能提升以及是否能够再进一步改善易混淆罪名问题。本文利用数据中的金标罪名从罪名关键词表中获取罪名关键词，融入多任务学习模型中得到MTL-Gold模型，从表 2的实验结果能够看出，MTL-Gold模型在各项评价指标中都能够大幅度提升性能，特别是在罪名预测任务上的微平均F值达到97%，性能已经达到较理想的情况，而且易混淆罪名问题得到了很好的解决。

为了进一步验证融入罪名关键词的模型对易混淆罪名误判的影响，本文采用易混淆罪名误判率对MTL和MTL-Fusion这2个模型进行对比分析。图 6列举了4个容易误判的典型罪名情况，例如盗窃在很多情况下都被误判为非法入侵住宅，这2个罪名在MTL模型上的误判率为4.67%，在融入罪名关键词信息的MTL-Fusion模型上的误判率为3.23%，绝对减小了1.44%，下降效果明显。从图 6也能够明显的看出其他易混淆罪名误判率也明显下降，这说明罪名关键词信息能够有效地解决易混淆罪名问题。

图 6 易混淆罪名误判率

图选项

3) 易混淆罪名案例分析。

为了进一步说明方法的有效性，本文以抢劫和抢夺这2个典型的易混淆罪名为例进行案例分析。图 7给出一个具体的抢劫案例。该案例在MTL模型中被预测为抢夺，而案情描述中包含大量的关键词能够区分出抢劫和抢夺这2个罪名，如图 7中用红色字体标注出的抢劫、水果刀、刀具、抢走等关键词。将这些关键词信息融入到多任务学习模型MTL-Fusion中能够区分出易混淆罪名抢劫与抢夺，该案例在MTL-Fusion模型中被预测正确。这在一定程度上说明：融入罪名关键词信息能够有效地解决易混淆罪名问题。

图 7 (网络版彩图)易混淆罪名分析案例

图选项

5 结论

本文考虑了罪名和法条之间的密切联系，利用多任务联合学习的方式对罪名预测和法条推荐联合建模，提出多任务学习模型。进一步采用多种方法为每项罪名获取若干个关键词，自动构建罪名关键词表，并且在多任务学习模型中融入罪名关键词信息，有效解决了法律领域的易混淆罪名问题。在CAIL2018法律数据集上面，本文提出的方法在多项评价指标上面都取得了优越的性能。

根据实验结果，罪名关键词信息能够有效解决易混淆罪名问题，然而本文自动构建的罪名关键词表在质量上面还有待提高。因此，下一步将围绕如何构建质量好的罪名关键词表进行研究。

参考文献

[1]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(8): 2493-2537.
[2]	MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[Z/OL]. (2013-01-16)[2017-09-03] https://arxiv.org/abs/1301.3781.
[3]	BAHARUDIN B, LEE L H, KHAN K, et al. A review of machine learning algorithms for text-documents classification[J]. Journal of Advances in Information Technology, 2010, 1(1): 4-20.
[4]	FIRAT O, CHO K, SANKARAN B, et al. Multi-way, multilingual neural machine translation[J]. Computer Speech & Language, 2017, 45: 236-252.
[5]	ZHONG H X, XIAO C J, GUO Z P, et al. Overview of CAIL2018: Legal judgment prediction competition[Z/OL]. (2018-10-13)[2018-10-20].https://arxiv.org/abs/1810.0585.
[6]	LUO B F, FENG Y S, XU J B, et al. Learning to predict charges for criminal cases with legal basis[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: ACL, 2017: 2727-2736. https://arxiv.org/abs/1707.09168
[7]	HU Z K, LI X, TU C C, et al. Few-shot charge prediction with discriminative legal attributes[C]//Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, NM, USA: ACL, 2018: 487-498. https://aclweb.org/anthology/papers/C/C18/C18-1041/
[8]	JIANG X, YE H, LUO Z C, et al. Interpretable rationale augmented charge prediction system[C]//Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations. Santa Fe, NM, USA: ACL, 2018: 146-151. https://www.aclweb.org/anthology/C18-2032
[9]	LONG S B, TU C C, LIU Z Y, et al. Automatic judgment prediction via legal reading comprehension[Z/OL]. (2018-09-18)[2018-10-12]. https://arxiv.org/abs/1809.0653.
[10]	ZHONG H X, ZHIPENG G P, TU C C, et al. Legal judgment prediction via topological learning[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: ACL, 2018: 3540-3549.
[11]	LIU C L, CHANG C T, HO J H. Case instance generation and refinement for case-based criminal summary judgments in Chinese[J]. Journal of Information Science and Engineering, 2004, 20(4): 783-800.
[12]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[13]	XIAO C J, ZHONG H X, GUO Z P, et al. CAIL2018: A large-scale legal dataset for judgment prediction[Z/OL]. (2018-07-04)[2018-09-03].https://arxiv.org/abs/1807.0247.
[14]	SEGAL J A. Predicting supreme court cases probabilistically:The search and seizure cases, 1962-1981[J]. American Political Science Review, 1984, 78(4): 891-900. DOI:10.2307/1955796
[15]	AAMODT A, PLAZA E. Case-based reasoning:Foundational issues, methodological variations, and system approaches[J]. AI Communications, 1994, 7(1): 39-59.
[16]	LAUDERDALE B E, CLARK T S. The supreme court's many median justices[J]. American Political Science Review, 2012, 106(4): 847-866. DOI:10.1017/S0003055412000469
[17]	LIU C L, HSIEH C D. Exploring phrase-based classification of judicial documents for criminal charges in chinese[C]//International Symposium on Methodologies for Intelligent Systems. Bari, Italy: Springer, 2006: 681-690. https://link.springer.com/chapter/10.1007%2F11875604_75
[18]	LIN W C, KUO T T, CHANG T J. Exploiting machine learning models for Chinese legal documents labeling, case classification, and sentencing prediction[C]//Proceedings of the 24th Conference on Computational Linguistics and Speech Processing (ROCLING 2012). Chung-Li, Taiwan, China: ACL-CLP, 2012: 140-141. https://www.aclweb.org/anthology/O12-5004
[19]	ZENG J, USTUN B, RUDIN C. Interpretable classification models for recidivism prediction[J]. Journal of the Royal Statistical Society:Series A (Statistics in Society), 2017, 180(3): 689-722. DOI:10.1111/rssa.2017.180.issue-3
[20]	BERK R, BLEICH J. Forecasts of violence to inform sentencing decisions[J]. Journal of Quantitative Criminology, 2014, 30(1): 79-96. DOI:10.1007/s10940-013-9195-0
[21]	SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523.
[22]	李静月, 李培峰, 朱巧明. 一种改进的TFIDF网页关键词提取方法[J]. 计算机应用与软件, 2011, 28(5): 25-27. LI J Y, LI P F, ZHU Q M. An improved tfidf-based approach to extract key words from web pages[J]. Computer Applications and Software, 2011, 28(5): 25-27. DOI:10.3969/j.issn.1000-386X.2011.05.008 (in Chinese)
[23]	MIHALCEA R, TARAU P. Textrank: Bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: ACL, 2004: 404-411.
[24]	李素建, 王厚峰, 俞士汶, 等. 关键词自动标引的最大熵模型应用研究[J]. 计算机学报, 2004, 27(9): 1192-1197. LI S J, WANG H F, YU T W, et al. Research on maximum entropy model for keyword indexing[J]. Chinese Journal of Computers, 2004, 27(9): 1192-1197. DOI:10.3321/j.issn:0254-4164.2004.09.007 (in Chinese)
[25]	ZHANG K, XU H, TANG J, et al. Keyword extraction using support vector machine[C]//International Conference on Web-Age Information Management. Hong Kong, China: Springer, 2006: 85-96. https://rd.springer.com/chapter/10.1007/11775300_8
[26]	ERCAN G, CICEKLI I. Using lexical chains for keyword extraction[J]. Information Processing & Management, 2007, 43(6): 1705-1714.
[27]	高学东, 吴玲玉. 基于高维聚类技术的中文关键词提取算法[J]. 中国管理信息化, 2011, 14(9): 23-27. GAO X D, WU L Y. Chinese keywords extraction algorithm based on the high-dimensional clustering technique[J]. China Management Informationization, 2011, 14(9): 23-27. DOI:10.3969/j.issn.1673-0194.2011.09.006 (in Chinese)
[28]	ZHANG Q, WANG Y, GONG Y Y, et al. Keyphrase extraction using deep recurrent neural networks on Twitter[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin: ACL, 2016: 836-845.
[29]	YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California: ACL, 2016: 1480-1489. https://arxiv.org/abs/1707.00896
[30]	GRAVES A, JAITLY N, MOHAMED A. Hybrid speech recognition with deep bidirectional lstm[C]//Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, Olomouc, Czech Republic: IEEE, 2013: 273-278. https://ieeexplore.ieee.org/document/6707742
[31]	MATHUR A, FOODY G M. Multiclass and binary SVM classification:Implications for training and classification users[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(2): 241-245. DOI:10.1109/LGRS.2008.915597
[32]	HUANG G B, ZHOU H, DING X, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(2): 513-529. DOI:10.1109/TSMCB.2011.2168604
[33]	KINGMA D P, BA J. Adam: A method for stochastic optimization[Z/OL]. (2017-01-30)[2017-09-10] https://arxiv.org/abs/1412.6980.

文章信息

工作空间