2. 南京师范大学 文学院, 南京 210097;
3. 南京师范大学 国际文化教育学院, 南京 210097
2. School of Chinese Language and Literature, Nanjing Normal University, Nanjing 210097, China;
3. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China
兼语结构是由述宾短语与主谓短语套接而成的一种动词结构,述宾短语的宾语同时做主谓短语的主语。例如“老师让大家补选一名劳动委员”是一个典型的含有兼语结构的兼语句,该句中的“大家”既充当“让”的宾语又充当“补选”的主语。兼语结构与连动结构及主谓短语做宾语结构相似,且存在共享省略成分,使得兼语句的识别与解析十分困难。据李斌等[1]统计,兼语结构普遍存在于汉语语料中。因此,正确识别兼语结构对句子的语义解析及其他下游任务具有重要意义。
语言学领域对兼语结构已有大量的研究,集中在兼语句分类、语义研究、偏误分析等方面。然而在自然语言处理领域,针对兼语结构识别及相应的语料资源构建的研究较少。部分现有语料[2-3]中包含兼语结构的标注,但并不是专门为兼语研究构建,且规模较小、规范不统一,无法用于兼语结构的识别及后续研究。现有的兼语结构识别工作依赖分词及词性标注的效果,对未经人工校对的语料识别效果较差,对于低频兼语动词的识别能力有限。
抽象语义表示(abstract meaning representation, AMR) 从语义角度出发,通过补充句子中的隐含或省略成分,更全面地描述句子的语义[4],在语义解析任务中更具优势。AMR在标注时需要对兼语缺省的论元进行补充,所以自动识别出兼语结构并将其转化为AMR图,可以辅助中文AMR语料的构建及解析,为语义解析及下游任务提供帮助。目前,中文AMR语料中兼语句较少,不足以用于训练,因此需要构建一定规模的兼语语料。
本文构建了一个面向中文AMR标注体系的兼语语料库,并对语料库进行了统计分析。基于该语料,使用添加词典信息的字符神经网络模型LA-BiLSTM-CRF识别兼语结构的边界,并分析了识别结果,讨论了未来可以改进的方向。
1 相关工作语言学领域对于兼语句的理论及应用研究十分深入,也为自然语言处理领域的研究打下基础,但兼语语料资源的匮乏限制了兼语结构识别的研究。
1.1 兼语语料库构建现状语言学领域的研究工作主要集中在兼语句分类、语义研究、偏误分析等方面[5-9]。然而,针对兼语语料资源构建的工作较少,只有少数综合语料中包含兼语结构标注[2-3]。但以上的语料并不针对兼语构建,规模较小,且各语料对于兼语结构的定义不统一,无法直接用于研究兼语结构的识别。
1.2 兼语结构识别研究现状现有的兼语结构识别方法主要分为2类:一类是基于规则的识别方法[10],另一类是基于机器学习的识别方法[11]。基于规则的方法只能识别符合语法规则的简单兼语结构,无法处理不符合语法规则的句子及复杂的兼语结构,也无法对完整的兼语结构进行识别。条件随机场(CRF)模型依赖分词及词性标注的效果,对低频兼语动词识别效果有限。近年来,神经网络因为具有更好的泛化性和不依赖手工选择特征等优点,被广泛用于词性标注及命名实体识别,有效提高了序列化标注任务的效果[12-15]。但目前为止,还没有使用神经网络模型识别兼语结构的研究。
2 兼语语料库构建本文首先对兼语结构进行界定,筛选出兼语句,然后根据标注规范构建语料库,最后对构建的语料库进行了统计分析。
2.1 兼语结构的界定规范兼语结构是一种套接的动词结构,通常将结构表示为“NP1+V1+NP2+V2” [16],其中,NP2为兼语,V1和V2的关系为递系式[17]且共享兼语。AMR在标注兼语结构时,将NP2标注为V1的arg1和V2的arg0。具体示例如图 1所示,图中第1栏是文本及其分词内容,第2栏是该文本的AMR图,其中词后面的标号代表词的义项。
|
| 图 1 兼语结构AMR图 |
但是汉语句式复杂多变,其中连动结构及主谓短语做宾语的结构与兼语结构尤为相似,需要结合结构和语义进行判定。具体界定过程分为2步:1) 筛选具有“NP1+V1+NP2+V2”结构,且NP2充当V1宾语和V2主语的句子;2) 判断V1宾语涉及的范围是NP2还是整个主谓结构构成的短语或从句,如果只涉及NP2则判定为兼语句,否则判定为非兼语句。
TCT(Tsinghua Chinese treebank)[18]中对兼语结构和主谓短语做宾语的界定模糊。例如“建议纪委介入调查”是一个典型的主谓短语做宾语句,“建议”的内容是“纪委介入调查”,涉及的范围是其后的整个从句,但TCT将其标注为兼语结构。本文在构建语料库时,综合考虑了前述2个界定步骤,有效避免了2类结构界定模糊的问题。
2.2 兼语结构标注本文构建的兼语语料库主要对兼语结构的边界、V1、V2及兼语的中心词进行标注。
1) 兼语结构的前边界。
本文语料库将兼语结构的前边界标注在V1前,并用“【【”标注。如果兼语结构的V1存在于连动结构中,则将兼语结构的前边界标注到连动结构的第1个动词前。示例见例1。
2) 兼语结构的后边界。
本文语料库将兼语结构的后边界标注在V2所在的动词短语后,用“】】”标注,如果兼语结构的V2存在于连动结构中,则将兼语结构的后边界标注到连动结构中最后一个动词所在的动词短语之后。示例见例2。
3) V1。
本文语料库使用“_V1”标注V1,如果兼语结构的V1存在于连动结构中,则只标注连动结构中的第1个兼语动词。示例见例1。
4) V2。
本文语料库使用“_V2”标注V2,针对各类复杂兼语结构,对V2的标注规范进行以下细化规定。
(a) 如果兼语结构主谓词组的谓词存在于连动结构中,则将V2标注为连动结构中的第1个动词。示例见例3。
(b) 如果句中包含“去吃饭”“来做客”这类连动结构,AMR会将“去”和“来”这类无实际含义的词省略,为与其他连动结构标注一致,本文在标注V2时标注第1个动词。示例见例4。
(c) 如果主谓词组为情态动词加动词的结构,则将V2标注为情态动词。示例见例5。
(d) 如果存在一个动词作为另一动词的“方式”的句子,则将V2标注为兼语之后的第1个动词。示例见例6,其中AMR标注体系会将“碾”作为“乡亲们”的谓语,而将“集中到一个碾子上”作为“碾米”的方式,为了与前面的标注标准一致,故将V2标注为兼语后的第1个动词“集中”。
(e) 如果兼语结构中存在主谓词组后有补语的情况,则将V2标注为兼语后的第1个动词。示例见例7。
(f) 如果兼语结构中含有复句,对于并列及递进等没有主次关系的复句,将V2标注为复句第1部分的谓词,对于其他带有主次关系的复句,将V2标注为主要子句中的谓词。示例见例8和9。
5) 兼语中心词。
本文语料库使用“_JY”标注兼语中心词。针对各类复杂情况,本文对兼语标注规范进行以下细化规定。
(a) 如果兼语为名词短语,则标注名词短语的中心词。示例见例10。
(b) 如果兼语是由多个名词或名词短语并列组成,则对其中的每一个名词或名词短语的中心词进行标注。示例见例11。
(c) 如果兼语由一个完整的主谓宾结构构成,AMR会将该结构的中心谓词作为兼语动词的arg2,因此只标注该结构的中心谓词。示例见例12。
例1 他【【号_V1召_V1和动员全体指_JY战_JY员_JY节_V2衣_V2缩_V2食_V2】】。
例2 它能【【帮_V1助_V1人_JY类_JY开_V2拓_V2未知的领域和获得新的知识】】。
例3 我们想【【让_V1妈_JY妈_JY听_V2听_V2音乐、看看舞蹈】】。
例4 他们【【邀_V1请_V1全国18家甲级城市规划设计院的专_JY家_JY来_V2考察论证】】。
例5 要重视理论队伍的建设,【【使_V1确有成就的青年理论人_JY才_JY能_V2脱颖而出】】。
例6 【【让_V1乡_JY亲_JY们_JY集_V2中_V2到一个碾子上碾米】】。
例7 我们也尽可能【【让_V1她_JY过_V2得充实如意】】。
例8 老师【【让_V1她_JY一边听_V2语音一边记笔记】】。
例9 干吗【【让_V1人_JY家_JY一进门就赶_V2上_V2一顿熊】】呢?
例10 奏鸣曲【【让_V1专修音乐的妹_JY妹_JY大_V2吃_V2一_V2惊_V2】】。
例11 能够【【让_V1灾区的孩_JY子_JY、学_JY生_JY得_V2到_V2相应的关怀】】就够了。
例12 【【使_V1高速度大容量异种机传_JY输_JY信息成_V2为_V2可能】】。
2.3 兼语语料库的统计分析本文选取了文学、新闻、微博等领域的67 419个句子作为语料构建的原始语料,从中筛选得到了4 760个兼语句及5 248个兼语结构,并按照本文设计的兼语结构标注规范完成了兼语语料库的构建。对兼语结构中V1出现的频次进行了统计,其中出现频次最高的6个词如图 2所示。可以看出,兼语结构中的兼语动词多集中在“让”“使”“令”“请”“叫”“要求”等词,这6个词构成的兼语结构数量占所有兼语结构的70.8%。
|
| 图 2 兼语动词频次图 |
本文对低频兼语动词也进行了统计,其中出现频次低于5次的兼语动词数量见表 1,可以发现兼语语料库中包含大量低频兼语动词,其中出现频率为1次的有128个。低频兼语动词的大量存在使得兼语结构识别工作十分困难,因此有效处理低频兼语动词对兼语结构的识别具有重要意义。
3 兼语结构识别研究
基于构建的兼语语料库,本文使用神经网络模型自动识别兼语结构的边界,辅助构建及解析中文AMR语料。由于兼语结构的语义关系复杂,句式变化丰富,因此兼语结构的识别任务具有一定的挑战性。
3.1 任务定义及数据划分本文将兼语结构的边界识别任务建模为序列化标注任务。给定输入的句子序列X=(x1, x2, …, xn),模型需要预测出对应输入句子序列的标签序列Y=(y1, y2, …, yn), 其中yi∈{B, M, E, S, O}。B对应兼语结构的起始字,E对应兼语结构的结尾字,M对应兼语结构除以上成分的其他字,O对应句子的非兼语结构,示例如表 2所示。将标注好的语料导出为序列化标注格式的文件,并随机打乱顺序,选取其中的10%作为测试集,然后从剩余的语料中选取90%作为训练集,10% 作为开发集。
3.2 模型
自动分词以及词性标注工具处理语料容易造成错误传播,单独使用字符信息对兼语结构进行识别容易丢失词语本身携带的信息,因此本文根据文[19]获得句子的字向量xic及其对应的词典信息向量eis,并对二者进行拼接,获得句子完整的向量表示。将上述向量传入表示层,获得包含上下文信息的句子表示。常用的表示层模型有卷积神经网络(CNN)、Transformer[20]、双向长短期记忆网络(BiLSTM)[21]等,由于没有使用神经网络模型识别兼语结构边界的相关研究工作,因此本文分别使用CNN、Transformer和BiLSTM这3个基础模型作为表示层提取句子特征,识别结果如表 3所示。其中P和R分别表示精确率和召回率。
| 模型 | P/% | R/% | F1/% |
| LA-CNN-CRF | 65.04 | 70.25 | 67.54 |
| LA-Transformer-CRF | 73.48 | 66.14 | 69.62 |
| LA-BiLSTM-CRF | 86.25 | 85.91 | 86.06 |
可以发现,CNN模型难以捕捉长兼语结构的特征,因此其识别效果较差。Transformer模型采用注意力机制提取文本特征,解决了文本的长距离依赖问题,但仍难以捕捉兼语结构中包含的连动及宾语从句这种与位置方向有关的结构信息,对于该种兼语结构的后边界识别效果较差。BiLSTM模型既可以捕捉句子中较长的上下文信息,又不会丢失句子中字词的位置方向信息,对于长兼语结构及包含连动或宾语从句的兼语结构识别效果优于前2个模型,其P、R和F1分别为86.25%、85.91% 和86.06%。实验结果证明,BiLSTM模型更适合兼语结构边界识别任务。本文最终选用BiLSTM模型作为表示层获取句子的上下文信息。
兼语结构的标签具有很强的依赖性,因此本文在BiLSTM模型之后拼接了CRF模型。最终构成的LA-BiLSTM-CRF[19]模型可以完成文本的兼语结构边界识别任务,模型结构如图 3所示。
|
| 图 3 LA-BiLSTM-CRF模型结构 |
4 实验设置及结果分析
实验使用的语料是本文构建的面向中文AMR标注体系的兼语结构标注语料。本文的词向量使用预训练的CTB6.0 50维词向量[22],字向量使用word2vec训练的Giga-Word 50维字向量[23],迭代训练次数为30次,其余实验参数与文[19]一致。
为了验证基于字符的神经网络模型以及词典信息的有效性,本文进行了相关的消融实验,实验结果如表 4所示,其中BiLSTM-CRF_W是基于词和词性信息的神经网络模型,BiLSTM-CRF_C是基于字符的神经网络模型。
| 模型 | P/% | R/% | F1/% |
| BiLSTM-CRF_W | 71.72 | 75.87 | 73.73 |
| BiLSTM-CRF_C | 85.52 | 84.34 | 84.93 |
| LA-BiLSTM-CRF | 86.25 | 85.91 | 86.06 |
可以发现, BiLSTM-CRF_C模型的P、R和F1比BiLSTM-CRF_W模型分别绝对高13.80%、8.47%和11.20%,这证明基于字符的神经网络模型缓解了分词及词性标注的错误传播问题,但该模型丢失了句子中包含的词语信息,LA-BiLSTM-CRF模型在此模型的基础上添加了词典信息,识别兼语结构边界的P、R和F1又分别绝对提高了0.73%、1.57% 和1.13%,实验结果证明添加词典信息可以有效提高基于字符的神经网络模型对兼语结构边界识别的效果。
目前为止,兼语结构边界识别的研究工作较少,只有陈静等[11]采用基于特征模板的CRF模型对兼语结构边界进行了识别研究,因此本文使用该模型及特征模板对本文构建的语料进行识别,并将其结果与LA-BiLSTM-CRF模型的结果进行对比,如表 5所示。本文还对比了这2个模型的所有标签识别效果,结果如表 6所示。
| 模型 | P/% | R/% | F1/% |
| CRF | 87.12 | 82.24 | 84.61 |
| LA-BiLSTM-CRF | 86.25 | 85.91 | 86.06 |
| 标签 | P/% | R/% | F1/% | |||||
| CRF | LA-BiLSTM-CRF | CRF | LA-BiLSTM-CRF | CRF | LA-BiLSTM-CRF | |||
| B | 96.32 | 94.32 | 90.93 | 94.70 | 93.55 | 94.51 | ||
| M | 88.58 | 94.03 | 91.43 | 89.15 | 89.98 | 91.52 | ||
| E | 87.53 | 86.50 | 82.63 | 86.84 | 85.00 | 86.67 | ||
从表 5可以发现,LA-BiLSTM-CRF模型识别兼语结构边界的F1比CRF模型绝对高1.45%。CRF模型识别的P略高于LA-BiLSTM-CRF模型。而LA-BiLSTM-CRF模型识别的R比CRF模型绝对高3.67%。从表 6可以发现,2个模型对兼语结构前边界的识别效果最好,后边界识别效果最差。CRF模型对前边界和后边界识别的P比LA-BiLSTM-CRF模型分别绝对高2.00%和1.03%,但LA-BiLSTM-CRF模型对前边界和后边界识别的R比CRF模型分别绝对高3.77%和4.21%,且F1比CRF模型分别绝对高0.96%和1.67%。实验结果证明,CRF模型基于特征模板进行训练,识别结果较为精确,但难以识别包含低频兼语动词及兼语动词存在分词错误的兼语结构。LA-BiLSTM-CRF模型使用向量对句子进行表示,有效提高了兼语结构前边界识别的R和F1。兼语结构本身较为复杂,且前边界识别的错误直接影响后边界的识别效果,因此这2个模型的后边界识别效果较差。总体而言,LA-BiLSTM-CRF模型对3种标签的识别性能都有不同程度的提升,因而有效改善了兼语结构边界识别任务的效果。
5 结论本文根据中文AMR标注体系的特点,制定了一套面向中文AMR标注体系的兼语结构标注规范,并利用此规范对收集的语料进行了兼语结构标注,缓解了面向中文AMR标注体系的兼语语料库缺乏的问题。基于该兼语语料库,本文使用LA-BiLSTM-CRF模型识别兼语结构,避免了分词及词性标注系统造成的错误传播,有效提高了兼语结构的识别效果。该模型缓解了低频兼语动词难以识别的问题,但低频兼语动词的存在仍然影响着兼语结构前边界的识别效果。
下一步仍需要不断标注新的语料,使得模型学习到更多复杂的句子形式,提高模型处理复杂句子的能力。
| [1] |
李斌, 闻媛, 宋丽, 等. 融合概念对齐信息的中文AMR语料库的构建[J]. 中文信息学报, 2017, 31(6): 93-102. LI B, WEN Y, SONG L, et al. Construction of Chinese AMR corpus integrating concept alignment information[J]. Journal of Chinese Information Processing, 2017, 31(6): 93-102. DOI:10.3969/j.issn.1003-0077.2017.06.013 (in Chinese) |
| [2] |
周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004(4): 1-8. ZHOU Q. Chinese syntax tree bank marking system[J]. Journal of Chinese Information Processing, 2004(4): 1-8. DOI:10.3969/j.issn.1003-0077.2004.04.001 (in Chinese) |
| [3] |
郭丽娟. 汉语依存句法分析树库构建与应用研究[D]. 苏州: 苏州大学, 2019. GUO L J. Research on construction and application of Chinese dependent syntax analysis tree bank [D]. Suzhou: Suzhou University, 2019. (in Chinese) |
| [4] |
曲维光, 周俊生, 吴晓东, 等. 自然语言句子抽象语义表示AMR研究综述[J]. 数据采集与处理, 2017, 32(1): 26-36. QU W G, ZHOU J S, WU X D, et al. A survey of AMR research on abstract semantic representation of natural language sentences[J]. Data Collection and Processing, 2017, 32(1): 26-36. (in Chinese) |
| [5] |
胡裕树. 现代汉语[M]. 上海: 上海教育出版社, 1979. HU Y S. Modern Chinese[M]. Shanghai: Shanghai Education Press, 1979. (in Chinese) |
| [6] |
邢福义, 汪国胜. 现代汉语[M]. 北京: 高等教育出版社, 2010. XING F Y, WANG G S. Modern Chinese[M]. Beijing: Higher Education Press, 2010. (in Chinese) |
| [7] |
李婷玉, 王亚, 曹聪. 兼语语义类的分类研究[J]. 计算机应用研究, 2017, 34(1): 15-20. LI T Y, WANG Y, CAO C. A study on the classification of semantic classes of concurrent structure[J]. Application Research of Computers, 2017, 34(1): 15-20. DOI:10.3969/j.issn.1001-3695.2017.01.003 (in Chinese) |
| [8] |
马德全, 王利民. 兼语句的语义分析[J]. 内蒙古民族大学学报(社会科学版), 2010, 36(4): 30-32. MA D Q, WANG L M. Semantic analysis of concurrent sentences[J]. Journal of Inner Mongolia University for Nationalities (Social Science Edition), 2010, 36(4): 30-32. DOI:10.3969/j.issn.1671-0215.2010.04.008 (in Chinese) |
| [9] |
司玉英. 双宾兼语句的语法、语义和语用特征[J]. 内蒙古大学学报(哲学社会科学版), 2010, 42(1): 148-152. SI Y Y. The grammatical, semantic and pragmatic features of double-object sentences[J]. Journal of Inner Mongolia University for Nationalities (Social Science Edition), 2010, 42(1): 148-152. (in Chinese) |
| [10] |
傅成宏. 现代汉语兼语结构的自动识别[D]. 南京: 南京师范大学, 2007. FU C H. Automatic recognition of modern Chinese concurrent structure [D]. Nanjing: Nanjing Normal University, 2007. (in Chinese) |
| [11] |
陈静, 王东波, 谢靖, 等. 基于条件随机场的兼语结构自动识别[J]. 情报科学, 2012, 30(3): 439-443. CHEN J, WANG D B, XIE J, et al. Automatic recognition of concurrent structure based on conditional random field[J]. Information Science, 2012, 30(3): 439-443. (in Chinese) |
| [12] |
PINHERIO R C P H O, PEDRO H. Recurrent convolutional neural networks for scene parsing [C]//International Conference of Machine Learning. Beijing, China: International Machine Learning Society (IMLS), 2014, 32(1): 82-90.
|
| [13] |
CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370. DOI:10.1162/tacl_a_00104 |
| [14] |
LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, CA, USA: Association for Computational Linguistics, 2016: 260-270.
|
| [15] |
ZHANG Y, YANG J. Chinese NER using lattice LSTM [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 1554-1564.
|
| [16] |
王婷婷. 现代汉语兼语式的句法研究[D]. 烟台: 鲁东大学, 2017. WANG T T. A syntactic study of bi-Constituent construction in mandarin Chinese [D]. Yantai: Ludong University, 2017. (in Chinese) |
| [17] |
张志公. 修辞概要[M]. 上海: 上海新知识出版社, 1957. ZHANG Z G. Rhetorical summary[M]. Shanghai: Shanghai New Knowledge Press, 1957. (in Chinese) |
| [18] |
周强, 张伟, 俞士汶. 汉语树库的构建[J]. 中文信息学报, 1997(4): 43-52. ZHOU Q, ZHANG W, YU S W. Construction of Chinese tree bank[J]. Journal of Chinese Information Processing, 1997(4): 43-52. (in Chinese) |
| [19] |
MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, WA, USA: Association for Computational Linguistics, 2020: 5951-5960.
|
| [20] |
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. 2017: 5998-6008.
|
| [21] |
GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610. |
| [22] |
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]//Neural Information Processing Systems. Harrahs and Harveys, Lake Tahoe, USA: Advances in Neural Information Processing Systems, 2013: 3111-3119.
|
| [23] |
XUE N, XIA F, CHIOU F D, et al. The Penn Chinese TreeBank: Phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238. |



