基于依存树的藏语语义分析
夏吾吉1,2, 华却才让1     
1. 青海师范大学 藏文信息处理教育部重点实验室, 西宁 810008;
2. 青海师范大学 民族师范学院, 西宁 810008
摘要:藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究。该文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,实现了藏语语义依存分析。在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用感知机进行了藏语语义依存分析模型的训练,经实验该模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达到了89.56%、78.63%、71.67%及32.32%,证实了该模型在藏语语义依存分析任务中具有良好的性能。
关键词藏语语义    依存分析    标注规范    感知机模型    
Dependency tree based Tibetan semantic dependency analysis
XIA Wuji1,2, HUAQUE Cairang1     
1. Tibetan Information Processing Key Laboratory of Ministry of Education, Qinghai Normal University, Xining 810008, China;
2. Normal College for Nationalities, Qinghai Normal University, Xining 810008, China
Abstract: Tibetan semantic dependence analysis is a deep semantic study based on Tibetan-dependent syntactic analysis. This paper starts from the shallow research of lexical analysis and syntactic analysis, and combines the characteristics of Tibetan grammatical structure and semantic unit to realize the semantic dependence analysis of Tibetan for the first time. Under the premise of formulating the Tibetan semantic dependency labeling specification and designing the Tibetan semantic dependency feature template, the perceptual machine is used to train the Tibetan semantic dependence analysis model. The experimental results show that the root accuracy, dependency arc accuracy, dependent arc type accuracy and complete accuracy of the model on manual labeling test corpus reached 89.56%, 78.63%, 71.67% and 32.32%, respectively, which confirmed that the model has good performance in Tibetan semantic dependence analysis tasks.
Key words: Tibetan semantics     dependency analysis     annotation specification     perceptron model    

近年来,随着网络信息技术的普及和迅速发展,信息交流日益频繁,藏文信息量急剧增长,藏族地区对藏语自然语言处理技术的需求也越来越大。信息界的相关研究者对藏文进行了分词[1]、词性标注[2]、句法分析[3-4]等研究工作,其中藏文分词和词性标注分析技术已经比较成熟,并已经广泛应用于藏语机器翻译、命名实体识别和问答系统等应用领域中,但它们是属于藏语自然语言处理的基础和浅层研究工作,若要对藏语进行更深层次的研究,那么对藏语语义层面的研究和分析是最重要的,这也是有效提升藏语信息处理研究层次的重要任务。藏语语义分析作为藏语自然语言处理的深层研究,其研究成果能直接应用到藏语信息抽取、机器翻译和自动问答等领域。目前,中文和英文方面,相关研究者已经做了不少研究,并且基本形成了语义依存分析体系[5-9]。相关藏语语义依存方面,华却才让等[3-4]采用了基于判别式模型,提出了不同句型的藏语依存句法分析方法;扎西加等[10]结合藏语语法体系,设立了符合藏语语法体系的依存标注关系体系,设计了基于判别式的句法分析算法;祁坤钰[11]参考了Frame Net、Prop Bank和北大中文网库等资源库,制定了藏文语义角色标注体系。但是,目前藏语还没有统一使用于信息处理的依存语法分析体系,缺乏针对藏语的语义依存分析技术,导致藏语句子的深层理解缺乏更新颖的平台,不能为藏语的自然规律和相关研究提供实践性检验和支撑数据依据。为此,本文将通过感知机模型对藏语进行语义依存分析。

1 藏语语义依存标注体系

语义依存分析建立在依存理论基础上,依存语法通过分析句子中各语义成分之间的语义依存关系揭示句子的语义依存结构[12]。依存语法是1959年由法国语言学家L.Tesniere首次提出的,1970年计算语言学家J.Robinson提出了依存语法中关于依存关系的4条公理[13]:1)一个句子中只有一个核心成分;2)其他成分依存于某一成分;3)任何一个成分不能依存与其他两个或两个以上的成分;4)依存成分之间不能相互交叉。若对句子进行能够正确有效地分析语义依存关系,那么从以上4条原则的基础上进行展开。

藏语语义依存分析是藏语词语、短语、从句以及藏语句子的语义分析过程,并且面向整个句子。给出一个藏文句子:“(达哇 叔叔 经常 给 本村 的 妇女们教苏吉尼玛戏。)”,该句子的语义依存分析结构如图 1所示。

图 1 藏语语义依存分析结构

图 1中依存弧的箭头方向由核心节点指向修饰节点。从该图可以看出,在句子中语义依存不仅分析了核心动词的语义关系,比如:核心动词“(教)”与其修饰词“(戏)”和“(经常)”等之间的语义关系Cont(客事关系)和mFreq(频率角色);还分析了短语内部的语义关系,比如:句子中的名词短语“(本村的妇女们)”中名词“(本村)”与“(妇女们)”之间的语义关系为Poss(领事关系)等。

1.1 语义依存关系标注原则

藏语语义依存分析将藏语句子的语义信息融合到依存结构当中,依存结构描述句子中每个语义单位与它修饰的另一个语义单位之间的语义依存关系,一个完整的语义依存结构是一个树形结构,树中每个语义单位用一条有向依存弧进行连接,同时在弧上标记相应的依存弧关系类型。具体标注原则包括:1)依存树中除了句子的核心成分之外还有一个全句的核心语义标签,那就是依存树的根节点(root);2)藏语句子中找出存在语义关系的依存词对,并用有向弧进行连接;3)依存弧上标注相应的依存弧关系类型;4)藏语语义依存树是个有向无环图,依存弧方向由核心节点指向修饰节点;5)对藏语句子进行语义依存分析时,不仅分析整句的核心词与其他语义单位之间的语义依存关系,还要分析语义单位内部词语间的语义依存关系。

1.2 标注规范

藏语语义依存关系标注集划分的粗细程度决定了藏语语义依存标注的“颗粒度”。如果语义依存弧类型划分得过细,标注集过于庞大,那么对藏语句子进行语义依存标注时,增加标注难度,降低标注效率,导致标注关系之间存在细微的差别而会产生标注的严重不一致性。另外,语料库规模不够大时,类划分得过细,统计数据的稀疏问题更加严重,同时分析模型的鲁棒性也会受到很大影响。如果依存弧类型划分得过粗,又无法全面地描述藏语的特征及复杂现象。本文制定藏语语义依存关系标注规范时,借鉴了汉语等语言的语义依存关系标注制定经验,同时以藏语自身的特征和语言现象作为依据,制定了62种依存弧关系类型,其中有23种语义关系、20种语义角色、15种语义标记和4种特殊关系。依存弧关系类型及标签如表 1所示。

表 1 藏语语义依存关系标注集
序号 依存弧类型 标签
1 施事关系 Agt
2 感事关系 Aft
3 受事关系 Pat
4 成事关系 Prod
5 涉事关系 Datv
6 当事关系 Exp
7 领事关系 Poss
8 客事关系 Cont
9 源事关系 Orig
10 并列关系 eCoo
11 等同关系 eEqu
12 递进关系 eProg
13 先行关系 ePrec
14 顺承关系 eSucc
15 转折关系 eAdvt
16 原因关系 eCau
17 结果关系 eResu
18 推论关系 eInf
19 条件关系 eCond
20 方法关系 eMetd
21 目的关系 ePurp
22 割舍关系 eAban
23 总括关系 eSum
24 比较角色 Comp
25 属事角色 Belg
26 类事角色 Clas
27 依据角色 Accd
28 方式角色 Mann
29 工具角色 Tool
30 材料角色 Malt
31 时间角色 Time
32 空间角色 Loc
33 历程角色 Proc
34 趋向角色 Dir
35 范围角色 Sco
36 数量角色 Quan
37 数量数组 Qp
38 频率角色 Freq
39 顺序角色 Seq
40 描写角色 Desc
41 宿主角色 Host
42 名字修饰角色 Nmod
43 时间修饰角色 Tmod
44 连词标记 mConj
45 的字标记 cAuxm
46 作格标记 cAuxm
47 介词标记 cAuxm
48 语气标记 mTone
49 程度标记 mDegr
50 插入语标记 mPars
51 否定标记 mNeg
52 情态标记 mMod
53 标点标记 mPunc
54 重复标记 mPept
55 多数标记 mMaj
56 助词标记 mAux
57 词缀标记 mSuf
58 接续标记 mCont
59 根节点 Root
60 不确定关系 Uncertainty
61 反角色 r+main role
62 嵌套角色 d+main role

2 藏语语义依存结构分析

为了验证藏语语义依存标注规范的有效性,本文将针对藏语句子的语法特点、构词规律以及句子类型,对不同句型的藏语句子:陈述句()、疑问句()、祈使句()及感叹句()等进行语义依存分析,在不同句型的藏语句子中找出语义单位之间的依存关系分布特征和规律。对不同句型的藏语句子,其语义依存结构特征如表 2所示。

表 2 藏语句子类型及语义依存结构特征
句型 描述 举例 依存结构特征
陈述句 说话人用来陈述某一件事或回答某一个问题的句子[14] a)藏语陈述句的普遍语义结构为:施事+受事+谓词;
b)施事关系一般支配作格标记;
c)谓词一般处在句子末尾;
d)谓词一般支配客事关系、成事关系或涉事关系。
疑问句 具有疑问语调的表示提问的句子。 a)藏语疑问句的普遍语义结构为:施事+受事+谓词+语气标记;
b)句末出现的离合词一般都是语气标记;
c)谓词一般支配语气标记;
d)疑问代词及其对应的支配词之间的语义关系类型由该依存词对的上下文确定。
祈使句 说话人用来表示祝愿、命令、请求、禁止等语气的句子。 a)藏语祈使句的普遍语义结构为:施事+受事+谓词+助词标记;
b)表示祈使意义的词一般都在句末;
c)谓词一般支配助词标记。
感叹句 带有浓厚感情的句子。一般由感叹词构成,处在句子的首位。 a)藏语感叹句的普遍语义结构为:语气标记+施事+受事+谓词;
b)谓词一般支配语气标记。

3 语义依存分析模型

许多机器学习方法都适用于语义依存分析问题,比如最大熵、条件随机场和神经网络等。由于感知机模型非常成熟,是神经网络的基础,因此本文采用感知机模型来解决藏语语义依存分析问题。

感知机模型是一个二类线性分类模型,该模型将可以求出数据划分的分离超平面,其方程可以表示如下:

$ \mathit{\boldsymbol{\lambda \cdot x}} + b = 0. $ (1)

感知机模型能够将实例分为正、负两类,其分类如图 2所示。

图 2 感知机模型

图 2b表示超平面截距,λ表示超平面的法向量,圆圈表示正类,星星表示负类,正、负两类之间的直线为分离超平面,该平面将所有的样本划分为两个部分,其中正类位于分离超平面上方,记作+1;负类位于分离超平面下方,记作-1。假定一个样本的特征向量为x,若λ·x+b>0,则样本属于正类(+1);反之,若λ·x+b < 0,则样本为负类(-1)。

对于二类线性分类问题,假设给定一个线性可分的nd维样本输入集X={xm|xmRd, m=1, 2, …, M},输出集Y={ym|ym∈{+1, -1}, m=1, 2, …, M},那么分离超平面可以用以下符号函数表示:

$ {\rm{sign}}\left( x \right) = \left\{ {\begin{array}{*{20}{c}} { + 1, }&{x \ge 0;}\\ { - 1, }&{x < 0.} \end{array}} \right. $ (2)

由此可以得到输入空间和输出空间函数

$ f\left( x \right) = {\rm{sign}}\left( {\mathit{\boldsymbol{\lambda \cdot x}} + b} \right). $ (3)
4 特征提取及训练 4.1 特征提取

判别式模型强烈依赖分类特征的设计。本文借鉴了Park等[15]的部分特征,如词性、距离及词形特征等,加入了父节点信息及语义标签,用一元特征(unigram)、二元特征(bigram)、三元特征(trigram)的上下文信息作为基本特征。此外,根据藏文自身的特点以及藏语句子中所有格助词与其前驱词之间必须满足的接续规则,还加入了语料内部依存词对搭配的频率特征以及距离特征等。具体特征模板如表 3所示。

表 3 藏语语义依存分析特征模板
特征项 n-gram特征 特征集
basic unigram word_c,pos_c,word_f,pos_f,word_c-1,pos_c-1,word_f-1,pos_f-1,word_c+1,pos_c+1,word_f+1,pos_f+1
bigramword_c-1 +word_c,pos_c-1+pos_c,word_f-1+word_f,pos_f-1+pos_f,word_c+1+word_c,pos_c+1+pos_c,word_f+1+word_f,pos_f+1+pos_f,word_c+word_f,word_f+pos_c,pos_f+word_c,pos_f+pos_c
trigramword_c-1 +word_c+word_c+1,pos_c-1+pos_c+pos_c+1,word_f-1+word_f+word_f+1,pos_f-1+pos_f+pos_f+1
distd_ word_c+word_f,d_ word_c+pos_f,d_ pos_c+word_f,d_ pos_c+pos_f
combined Unigram+Bigram+Trigram+Dist

藏语语义依存分析特征模板内容分为2类:

1) basic表示基本特征,包括一元特征、二元特征、三元特征和距离特征,其中一元特征表示单个父节点或子节点的特征信息;二元特征为包含父节点、子节点共同的特征信息;三元特征表示父节点或子节点以及它们的前一个与后一个词共同构成的特征信息;距离特征表示依存词对father与child间距离和顺序等构成的特征信息。

2) combined表示basic中的4个特征相互组合后得到的新的特征。

表 3中,word_f为依存树中父节点的词;pos_f为父节点的词性;word_c为依存树中子节点的词;pos_c为子节点的词性;word_c-1为子节点的前一个词;pos_c-1为子节点前一个词的词性;word_f-1为父节点的前一个词;pos_f-1为父节点前一个词的词性;word_c+1为子节点的后一个词;pos_c+1为子节点后一个词的词性;word_f+1为父节点的后一个词;pos_f+1为父节点后一个词的词性;d为依存词对之间所包含其他词(或依存节点)个数。

4.2 特征训练

对于有监督的判别式模型,Onling训练算法是一种边缘最大化的学习算法[16],在英文、汉文等的文本分类、序列标注和依存分析等问题的处理上表现出了很好的性能[17]。因此,本文采用Onling算法进行训练(见图 3)。

图 3 算法1

上述算法中第5步需要权重在线更新。本文采用的权重训练方法是MIRA(margin infused relaxed algorithm),表示如下:

$ \begin{array}{c} \min \left\| {{\mathit{\boldsymbol{\lambda }}^{(i + 1)}} - {\mathit{\boldsymbol{\lambda }}^{(i)}}} \right\|, \\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\;\forall {y^*} \in d{m_{k - {\rm{best}}}}({x_m}), \\ {\rm{score}}({x_m}, {y_m}) - {\rm{score}}({x_m}, {y^*}) \ge {\rm{Loss}}({y_m}, {y^*}). \end{array} $ (4)

式(4)的含义是尽量小的调整当前特征权重向量的值,使得对于k-best中任意一个语义依存树,如果损失得越多,那么其概率就越小,并满足不等式(4)。其中:xm表示未标注语义关系的依存骨架树,ym表示训练语料中已准确标注语义关系的依存树,∀y*∈dmk-best(xm)为根据当前权重向量λ(i)得到的k-best语义依存树。score(xm, ym)为ym采用当前权重向量所计算出来的概率,score(xm, y*)为y*的概率。Loss(ym, y*)为语义依存树y*的损失值,该损失值可以定义为语义关系标注错误数,可以表示为

$ \begin{array}{c} {\rm{Loss}}\left( {{y_m}, {y^*}} \right) = \\ {\rm{arc\_err}}({y_m}, {y^*}) + {\rm{label\_err}}({y_m}, {y^*}). \end{array} $ (5)
5 实验 5.1 评测指标

本文对藏语语义依存分析的评价方法沿用依存句法分析评价方法,即以下4种评价指标:

1) 只考虑语义依存弧及其方向,而不考虑依存弧的类型UAS(unlabeled attachment score),计算方法表示如下:

$ {\rm UAS}= \frac{{依存弧正确的词语数目}}{{句子中所有词语数目}}×100\%. $ (6)

2) 既考虑语义依存弧及其方向,又考虑依存弧的关系类型LAS(labeled attachment score),计算方法表示如下:

$ \begin{array} [c]{c} {\rm LAS}= \\ \frac{{依存弧及语义关系均正确的词语数目}}{{句子中所有词语的数目}}×100\%. \end{array} $ (7)

3) 测试集中根节点准确的句子数目与所有句子数目的百分比RA(root accuracy),计算公式表示如下:

$ {\rm RA}=\frac{{根节点正确识别的句子数目}}{{所有句子的数目}}×100\%. $ (8)

4) 测试集中语义依存分析完全正确的句子数目与所有句子数目的百分比CM(complete matsumoto),计算公式表示如下:

$ {\rm CM}=\frac{{依存分析完全正确的句子数目}}{{所有句子的数目}}×100\%. $ (9)
5.2 实验结果及分析

本文将节2中介绍的语义依存标注原则及标注规范作为依据,从藏文网站上相关各个领域,包括日常用语、法律文献、小说、新闻、童话等中筛选句子,由青海师范大学分词标注工具对句子进行词法分析后,人工构建了1 500句藏语语义依存树库,其中1 200句作为训练集,300句作为测试集,测试集句子平均长度为14个词。通过感知机模型在测试集上做了实验,具体实验结果如表 4所示。

表 4 藏语语义依存分析实验结果(%)
特征项 RA UAS LAS CM
Basic 89.39 76.92 70.03 30.01
combined 89.56 78.63 71.67 32.32

根据表 4,观察实验结果中的错误信息,提取了语义依存弧及依存弧类型错误的藏语句子,发现以下2种情况的错误较明显:

1) 等同关系(eEqu),测试集中含有多个名词和指代词的句子(比如:“”)较多,该句中出现了3个名词和3个代词,其中有语义关联的词对是“”和“”、“”和“”以及“”和“”,这种现象涉及到指代消解问题,用机器难以分析,导致产生了识别错误现象。

2) 带有从句的复合句,本文训练集侧重于简单句型,且以政府文献和日常用语作为取材,而测试集中带有从句的复合句子(比如:“”等)较多,测试集中还包含法律文献和医学等特殊文献的句子,这种问题机器不易识别,导致影响了实验结果。

6 结语

本文详细介绍了藏语语义依存分析方法,包括制定藏语语义依存标注规范和设计藏语语义依存分析特征模板,并采用感知机模型在测试集上,通过基本特征和组合特征对藏语句子的语义依存根、依存弧、依存弧关系类型以及完全匹配率进行了分析和训练。经实验证明,语义依存根准确率为89.56%,依存弧准确率为78.63%,依存弧类型准确率为71.67%,完全准确率为32.32%。这些数据为藏语语义依存分析后续的工作提供了数据支撑和理论依据。但是,本文标注的训练语料规模较小,不能完全覆盖藏语言的语义现象。如今,如何从大规模未标注的藏语语料中获取有用信息来帮助藏语语义依存分析模型问题是值得思考的。因此,下一步将扩建藏语语义依存分析语料库规模,并尝试采用支持向量机和神经网络等方法对藏语进行语义依存分析,比较不同模型及方法的优劣。

参考文献
[1]
李亚超, 加羊吉, 江静, 等. 融合无监督特征的藏文分词方法研究[J]. 中文信息学报, 2017, 31(2): 71-75.
LI Y C, JIA Y J, JIANG J, et al. Study on fusion of unsupervised features for Tibetan word segmentation[J]. Journal of Chinese Information Processing, 2017, 31(2): 71-75. (in Chinese)
[2]
郑亚楠, 珠杰. 基于词向量的藏文词性标注方法研究[J]. 中文信息学报, 2017, 31(1): 112-117.
ZHENG Y N, ZHU J. A method of tibetan POS tagging based on distributed representation[J]. Journal of Chinese Information Processing, 2017, 31(1): 112-117. (in Chinese)
[3]
华却才让, 赵海兴. 基于判别式的藏语依存句法分析[J]. 计算机工程, 2013, 39(4): 300-304.
HUA QUE C R, ZHAO H X. Tibetan text dependency syntactic analysis based on discriminant[J]. Computer Engineering, 2013, 39(4): 300-304. DOI:10.3969/j.issn.1000-3428.2013.04.069 (in Chinese)
[4]
华却才让, 赵海兴. 藏文复合句的依存句法分析[J]. 中文信息学报, 2016, 30(6): 224-229.
HUA QUE C R, ZHAO H X. Dependency parsing of tibetan compound sentence[J]. Journal of Chinese Information Processing, 2016, 30(6): 224-229. (in Chinese)
[5]
李明琴, 李娟子, 王作英, 等. 中文语义依存关系分析的统计模型[J]. 计算机学报, 2004, 27(12): 1679-1687.
LI M Q, LI J X, WANG Z Y, et al. A statistical model for parsing semantic dependency relations in a Chinese sentence[J]. Chinese Journal of Computers, 2004, 27(12): 1679-1687. DOI:10.3321/j.issn:0254-4164.2004.12.013 (in Chinese)
[6]
周亮俊, 向阳. 基于语句压缩的中文中文语义依存分析[J]. 计算机应用, 2017, 37(S1): 266-269.
ZHOU L J, XIANG Y. Chinese semantic dependency parsing based on sentence compression[J]. Journal of Computer Applications, 2017, 37(S1): 266-269. (in Chinese)
[7]
LI Y M, SH Y Q. Annotating Chinese noun phrases based on semantic dependency graph[J]. International Journal of Asian Language Processing, 2017, 27(1): 47-60.
[8]
HAO P, THOMSON S, SMITH N A. Deep multitask learning for semantic dependency parsing[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Vancouver, Canada, 2017: 2037-2048. https://arxiv.org/pdf/1704.06855.pdf
[9]
丁宇.基于依存图的中文语义分析[D].哈尔滨: 哈尔滨工业大学, 2014.
DING Y. Dependency-graph based Chinese semantic parsing[D]. Harbin: Harbin Institute of Technology, 2014. (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10213-1014081837.htm
[10]
扎西加, 多拉. 藏语依存树库构建的理论与方法探析[J]. 西藏大学学报(自然科学版), 2015, 30(2): 76-83.
GYAL T, DUO L. Theory and method of Tibetan dependency treebank construction[J]. Journal of Tibetan University, 2015, 30(2): 76-83. (in Chinese)
[11]
祁坤钰. 基于依存关系的藏文语义角色标注研究[J]. 西北民族大学学报(哲学社会科学版), 2014(1): 139-143.
QI K Y. Research on tibetan semantic role labeling based on dependency[J]. Journal of Northwest University for Nationalities (Philosophy and Social Science), 2014(1): 139-143. DOI:10.3969/j.issn.1001-5140.2014.01.022 (in Chinese)
[12]
SUN W, CAO J J, WAN X J. Semantic dependency parsing via book embedding[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada. 2017. https://aclweb.org/anthology/P17-1077
[13]
Robinson. Dependency structures and transformation rules[J]. Language, 1970, 46(2): 259-285. DOI:10.2307/412278
[14]
格桑居冕. 实用藏文文法[M]. 成都: 四川民族出版社, 1987.
GE S J M. Practical Tibetan grammar[M]. Chengdu: Sichuan National Publishing House, 1987. (in Chinese)
[15]
PARK K M, HWANG Y S, RIM H C. Two-phase semantic role labeling based on support vector machines[J]. Proceedings of Conll, 2004, 126-129.
[16]
车万翔, 张梅山, 刘挺. 基于主动学习的中文依存句法分析[J]. 中文信息学报, 2012, 26(2): 18-22.
CHE W X, ZHANG M S, LIU T. Active learning for Chinese dependency parsing[J]. Journal of Chinese Information Processing, 2012, 26(2): 18-22. DOI:10.3969/j.issn.1003-0077.2012.02.004 (in Chinese)
[17]
MCDONALD R, LERMAN K, PEREIRA F. Multilingual dependency analysis with a two-stage discriminative parser[C]//Proceedings of the Tenth Conference on Computational Natural Language Learning. New York, USA, 2006: 216-220. https://www.seas.upenn.edu/~strctlrn/bib/PDF/conll2006.pdf