自然语言处理研究自20世纪90年代从规则系统时代进入到统计模型时代以来,标注语料库资源建设就成为很多研究工作必不可少的基础。近年来,随着深度学习技术的发展,自然语言处理研究取得了巨大突破。与传统机器学习技术相比,基于深度学习的神经网络模型可以灵活设置参数规模,因此更加依赖大规模、高质量的有答案数据。一方面,有监督学习方法需要输入数据和对应的答案,以便学习模型参数。另一方面,评价阶段也需要已知答案的数据,从而比较和分析不同模型的优劣。很多研究者致力于数据标注工作,通过语言数据联盟(Linguistic Data Consortium, LDC, https://www.ldc.upenn.edu/)、欧洲语言资源协会(European Language Resources Association, ELRA, http://www.elra.info/)等平台发布数据。此外,工业界常常遇到一些具体问题,需要有针对性地从无到有标注数据以训练模型。因此,对数据标注方法进行系统研究,是一项兼具学术和应用价值的工作。
数据标注主要考虑两方面因素:标注数据质量和标注成本。因此,不同标注方法的对比也应该从这两方面入手。标注数据质量高是指标注结果能够准确地区分输入数据,对于模棱两可的情况,不同标注者也不存在分歧。标注错误主要有3种来源:1) 无规律的明显错误。其产生原因通常是误操作、注意力不集中或态度不认真、对标注指南不熟悉。2) 同一标注人员对标注指南理解产生变化而导致的有规律的不一致错误。3) 不同标注人员对标注指南理解不同而产生的不一致错误。无论是哪种错误,都会给模型训练和评价带来很大的干扰。
人工数据标注的另一个重要考虑因素是标注成本,包括人力、财力和时间成本。质量和成本这两个因素通常是矛盾的。多个人独立标注同一个任务,由能力更强的标注人员对不一致的结果进行审核,是最直接、有效的提高质量的做法,但是明显会增大标注成本。
数据标注方法对数据质量和标注成本都有很大影响。常用的数据标注方法包括:人标人校、机标人校和多人独立标注。其中的机标人校是一种最典型的人机协同方式,可以有效降低标注成本。为此,大多数数据标注工作采用了机标人校进行大规模标注,如宾州英文树库[1]、宾州中文树库[2]、中文句结构树资料库[3]、北大多视图汉语树库[4]、北大人民日报词法数库[5]、清华汉语树库[6]。人标人校和多人独立标注方法通常在测试集标注或项目初始阶段时采用[7-8], 后者也常用于计算标注的一致性[2, 9]。
目前,大多数研究者仅仅将数据标注的实施过程看成一个繁琐的工程性工作,鲜有学者从方法论的层面出发、从数据质量和标注成本两个方面进行严格实验对比,分析不同标注方法的优劣。
基于过去几年从事的依存句法树标注研究,本文作者依托成熟的标注团队,以依存句法树标注为案例,通过严格实验,对比了不同标注方法对标注质量和成本的影响。
依存句法分析的目标是给定输入句子,构建一棵依存句法树,捕捉句子内部词语之间的修饰或搭配关系,从而刻画句子的句法和语义结构[10]。图 1为一棵依存句法树的示例。其中$是一个伪词,指向句子根节点。作为依存句法树的最基本单元,一条依存弧包含3个要素:核心词(父亲)、修饰词(儿子)和依存关系标签。例如,“奶奶
![]() |
图 1 依存句法树示例 |
本文的主要工作如下:1) 对目前已有的数据标注工作进行了深入调研,总结出几种常用的数据标注方法;2) 提出一种人机协同标注方法,并命名为人机独立标注;3) 通过严格实验,比较了机标人校、双人独立标注、人机独立标注3种标注方法对于标注质量和成本的影响。
1 相关工作调研和分析本节调研并总结了数据标注方法方面的相关工作,主要关注词法句法语义分析、信息抽取等确定性答案的数据标注工作,不涉及机器翻译、对话等开放性答案的数据标注工作。
1.1 人标人校方法自动内容抽取(automatic content extraction, ACE)数据集[11]主要目的是支持多语言信息抽取研究,涵盖了实体识别、事件抽取等任务,主要采用人标人校的标注方法。在自然语言处理领域的标注项目中,采用人标人校方法的案例较少,常在项目初期使用。其主要原因是人标人校方法存在两个问题:1) 标注者的精力浪费问题。对于密集操作型的标注任务,即标注一个数据需要很多次鼠标点击或键盘输入等操作,标注者的大部分精力花在操作上,而实际分析和理解数据所占的精力较少。2) 校对者的认同倾向。由于人的思维惰性,校对者往往会倾向于认同前面的标注结果,导致遗漏标注错误,因此校对阶段的错误纠正率,即纠正的错误数相比于真实的错误数,通常会比较低。
1.2 机标人校方法机标人校方法是一种最常用的人机协同标注方法,可加快标注速度和降低人工成本。相比人标人校方法,机标人校方法可以解决标注者的精力浪费问题。首先,机器在数据上自动产生标注结果,然后由校对者定位并修改结果中的错误。所谓机器是指在已有标注数据上训练过的机器学习模型。对于密集操作型的标注任务,机器的大部分结果很可能是对的,因此只需要校对者进行少量的操作,就可以完成标注。并且,随着标注数据的增多,可以重新训练模型,不断提高机器的性能,进一步提高标注准确率。
大多数标注数据集采用机标人校方法进行大规模标注。宾州树库(Penn treebank, PTB)[1]对超过450万个单词的英文语料进行了词性和短语结构句法树标注。项目初期,他们采用了第三方自动标注工具,产生词性和句法标注结果;然后对不符合PTB标注指南的结果,基于规则匹配进行自动转换;最终由语言学家进行校对,确定答案。在获得一定量的标注数据之后,他们将其作为训练数据训练了统计模型,继续以机标人校的方式扩大语料库规模。中文句结构树资料库[3]、北大人民日报词法数库[5]、清华汉语树库[6]、宾州中文树库(Penn Chinese treebank, CTB)[2]、北大多视图汉语树库[4]均采用机标人校的标注方法。
机标人校方法可能存在冷启动问题,即项目初期没有任何标注数据来训练模型。在这种情况下,就需要用一些简单的规则来产生结果。PTB项目中的做法值得参考,即利用相关资源得到初步结果,然后根据标注指南进行规则转换。
机标人校的方法同样存在校对者的认同倾向问题,即校对者倾向于认为机器的标注结果是正确的,从而导致纠错率较低。由于标注得到的语料会继续用来训练模型,因此修正的错误会越来越少。这样就会导致一个更严重的面向模型收敛的问题,即整个数据标注项目的目标会转变为快速提高模型准确率,而非标注出高质量的数据。一个好的标注项目应该是面向问题收敛的,即通过标注指南精确刻画问题,并严格按照标注指南区分不同数据。
1.3 多人独立标注多人独立标注过程中,多个标注者对同一个数据进行独立标注,且标注过程中不会看到别人的结果,因此可以从根源上解决认同倾向问题。如果多个标注者标注结果相同,那么就作为最终答案;否则,则通过某种方式对多个结果进行对比,并确定最终答案,通常采用审核或投票的方式。多人独立标注在数据标注实践中被广泛使用,例如捷克语依存树库(Prague dependency treebank, PDT)[12]、中文抽象语义表示(Chinese abstract meaning representation,CAMR)语料库[13]、阿姆斯特丹隐喻语料库[14]、苏州大学汉语开放依存树库[15]。多人独立标注的明显优势是可以发掘对问题的理解差异,促进标注指南的完善、标注者水平的提高等。但是,很显然,多人独立标注的标注成本非常高。因此,研究者通常在3种场景下采用多人独立标注方法:1) 项目初期[8, 16];2) 标注测试集数据时[7];3) 计算标注一致性时[2, 9]。
1.4 多人独立标注和机标人校的结合对于密集操作型任务,多人独立标注存在非常严重的精力浪费问题。一个很自然的解决思路是将多人独立标注与机标人校方法相结合。德语TIGER树库包含3.5万句德语新闻句法标注语料[17]。标注过程中,他们首先用自动分析器生成结果。进而,每个句子由两位标注人员独立标注,即纠正机器的错误。对于不一致的结果,两个标注者会进行讨论,形成唯一答案。
这种融合方法仍然存在认同倾向问题,并导致面向模型收敛的问题。也许建立多个不同的机器学习模型,将不同模型的结果给不同的标注人员,形成差异化,可以从一定程度上缓解这些问题。
1.5 不同标注方法的对比研究在数据标注研究工作中,极少看到学者对不同标注方法进行严格对比,以探讨标注方法对标注质量和成本的影响。很显然,客观、公平地比较多种标注方法,并取得具有较普遍适用性的结论,是一项代价很高的工作。
宾州树库在开展词性标注任务的早期,为了平衡标注速度、标注人员一致性和准确率,实验对比了人工标注和机标人校[1]。实验结果表明:人工标注比机标人校所用标注时间长大约2倍,标注人员不一致率高2倍,错误率高达50%左右。宾州中文树库上的实验结果也类似,说明在句法标注任务上,机标人校的标注速度显著高于完全使用人工标注[2]。但是,这两个研究是对人机协同标注方法的早期探索,对实验的细节介绍很简略,并且规模非常小。
由于缺乏方法层面的比较研究,数据标注项目在选择标注方法时缺少可靠的参考信息。
2 标注方法本文重点比较和分析了3种数据标注方法,即机标人校、多人独立标注以及本文提出的人机独立标注。其中: 机标人校方法被很多数据标注项目采用,是一种主流的标注方法;而多人独立标注则在计算标注一致性和产生高质量的测试集数据时被广泛采用; 本文提出的人机独立标注方法是对机标人校和多人独立标注方法的一种融合。
2.1 机标人校本文实验中采用的机标人校流程如图 2所示。对一个待标注样本,首先由模型产生自动标注结果,然后交给标注人员校对。因为人机独立标注方法中为了确定唯一答案,含有审核过程,为了提高两种标注方法的可比性,所以在机标人校方法中增加了二次校对。二次校对由更有经验、准确率更高的标注人员完成。
![]() |
图 2 机标人校 |
2.2 双人独立标注
本文实验中采用的双人独立标注(如图 3所示)是多人独立标注的一种常见形式。每个待标注任务由两个标注人员独立标注,如果答案一致,则任务完成,如果答案不一致,则由经验更丰富的标注人员进行审核,确定最终答案。
![]() |
图 3 双人独立标注 |
2.3 人机独立标注
基于对机标人校和多人独立标注的分析,若能结合两者优势,则可以在降低成本的同时解决认同倾向问题。本文提出一种人机协同的标注方法,即人机独立标注,将机器自动标注的答案作为待标注任务的一个标注答案,再由标注人员独立给出另一个标注答案,独立标注强调的是标注人员无从得知机器标注的答案。如图 4所示,如果标注人员和机器给出的标注答案不一致,则交由审核专家确定,如果标注答案一致,则任务完成。
![]() |
图 4 人机独立标注 |
人机独立标注方法类似于双人独立标注方法,因此同样也能从根源上解决校对者的认同倾向问题。并且,该方法将其中近一半的人力替换成机器,作为人机协同的标注方法,具有借助机器减少标注成本的优点。因此,人机独立标注兼具机标人校和双人独立标注的优点。
此外,人机独立标注不仅限于本文实验所采用的形式。它可以是一人一机,也可以是一人多机、多人一机或多人多机。使用多个机器自动标注答案,可以有效利用不同机器学习模型各自的优势,挖掘不一致性,为数据分析提供多样化的信息。对质量要求相对不高的标注项目,在后续的审核过程中也可以用多数投票确定最终答案,以便进一步节省成本。人机独立标注在开放性答案的标注任务或众包任务中,也具备应用前景。
3 数据 3.1 数据来源数据标注实验涉及人工劳动,因此成本比较高。同时,为使数据标注实验的结果能够符合实际的项目需求,从而具有更大的价值,本文选择了2个来源的数据:1) 北语句法结构树库1.0[18],包含了百度百科、新浪和新华社新闻、国家专利等文本。2) 机器翻译中英对齐文本(MT02-MT06)[19],主要来自法新社和新华社新闻。
本文重点比较机标人校、双人独立、人机独立3种标注方法。但是,为了控制实验的复杂度,以人机独立标注为枢轴,首先在第1个来源的数据上对比机标人校和人机独立标注方法,然后在第2个来源的数据上对比双人独立标注和人机独立标注方法。
3.2 数据处理在正式标注开始之前,对数据进行一些预处理、选取和划分。首先对数据进行去重、过滤特殊符号、限制句子长度、全角字符转成半角字符的预处理操作;然后使用自动分词工具将数据分词,输入训练好的句法模型,得到自动标注答案。
为了探索在随机数据和困难数据上标注方法效果的差异,随机选取部分待标注数据,并通过计算待标注词难度来选择困难待标注数据。Li等[20]研究了句法分析任务中基于局部标注数据的主动学习方法,取得了令人满意的结果。主动学习是指让模型主动选择数据,以最大程度减少标注成本。借鉴Li等[20]的工作,本文在句法模型输出的自动标注结果中,保留了每条弧的边缘概率作为置信度来评价待标注词的标注难度,即认为置信度越低的待标注词的标注难度越大。同样地,本文也使用局部标注方法,即标注者只需要标注句子中部分词语。假设局部标注比例为20%,那么对于图 1中一共8个词的句子,只选择其中2个词作为待标注词。基于置信度的计算,可以对数据进行随机采样和困难采样。随机采样是指从预处理后的全部未标注数据中抽取一定数量的句子,这些句子的待标注词是按局部标注比例随机选择的。在随机采样之后,从剩余的未标注词中进行困难采样,按局部标注比例选择句子中置信度最低的词作为待标注词。
最后,为了避免重复劳动、减少待标注数据与句法模型训练数据的相似性,本文对随机采样数据和困难采样数据都进行了相似度过滤,按设定阈值去除自相似度过高或与训练数据相似度过高的待标注数据。
3.3 数据分布经过数据处理,获得了2批待标注数据,数据分布如表 1所示。2批数据的句子长度都限制在5~40个词,局部标注比例为20%,即标注词数占总词数的20%。其中:BCC批次来源于北语句法结构树库(http://bcc.blcu.edu.cn/),随机采样数据为2 125句,困难采样数据为1 901句;MT批次数据来源于机器翻译中英对齐文本(MT02-MT06),随机采样数据2 413句,困难采样数据1 914句。
数据批次 | 来源 | 句子长度(词数) | 局部标注比例/% | 难度分布 | ||
难度 | 句子数 | 标注词数/总词数 | ||||
BCC | 北语句法结构树库 | [5, 40] | 20 | 随机 | 2 125 | 8 454/35 658 |
困难 | 1 901 | 6 314/32 006 | ||||
MT | 机器翻译中英对齐 文本(MT02-MT06) |
[5, 40] | 20 | 随机 | 2 413 | 10 280/44 189 |
困难 | 1 914 | 8 282/35 908 |
4 实验设置
依经验推测,机标人校标注速度快、经济成本低,但标注质量相对较低,且有校对者的认同倾向问题。多人独立标注虽然从根本上解决了认同倾向问题,能够大幅提高标注质量,但其标注成本远大于机标人校。融合了前述两种方法的人机独立标注应该兼具机标人校和多人独立标注的优点。为了验证这些推测,本文以人机独立标注为枢轴设计了2组实验。
第1组实验在BCC数据上对比机标人校和人机独立标注。BCC数据包含随机采样数据和困难采样数据,将随机采样数据平均分为两部分:一部分使用机标人校标注方法进行标注,另一部分使用人机独立标注。困难采样数据也同样处理。
第2组实验在MT数据上对比人机独立标注和双人独立标注。与第1组实验一样,MT数据的随机采样数据和困难采样数据也分别平均划分为两部分,分别使用人机独立标注方法和双人独立标注方法完成标注。
4.1 标注工具和团队为了支持这两组实验,本文使用苏州大学自然语言处理标注系统作为线上即时标注工具,将每一个依存句法标注任务都标注成图 1所示的句法树。苏州大学自然语言处理标注系统可以对自然语言处理领域的多项标注任务进行标注,例如依存句法、语义角色标注、命名实体识别等。该标注工具支持机标人校、双人独立标注等标注方法,并且标注方法对标注人员不透明,标注人员只需要关注如何标注当前任务,而不知道当前任务使用哪种标注方法。该标注工具通过简单地设置数据输入格式,就可以随机交替使用不同标注方法进行数据标注。借助这个标注工具,可以方便、快速地完成标注实践。
除了合适的标注工具之外,本文还依托一个成熟的依存句法标注团队开展标注工作。该标注团队包括10~15位具有长期标注依存句法经验的标注人员和5位平均准确率在90%以上的审核专家。标注人员和审核专家都是经过标注培训的本科学生或研究生,具有计算机科学和中文母语知识背景。
4.2 评估方法 4.2.1 质量评估为了评估不同标注方法的标注准确率,本文采用抽样重标的方法。具体而言,对已经使用机标人校、双人独立标注或人机独立标注方法标注过的数据,随机抽取其中20%的句子,使用双盲方法重新标注。使用机标人校、双人独立标注或人机独立标注得到的首次标注答案将作为重标时双盲标注中的一个标注答案与重新标注时的人工标注答案进行不一致审核。重新标注后获得的结果为最终的正确结果,据此计算第一次标注结果的准确率。除了准确率以外,本文还计算了标注人员的一致性,分为弧一致性和句子一致性。3个评价指标的计算公式分别是:
$ 准确率 =\frac{\text { 第一次标注正确的词数 }}{\text { 总标注词数 }} \times 100 \%, $ | (1) |
$ 弧一致性 =\frac{\text { 两个独立标注答案一致的弧数 }}{\text { 总弧数 }} \times$ $100 \%, $ | (2) |
$ 句子一致性 =\frac{\text { 两个独立标注答案一致的句子数 }}{\text { 总句子数 }} \times$ $100 \%. $ | (3) |
其中:标注正确的词是指弧和依存关系标签都标注正确,标注答案一致的弧是指弧和依存关系标签都一致。
4.2.2 时间成本标注工具记录了标注人员标注每个句子使用的时间。将标注人员的标注时间总和除以标注的句子数,计算得到平均标注时间。平均审核时间为审核人员的审核时间总和除以审核的句子数。平均总时间为标注时间和审核时间之和除以总句子数。机标人校的审核时间即为二次校对的时间成本。为了减少标注人员因故挂机的影响,标注工具限制在一个任务上停留时间为5 min以内。在标注人员较多、标注量比较大的情况下,标注人员的主观因素对标注时间的影响会比较小。
4.2.3 经济成本经济成本分为标注成本和审核成本。标注成本只计算标注人员进行标注时的工资。为了更接近实际标注工作中对标注人员标注水平的考察和奖励机制,将标注人员的准确率视为计算工资的重要系数,因此单个标注人员的工资计算公式为:工资=标注弧单价×弧数×准确率2。对所有标注人员的标注工资求和再除以总弧数,得到标注单价。审核成本只计算审核人员进行审核时的工资。只有当2个标注答案不一致时才需要进行审核,并且只计入审核人员纠正的弧数。审核工作需要更有经验的人员完成,花费的时间也更多,因此审核弧单价是标注弧单价的2倍。单个审核人员的工资计算公式为:工资=审核弧单价×弧数。对所有审核人员的审核工资求和之后除以总弧数,得到审核单价。标注单价和审核单价相加即为总单价。
5 实验结果 5.1 机标人校与人机独立标注的比较实验本文在BCC数据上进行了机标人校与人机独立标注的比较实验,结果如表 2所示。以下从准确率、一致性、标注成本3个方面进行分析。
困难 | 随机 | ||||||
机标人校 | 人机独立标注 | 机标人校 | 人机独立标注 | ||||
无审核 | 有审核 | 无审核 | 有审核 | ||||
抽样准确率/% | 83.4 | 89.3 | 91.0 | 94.1 | 95.5 | 97.0 | |
句子数 | 953 | 948 | 1 062 | 1 063 | |||
弧一致性/% | 71.71 | 63.18 | 91.50 | 87.28 | |||
句子一致性/% | 41.76 | 26.27 | 75.42 | 64.44 | |||
平均总时间/(s·句-1) | 82 | 87 | 55 | 66 | |||
平均标注时间/(s·句-1) | 56 | 61 | 38 | 56 | |||
平均审核时间/(s·句-1) | 26 | 26 | 17 | 10 | |||
总单价/(元·弧-1) | 1.47 | 1.37 | 1.13 | 1.06 | |||
标注单价/(元·弧-1) | 0.75 | 0.61 | 0.93 | 0.81 | |||
审核单价/(元·弧-1) | 0.72 | 0.76 | 0.20 | 0.25 |
1) 准确率。从表 2可以看出,在随机采样数据上,机标人校的准确率达到94.1%,如果进行二次校对,准确率提高到95.5%,而人机独立标注准确率为97.0%。在困难样本上,机标人校的准确率显著降低,只有83.4%,进行二次校对后提高到89.3%,而人机独立标注则达到91.0%。在随机采样数据上,两种标注方法的差距为1.5%~2.9%,在困难采样数据上,差距则增加到1.7%~7.4%。可见,机标人校准确率显著低于人机独立标注,在困难样本上差距进一步增大。虽然二次校对能大幅提高机标人校的标注准确率,但仍然不及人机独立标注。其原因可能是机标人校的校对者认同倾向问题,除了校对人员标注水平导致的标注错误之外,校对人员可能会受到机标答案的影响或由于任务的枯燥而产生惰性,因而遗漏错误的机标结果。人机独立标注时,更需要标注人员专注于任务,独立思考给出答案,更易发掘机标的错误。
2) 一致性。在机标人校和人机独立标注中,一致性计算的是机标答案和人标答案的一致性。表 2显示,无论是弧一致性还是句子一致性,机标人校的一致性显著高于人机独立标注,说明机标人校方法中校对者的认同倾向问题确实存在。
3) 标注成本。标注成本分为时间成本和经济成本。机器自动标注的时间可以忽略不计,因此只计入人工消耗的时间成本。表 2显示,机标人校的时间成本显著低于人机独立标注,即便进行二次校对,其花费的时间也低于人机独立标注。产生差距的原因有2个:1) 在标注过程中,人机独立标注方法中标注人员需要更多时间独立思考,而不是对已有答案作出快速判断;2) 对于密集操作型的标注任务,在人机独立标注中标注人员的操作行为比机标人校更多。从经济成本看,一次校对的机标人校的成本明显低于人机独立标注,但加上二次校对之后,其成本略高于人机独立标注。其原因可能是二次校对时也存在认同倾向问题,导致标注人员的准确率虚高,拉高了标注单价。
5.2 双人独立标注与人机独立标注的比较实验本文在MT数据上进行了人机独立标注与双人独立标注的比较实验,结果如表 3所示。以下从准确率、一致性、标注成本3个方面具体分析。
困难 | 随机 | ||||
双人独立标注 | 人机独立标注 | 双人独立标注 | 人机独立标注 | ||
抽样准确率/% | 89.2 | 85.0 | 94.1 | 93.6 | |
句子数 | 967 | 947 | 1 203 | 1 210 | |
弧一致性/% | 60.47 | 46.62 | 77.82 | 78.22 | |
句子一致性/% | 24.30 | 11.93 | 44.97 | 43.80 | |
平均总时间/(s·句-1) | 152 | 81 | 119 | 55 | |
平均标注时间/(s·句-1) | 121 | 47 | 98 | 37 | |
平均审核时间/(s·句-1) | 31 | 34 | 21 | 18 | |
总单价/(元·弧-1) | 1.85 | 1.75 | 1.88 | 1.23 | |
标注单价/(元·弧-1) | 1.01 | 0.57 | 1.41 | 0.77 | |
审核单价/(元·弧-1) | 0.83 | 1.18 | 0.47 | 0.46 |
1) 准确率。从表 3可以看出,在随机采样数据上,人机独立标注的准确率达到93.6%,低于双人独立标注的94.1%,但差距仅为0.5%。在困难采样数据上,人机独立标注准确率为85.0%,双人独立标注准确率为89.2%,差距增加到4.2%。双人独立标注的标注质量整体高于人机独立标注,在困难采样数据上差距更明显。其原因可能是:1) 人对自然语言标注任务的理解更为灵活,经验更丰富,人机独立标注相当于把其中一个人工替换成泛化能力低于人、经验更少的机器标注者,因此对标注质量造成了负面影响。2) 困难数据常常包含非常规的灵活语序或口语化表达,由有限规模的数据训练的自动标注模型能够理解的语言信息范围远小于人,对困难数据给出的答案的随机性更高。继续扩大训练语料的规模、增加其包含的语言现象,能逐渐缩小自动标注机器与人工标注在准确性上的差距。
2) 一致性。表 3显示,双人独立标注的一致性总体高于人机独立标注。在随机采样数据上,二者差距很小,说明对于随机采样数据,自动标注水平与人工标注水平相当。但在困难采样数据上,差距显著增大,说明自动标注机器对困难样本的理解与人工标注者相差很大,因为自动标注机器对困难数据给出的答案随机性更高。
3) 标注成本。表 3显示,从时间成本看,人机独立标注的标注速度比双人独立标注快了一倍,其主要原因是自动标注替代了一半的人工标注;从经济成本看,双人独立标注的成本是人机独立标注的2倍左右。审核成本在随机采样数据上相差不大,在困难采样数据上,由于人机独立标注的一致性降低的幅度更大,其审核成本明显高于双人独立标注。但二者相加之后,双人独立标注的总经济成本仍然高于人机独立标注。
5.3 综合分析从表 2和3的结果可以看出,一次校对的机标人校的标注质量显著低于人机独立标注,但标注速度快,标注成本减少将近一半。在机标人校的基础上进行二次校对能有效提高质量,但仍然不及人机独立标注的标注质量,同时其标注成本增加,不低于人机独立标注;而双人独立标注的标注质量较人机独立标注方法有明显优势,但标注速度慢一半、成本更高。
总的来说,人机独立标注方法的主要优点是速度快、成本低,但其标注质量不如双人独立标注,尤其是在困难数据上,质量差距增大。本文所提出的人机独立标注方法,作为人机协同标注方法的一种,兼具了双人独立标注和机标人校的优势,是一个更为折中的方案。它能够避免校对者的认同倾向问题,相对于机标人校,它在少量增加标注时间成本和经济成本的情况下,能够有效提高标注质量,甚至接近双人独立标注的水平。
6 结论与展望本文以依存句法树标注为例对数据标注方法进行了比较研究。依托成熟的标注规范、团队和工具,对标注实践中最常用的机标人校方法以及双人独立标注方法、本文提出的人机独立标注方法展开实验,对比标注质量和标注成本,得到了以下结论:人机独立标注相较于机标人校,在少量增加标注时间成本和经济成本的情况下,有效提高了标注质量;人机独立标注方法虽然减少了标注的时间和经济成本,但其标注质量低于双人独立标注,并且在困难样本上,准确率更低。
本文为数据标注、语料库构建方面标注方法的选择提供了建设性的参考。本文研究内容虽然是机标人校、人机独立标注和双人独立标注,但其意义具有普遍性。通过在随机样本和困难样本上对3种标注方法的分别对比,本研究结论可以推广到简单标注任务和困难标注任务。对于简单标注任务,如分类标注、意图识别等,相当于本文实验的随机样本,使用人机独立标注方法可以在不过分损害标注质量的情况下有效提高标注速度、降低标注成本,并且人机独立标注方法的质量高于机标人校。对于困难标注任务,如句法标注、语义标注等,相当于本文实验的困难样本,人机协同方式的标注质量会显著降低,因此应尽量采用多人独立标注的方法以保证高质量。本文工作使用了基本的管理手段来减少标注人员的主观因素的影响,如工作态度、工作要求、教学与测试、奖惩机制、标注工具的记录等,但没有深入分析这些管理手段的作用,因为在线上标注的情况下,标注人员的主观因素很难规范和监督。本文未来研究计划包括:各标注方法在简单标注任务和困难标注任务上的对比实验;多模型人机独立标注方法的研究实验;标注人员主观因素的度量及其对标注工作的影响。
[1] |
MARCUS M, SANTORINI B, MARCINKIEWICZ M A. Building a large annotated corpus of English: The Penn treebank [R]. Philadelphia, USA: Department of Computer and Information Science, University of Pennsylvania, 1993.
|
[2] |
XUE N W, XIA F, CHIOU F D, et al. The Penn Chinese treebank: Phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238. DOI:10.1017/S135132490400364X |
[3] |
CHEN K J, HUANG C R, CHANG L P, et al. Sinica corpus: Design methodology for balanced corpora [C]// Proceedings of the 11th Pacific Asia Conference on Language, Information and Computation. Seoul, Korea: Kyung Hee University, 1996: 167-176.
|
[4] |
邱立坤, 金澎, 王厚峰. 基于依存语法构建多视图汉语树库[J]. 中文信息学报, 2015, 29(3): 9-15. QIU L K, JIN P, WANG H F. A multi-view Chinese treebank based on dependency grammar[J]. Journal of Chinese Information Processing, 2015, 29(3): 9-15. (in Chinese) |
[5] |
俞士汶, 段慧明, 朱学锋, 等. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报, 2002, 16(5): 49-64. YU S W, DUAN H M, ZHU X F, et al. The basic processing of contemporary Chinese corpus at Peking University specification[J]. Journal of Chinese Information Processing, 2002, 16(5): 49-64. (in Chinese) |
[6] |
周强, 任海波, 孙茂松. 分阶段构建汉语树库[C]//第2届中日自然语言处理专家研讨会. 北京, 2002: 189-197. ZHOU Q, REN H B, SUN M S. Build a large scale Chinese treebank through two-stages approach [C]// Proceedings of the Second China-Japan Natural Language Processing Joint Research Promotion Conference. Beijing, 2002: 189-197. (in Chinese) |
[7] |
XIA F, PALMER M, XUE N W, et al. Developing guidelines and ensuring consistency for Chinese text annotation [C]// Proceedings of the Second International Conference on Language Resources and Evaluation. Athens, Greece, 2000.
|
[8] |
MCDONALD R, NIVRE J, QUIRMBACH-BRUNDAGE Y, et al. Universal dependency annotation for multilingual parsing [C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Sofia, Bulgaria, 2013: 92-97.
|
[9] |
KESSLER J S, ECKERT M, CLARK L, et al. The ICWSM 2010 JDPA sentiment corpus for the automotive domain [C]// Proceedings of the 4th International AAAI Conference on Weblogs and Social Media Data Workshop Challenge (ICWSM-DWC). Washington DC, USA, 2010.
|
[10] |
KVBLER S, MCDONALD R, NIVRE J. Dependency parsing[J]. Synthesis Lectures on Human Language Technologies, 2009, 2(1): 1-127. |
[11] |
STRASSEL S, MITCHELL A, HUANG S D. Multilingual resources for entity extraction [C]// Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-Language Named Entity Recognition. Sapporo, Japan, 2003: 49-56.
|
[12] |
HAJI ACČ J, VIDOVÁ-HLADKÁ B, PAJAS P. The Prague dependency treebank: Annotation structure and support [C]//Proceedings of the IRCS Workshop on Linguistic Databases. Philadelphia, USA, 2001: 105-114.
|
[13] |
LI B, WEN Y, QU W G, et al. Annotating the little prince with Chinese AMRs [C]// Proceedings of the 10th Linguistic Annotation Workshop Held in Conjunction with ACL 2016 (LAW-X 2016). Berlin, Germany, 2016: 7-15.
|
[14] |
IDE N, PUSTEJOVSKY J. Handbook of linguistic annotation[M]. Berlin, Germany: Springer, 2017.
|
[15] |
郭丽娟, 彭雪, 李正华, 等. 面向多领域多来源文本的汉语依存句法树库构建[J]. 中文信息学报, 2019, 33(2): 34-42. GUO L J, PENG X, LI Z H, et al. Construction of Chinese dependency syntax treebanks for multi-domain and multi-source texts[J]. Journal of Chinese Information Processing, 2019, 33(2): 34-42. (in Chinese) |
[16] |
ŠEVČÍKOVÁ M, ŽABOKRTSKÝ Z, KR AU。U ZA O. Named entities in Czech: Annotating data and developing NE tagger [C]// 10th International Conference on Text, Speech and Dialogue. Pilsen, Czech, 2007: 188-195.
|
[17] |
BRANTS S, DIPPER S, HANSEN S, et al. The TIGER treebank [C]// HINRICHS E, SIMOV K. Proceedings of the First Workshop on Treebanks and Linguistic Theories. Sozopol, Bulgaria, 2002: 24-41.
|
[18] |
卢露, 矫红岩, 李梦, 等. 基于篇章的汉语句法结构树库构建[J]. 自动化学报, 2020, 46: 1-11. LU L, JIAO H Y, LI M, et al. A discourse-based Chinese chunk Bank[J]. Acta Automatica Sinica, 2020, 46: 1-11. (in Chinese) |
[19] |
ZHANG W, FENG Y, MENG F D, et al. Bridging the gap between training and inference for neural machine translation [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy, 2019: 4334-4343.
|
[20] |
LI Z H, ZHANG M, ZHANG Y, et al. Active learning for dependency parsing with partial annotation [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany, 2016: 344-354.
|