面向高考阅读理解的句子语义相关度

引用本文

郭少茹, 张虎, 钱揖丽, 李茹, 杨陟卓, 顾兆军, 马淑晖. 面向高考阅读理解的句子语义相关度[J]. 清华大学学报(自然科学版), 2017, 57(6): 575-579, 585. 复制到剪切板

GUO Shaoru, ZHANG Hu, QIAN Yili, LI Ru, YANG Zhizhuo, GU Zhaojun, MA Shuhui. Semantic relevancy between sentences for Chinese reading comprehension on college entrance examinations[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(6): 575-579, 585. 复制到剪切板

面向高考阅读理解的句子语义相关度

郭少茹 ¹ , 张虎 ¹ , 钱揖丽 ¹ , 李茹 ^1,2 , 杨陟卓 ¹ , 顾兆军 ³ , 马淑晖 ¹

1. 山西大学计算机与信息技术学院, 太原 030006;
2. 山西大学计算智能与中文信息处理教育部重点实验室, 太原 030006;
3. 中国民航大学信息安全测评中心, 天津 300300

收稿日期：2016-12-15

基金项目：国家“八六三”高技术项目（2015AA015407）；国家自然科学基金资助项目（61373082, 61673248, 61502287）；山西省科技基础条件平台建设项目（2014091004-0103）；山西省回国留学人员科研资助项目（2013-015）；山西省自然科学基金资助项目（201601D102030）；中国民航大学信息安全测评中心开放课题基金项目（CAAC-ISECCA-201402）；山西省高等学校科技创新项目（2015104, 2015105）

作者简介：郭少茹(1990-), 女, 博士研究生

通信作者：李茹, 教授, E-mail:liru@sxu.edu.cn

摘要：高考阅读理解选择题是基于背景材料，通过对材料的“理解”从多个选项中选出最佳选项。由于提供的背景材料相对较短且关键信息极具隐藏性，答案可能无法在背景材料中直接找到，因此从背景材料中挖掘信息并与选项进行相关性分析是解答该类问题的关键，而句子级的语义相关性分析是背景材料与选项相关性分析的基础。该文通过对大量高考科技文文意理解类选择题进行分析，提出基于多维度投票算法的句子语义相关度计算方法。该方法将不同维度的语义相关性作为度量标准，运用投票算法的思想，选取问题的最佳选项。在近十年北京市高考真题上进行测试，解答准确率为53.84%，验证了该方法的有效性。

关键词：高考语文文意理解选择题多维度投票算法语义相关度

Semantic relevancy between sentences for Chinese reading comprehension on college entrance examinations

GUO Shaoru¹, ZHANG Hu¹, QIAN Yili¹, LI Ru^1,2, YANG Zhizhuo¹, GU Zhaojun³, MA Shuhui¹

1. School of Computer & Information Technology, Shanxi University, Taiyuan 030006, China;
2. Key Laboratory of Ministry of Education for Computation Intelligence & Chinese Information Processing, Shanxi University, Taiyuan 030006, China;
3. Information Security Evaluation Center, Civil Aviation University of China, Tianjin 300300, China

Abstract: Multiple-choice reading comprehension questions in the Chinese College Entrance Examination are based on the given background material with the reader selecting the best option from a number of options. The answer may not be directly found in the background material since the passage is relatively short and the key information is hidden. Thus, information mining from the background material and semantic relevancy analyses with options are keys to solving the problem, with sentence level semantic relevancy analysis as the foundation. This paper presents an algorithm to calculate the semantic relevancy between sentences based on Multi-Dimension Voting by analyzing large numbers of multiple-choice questions from Chinese scientific article text understanding questions from college entrance examinations. The method utilizes the voting algorithm to take advantage of different size metrics to select the best option. The algorithm accuracy for the national college entrance examination of Beijing text understanding questions is 53.84%, which verifies the validity of the method.

Key words: Chinese college entrance examination text understanding multiple-choice questions multi-dimension voting semantic relevancy

阅读理解式问答要求系统在“阅读”完一篇材料后, 根据对材料的“理解”给出问题的答案^[1]。近年来，开放域事实类问答系统^[2-4]引起了人们的广泛关注，该系统利用信息检索技术从无结构的互联网文本中搜索和生成答案，采用信息抽取及信息融合策略解答事实型问题。此外，相关学者对社区类问答系统^[5]也做了广泛研究，该类系统主要依赖于网民的贡献。2010年IBM公司研发了Watson问答系统，在《危险边缘Jeopardy!》中战胜人类选手，这是人工智能研究历史上一个里程碑式的辉煌胜利^[6]。

为了更好地评估机器理解自然语言的能力，文[7]提出基于数据集MCTest的机器理解任务(machine comprehension, MC)和基于滑动窗口和距离算法的机器理解；文[8]提出基于篇章关系的机器理解，将篇章关系分析结果作为一个特征融入到模型中实现问题的求解；文[9]提出基于答案蕴含结构的机器理解，通过机器学习获得问题、选项和文章之间的蕴含结构，选出最佳选项；文[10]提出基于句法、框架及语义的机器理解，通过在模型中融入框架语义、依存分析、词向量及共指消解等特征实现问题的自动解答。

本文主要研究北京高考语文科技文阅读理解文意理解类选择题，问题形式如下：

下列对文章有关内容(含链接材料)的理解与分析，(不)正确的两项是()；

下列说法(不)符合文意的一项是()。

文意理解类选择题旨在基于对背景材料的“理解”从多个选项中选出最佳答案，因此解答时需考虑背景材料中的句子和选项集之间语义相关性。所使用的数据集为全国各省近10年高考语文真题。针对高考科技文文意理解题目，提出基于多维度投票算法的解题方法，通过结合基于词袋模型的词匹配、HowNet相似度、Word2Vector相关度及汉语框架网(Chinese frame net, CFN)场景相关度不同维度的语义相关性度量值，选取最佳选项，实现文意理解类题目的自动作答。

1 多维度投票算法

投票的核心思想是k个专家判断结果的有效组合优于某个专家判断的结果。因此，将不同维度的语义相关性度量标准，融入到投票算法中，计算句子语义相关性度量值，实现科技文阅读理解文意理解题目的自动解答。

定义对于任意给定的一组数X={X₁，X₂，…，X_t，…，X_n}，函数f_v(X_t)=$\frac{C}{{{\rm{Rank}}({X_t})}}$，其中C为常数，Rank(X_t)表示X按照从大到小顺序排序后的排名。

给定背景材料P={S₁，S₂，…，S_M}，选项集A={A₁，A₂，…，A_N}，其中S_j(j∈[1，M])为背景材料P的第j个句子；A_i(i∈[1，N])为选项A中第i个选项。R表示选项A_i与句子S_j各维度相关性度量值的集合，R={R₁，R₂，…，R_k}，最佳选项A^*为

$ {A^*} = \mathop {\max }\limits_{0 \le i \le N} \{ \sum\limits_{k = 1}^K {{\omega _k}} \cdot [\sum\limits_{j = 1}^M {{f_{\rm{v}}}({R_k}({A_i}, {S_j}))}]\} . $

(1)

其中：ω_k为第k个维度的权重，k∈[1，K]，且0≤ω_k≤1, $\sum\limits_{k = 1}^K {{\omega _k}} = 1$；R_k(A_i，S_j)为选项A_i和句子S_j在第k个维度下语义相关性度量值。

2 语义相关性度量标准

本文从不同维度计算句子级语义相关性度量值R_k(A₀，S₀)。给定选项A₀和句子S₀，求A₀与S₀的语义相关性度量值R_k(A₀，S₀)。W_A={a₁，a₂，…，a_n}为A₀词的集合，其中a_i(i∈[1，n])表示A₀第i个词；W_S={s₁，s₂，…，s_m}为S₀词的集合；s_j(j∈[1，m])表示S₀第j个词；U为停用词集合。

2.1 词袋模型的词匹配策略

词袋模型的词匹配策略是从背景材料和选项自身所包含的显著信息维度计算A₀与S₀之间的语义相关性度量值：

$ {R_{\rm{b}}}({A_0}, {\rm{ }}{S_0}) = \frac{{|({W_A}\backslash U) \cap ({W_S}\backslash U)|}}{{|{W_A}\backslash U|}}. $

(2)

其中：W_A\U表示除去停用词后A₀词的集合，W_S\U表示除去停用词后S₀词的集合。

2.2 HowNet的语义相似度计算

词袋模型的词匹配策略充分考虑了背景材料和选项自身所包含的显著信息，但是忽略了在语义上相似的词语，如例1中“即”和“急于”。

例【北京/2013】

A₀:蜉蝣有翅后即升空飞行。

S₀: ……这些获得新生的小虫子并不急于飞行……

本文针对词本身不相同但语义相似的问题，提出基于HowNet语义相似度计算方法，该方法是从相似性维度计算A₀与S₀之间的语义相关性度量值：

$ {R_{\rm{h}}}({A_0}, {\rm{ }}{S_0}) = \frac{{\sum\limits_{i = 1}^n {\mathop {\max }\limits_{1 \le j \le m} } ({\rm{Sim(}}{a_i}{\rm{, }}{s_j}{\rm{)}})}}{{|{W_A}\backslash U|}}. $

(3)

其中：max(Sim(a_i，s_j))，j∈[1，m]表示a_i与S₀词集合中所有的词计算相似度，取相似度最大的一项。相似度计算采用基于知网词汇语义相似度计算方法^[11]。

2.3 Word2Vector相关度计算

词袋模型的词匹配策略充分考虑了背景材料和选项自身所包含的显著信息，HowNet语义相似度考虑了词汇之间的相似度，但是均忽略了在语义上相关的词语，如例2中的“《牡丹亭》”与“昆曲”。

例2 【北京/2009】

A₀:昆曲人物舞台站位互相对称，因其舞台布景讲究对称性。

S₀:譬如《牡丹亭》里的《游园》一出……没有一刻不是带唱带舞的，而且没有一刻不是两人互相对称的。

针对词语既不相同又不相似的问题，提出基于Word2Vector语义相关度计算的方法，该方法是从相关性维度来计算A₀与S₀之间的语义相关性度量值：

$ {R_{\rm{b}}}({A_0}, {\rm{ }}{S_0}) = \frac{{\sum\limits_{i = 1}^n {\mathop {\max }\limits_{1 \le j \le m} } ({\rm{Rel(}}{a_i}{\rm{, }}{s_j}{\rm{)}})}}{{|{W_A}\backslash U|}}. $

(4)

其中：max(Rel(a_i，s_j)), j∈[1，m]表示a_i与S₀词集合中所有的词计算相关度，取相关度最大的一项。

2.4 框架语义场景分析

CFN ^[12]是以Fillmore的框架语义学^[13]为理论基础，参照FrameNet^[14]工程，依据真实的汉语语料，构建的供计算机使用的汉语词汇语义知识库。框架^[12]表示与一些激活性语境相一致的结构化范畴系统；目标词^[12]是在一个具体的句子中能够激起框架的词；框架元素^[12]体现一个框架的语义参与者；框架关系是语言学家基于框架语义学建立的语义场景之间的关系^[15]。

框架语义学^[16]强调从人类的认知角度探索句子的语义结构，是一种理解和说明词汇意义和语法结构的方法。本文通过CFN分析A₀与S₀的所涉及的语义场景一致性，得到A₀与S₀之间语义相关性度量值R_cfn(A₀, S₀)。

基于CFN语义场景分析是从语义场景相关性维度来计算A₀与S₀之间的语义相关性度量值：

$ {R_{{\rm{cfn}}}}({A_0}, {\rm{ }}{S_0}) = \varphi ({F_A}, {\rm{ }}{F_S})\cdot\phi ({T_A}, {\rm{ }}{T_S}). $

(5)

其中：T_A和T_S分别表示A₀和S₀的目标词；F_A和F_S分别表示T_A和T_S激起的框架。

$ \phi ({T_A}, {\rm{ }}{T_S}) = \alpha {\rm{Sim}}({T_A}, {\rm{ }}{T_S}) + \left( {1-\alpha } \right){\rm{Rel}}({T_A}, {\rm{ }}{T_S}). $

(6)

式(6) 为A₀与S₀目标词T_A和T_S相似度与相关度的加权和，α∈[0, 1]。

1) 基于相同框架的语义场景分析。

当A₀与S₀同属一个框架时，即F_A=F_S，则式(5) 中φ(F_A，F_S)=1。

例3 【北京/2014】

A₀:我国的光伏发电技术十分成熟。

S₀:国家政策的扶持极大鼓舞了我国正在起步阶段的光伏发电技术。

如图 1所示，A₀中的目标词T_A={起步}激起框架F_A={发展阶段}，S₀中的目标词T_S={成熟}激起框架F_S={发展阶段}。根据F_A=F_S可知φ(F_A，F_S)=1，即A₀与S₀所属框架相同，涉及场景一致。

图 1 基于相同框架语义场景分析

图选项

2) 基于框架关系的语义场景分析。

有些情况下，虽然F_A≠F_S，但两者可以通过框架关系进行语义场景推理。当F_A与F_S之间可以通过框架关系关联时，则式(5) 中φ(F_A，F_S)=0.5。

例4 【北京/2013】

A₀:很多昆虫都具有长途迁徙的能力。

S₀:所以你绝对不能小看昆虫的能力，一只小小的黑脉金斑蝶能以每天150千米的速度连续飞行3 000千米，完成从北美到中美洲的长途迁徙。

如图 2所示，A₀中的目标词T_A= {具有}与S₀中的目标词T_S={完成}分别激起框架F_A={拥有}与框架F_s={行为完成}。F_A≠F_S，但是F_A与F_s框架之间存在关系，所涉及的场景有相关性，可知φ(F_A，F_S)=0.5。当A₀与S₀所属框架不相同，也不存在关系时，则式(5) 中φ(F_A，F_S)=0。

图 2 基于框架关系语义场景分析

图选项

2.5 基于程度词启发式规则

高考语文科技文阅读理解文意理解类选择题中涉及大量程度词，如表 1所示。本文制定了程度词启发式规则: 1) 若选项中只包含绝对化叙述程度词语，如例5所示，则定义1中函数f′_v(X_t)=1/2f_v(X_t)；2) 若选项中包含推测类程度词，如例6所示，则定义1中函数f′_v(X_t)=3/2f_v(X_t)。

表 1 程度词列表

类别	程度词示例
绝对化叙述程度词	必、必须、必定、不、无、无关、没有、没、未、勿、不必、不用、不曾、都、统统、只、仅仅、单、一齐、一概、一律、单单、很、最、极、太、十分、极其、格外、分外、更、更加、都、已、已经、唯一、很快、绝对、早已、从来、总是、始终、往往、很多、即、大大、远远
推测类程度词	可能、不到、不太

表选项

例5 【北京/2011】

我国农户、村镇、县市能源供给使用体系的构建已取得了重要成果。

例6 【北京/2008】

未来的可降解的塑料袋的成分不大可能是聚乙烯。

3 结果与分析 3.1 实验数据

本文实验语料来自全国各省近10年17套高考语文真题，共192道科技文文意理解类选择题。实验中采用了哈尔滨工业大学社会计算与信息检索中心的语言处理集成平台LTP^[17]进行分词及词性标注；采用了山西大学CFN平台提供的框架资源^[16]；使用了知网平台提供的词汇相似度计算工具^[11]。

3.2 实验结果

为了验证多维度投票算法的有效性，本文构建了基于D-S理论^[18-19]的多维度阅读理解问答系统。该系统由3部分组成：

1) 对于给定选项A₀，查找A₀的相关句集C₀；

2) 分别计算选项A₀和相关句集C₀基于词袋模型的词匹配策略语义相关性度量值R_b(A₀，C₀)、基于HowNet相似度的语义相关性度量值R_h(A₀，C₀)、基于Word2Vector相关度的语义相关性度量值R_w(A₀，C₀)和基于CFN场景分析的语义相关性度量值R_cfn(A₀，C₀)；

3) 根据D-S理论，将不同方法计算所得的语义相关性度量值进行融合：

$ m(A) = \frac{1}{{1-K}}\sum\limits_{B \cap C \cap D \cap E = A} {{m_1}(B){m_2}(C){m_3}(D){m_4}(E), } $

(7)

$ K = \sum\limits_{B \cap C \cap D \cap E \ne \emptyset } {{m_1}(B){m_2}(C){m_3}(D){m_4}(E).} $

(8)

其中：m₁、m₂、m₃和m₄为4种维度的语义相关性度量值，即R_b(A₀，C₀)、R_h(A₀，C₀)、R_w(A₀，C₀)和R_cfn(A₀，C₀)。

基于D-S理论的多维度阅读理解问答系统中全国17个省份近10年高考真题的相关句查全率为77.33%，解答准确率为68.28%；北京和全国各省的高考真题的解答准确率分别为30.17%和27.37%。表 2为基于多维度投票算法各省真题准确率。其中：B表示基于词袋模型的词匹配策略，H表示基于HowNet语义相似度，W表示基于Word2Vector语义相关度，CFN表示基于CFN的语义场景相关度，D表示程度词启发式规则。

表 2 基于多维度投票算法各省高考真题准确率

维度	准确率/%
B	24.47
H	21.35
W	19.27
CFN	14.58
B+H	28.12
B+W	26.04
B+CFN	25.52
B+H+W	30.73
B+H+CFN	29.16
B+H+W+CFN	32.81
B+H+W+CFN+D	35.93

表选项

对实验结果进行分析，基于多维度投票算法的问答系统中权重参数ω_k分别设置为0.1、0.2、0.5、0.2，其中定义1函数f_v(X_t)=$\frac{C}{{{\rm{Rank}}({X_t})}}$中的常数C取选项排序的最小公倍数。通过分析可以得到如下结果：

1) 最佳维度组合分别为B、B+H、B+H+W、B+H+W+CFN，在增加程度词规则后准确率为35.93%。

2) 在基于多维度投票算法的问答系统中，全国各省高考真题的准确率为35.93%；在基于D-S理论的问答系统中，全国各省高考真题的准确率为27.60%，这是由于相关句集查找准确率对实验结果产生一定的影响。

3) 为了探究每个维度对实验结果的影响，通过将某个维度从维度组合删除来测试对结果的影响，测试结果如表 3所示。

表 3 删除某个维度后各省高考真题解答准确率

维度	准确率/%
B+H+W+CFN+D	35.93
-B(H+W+CFN+D)	34.89
-H(B+W+CFN+D)	33.33
-W(B+H+CFN+D)	31.25
-CFN(B+H+W+D)	33.85
-D(B+H+W+CFN)	34.67

表选项

4) 表 4是基于多维度投票算法的不同省份高考试题解答准确率。可以看出，由于每个省份的难易程度与考察的内容不完全相同，准确率不同，北京卷解答准确率最高。

表 4 基于多维度投票算法各省高考真题解答准确率

省份	准确率/%
全国Ⅰ	22.22
全国Ⅱ	22.77
四川	38.46
天津	35.29
安徽	40.00
上海	0.00
山东	42.85
广东	25.00
江苏	28.57
江西	40.00
浙江	33.33
湖北	44.44
湖南	37.50
福建	14.28
辽宁	35.29
重庆	16.66
北京	53.84

表选项

4 结论

本文提出基于多维度投票算法的高考语文阅读理解解题方法。该方法将基于词袋模型的词匹配策略、基于HowNet的语义相似度、基于Word2Vector语义相关度和基于CFN的语义场景相关度度量作为多维度投票的依据，计算背景材料中的句子和选项集之间语义相关性，从而实现文意理解类选择题的自动解答。通过与构建的基于D-S理论的多维度阅读理解问答系统实验结果进行对比，验证了该方法的有效性。该方法是针对北京语文高考真题文意理解类题型，因此北京高考试题的解答准确率高于其他省份。下一步将采用机器学习方法来解答此类问题，提高算法的普适性和实验准确率。

参考文献

[1]	吴友政, 赵军, 段湘煜, 等. 问答式检索技术及评测研究综述[J]. 中文信息学报, 2005, 19(3): 2–14. WU Youzheng, ZHAO Jun, DUAN Xiangyu, et al. Research on question answering & evaluation:A survey[J]. Journal of Chinese Information Processing, 2005, 19(3): 2–14. (in Chinese)
[2]	Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of EMNLP. Seattle, WA, USA:EMNLP, 2013:6-17.
[3]	Antoine Y B, Sumit C. Question answering with subgraph embeddings[C]//EMNLP. Doha, Qatar:EMNLP, 2014:615-620.
[4]	Ferrucci D, Brown E, Chu-Carroll J, et al. Building watson:An overview of the deep QA project[J]. AI Magazine, 2010, 31(3): 59–79.
[5]	Zhang K, Wu W, Wang F, et al. Learning distributed representations of data in community question answering for question retrieval[C]//Ninth ACM International Conference on Web Search and Data Mining. Amsterdam, Holland:ACM Press, 2016:533-542.
[6]	黄昌宁. 从IBM深度问答系统战胜顶尖人类选手所想到的[J]. 中文信息学报, 2011, 25(6): 21–25. HUANG Changning. Thinking about deep QA beating human champions[J]. Journal of Chinese Information Processing, 2011, 25(6): 21–25. (in Chinese)
[7]	Richardson M, Burges C J C, Renshaw E. MCTest:A challenge dataset for the open-domain machine comprehension of text[C]//Proceedings of EMNLP. Seattle, WS, USA:EMNLP, 2013:193-203.
[8]	Narasimhan K, Barzilay R. Machine comprehension with discourse relations[C]//Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:1253-1262.
[9]	Sachan M, Dubey K, Xing E, et al. Learning answer-entailing structures for machine comprehension[C]//Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:239-249.
[10]	Wang H, Bansal M, Gimpel K, et al. Machine comprehension with syntax, frames, and semantics[C]//Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:700-706.
[11]	刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中文计算语言学, 2002, 7(2): 59–76. LIU Qun, LI Sujian. Word similarity computing based on how-net[J]. Computational Linguistics and Chinese Language Processing, 2002, 7(2): 59–76. (in Chinese)
[12]	郝晓燕, 刘伟, 李茹, 等. 汉语框架语义知识库及软件描述体系[J]. 中文信息学报, 2007, 21(5): 96–100. HAO Xiaoyan, LIU Wei, LI Ru, et al. Description systems of the Chinese framenet database and software tools[J]. Journal of Chinese Information Processing, 2007, 21(5): 96–100. (in Chinese)
[13]	Fillmore C J. Frame semantics and the nature of language[J]. Annals of the New York Academy of Sciences, 1976, 280(1): 20–32.
[14]	Baker C F, Fillmore C J, Lowe J B. The Berkeley framenet project[C]//Annual Meeting of the Association for ComputationalLinguistics and 17th International Conference on Computational Linguistics-Volume 1. Montreal, Quebec, Canada:ACL Press, 1998:86-90.
[15]	Ruppenhofer J, Sporleder C, Morante R, et al. Semeval-2010 task 10:Linking events and their participants in discourse[C]//International Workshop on Semantic Evaluation. Uppsala, Sweden:ACL Press, 2010:45-50.
[16]	李茹. 汉语句子框架语义结构分析技术研究[D]. 太原: 山西大学, 2012. LI Ru. Research on Frame Semantic Structure Analysis Technology for Chinese Sentences[D]. Taiyuan:Shanxi University, 2012. (in Chinese)
[17]	Che W, Li Z, Liu T. LTP:A Chinese language technology platform[C]//International Conference on Computational Linguistics. Beijing, China:DBLP, 2010:13-16.
[18]	Dempster A P. Upper and lower probabilities induced by a multi-valued mapping[J]. Annals of Mathematical Statistics, 1967, 38(2): 325–339. DOI:10.1214/aoms/1177698950
[19]	Inglis J. A mathematical theory of evidence[J]. Technometrics, 1978, 20(1): 242–242.

文章信息

工作空间