2. 山西大学 计算智能与中文信息处理教育部重点实验室, 太原 030006;
3. 中国民航大学 信息安全测评中心, 天津 300300
2. Key Laboratory of Ministry of Education for Computation Intelligence & Chinese Information Processing, Shanxi University, Taiyuan 030006, China;
3. Information Security Evaluation Center, Civil Aviation University of China, Tianjin 300300, China
阅读理解式问答要求系统在“阅读”完一篇材料后, 根据对材料的“理解”给出问题的答案[1]。近年来,开放域事实类问答系统[2-4]引起了人们的广泛关注,该系统利用信息检索技术从无结构的互联网文本中搜索和生成答案,采用信息抽取及信息融合策略解答事实型问题。此外,相关学者对社区类问答系统[5]也做了广泛研究,该类系统主要依赖于网民的贡献。2010年IBM公司研发了Watson问答系统,在《危险边缘Jeopardy!》中战胜人类选手,这是人工智能研究历史上一个里程碑式的辉煌胜利[6]。
为了更好地评估机器理解自然语言的能力,文[7]提出基于数据集MCTest的机器理解任务(machine comprehension, MC)和基于滑动窗口和距离算法的机器理解;文[8]提出基于篇章关系的机器理解,将篇章关系分析结果作为一个特征融入到模型中实现问题的求解;文[9]提出基于答案蕴含结构的机器理解,通过机器学习获得问题、选项和文章之间的蕴含结构,选出最佳选项;文[10]提出基于句法、框架及语义的机器理解,通过在模型中融入框架语义、依存分析、词向量及共指消解等特征实现问题的自动解答。
本文主要研究北京高考语文科技文阅读理解文意理解类选择题,问题形式如下:
下列对文章有关内容(含链接材料)的理解与分析,(不)正确的两项是();
下列说法(不)符合文意的一项是()。
文意理解类选择题旨在基于对背景材料的“理解”从多个选项中选出最佳答案,因此解答时需考虑背景材料中的句子和选项集之间语义相关性。所使用的数据集为全国各省近10年高考语文真题。针对高考科技文文意理解题目,提出基于多维度投票算法的解题方法,通过结合基于词袋模型的词匹配、HowNet相似度、Word2Vector相关度及汉语框架网(Chinese frame net, CFN)场景相关度不同维度的语义相关性度量值,选取最佳选项,实现文意理解类题目的自动作答。
1 多维度投票算法投票的核心思想是k个专家判断结果的有效组合优于某个专家判断的结果。因此,将不同维度的语义相关性度量标准,融入到投票算法中,计算句子语义相关性度量值,实现科技文阅读理解文意理解题目的自动解答。
定义 对于任意给定的一组数X={X1,X2,…,Xt,…,Xn},函数fv(Xt)=
给定背景材料P={S1,S2,…,SM},选项集A={A1,A2,…,AN},其中Sj(j∈[1,M])为背景材料P的第j个句子;Ai(i∈[1,N])为选项A中第i个选项。R表示选项Ai与句子Sj各维度相关性度量值的集合,R={R1,R2,…,Rk},最佳选项A*为
| $ {A^*} = \mathop {\max }\limits_{0 \le i \le N} \{ \sum\limits_{k = 1}^K {{\omega _k}} \cdot [\sum\limits_{j = 1}^M {{f_{\rm{v}}}({R_k}({A_i}, {S_j}))}]\} . $ | (1) |
其中:ωk为第k个维度的权重,k∈[1,K],且0≤ωk≤1,
本文从不同维度计算句子级语义相关性度量值Rk(A0,S0)。给定选项A0和句子S0,求A0与S0的语义相关性度量值Rk(A0,S0)。WA={a1,a2,…,an}为A0词的集合,其中ai(i∈[1,n])表示A0第i个词;WS={s1,s2,…,sm}为S0词的集合;sj(j∈[1,m])表示S0第j个词;U为停用词集合。
2.1 词袋模型的词匹配策略词袋模型的词匹配策略是从背景材料和选项自身所包含的显著信息维度计算A0与S0之间的语义相关性度量值:
| $ {R_{\rm{b}}}({A_0}, {\rm{ }}{S_0}) = \frac{{|({W_A}\backslash U) \cap ({W_S}\backslash U)|}}{{|{W_A}\backslash U|}}. $ | (2) |
其中:WA\U表示除去停用词后A0词的集合,WS\U表示除去停用词后S0词的集合。
2.2 HowNet的语义相似度计算词袋模型的词匹配策略充分考虑了背景材料和选项自身所包含的显著信息,但是忽略了在语义上相似的词语,如例1中“即”和“急于”。
例 【北京/2013】
A0:蜉蝣有翅后即升空飞行。
S0: ……这些获得新生的小虫子并不急于飞行……
本文针对词本身不相同但语义相似的问题,提出基于HowNet语义相似度计算方法,该方法是从相似性维度计算A0与S0之间的语义相关性度量值:
| $ {R_{\rm{h}}}({A_0}, {\rm{ }}{S_0}) = \frac{{\sum\limits_{i = 1}^n {\mathop {\max }\limits_{1 \le j \le m} } ({\rm{Sim(}}{a_i}{\rm{, }}{s_j}{\rm{)}})}}{{|{W_A}\backslash U|}}. $ | (3) |
其中:max(Sim(ai,sj)),j∈[1,m]表示ai与S0词集合中所有的词计算相似度,取相似度最大的一项。相似度计算采用基于知网词汇语义相似度计算方法[11]。
2.3 Word2Vector相关度计算词袋模型的词匹配策略充分考虑了背景材料和选项自身所包含的显著信息,HowNet语义相似度考虑了词汇之间的相似度,但是均忽略了在语义上相关的词语,如例2中的“《牡丹亭》”与“昆曲”。
例2 【北京/2009】
A0:昆曲人物舞台站位互相对称,因其舞台布景讲究对称性。
S0:譬如《牡丹亭》里的《游园》一出……没有一刻不是带唱带舞的,而且没有一刻不是两人互相对称的。
针对词语既不相同又不相似的问题,提出基于Word2Vector语义相关度计算的方法,该方法是从相关性维度来计算A0与S0之间的语义相关性度量值:
| $ {R_{\rm{b}}}({A_0}, {\rm{ }}{S_0}) = \frac{{\sum\limits_{i = 1}^n {\mathop {\max }\limits_{1 \le j \le m} } ({\rm{Rel(}}{a_i}{\rm{, }}{s_j}{\rm{)}})}}{{|{W_A}\backslash U|}}. $ | (4) |
其中:max(Rel(ai,sj)), j∈[1,m]表示ai与S0词集合中所有的词计算相关度,取相关度最大的一项。
2.4 框架语义场景分析CFN [12]是以Fillmore的框架语义学[13]为理论基础,参照FrameNet[14]工程,依据真实的汉语语料,构建的供计算机使用的汉语词汇语义知识库。框架[12]表示与一些激活性语境相一致的结构化范畴系统;目标词[12]是在一个具体的句子中能够激起框架的词;框架元素[12]体现一个框架的语义参与者;框架关系是语言学家基于框架语义学建立的语义场景之间的关系[15]。
框架语义学[16]强调从人类的认知角度探索句子的语义结构,是一种理解和说明词汇意义和语法结构的方法。本文通过CFN分析A0与S0的所涉及的语义场景一致性,得到A0与S0之间语义相关性度量值Rcfn(A0, S0)。
基于CFN语义场景分析是从语义场景相关性维度来计算A0与S0之间的语义相关性度量值:
| $ {R_{{\rm{cfn}}}}({A_0}, {\rm{ }}{S_0}) = \varphi ({F_A}, {\rm{ }}{F_S})\cdot\phi ({T_A}, {\rm{ }}{T_S}). $ | (5) |
其中:TA和TS分别表示A0和S0的目标词;FA和FS分别表示TA和TS激起的框架。
| $ \phi ({T_A}, {\rm{ }}{T_S}) = \alpha {\rm{Sim}}({T_A}, {\rm{ }}{T_S}) + \left( {1-\alpha } \right){\rm{Rel}}({T_A}, {\rm{ }}{T_S}). $ | (6) |
式(6) 为A0与S0目标词TA和TS相似度与相关度的加权和,α∈[0, 1]。
1) 基于相同框架的语义场景分析。
当A0与S0同属一个框架时,即FA=FS,则式(5) 中φ(FA,FS)=1。
例3 【北京/2014】
A0:我国的光伏发电技术十分成熟。
S0:国家政策的扶持极大鼓舞了我国正在起步阶段的光伏发电技术。
如图 1所示,A0中的目标词TA={起步}激起框架FA={发展阶段},S0中的目标词TS={成熟}激起框架FS={发展阶段}。根据FA=FS可知φ(FA,FS)=1,即A0与S0所属框架相同,涉及场景一致。
|
| 图 1 基于相同框架语义场景分析 |
2) 基于框架关系的语义场景分析。
有些情况下,虽然FA≠FS,但两者可以通过框架关系进行语义场景推理。当FA与FS之间可以通过框架关系关联时,则式(5) 中φ(FA,FS)=0.5。
例4 【北京/2013】
A0:很多昆虫都具有长途迁徙的能力。
S0:所以你绝对不能小看昆虫的能力,一只小小的黑脉金斑蝶能以每天150千米的速度连续飞行3 000千米,完成从北美到中美洲的长途迁徙。
如图 2所示,A0中的目标词TA= {具有}与S0中的目标词TS={完成}分别激起框架FA={拥有}与框架Fs={行为完成}。FA≠FS,但是FA与Fs框架之间存在关系,所涉及的场景有相关性,可知φ(FA,FS)=0.5。当A0与S0所属框架不相同,也不存在关系时,则式(5) 中φ(FA,FS)=0。
|
| 图 2 基于框架关系语义场景分析 |
2.5 基于程度词启发式规则
高考语文科技文阅读理解文意理解类选择题中涉及大量程度词,如表 1所示。本文制定了程度词启发式规则: 1) 若选项中只包含绝对化叙述程度词语,如例5所示,则定义1中函数f′v(Xt)=1/2fv(Xt);2) 若选项中包含推测类程度词,如例6所示,则定义1中函数f′v(Xt)=3/2fv(Xt)。
| 类别 | 程度词示例 |
| 绝对化叙述程度词 | 必、必须、必定、不、无、无关、没有、没、未、勿、不必、不用、不曾、都、统统、只、仅仅、单、一齐、一概、一律、单单、很、最、极、太、十分、极其、格外、分外、更、更加、都、已、已经、唯一、很快、绝对、早已、从来、总是、始终、往往、很多、即、大大、远远 |
| 推测类程度词 | 可能、不到、不太 |
例5 【北京/2011】
我国农户、村镇、县市能源供给使用体系的构建已取得了重要成果。
例6 【北京/2008】
未来的可降解的塑料袋的成分不大可能是聚乙烯。
3 结果与分析 3.1 实验数据本文实验语料来自全国各省近10年17套高考语文真题,共192道科技文文意理解类选择题。实验中采用了哈尔滨工业大学社会计算与信息检索中心的语言处理集成平台LTP[17]进行分词及词性标注;采用了山西大学CFN平台提供的框架资源[16];使用了知网平台提供的词汇相似度计算工具[11]。
3.2 实验结果为了验证多维度投票算法的有效性,本文构建了基于D-S理论[18-19]的多维度阅读理解问答系统。该系统由3部分组成:
1) 对于给定选项A0,查找A0的相关句集C0;
2) 分别计算选项A0和相关句集C0基于词袋模型的词匹配策略语义相关性度量值Rb(A0,C0)、基于HowNet相似度的语义相关性度量值Rh(A0,C0)、基于Word2Vector相关度的语义相关性度量值Rw(A0,C0)和基于CFN场景分析的语义相关性度量值Rcfn(A0,C0);
3) 根据D-S理论,将不同方法计算所得的语义相关性度量值进行融合:
| $ m(A) = \frac{1}{{1-K}}\sum\limits_{B \cap C \cap D \cap E = A} {{m_1}(B){m_2}(C){m_3}(D){m_4}(E), } $ | (7) |
| $ K = \sum\limits_{B \cap C \cap D \cap E \ne \emptyset } {{m_1}(B){m_2}(C){m_3}(D){m_4}(E).} $ | (8) |
其中:m1、m2、m3和m4为4种维度的语义相关性度量值,即Rb(A0,C0)、Rh(A0,C0)、Rw(A0,C0)和Rcfn(A0,C0)。
基于D-S理论的多维度阅读理解问答系统中全国17个省份近10年高考真题的相关句查全率为77.33%,解答准确率为68.28%;北京和全国各省的高考真题的解答准确率分别为30.17%和27.37%。表 2为基于多维度投票算法各省真题准确率。其中:B表示基于词袋模型的词匹配策略,H表示基于HowNet语义相似度,W表示基于Word2Vector语义相关度,CFN表示基于CFN的语义场景相关度,D表示程度词启发式规则。
| 维度 | 准确率/% |
| B | 24.47 |
| H | 21.35 |
| W | 19.27 |
| CFN | 14.58 |
| B+H | 28.12 |
| B+W | 26.04 |
| B+CFN | 25.52 |
| B+H+W | 30.73 |
| B+H+CFN | 29.16 |
| B+H+W+CFN | 32.81 |
| B+H+W+CFN+D | 35.93 |
对实验结果进行分析,基于多维度投票算法的问答系统中权重参数ωk分别设置为0.1、0.2、0.5、0.2,其中定义1函数fv(Xt)=
1) 最佳维度组合分别为B、B+H、B+H+W、B+H+W+CFN,在增加程度词规则后准确率为35.93%。
2) 在基于多维度投票算法的问答系统中,全国各省高考真题的准确率为35.93%;在基于D-S理论的问答系统中,全国各省高考真题的准确率为27.60%,这是由于相关句集查找准确率对实验结果产生一定的影响。
3) 为了探究每个维度对实验结果的影响,通过将某个维度从维度组合删除来测试对结果的影响,测试结果如表 3所示。
| 维度 | 准确率/% |
| B+H+W+CFN+D | 35.93 |
| -B(H+W+CFN+D) | 34.89 |
| -H(B+W+CFN+D) | 33.33 |
| -W(B+H+CFN+D) | 31.25 |
| -CFN(B+H+W+D) | 33.85 |
| -D(B+H+W+CFN) | 34.67 |
4) 表 4是基于多维度投票算法的不同省份高考试题解答准确率。可以看出,由于每个省份的难易程度与考察的内容不完全相同,准确率不同,北京卷解答准确率最高。
| 省份 | 准确率/% |
| 全国Ⅰ | 22.22 |
| 全国Ⅱ | 22.77 |
| 四川 | 38.46 |
| 天津 | 35.29 |
| 安徽 | 40.00 |
| 上海 | 0.00 |
| 山东 | 42.85 |
| 广东 | 25.00 |
| 江苏 | 28.57 |
| 江西 | 40.00 |
| 浙江 | 33.33 |
| 湖北 | 44.44 |
| 湖南 | 37.50 |
| 福建 | 14.28 |
| 辽宁 | 35.29 |
| 重庆 | 16.66 |
| 北京 | 53.84 |
4 结论
本文提出基于多维度投票算法的高考语文阅读理解解题方法。该方法将基于词袋模型的词匹配策略、基于HowNet的语义相似度、基于Word2Vector语义相关度和基于CFN的语义场景相关度度量作为多维度投票的依据,计算背景材料中的句子和选项集之间语义相关性,从而实现文意理解类选择题的自动解答。通过与构建的基于D-S理论的多维度阅读理解问答系统实验结果进行对比,验证了该方法的有效性。该方法是针对北京语文高考真题文意理解类题型,因此北京高考试题的解答准确率高于其他省份。下一步将采用机器学习方法来解答此类问题,提高算法的普适性和实验准确率。
| [1] | 吴友政, 赵军, 段湘煜, 等. 问答式检索技术及评测研究综述[J]. 中文信息学报, 2005, 19(3): 2–14. WU Youzheng, ZHAO Jun, DUAN Xiangyu, et al. Research on question answering & evaluation:A survey[J]. Journal of Chinese Information Processing, 2005, 19(3): 2–14. (in Chinese) |
| [2] | Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of EMNLP. Seattle, WA, USA:EMNLP, 2013:6-17. |
| [3] | Antoine Y B, Sumit C. Question answering with subgraph embeddings[C]//EMNLP. Doha, Qatar:EMNLP, 2014:615-620. |
| [4] | Ferrucci D, Brown E, Chu-Carroll J, et al. Building watson:An overview of the deep QA project[J]. AI Magazine, 2010, 31(3): 59–79. |
| [5] | Zhang K, Wu W, Wang F, et al. Learning distributed representations of data in community question answering for question retrieval[C]//Ninth ACM International Conference on Web Search and Data Mining. Amsterdam, Holland:ACM Press, 2016:533-542. |
| [6] | 黄昌宁. 从IBM深度问答系统战胜顶尖人类选手所想到的[J]. 中文信息学报, 2011, 25(6): 21–25. HUANG Changning. Thinking about deep QA beating human champions[J]. Journal of Chinese Information Processing, 2011, 25(6): 21–25. (in Chinese) |
| [7] | Richardson M, Burges C J C, Renshaw E. MCTest:A challenge dataset for the open-domain machine comprehension of text[C]//Proceedings of EMNLP. Seattle, WS, USA:EMNLP, 2013:193-203. |
| [8] | Narasimhan K, Barzilay R. Machine comprehension with discourse relations[C]//Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:1253-1262. |
| [9] | Sachan M, Dubey K, Xing E, et al. Learning answer-entailing structures for machine comprehension[C]//Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:239-249. |
| [10] | Wang H, Bansal M, Gimpel K, et al. Machine comprehension with syntax, frames, and semantics[C]//Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. Beijing, China:ACL Press, 2015:700-706. |
| [11] | 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中文计算语言学, 2002, 7(2): 59–76. LIU Qun, LI Sujian. Word similarity computing based on how-net[J]. Computational Linguistics and Chinese Language Processing, 2002, 7(2): 59–76. (in Chinese) |
| [12] | 郝晓燕, 刘伟, 李茹, 等. 汉语框架语义知识库及软件描述体系[J]. 中文信息学报, 2007, 21(5): 96–100. HAO Xiaoyan, LIU Wei, LI Ru, et al. Description systems of the Chinese framenet database and software tools[J]. Journal of Chinese Information Processing, 2007, 21(5): 96–100. (in Chinese) |
| [13] | Fillmore C J. Frame semantics and the nature of language[J]. Annals of the New York Academy of Sciences, 1976, 280(1): 20–32. |
| [14] | Baker C F, Fillmore C J, Lowe J B. The Berkeley framenet project[C]//Annual Meeting of the Association for ComputationalLinguistics and 17th International Conference on Computational Linguistics-Volume 1. Montreal, Quebec, Canada:ACL Press, 1998:86-90. |
| [15] | Ruppenhofer J, Sporleder C, Morante R, et al. Semeval-2010 task 10:Linking events and their participants in discourse[C]//International Workshop on Semantic Evaluation. Uppsala, Sweden:ACL Press, 2010:45-50. |
| [16] | 李茹. 汉语句子框架语义结构分析技术研究[D]. 太原: 山西大学, 2012. LI Ru. Research on Frame Semantic Structure Analysis Technology for Chinese Sentences[D]. Taiyuan:Shanxi University, 2012. (in Chinese) |
| [17] | Che W, Li Z, Liu T. LTP:A Chinese language technology platform[C]//International Conference on Computational Linguistics. Beijing, China:DBLP, 2010:13-16. |
| [18] | Dempster A P. Upper and lower probabilities induced by a multi-valued mapping[J]. Annals of Mathematical Statistics, 1967, 38(2): 325–339. DOI:10.1214/aoms/1177698950 |
| [19] | Inglis J. A mathematical theory of evidence[J]. Technometrics, 1978, 20(1): 242–242. |

