文本飘红策略对搜索引擎用户行为的影响
张辉, 苏宁, 刘奕群, 马少平     
清华大学 计算机科学与技术系, 智能技术与系统国家重点实验室, 北京 100084
摘要:搜索用户根据搜索引擎结果页面的搜索结果来决定他们是否点击特定的网页,其展示形式在用户整个搜索交互过程中起到重要作用。查询词飘红是目前商业搜索引擎结果文本主要采用的展现形式,存在着满篇红和缺乏有用信息的现象,该文旨在提出一种新的飘红策略,从而提高用户的搜索效率。该文基于人工标注的结果提出了3种文本飘红策略,分别是缩减查询词飘红策略、任务级飘红策略和结果级飘红策略,通过实验分析了4种不同的摘要飘红策略对用户搜索行为的影响,结果表明:该文提出的3种文本飘红策略,其性能均优于目前商业引擎采用的查询词飘红策略,通过控制飘红次数、飘红比例和提供有价值的信息,可以对用户搜索行为产生非常积极的影响。
关键词搜索用户行为    文本飘红    搜索引擎结果页面    搜索结果摘要    
Effect of snippet text bolding in search user behavior
ZHANG Hui, SU Ning, LIU Yiqun, MA Shaoping     
State Key Laboratory of Intelligent Technology and Systems, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
Abstract: Search users rely on result captions including titles, snippets and URLs to decide whether they should click a particular result. Snippets usually serve as a query-dependent summary of its corresponding landing page and are, therefore, one of the most important factors in the search interaction process. At present, commercial search engines use query bolding strategies, but these have various problems and lack useful information. This paper presents a bolding strategy that improves user search efficiency. The method includes three bolding strategies based on crowd sourcing results which differ from the query terms strategy. Tests show that the search behavior is affected by the term bolding strategies without changes in the snippet contents. The tests also show that the responses to the three bolding strategies are better than responses to the query terms bolding strategy to produce a better bolding strategy. The appropriate bolding numbers, bolding ratio, and targeted information have a very positive impact on the user's search behavior.
Key words: search user behavior     text bolding     search engine results page (SERP)     search results summary    

用户的搜索交互过程一直是搜索引擎用户人机交互(user interface, UI)研究的重点,搜索引擎结果页面(search engine results page,SERP)展示是搜索引擎UI设计的核心内容[1-2]。商业搜索引擎的搜索结果引入许多新的形式(如垂直结果、卡片、知识图谱和直接的答案等),但大部分搜索结果仍然是传统的形式,如图 1所示,包含标题、摘要和网址等文本内容。

图 1 搜索引擎的一条搜索结果

用户根据看到的SERP中“搜索结果”,来判断是否阅读/单击这一结果,并进入它所对应的原始网页,因此搜索结果的展示效果直接影响用户的阅读、认知和搜索行为。目前大部分研究工作都集中在搜索结果文本的长短[3-4]、可读性[5]对用户搜索行为的影响。也有部分工作旨在研究产生更好的搜索结果文本内容,从而提高用户满意度和搜索效益[6]。有少部分的工作研究搜索结果视觉效果对用户的影响[7],但它重点研究查询词是否突出显示(飘红)。目前商业搜索引擎通常都采用查询词(及其同义词)飘红的文本突显策略,同时在搜索结果中飘红标题和摘要(如百度搜索)或者仅飘红摘要(如谷歌搜索)中的查询词。根据以往用户眼动实验数据[4],查询词突显(飘红)可以吸引用户的注意力,让用户感觉结果与查询更加相关,从而增加用户的点击行为。但是,某些情况下也会促使用户注意并点击那些本来不太相关的结果。

目前商用搜索引擎通常采用查询词(及其近义词)飘红(query term bolding, QTB)策略, 将用户提交查询进行分词处理,将所有查询词或部分查询词的同义词都进行飘红,如图 2所示,不仅仅飘红了查询词“肿瘤”,也飘红其近义词“癌症”。这种策略假定查询词就是用户搜索任务需求的线索,结果中的查询词越多,那么该结果所代表的原文档与查询任务就越相关,需要用户分配更多的注意力,这种策略非常直观且易于理解,对于搜索引擎的早期用户也是有效的。但随着网络技术的发展,现在的搜索引擎与早期搜索引擎有了很大的区别,搜索用户领域背景更多样,搜索任务更复杂,搜索结果的来源更丰富,仅靠查询词已经不能够完全反映用户动态的、变化的和多样的搜索任务需求[1, 5]。同时,搜索结果中也存在虽然有很多查询词,却没有有用信息的广告或垃圾结果。

图 2 某商业搜索引擎SERP截取结果

综上所述,仅仅采用QTB策略来展示SERP页面,并不能很好地满足目前搜索引擎的需求,帮助用户提高搜索效率。因此,本文试图研究飘红策略对于用户搜索行为的影响,并找寻到一种更好的飘红策略来帮助用户更有效地获取信息。为了使得研究问题更有针对性,本文重点关注搜索结果中摘要的飘红策略,而搜索结果标题采用不飘红的方式。本文主要研究以下3个方面的问题:

问题1:用户倾向于认为哪些信息是对搜索任务重要而应该被飘红的关键词?

问题2:不同的飘红策略对用户的搜索行为是否有所影响?

问题3:如果有影响的话,从用户获取信息的角度来说,什么样的飘红策略是更好的?

为了回答上面的3个问题,首先,本文采用众包的方式,让用户标注搜索结果摘要中哪些词/短语对完成搜索任务来说是最有用、最应该被飘红的关键线索词,根据用户标注结果,本文生成了对应每个搜索任务SERP首页10个搜索结果的飘红词表;然后,本文提出了不同于QTB策略的其他3种飘红策略,开展了不同飘红策略下用户进行正常搜索过程的实验,收集了用户的鼠标和眼动数据,分析了不同飘红策略下用户浏览、点击行为的变化情况。

1 相关工作

与本文工作相关的内容,主要包括3个方面:结果摘要的展示对用户搜索行为的影响;结果摘要的生成算法和评价方法;文本突显(飘红)对用户搜索过程的影响。

Joachims等[8]指出,搜索过程存在位置偏置现象,用户总是倾向于单击排名靠前的结果,如果一个结果排名靠后,它如果想要被单击,就必须能够显著地引起用户注意。结果摘要内容质量的高低,对于用户准确判断文档与查询任务的相关性有很大的影响。Aula等[9]通过实验证明了,如果一个结果摘要内容杂乱无章,即使原始文档再相关,用户也不会去单击它。大部分的自动摘要生成算法[10-11],都是研究如何生成一个好的摘要,应该选择哪些句子以及摘要的长度。Feild等[12]提出根据句子中是否含有查询词以及是否带有粗体斜体等格式,给予句子不同的权重,这种方法忽略了句子本身的内容信息。Varadarajan等[13]利用文档的图结构,选取与查询相关的文档段落。Cutrell等[4]实验了不同的摘要长度对不同查询类型信息需求的影响,结果表明增加摘要长度可以提高信息类查询的效益,但却会降低导航类和事务类查询的效益。摘要的可读性也是一个影响用户行为的指标,结果显示可读性好的摘要得到了更多的单击。Rose等[14]的实验表明,晦涩难懂的摘要以及不合适的断句都会对可读性产生不好的影响,摘要的结构线索对可读性有较好的影响。Kate等[15]的实验表明,大写字母、标点符号、停用词和大量的字符会降低摘要的可读性。Kickmeier等[16]的实验表明,文本突显的密度对用户的点击行为和记忆准确性都有明显的影响,文本突显密度过高或者过低都会对用户有不好的影响。

视觉对一段文本内的不同亮度、颜色具有敏感性。文本突显的目的是通过改变文本的外在展示形式,从而获取视觉的注意,即“吸引注意力”。早期的搜索引擎实验已表明,通过在摘要中飘红查询词(颜色突显)的方式可以吸引用户的注意,改善用户搜索中信息获取的效率[17-18]。另一方面,Few等[19]的实验指出,过多的颜色突显反而会降低用户的视觉注意力,引起视觉分散的现象。由此可见,SERP中摘要文本飘红的目的是清晰准确的突显对用户比较重要的信息,同时不要引起视觉混乱。

摘要是由原始文档通过人工或自动的方式生成,通常是由句子组成的一段几十个字节的文本,它不仅包含查询词,还可能包含具有信息价值的非查询词,或者直接满足查询需求的答案。目前商业搜索引擎所采用的QTB飘红策略,没有考虑到用户的信息需求以及飘红的密度问题,“满页都是红”(SERP飘红密度太高)的情况非常普遍。本文主要研究从满足用户搜索需求的角度,哪些词/短语最应该被飘红,怎样的飘红密度是合适的。

2 数据集及实验设计

本节主要描述实验所需要的数据集,以及实验的流程。主要包括:1)查询任务、搜索结果和飘红词;2) 4种飘红策略及对应的飘红词表;3)实验流程及收集数据,含鼠标数据、眼动数据以及用户调查问卷;4)众包的方式判断文档与查询任务的相关性。

2.1 查询任务和飘红词

本文选取了NTCIR IMine中的12对共24个中文查询[20](这些查询都是关键词查询,而非自然语言的句子查询),其中包括2对4个导航类查询(navigational tasks, NA),2对4个事务类查询(transactional tasks, TR)和8对16个信息类查询(informational tasks,IN),其中每对任务的查询需求类似、难度相当。本文根据查询关键词撰写了任务描述,并采用问卷平台(http://www.sojump.com/)验证了任务描述和查询之间的一致性。搜索结果来自于Google搜索引擎,去除了SERP中含有图片、视频等的垂直结果,仅选取只包含纯文本的前10条结果。之所以选择Google搜索引擎,是因为Google搜索采用的SERP结果的标题部分没有进行查询词飘红,都是统一的蓝色突显,这样有助于本文把研究的重点放在摘要部分。而去除非传统格式的搜索结果,是因为这些结果的展现形式本身就会对用户行为产生影响,会干扰本文的研究目的。

本文提供给用户查询任务说明、查询(词)以及搜索引擎的SERP界面。SERP页面被去除了摘要中的飘红显示,形成统一的字体颜色,提供给用户进行标注,不对飘红文本内容、飘红文本长短、飘红文本次数进行任何限制,只要求用户根据任务需求和查询的理解标注出重要的、对完成搜索任务有价值应该被突显的词/短语。众包10个用户u,对24个任务q中每个任务的SERP页面中10个结果r进行标注,共产生2 400个飘红词表,每个词表进行去重处理,得到Wq, u, r={w1, w2, …, wn},其中wi为飘红词,n为飘红词的个数。对于任一词表Wq, u, r,进行分词处理、去停用词、去标点和繁简转换处理,得到新的Wq, u, r

2.2 飘红策略

飘红比例Ra是指飘红的字节数占结果摘要全部字节数的比例, 飘红数量Nu是指无间隔飘红色块的数量。这2个参数是飘红策略要考虑的参数,对于摘要的展示具有重要作用。为了研究不同飘红策略对用户搜索行为的影响,本文提出了4种不同的飘红策略,其中S1为目前商业搜索引擎普遍采用的方式,S2、S3和S4为本文新提出的飘红策略。

查询词飘红策略(S1):将摘要中的查询词及其同义近义词全部进行飘红,这是目前商业搜索引擎普遍采用的方式。

缩减查询词飘红策略(S2):针对单条搜索结果,采用S1策略,如果飘红词数量超过3个,那么依据从左往右、从上到下的顺序,选取最长的3个词进行飘红,其余词语不飘红改为标准颜色,否则保留原有飘红。这一策略的目的主要是减少“满条红”和“满篇红” (Nu过大)的现象,使得整个页面变得比较清爽。

任务级飘红策略(S3):对每个任务q,先将每个用户标注的10个结果的关键词求并集,然后对10个用户进行累加计算,最终形成一个飘红词表Wq={(w1, n1), ((w2, n2), …, (wn, nn))},其中wi为第i个飘红词,ni代表共有i个人标注过wi。为保证S1与S3具有相当的平均Ra (分别为18.9、19.1),本文选取词表Wqn≥5的词语进行飘红,即对于同一个查询任务,共有5个人在SERP页面标注过同样的词/词语。

结果级飘红策略(S4):对每个任务q每个结果r,将10个用户标注的结果进行累加计算,最终形成词表Wq, r={(w1, n1), ((w2, n2), …, (wn, nn))},其中wini说明同上。为了保证S1与S4具有相当的平均Nu (分别为2.9、2.8),本文选取词表Wq, rn≥4的词语进行飘红。

2.3 实验流程

本文实验共邀请了36个参与者,完成3组对照实验,每次实验采用2种飘红策略,第1组为S1和S2,第2组为S1和S3,第3组为S1和S4。之所以都与S1对照,是因为S1为目前搜索引擎普遍采用的飘红策略。每组任务12个人参加,每人完成24个任务(每种飘红策略12个任务)。采用希腊拉丁方和随机序列的方法,保证每个任务以相同的概率展现给用户,对于每种飘红策略下的每个任务,本文可以收集到6个用户的查询任务数据。本文开发了一个实验用搜索引擎,根据任务描述和查询词产生SERP第1页共10个结果,该搜索引擎界面形式采用Google框架,用户可以通过该搜索引擎完成正常的搜索功能,同时用户的交互数据包括鼠标数据和眼动数据都被记录下来。

实验的整体流程如图 3所示。第1步,参与者要进行眼动仪校准,以确保参与者的眼动数据能够被精确地收集到,本实验中眼动仪型号为Tobii X2-30,参数采用缺省设置;第2步,参与者要进行实验的练习任务,完成2个搜索任务,以确保熟悉实验过程;第3步,参与者认真阅读任务描述,以确保了解了任务的需求,以免造成歧义;第4步,看清楚查询词,点击“搜索”按钮,参与者将看到一个预先设计好的SERP界面,进行正常的查询任务,并根据提供的按钮进行点击结果检验的记录,查询完毕点击右上角的完成按钮,进入下一个任务。实验要求参与者必须在90 min内完成任务,完成任务后本文第一作者会口头询问实验者与查询任务相关的简单答案,以确保参与者在认真地完成任务,也会与用户进行交谈,从而获取用户关于页面飘红感受的反馈。

图 3 整体实验流程

最终参与实验的36名参与者中共有12个女生、24个男生(每组实验有4个女生、8个男生),这些参与者都是来自同一所大学一年级的本科生,就读的专业包括经济学、美学、法学和社会科学,且有一年以上的搜索引擎使用的经验。实验中没有邀请计算机科学或电子工程专业的学生,他们可能熟练使用搜索引擎,并不能代表搜索引擎的普通用户。

2.4 相关性标注

本文还邀请了5名搜索引擎使用熟练的计算机科学专业的人员对实验中使用的查询任务-结果文档进行了4级相关性标注,其相关性标注结果Kappa系数为0.48,根据Cohen所提出的标准[21],这是一个中等一致性的结果,可以用在后续的累积效益(cumulative gains,CG)和归一化累积效益(discounted cumulative gains,DCG)计算过程中。

3 实验结果分析及讨论 3.1 实验设置和评价指标

根据以往的研究成果[22],本次实验的检验阈值设置为200 ms,如果注视大于阈值,本文则认为用户检验过该结果。根据以往搜索用户交互过程中用户行为的研究,通常采用成本-效益框架来评价搜索引擎的搜索性能,其中搜索效益CG和DCG是2个常用的评价指标[23]。本文所采用的评价指标如表 1所示,其中“C-”开头的指标代表鼠标行为数据所用指标,而“E-”开头的指标代表眼动行为数据所用指标。

表 1 搜索效益评价指标体系
评价指标 描述
C-CG 不考虑位置,根据用户鼠标数据计算的搜索效益
C-DCG 考虑位置,根据用户鼠标数据计算的搜索效益
E-CG 不考虑位置,根据用户眼动数据计算的搜索效益
E-DCG 考虑位置,根据用户眼动数据计算的搜索效益
DT 每个搜索任务,用户的停留时间,不考虑加载网页的时间
C-RN 单击结果数量
C-RD 单击结果的最大排名
C-SL 单击结果列表的长度
E-RN 浏览结果数量
E-RD 浏览结果的最大排名
E-SL 浏览结果列表的长度

3.2 不同飘红策略的搜索效能分析

本文把目前商业搜索引擎采用的S1策略作为对比基准,分别将S2、S3和S4策略与S1进行对比,计算评价指标的变化,如表 2所示。其中↑和∧代表增加,∨和↓代表下降,其中∧、∨代表统计显著性指标p < 0.1。

表 2 飘红策略的搜索效能对比
指标 S2/% S3/% S4/%
C-CG ∨8.8 ↓4.7 ∨7.6
C-DCG ∨7.3 ↓4.1 ∨7.6
DT ∨12.8 ∨13.8 ∨12.5
C-RN ∨10.5 ↓5.5 ∨9.1
C-RD ∨17.6 ↓0.8 ∨9.8
C-SL ∨10.0 ↓5.0 ∨9.4

通过表 2的结果,本文可以得出如下的结论。

1) S2策略相比S1策略,其中C-CG降低了8.8,C-DCG降低了7.3,在搜索效能上有显著地提高,这说明过多的飘红不仅不会帮助用户获取信息,反而可能对用户造成困扰,“满篇都是红”对于用户来说是无益的。单条搜索结果飘红数量不宜过多,以免分散用户注意力。

2) S3策略相比S1策略,在搜索效益上也有所提高,但是只有停留时间显著降低以外,其余指标统计上不具有显著性。说明增加更多的飘红词,提高了飘红的比例,对用户来说有一定作用,但是作用不大。这可能是因为一方面飘红除查询词以外的词语,给用户提供了更丰富的线索,但另一方面,增加了飘红数量,会分散用户的注意力。

3) S4策略相比S1策略,在搜索效能上有显著的提高,而S1和S4具有相当的飘红数量,这说明用户标注的飘红词相比于查询词来说,能够帮助用户获取到更有价值的信息。通过分析用户标注飘红词可以发现,用户倾向于标注更长的飘红和直接标注备选答案,比如查询“艾滋病皮肤症状”,用户倾向于标注“艾滋病初期皮肤症状”作为一个飘红,而不是标注“艾滋病” “皮肤”和“症状”这些单独的词语;再比如查询“支付宝电话”,用户更加倾向于标注出电话,如“95188”和“0571-6500-5120”,而不是标注“支付宝”、“电话”作为飘红词。

用户注视行为如图 4所示,用户会注意看“飘红词”,通过标注合适的飘红词,可以让用户关注位置靠后但是更相关的结果。当查询词为“降压药物种类”时,S1策略下飘红词为“降压” “降压药” “药物”和“种类”,而S4策略下用户倾向于标注“利尿剂” “β受体阻滞剂” “钙拮抗剂(CCB)”等直接答案。对比图 4a图 4b可以看到,在S1策略下排名靠后的结果用户基本不会注意到,而在S4策略下排名靠后(排名为8)的结果由于飘红了“直接答案”,对用户完成查询任务更有价值,用户更加倾向于去注视该结果。

图 4a S1策略下用户注视热度图

图 4b S4策略下用户注视热度图

3.3 不同搜索任务的搜索效能分析

针对S1与S4策略,更进一步的对比分析如表 3所示。本文分别统计了3种不同的查询类型和2种不同的摘要类型,摘要中带有直接答案(instant answers, IA)和没有直接答案(no instant answers, n-IA)。通过表 3的结果,本文可以看出下面的结论。

表 3 不同查询任务的搜索效能分析
指标 NA/% IN/% TR/% IA/% n-IA/%
C-CG ∨8.2 ∨9.1 ∨22.4 ∨21.7 ∨8.3
C-DCG ↑6.2 ∨4.8 ↓20.9 ↓7.0 ∨7.8
DT ↑6.3 ∨18.7 ↑13.0 ∨27.2 ↓6.0
C-RN ∨5.0 ∨7.8 ∨19.0 ∨16.3 ↓7.2
C-RD ↑26.7 ↓13.7 ∨17.6 ∨28.4 ↓4.3
C-SL ↓5.0 ∨8.2 ↓18.6 ∨17.5 ↓7.2
E-CG ↑15.6 ∨10.6 ∨14.6 ∨20.4 ↑0.7
E-DCG ↑14.3 ∨17.6 ↓18.2 ↓26.4 ∨10.6
E-RN ↑19.4 ↓9.3 ↑24.0 ∨20.2 ↑2.4
E-RD ∧23.7 ↓13.7 ↑5.6 ∨34.2 ↑2.6
E-SL ∧44.3 ↓11.1 ↑24.0 ↓23.5 ↑6.8

1) 在IN和TR2类查询任务中,S4飘红策略显著提升了搜索效益,而对NA类查询任务的提升不明显,这可能是因为导航类任务相对简单,用户倾向于根据标题来判断文档相关性,不同的摘要飘红策略对用户的影响不大。

2) S4飘红策略在IA类查询任务中显著提升了搜索效益,用户的浏览时间和序列长度都显著减少,而在n-IA类任务中提升不显著,说明对于IA类查询,用户倾向于直接在摘要中找寻答案,而一旦找到则不会再去点击该结果。

4 结论

搜索结果摘要作为影响用户搜索行为的重要指标,先前的工作较少关注到不同展现形式对用户注意力分配以及获取信息的影响。本文设计了一套实验流程,收集不同飘红策略下用户搜索的鼠标数据和眼动数据,进而分析展现形式对用户行为和搜索效益的影响。实验证明:不同的飘红词(文本)对用户搜索行为有很大影响,提供更加丰富和有价值的飘红词作为完成搜索任务的线索,如直接答案可以大大提高搜索效益;不同的飘红比例和数量对用户的搜索行为也有很大影响,用户倾向于标注更长的短语作为飘红词,更少的飘红数量减少SERP页面“满页都是红”的现象,可以减少用户的搜索成本;采用人工标注的飘红策略,相比于目前商业搜索引擎采用的飘红策略,搜索效益显著提升。下一步本文将继续研究不同飘红策略对不同用户类型、垂直搜索引擎和自然语言查询的影响,并且研究有效的飘红词自动生成算法。

参考文献
[1]
EICHHORN G, KURTZ M J, ACCOMAZZI A, et al. The NASA astrophysics data system:The search engine and its user interface[J]. Astronomy and Astrophysics Supplement, 2000, 143(1): 61-83. DOI:10.1051/aas:2000171
[2]
LEVY A Y, RAJARAMAN A, ORDILLE J J. Querying heterogeneous information sources using source descriptions[C]//Proceedings of the 22nd International Conference on Very Large Data Bases. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1996: 251-262.
[3]
PAEK T, DUMAIS S, LOGAN R. WaveLens: A new view onto internet search results[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Vienna, Austria: ACM, 2004: 727-734.
[4]
CUTRELL E, GUAN Z W. What are you looking for?: An eye-tracking study of information usage in web search[C]//Proceedings of SIGCHI Conference on Human Factors in Computing Systems. San Jose, CA, USA: ACM, 2007: 407-416.
[5]
KANUNGO T, ORR D. Predicting the readability of short web summaries[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining. Barcelona, Spain: ACM, 2009: 202-211.
[6]
CHEN Y, LIU Y Q, ZHOU K, et al. Does vertical bring more satisfaction?: Predicting search satisfaction in a heterogeneous environment[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne, Australia: ACM, 2015: 1581-1590.
[7]
BALDONADO M Q W, WINOGRAD T. Hi-cites: Dynamically created citations with active highlighting[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Los Angeles, CA, USA: ACM, 1998: 408-415.
[8]
JOACHIMS T, GRANKA L, PAN B, et al. Accurately interpreting clickthrough data as implicit feedback[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Salvador, Brazil: ACM, 2005: 154-161.
[9]
AULA A. Enhancing the readability of search result summaries[C]//Proceedings of the HCI 2004: Design for Life. Leeds, UK: HCI, 2004. https://www.researchgate.net/publication/239970095.
[10]
KANUNGO T, ORR D. Predicting the readability of short web summaries[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining. Barcelona, Spain: ACM, 2009.
[11]
KAISSER M, HEARST M A, LOWE J B. Improving search results quality by customizing summary lengths[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technlogies. Columbus, Ohio, USA: ACL, 2008: 701-709.
[12]
FEILD H, WHITE R W, FU X. Supporting orientation during search result examination[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Paris, France: ACM, 2013: 2999-3008.
[13]
VARADARAJAN R, HRISTIDIS V. A system for query-specific document summarization[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management. Arlington, Virginia, USA: ACM, 2006: 622-631.
[14]
ROSE D E, ORR D, KANTAMNENI R G P. Summary attributes and perceived search quality[C]//Proceedings of the 16th International Conference on World Wide Web. Banff, Alberta, Canada: ACM, 2007: 1201-1202.
[15]
KATE R J, LUO Z Q, PATWARDHAN S, et al. Learning to predict readability using diverse linguistic features[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China: ACM, 2010: 546-554.
[16]
KICKMEIER M D, ALBERT D. The effects of scannability on information search: An online experiment[C]//Proceedings of the 7th British HCI Group Annual Conference. Bath, UK: HCI, 2003.
[17]
LANDAUER T, EGAN D, REMDE J, et al. Enhancing the usability of text through computer delivery and formative evaluation: The superbook project[M]. MCKNIGHT C, DILLON A, RICHARDSON J. Hypertext: A Psychological Perspective. New York: Ellis Horwood, 1993.
[18]
BAUDISCH P, LEE B, HANNA L. Fishnet, a fisheye web browser with search term popouts: A comparative evaluation with overview and linear view[C]//Proceedings of 2004 Working Conference on Advanced Visual Interfaces. Gallipoli, Italy: ACM, 2004: 133-140.
[19]
FEW S. Now you see it:Simple visualization techniques for quantitative analysis[M]. Piedmont: Analytics Press, 2009.
[20]
LUO C, LI X, KHODZHAEV A, et al. THUSAM at NTCIR-11 IMine task[C]//Proceedings of the 11th NTCIR Conference. Tokyo, Japan: NTCIR, 2014.
[21]
COHEN J. Weighted kappa:Nominal scale agreement provision for scaled disagreement or partial credit[J]. Psychological Bulletin, 1968, 70(4): 213-220. DOI:10.1037/h0026256
[22]
LORIGO L, HARIDASAN M, BRYNJARSDÓTTIR H, et al. Eye tracking and online search:Lessons learned and challenges ahead[J]. Journal of the Association for Information Science and Technology, 2008, 59(7): 1041-1052.
[23]
JIANG J P, AWADALLAH A H, SHI X L, et al. Understanding and predicting graded search satisfaction[C]//Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. Shanghai, China: ACM, 2015: 57-66.