对话语篇中对话者的心理距离预测初探
吕学强 1 , 张学敬 1,2 , 周强 2,3     
1. 北京信息科技大学 网络文化与数字传播北京市重点实验室, 北京 100101;
2. 清华大学 清华信息科学与技术国家实验室(筹), 北京 100084;
3. 清华大学 信息技术研究院, 语音与语言技术中心, 北京 100084
摘要:在对话语篇的分析研究中,对话行为与对话意图是很多研究者关注的焦点,具有重要的研究价值,为了能够更好地理解对话蕴含的机制,该文针对心理距离与对话行为分布做了探讨。针对已标注的对话语料内容,建立一个心理距离预测模型,同时通过研究对话行为的分布,分析得出具体差异。研究表明:在工作和爱情话题中,对话内容的心理距离得分较高,代表对话双方关系密切,问答对话有所增多,而天气话题和交通话题得分较低,对话双方关系疏远,阐述性质对话增多,并且在不同心理距离影响下,对话的反馈类型分布也有所区别。在经过对人工标注的实验数据统计分析之后,初步验证了该模型在对话者心理距离预测方面的可行性,为后续进行对话内容自动分析标注研究打下了良好的基础。
关键词语用学    语义学    对话语篇    心理距离    对话行为分布    
Psychological distance prediction in dialogue discourse
LÜ Xueqiang1, ZHANG Xuejing1,2, ZHOU Qiang2,3     
1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China;
2. Tsinghua National Laboratory for Information Science and Technology(TNList), Tsinghua University, Beijing 100084, China;
3. Center for Speech and Language Technologies, Research Institute of Information Technology, Tsinghua University, Beijing 100084, China
Abstract: Dialogue behavior and dialogue intention are the key focal points in dialogue discourse studies. The dialogue mechanism is analyzed here in terms of the psychological distance and dialogue behavior. A psychological distance prediction model was developed to study the corpus with differences identified by studying the dialogue behavior distribution. This study shows that psychological distance scores are higher for work and love topics, when the speakers have a close relationship and in question-answer dialogue. So the scores are lower for weather and traffic topics, alienated relationships, and statement dialogues. The psychological distance is then related to the response type distributions. A statistical analysis of the dialogue behavior confirms the feasibility of the psychological distance prediction modelfor the future studies of dialogue content.
Key words: pragmatics     semantics     dialogue discourse     psychological distance     dialogue behavior distribution    

当信号携带信息时,会从通信源传输到目的地,对话过程也与这个过程类似。说话者会在一个基本层面表达出他的信息,也就是产生口头消息,这是说话者将他想表达的内容编码之后产生的结果,但是消息的接收者会超出文字的字面意思理解话语,从而理解说话者的真正意图[1]。在对话语篇的研究中,研究者有很多都注意到了对话意图分析,并且不断尝试对于对话意图的研究分析。Reithinger等[2]在他们所完成的系统VERBMOBIL中对对话意图进行了探索。宗成庆等[3]对限定领域汉语口语对话语料进行了分析。周可艳等[4]认为对话行为反映了对话语句以及对话人的意图,例如陈述、疑问、许诺、解释等,也就是说对话意图可以通过对话行为表现出来。张耀允[5]也进行了针对基于用户意图分析的交互式问答技术的研究。Schlöder等[6]提出考虑两种不同类型的意图相关的会话问题,意图识别和意图采纳来改进现有的理论基础。文[7]则详细介绍了基于上下文进行意图识别的方法。

本文在已有的研究成果之上,提出加入心理距离的考虑因素。对此问题,也有不少学者做出了探索与研究。李志雪[8]梳理了句子理解中几个主要的心理语言学模型,这些模型的建立可以对思维过程做出猜测,以便了解句子意义的产生过程。Carrol[9]对于不同的对话过程做了详尽的解释。沈晨[10]和索佳丽[11]介绍了心理语言学在中国的发展,牛忠辉[12]分析了心理距离与评价行为之间的关联性,他认为,人与人之间的亲密度具有心理距离特性(即社会距离),并且得出了相对于心理距离远的被测者,心理距离近的被测者的正性行为和负性行为的评价分数均较高的结论,说明人际关系亲密度对他人行为的评估具有一定的调节作用。这在心理学的层面上说明了,在心理距离不同的情况下,人与人之间的行为模式存在差异。

受此研究工作的启发,本文构建了一个心理距离评估模型,试图预测在对话中的对话者心理距离。通过人工标注500个日常对话语篇的对话行为,并对标注结果进行统计分析,可以初步验证该评估模型的可行性,并且通过分析对话行为分布的差异,进一步确定心理距离与对话行为模式的内在联系。

1 标注体系介绍

对话行为是对话语消息在对话过程中发挥作用的一种描述,是对话中心理距离的主要体现。为了有效分析心理距离对话题内容中行为分布的影响,本文选择话题线索、对话行为和依存关系进行对话行为的详细标注。

话题线索将对话语篇中描述同一话题内容的话语消息组织在一起,提取类似书面独白语篇中的句群[13]内容主旨描述,这也是本文在心理距离评估模型要研究分析的主要基本单位,对话行为和依存关系是本次研究的主要内容。行为标记是对话行为的类型描述,对于对话的研究分析具有重要作用,不同的行为标记可以体现出对话参与者的不同情感表达,显示出对话双方的亲密度的差异。依存关系是不同对话行为之间的语义关系描述,能够体现对话行为之间的关联关系。作为研究的主要内容,行为标记主要分为5类:阐述类S、动作类DO、询问类Q、回答类A以及反馈类R,每一个类别下都有各自的小类进行更加细致的区分。

基于对话行为标注信息,可以进一步明确在对话过程中对话意图的初步分类。在对话行为中,又会出现行为之间的依存关系。根据其特性可以把现有的依存关系分为两大类,分别是功能依存关系和反馈依存关系。据此可以统计对话行为关系对,体现对话行为在真实对话语篇中的分布。因为每一种依存关系都是在两个话语消息之间存在的对话行为关系,它体现了对话行为片断间的相互关联关系,可以更好地体现话语消息之间的关系和对话者的心理距离。

2 心理距离评估模型

在心理距离分析方面,牛忠辉[12]采用的方法是让被测试者填写问卷,每个选项代表了不同的分值。而本文则基于现有标注语料描述特点,设计了一套新的评分机制。基本假设是不同对话行为模式差异可以在一定程度上反映对话者的心理距离。因此,可以通过对不同对话行为标记设置不同的评分值来模拟心理距离的预测过程。而这些评分值的确定又参照了文[12]中的心理认知实验的评分值确定方法,认为评分代表了对话的心理距离,评分越高,心理距离越近,关系也就越亲密。该模型基于被测者的评价内容,从评价内容中分析评价与亲密度的关系。本文的工作则是在对话内容中挖掘出对话与心理距离的关系,同时能够分析出心理距离与如何做出回应之间的关系。

具体评分值设置方法如下:由于客观事实描述表达的情感不明显,S-1(客观阐述)给1分;主观评价表达了一定的潜在感情,S-2(主观评价)给3分;正性反馈和负性反馈都认为是同样程度的情感表达,R-1(正性反馈)和R-2(负性反馈)给3分;中性反馈和保留反馈表达情感较为和缓,能够维持稳定的对话过程,R-3(中性反馈)和R-4(保留反馈)给2分;对话者双方的协同动作表示亲近,DO-3(协同动作)给5分;单独一方的动作表达的情感较弱,DO-1(说话者动作)和DO-2(受话者动作)给3分;询问类和回答类在对话过程中,能够体现说话者关心的内容,也能够表现出强烈的功能性特征,所以Q(询问类)和A(回答类)给5分。本文统计的基本单位是话题线索,由于每个话题线索的行为标记个数并不相同,为了去除此项干扰,话题线索得分=话题线索总得分/话题线索行为标记数,可以得到单个话题线索的评分,然后再计算全部话题线索的平均评分,可以得到整体话题类型的心理距离评分值。

为了能够更加直观地感受到在不同话题内容中心理距离影响下的对话意图与行为分布的关系,下面给出具体实例进行简要分析。

在实例1中,首先由说话者A表述客观事实,说话者给出正性反馈,表示赞同,这里是反馈依存关系,也是信息的主动输出;接着A又继续表述客观事实,B给出中立反馈,同样是反馈依存关系,又加入了客观事实价作为信息的补充,说话者A表示赞同,这里也是反馈依存关系。信息主要为客观事实描述,体现的情感很弱,也都是信息的主动输出。可以看出这段对话并不涉及太多个人情感,即使是陌生人之间进行这段对话也并不觉得突兀,这是情感的浅层交互,在心理距离较远的情况下,谈论此类话题很得当,对话双方都能够有足够的心理舒适度来继续这段对话。具体信息如表 1所示。

表 1 对话实例1
话题线索 参与者ID 行为标记 话语片断
T1 A S-1 今天又下雨了。
T1 B R-1 是啊,
T1 B S-1 这两天总是下雨。
T1 A R-3, S-1 都快一个星期没晴天了。
T1 B R-1 是啊!

在实例2中,首先由A阐述客观事实,对于情感的表达较弱,是信息的主动输出,B给出了中立反馈,表达出了一定的内在情感。下一句说话者A给出了建议,是一个受话者动作,也能够判断出情感较为亲近。对话者B询问公共交通不靠谱的原因,这表达出对这个问题的关心,也有较强的情感流露,也是信息的索取。最后是说话者A给出回答,这里是功能依存关系。在交通话题中可以看出表达情感的内容更加明显。具体信息如表 2所示。

表 2 对话实例2
话题线索 参与者ID 行为标记 话语片断
T2 A S-1 你家的那个站点又远了一点儿。
T2 B R-3 让不让人活了啊。
T2 A DO-2 嘿嘿,你多走点路,当减肥呗。
T2 B Q-3 你说现在这些公共交通咋这么不靠谱?
T2 A A 马路拆拆修修,公交车当然要换道。

在实例3中,说话者A出于关心,询问B放假的情况,是信息索取意图,说话者B给出回答,存在功能依存关系,是对话双方表示关心以及回应,心理距离近,这时说话者A也产生了新的询问意图,不明白为什么B不放假,最后B给出回答,也是功能依存关系,满足了B的询问意图,这一轮的信息交互结束。在工作话题中,对话双方表现出了很多关心,对话双方的心理距离也很小,这符合在评分机制中,工作话题得分最高的情况。具体信息如表 3所示。

表 3 对话实例3
话题线索 参与者ID 行为标记 话语片断
T3 A Q-3 你们单位什么时候放假?
T3 B A 这个星期估计不会放假了。
T3 A Q-3 为什么不放假了?
T3 B A 这个星期单位工作比较忙。

在实例4中,首先是说话者A表达自身感受,情感表达强烈,心理距离很近,是信息的主动输出。说话者B根据A的表达,出于关心的意图,询问说话者A是否恋爱,是对信息的一种索取,说话者A给出了肯定回答,并且向B阐述了自己被告白的事实。在这一段对话中,情感表达清晰明确,能够看出对话双方亲近的关系,符合爱情话题在心理距离评分较高的情况。具体信息如表 4所示。

表 4 对话实例4
话题线索 参与者ID 行为标记 话语片断
T4 A S-2 我感觉自己好幸福。
T4 B Q-1 恋爱了吗?
T4 A A-1 是啊,
T4 A S-1 今天我被告白了。

从这典型实例的分析中,可以得出在不同话题内容中,由于心理距离不同导致的对话行为差异明显。在对话过程中情感表达程度不同,表明不同心理距离对对话意图产生的影响,这种影响在对话行为上表现得尤为突出。可见,心理距离与对话意图存在一定关系,而对话意图可以从对话行为中体现出来,这种相互影响的关系有助于对话语篇的进一步分析研究。

3 心理距离评估结果 3.1 数据准备

为了研究对话语篇中心理距离与对话行为之间的关系,本文使用了人工编纂的共500篇日常对话语篇,内容是两个人的交替对话,共5个话题,每个话题包括100篇对话语篇,具体数据如表 5所示。这些话题涵盖了日常对话中的主要内容,具有一定代表性,可以作为对话内容的模拟进行分析。

表 5 对话语篇基本数据统计
话题内容 天气 交通 工作 爱情 饮食
话语消息数 2 501 2 552 2 460 2 405 2 534
行为标记数 2 694 2 714 2 670 2 532 2 730
话题数 188 185 197 176 188
平均话题消息数 13.30 13.79 12.49 13.66 13.48

3.2 结果分析

通过对心理距离评估模型的介绍,已经说明了基于对话行为的评分过程,本文对标注后的500篇对话语篇按照心理距离评估模型进行了评定,从而得到了5个话题通过计算话题线索的平均得分而得出的最终心理距离评分。最终评分体现了整个话题中所体现的心理距离,也符合日常对话对于不同对话内容的心理预期。

图 1中可以看出,工作话题、爱情话题和饮食话题的得分要高于3.1,而天气话题和交通话题小于3.1,其中天气话题的得分最低为2.837。在5个对话话题中,天气话题的心理距离最远,对话双方最为疏离;其次是交通话题,心理距离评分较低,心理距离较远;而爱情话题和饮食话题评分相近,心理距离较近,对话时可以较为随意,工作话题的评分最高,也就是心理距离最近,对话双方亲密。评分结果符合日常对话内容预期,由此可以认为,在不同的话题的对话内容中隐含着不同心理距离的信息,可以通过对话行为的分布获取心理距离。

图 1 不同话题的得分情况

4 对话行为分布差异统计

根据心理距离模型已经得到每个话题的心理距离评分,能够清楚地了解到不同话题内容的心理距离情况。本文认为心理距离对对话意图的分布存在影响,而对话者通过对话行为对对话意图进行体现。也就是对话模式可以由对话行为标记体现出来,而心理距离可以通过对行为标记进行评估,也可以通过对话模式进行体现。由此,针对不同心理距离所影响的对话意图差异,可以通过对话行为进行统计分析。统计是按照话题类型进行,行为关系对所占比重=行为关系对数/总行为关系对数,通过对比不同话题中对话行为关系对的分布差异,可以分析出心理距离对话语意图的具体影响,并且通过对话行为分布差异直观表现出来,进而了解心理距离同对话模式存在的关系。

4.1 对话行为关系对差异统计

图 2中可知,随着心理距离的评分增加,S-R关系对的占比重逐渐减小。天气话题的S-R关系对占比重最高,为0.663,同时天气话题在心理距离评分中得分最低。Q-A关系对所占比重随着心理距离的评分增高而增加,天气话题和交通话题在评分中得分较低,在Q-A关系对占比中也均未超0.3,而工作话题、饮食话题以及爱情话题的Q-A关系对分别占比为0.321, 0.326和0.379。DO-R关系对在工作话题中占比最高,为0.156,其次是饮食话题,在饮食话题中占比为0.147,DO-R关系在这两个话题中的占比远超与其他3个对话话题,在天气话题中占比为0.085,在交通话题中占比为0.119,在爱情话题中占比为0.101。这种分布体现了由于心理距离不同而导致对话行为模式的差异。

图 2 不同话题的行为关系对分布

天气话题和交通话题是对话中普遍的话题。在陌生人对话的场景中,也往往选择这些话题。这些话题并不关心私人生活,通常起到沟通的目的,将自己所需表述内容表达清楚即可,对话另一方给出反馈,也可能会继续表达自身所知信息。爱情话题、工作话题和饮食话题是相对私人的话题,在进行此类话题的对话时,人们通常会选择私交甚好的另一方进行对话。在这种情况下,对话双方顾虑要少一些,可以随时询问信息。在饮食话题和工作话题中对话双方较为亲密,心理距离较小,涉及到共同协作或者相约吃饭的情况要多一些,也就导致在这两个话题中DO-R关系的占比相应增加。可见对话双方的心理距离与对话形式和话题内容是相关的,而在后续涉及到对话系统的对话时,会考虑对话双方的关系,即将对话内容的心理距离作为参考。在自动对话系统中,对话的舒适度是十分重要的,也需要尽量避免在进行普通对话时,出现逾越对话双方心理距离的情况,以减少对话时,使用者可能会出现的被冒犯的感觉。

至此,已经得到不同心理距离导致在对话行为分布上的差异。

4.2 阐述反馈类型差异统计

本次统计的数据为阐述类型的反馈。在4种反馈行为中,保留反馈出现的次数最低,在整体话题阐述反馈最低总次数为566次的情况下,仅出现了几次,导致占比约为0。通过图 3可见,在爱情话题中,中立反馈(R-3)的占比超过了正性反馈(R-1),占比为0.548;其次是饮食话题,占比为0.482;工作话题中,中立反馈占比超过了正性反馈,占比为0.452;交通话题的正性反馈的占比超过了中立反馈,占比为0.471;在天气话题中正性反馈所占比略高于中立反馈,为0.441。负性反馈(R-4)的占比在3个主要的反馈中最低,均只有不到0.150的比重,其中最高为工作话题的0.147。这基本能够说明在不同心理距离中的反馈分布存在差异,这也正好符合话题内容的心理距离由近及远的过程。这意味着,心理距离远的对话倾向于给出正性反馈,但是这种关系在负性反馈中并不明显。在爱情话题、饮食话题和工作话题中,对话双方随意性较强,中立反馈也是更加容易接受并进行沟通。在天气话题和交通话题中,负性反馈占比较少,同时正性反馈占比较高,这使得对话双方在心理距离远的情况下,也能够保持良好的对话过程。

图 3 不同话题的反馈类型分布

对不同话题的对话行为和反馈分布的研究表明,对话行为的分布同话题内容隐藏的心理距离存在关系。心理距离越近的对话内容问答关系和动作-反馈关系出现比重越高,阐述-反馈关系比重降低;心理距离越远的对话内容的阐述-反馈关系出现的比重越高,问答关系和动作-反馈关系比重降低。在阐述-反馈关系中,正性反馈在心理距离较远的情况下占比较高,而在心理距离较近的对话内容中占比较低,在心理距离近的对话内容中,中立反馈的比重会明显增加。负性反馈的比重受心理距离的影响不明显的结论再一次验证了文[12]所作结论。

5 结论

通过对对话语篇中的对话行为关系进行分析,本文在不同的话题中明确了心理距离对对话意图的影响,这种影响造成了对话模式的不同,从而导致对话行为在不同话题内容中的分布差异,对进一步的研究学习有很大的帮助。对话双方对话模式存在的差异也反映了在不同的情况下人们对话的内容和形式有所不同。通过研究并分析结果,在以后的对话系统中,可以通过加入心理距离预测,提升对话的舒适度,使对话系统的使用者能够有更好的心理体验,提高对话系统的反应正确度。

参考文献
[1] KRAUSS R M. The psychology of verbal communication[J]. International Encyclopaedia of the Social and Behavioral Sciences, 2002: 16161–16165.
[2] REITHINGER N, MAIER E. Utilizing statistical dialogue act processing in VERBMOBIL[C]//Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Cambridge, USA: Association for Computational Linguistics, 1995: 116-121. http://dl.acm.org/citation.cfm?id=981658.981674
[3] 宗成庆, 吴华, 黄泰翼, 等. 限定领域汉语口语对话语料分析[C]//计算语言学论文集. 中国, 北京, 1999,
CCL-99-018. ZONG C Q, WU H, HUANG T Y, et al. Analysis of spoken dialog corpus in restricted domain[C]//Journal of Computational Linguistics. Beijing, China, 1999, CCL-99-018. (in Chinese) http://www.wanfangdata.com.cn/details/detail.do?_type=conference&id=137837
[4] 周可艳, 宗成庆. 对话行为信息在口语翻译中的应用[J]. 中文信息学报, 2010, 24(6): 57–63.
ZHOU K Y, ZONG C Q. Apply dialog act information in spoken language translation[J]. Journal of Chinese Information Processing, 2010, 24(6): 57–63. (in Chinese)
[5] 张耀允. 基于用户意图分析的交互式问答技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2012.
ZHANG Y Y. Interactive question answering based on user intent analysis[D]. Harbin: Harbin Institute of Technology, 2012. (in Chinese) http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=D243492
[6] SCHLÖDER J J, FERNÁNDEZ R. Clarifying intentions in dialogue: A corpus study[C]//Proceedings of the 11th International Conference on Computational Semantics. London, UK: Association for Computational Linguistics, 2015: 46-51. http://www.zentralblatt-math.org/ioport/en/search/?q=an%3A11064369
[7] 北京京东尚科信息技术有限公司. 基于上下文进行意图识别的方法和系统. CN 104951433 A[P]. 2015-09-30.
Beijing Jingdong Shangke Information Technology Co., Ltd., Method and system for intention recognition based on context. CN 104951433 A[P]. 2015-09-30. (in Chinese)
[8] 李志雪. 试论句子理解中几个主要的心理语言学模型[J]. 解放军外国语学院学报, 2003, 26(3): 16–20.
LI Z X. A brief survey of the major psycholinguistic models on sentence comprehension[J]. Journal of PLA University of Foreign Languages, 2003, 26(3): 16–20. (in Chinese)
[9] 卡罗尔D W. 语言心理学[M]. 缪小春, 译. 上海: 华东师范大学出版社, 2007.
CARROLL D W. Psychology of language[M]. MIAO X C, trans. Shanghai: East China Normal University Press, 2007. (in Chinese)
[10] 沈晨. 简述心理语言学在中国的发展[J]. 语文学刊, 2016(2): 16–17.
SHEN C. Description of the development of psychological linguistics in China[J]. Journal of Language and Literature Studies, 2016(2): 16–17. (in Chinese)
[11] 索佳丽. 近20年中国心理语言学研究综述[J]. 忻州师范学院学报, 2016, 32(3): 131–134.
SUO J L. An overview of domestic psycholinguistic research[J]. Journal of Xinzhou Teachers University, 2016, 32(3): 131–134. (in Chinese)
[12] 牛忠辉. 社会距离对他人行为表征的影响:评价内容效价的作用[J]. 应用心理学, 2010, 16(4): 291–300.
NIU Z H. The effect of social distance on representation of other's behavior:The role of valence of the content of evaluation[J]. Chinese Journal of Application Psychology, 2010, 16(4): 291–300. (in Chinese)
[13] 吴为章, 田小琳. 汉语句群[M]. 北京: 商务印书馆, 2000.
WU W Z, TIAN X L. Chinese sentence group[M]. Beijing: Commercial Press, 2000. (in Chinese)