突发事件案例表示方法
黄超, 黄全义, 申世飞, 疏学明
清华大学 工程物理系, 北京 100084
黄全义, 教授, E-mail:qyhuang@tsinghua.edu.cn

作者简介: 黄超(1988—), 男(汉), 山东, 博士研究生。

摘要

案例表示是案例推理的基础,突发事件案例涉及到大量非结构化的信息,如何有效地将海量信息整合成案例是案例表示的关键。该文针对中国突发事件的特点,结合信息来源,给出了突发事件案例应包括的要素,针对结构化信息和非结构化信息提出了不同的表示方法。对于结构化信息,使用模糊集合的方法定量表示,以隶属度函数代替单一的数值; 对于非结构化的文本信息,通过对3种关键词提取方法的比较研究,选择了基于词语共现概率的改进方法提取关键词,利用提取结果进行信息抽取。整个案例被表示成包含定量化数据和抽取文本的半结构化形式,前者主要用于案例匹配,后者记录了案例的详细内容,用于提供决策支持。这种表示方法为进一步的案例推理奠定了基础。

关键词: 突发事件; 案例推理; 案例表示; 模糊集合; 信息抽取
中图分类号:X915.5 文献标志码:A 文章编号:1000-0054(2014)02-0149-04
Representation of emergency case information
Chao HUANG, Quanyi HUANG, Shifei SHEN, Xueming SHU
Department of Engineering Physics, Tsinghua University, Beijing 100084, China
Abstract

Case representation is the basis for case-based reasoning. The representation should efficiently organize large amounts of information which is usually unstructured information, related to the emergency cases. This paper describes the attributes that should be included in emergency case descriptions with a case framework based on analyses of emergency events and information with both structured and unstructured information. The structured information uses fuzzy sets to describe the non-quantitative data using memberships instead of numerical values. The unstructured information is analyzed by three algorithms for keyword extraction with the word co-occurrence approach chosen as the best. The extracted keywords are then used to obtain the proper information segments for the unstructured part of the emergency case. The whole case is represented in a semi-structured form with quantitative attributes used in the case retrieval and text data used in the case reasoning. The results show that this approach gives good results as a foundation for case-based reasoning applications.

Keyword: emergency event; case-based reasoning; case representation; fuzzy sets; information extraction

近年来,各类突发事件频频发生,造成的损失越来越大,已引起广泛关注。中国目前已从预案、法制、体制、机制(“一案三制”)上建立了突发事件应对体系。快速有效的应急决策在突发事件应对中十分关键,案例推理系统可以利用典型历史案例的经验知识为应急决策提供具体指导,在突发事件应对中有着广阔的应用前景。但是,中国目前并没有完善的突发事件案例库,表现在缺乏统一规范的突发事件案例标准,现有的案例多为人工整理而成,以文字材料为主,散落在各部门中,这种现状制约着案例推理的实际应用。

案例从本质来说,是对突发事件信息的一个完整表述形式。在当前的信息爆炸时代,当突发事件发生时,互联网上充斥着大量的相关信息。根据信息来源可以把信息分为两类: 官方信息和民间报道。前者主要是指政府相关部门发布的权威信息,如地震时地震局发布的地震参数、气象局发布的气象资料等,这类信息多为结构化信息,且容易获取; 后者则散布在新闻网站、论坛、微博等平台上,多为文本信息,包含了突发事件的详细过程描述。完整的突发事件案例应包含上述两类信息。

1 相关研究

目前,国内对于突发事件案例表示方法的研究主要侧重于知识元和本体的表示方法。张英菊等[1]提出了使用本体模型和事件元模型相结合的方法来表达案例。本体模型包括了突发事件的共性要素,如名称、地点、级别、时间等信息; 事件元模型是对子事件的抽象概括,描述突发事件的细节信息。这种方法本质上还是基于框架的结构化方法,而且没有包含事件的处置信息。张贤坤等[2]在扩充本体模型的基础上建立了突发事件的本体模型,定义了主要的实体和关系,给出了案例的形式化描述。

国际上对文本案例推理的研究有较多的应用成果。Massie等根据单词的相似性实现了无监督的案例要素提取[3]。Lenz等提出了针对文本案例检索的案例检索网络模型(case retrieval nets, CRN)[4], 首先提取文本案例中的关键词作为信息实体,并成功地应用到实际的案例推理系统中[5],该网络包括4部分内容: 案例节点、信息实体、相关性弧和相似性弧。Sutanu等在CRN模型的基础上,提出了快速案例检索模型,降低了案例检索时的算法复杂度,提高了检索效率[6]。Adeyanju等将CRN模型扩展为案例检索-重用网络模型,信息实体进一步被分为问题实体和解实体2类,实现了案例重用的功能[7]

综上所述,突发事件案例的表述方法研究逐渐从单一类型事件向通用型研究发展,对于非结构化的文本案例表示,取得了一定的研究成果。

2 突发事件案例的要素分析

案例是对以往突发事件的记录,应当涵盖突发事件发生的时间、地点、事件类型、事发原因、影响范围、影响后果、处置措施、经验教训等相关的一系列信息。对于突发事件的要素分析,欧洲的TSO(Tactical Situation Object)项目[8]制定了一个应急管理信息结构的标准,规定了突发事件各类要素的编码和内容,但由于中国突发事件的特点、分类、应急管理的侧重点与国外并不一致,因此并不能完全照搬国外标准。

基于中国突发事件的特点,参照TSO的编码,突发事件案例的要素可以归纳如下:

1) 标签信息: 案例名称、事发时间、事发地点、事件类型、事发原因、人员伤亡情况、经济损失情况。

2) 背景属性: 地理特征、交通路网、人口分布、经济水平、可能波及到的危险源及重点分布等。

3) 固有属性: 与突发事件类型相关的属性,如地震,则是震级、烈度、震源深度等; 台风,则是风速、登陆点、海浪高度等; 核事故,则是放射性物质名称、泄露剂量等。

4) 环境属性: 气象情况(雨、雪、温度、湿度、风速、风向等)、 能见度、道路通行能力等。

5) 文本描述信息: 主要分为事件描述文本和应急措施文本,以及相应的关键词列表。

前4类为结构化信息,主要用于相似案例的匹配,其中背景属性主要指事件的地理信息和社会信息,环境属性特指事件发生时的周围环境。第5类为非结构化信息,描述了案例的细节信息,主要用于推理。

3 案例表示方法
3.1 基于模糊集合的结构化信息表示方法

对于结构化信息,其获取一般有专门的渠道,且一般为数值型数据,可以根据事件类型设计相应的框架结构。

标签属性可以直接用数值表示,可作为案例库中的索引信息使用。背景属性可以在地理信息系统中用可视化的形式表示出来。

对于固有属性和环境属性,采用模糊集合的方式来代替数值进行表示。模糊集合的优点在于可以定量化描述主观性信息,可利用属性相似性进行计算。

以环境属性中的可见度来为例,按照中国气象部门规定,能见度以50 m、 200 m、 500 m为界,分为红色、橙色、黄色3级。如果以数值的方式表示,则能见度49 m和51 m为不同的级别,而实际上二者表示的能见度是极为相似的,使用模糊集合可以规避此类误差。

定义high(高)、 avg(中)、 low(低)3个参数来描述能见度,

V=SA(x)low+SA(x)avg+SA(x)high.(1)

其中: V代表能见度, SA( x)为隶属度函数。如描述avg的隶属度函数定义为

SA(x)=0,x50x-50150,50<x200500-x300,200<x5000,500<x.(2)

所有参数的隶属度函数曲线如图1所示。

若能见度为100 m, 能见度为

V=0.67low+0.33avg.(3)

对于不同的属性,需要设计相应的隶属度函数。而各属性之间的关系,通过设置权重来表示。权重设置需要将不同属性进行两两比较,通常使用层次分析法或模糊综合评价法来确定。

3.2 非结构化信息的表示方法

在信息时代,互联网上充斥着大量关于突发事件的信息,如何将冗余的信息整合为案例是一个亟待研究的问题。从信息源的角度考虑,微博和论坛都具有主观性过强的特点,从客观性和时效性出发,本文选取新闻报道作为信息来源。

为了避免案例获取的主观性问题,本文提出了一个自动将文本内容组织成案例的方法框架,如图2所示。该框架主要包括以下5个部分:

1) 信息采集。利用网络爬虫和垂直搜索技术建立信息采集系统,从新闻门户网站抓取文本信息,存入数据库中。根据突发事件的类型建立关键词词典,将抓取信息和词典比对,初步筛选出和突发事件相关的新闻报道信息。利用正则表达式匹配得到报道中的事件时间、地点、伤亡人数等特征,用于追踪同一事件,将属于同一事件的文集归为一体。

2) 文本预处理。文本信息需要经过一系列的预处理后才能被计算机识别,预处理包括分词、删除停用词、词性标注等。分词采用了中科院计算机所开发的汉语分词系统ICTCLAS, 将整篇文档的词语进行分割,并标注好相应的词性,再根据停用词表剔除停用词。经过预处理后,借助广泛应用的向量空间模型[6]来表示整个文本。

3) 词语信息统计。统计出每个词语在文集中的出现频次和覆盖的文档数目,这些统计信息是进行关键词提取的基础。根据标注的词性,筛选出名词和动词等信息实体作为候选关键词。

4) 关键词提取算法。关键词的提取算法研究目前以基于统计的方法为主,主要有传统的基于词频和文档频率的方法(TF-iDF)、 基于词语共现概率的方法和数据挖掘中的关联分析等方法。

TF-iDF算法的思想是提取出在某些文档中集中出现的词语,倾向于保留特别词,过滤掉常用词,这种算法的提取结果具有较强的文档区分能力。其计算方法如式(4)所示[9],

TF·iDF=TF·lgNDF.(4)

其中: TF代表词语的出现频次, iDF为词语覆盖的文档数的倒数, N为文集中的文档总数。

词语共现概率算法的思想是将整个文集看作一个网络,每一个词语作为一个节点,当一个节点和其他节点的联系越多时,这个单词就越重要。共现概率用式(5)的条件概率公式表示[10],

其中: X代表整个文集, Xz代表包含词语 z的文档, Y是所有词语的集合。给定一个词语 z, p( y|z)等同于任意选定的词语 y z共现的概率。

数据挖掘中的关联规则挖掘也可以用来进行关键词提取。文档是词语的组合,而关键词的集合可以看作是文档中的频繁组合模式,挖掘频繁模式本质上也是基于词语共现的一种方法,常用的挖掘算法是Apriori算法。

在以上3种算法的比较实验中[11],基于词语贡献概率的方法在准确率和召回率上都有很好的表现,关联规则挖掘在少量文本中精度很高,但是不适合大规模的文本集。因此,本文最终选择基于文本贡献概率的方法提取关键词。

为了提高提取效果,结合信息源的特点,对提取算法作出改进。首先,根据上文中提到的的共现概率方法选取关键词,记为 Wco。由于所选的信息源为新闻报道,通常报道的标题可以在很大程度上概括报道的内容,因此标题中词频较高的词语可以直接选为关键词,记为 WT。将 WT作为种子节点,则和种子节点共现概率高的单词也可以作为关键词,记为 WTco。另外,一些词语本身出现频率不高,但每次出现均和一部分种子节点有关系,且呈现出明显的偏好分布。将词语与种子节点的共现概率作卡方检验[12],偏差值大的词语作为关键词,记为 Wχ, 卡方检验如式(6)所示,

其中: DF i为i出现的文档数, DFseed为种子节点出现的文档数, co是 i和种子节点同时出现的文档数, N是文档总数。

最终的关键词集合如式(7)所示,

W=WcoWTWTcoWχ.(7)

抽取的关键词集合分为描述事件的关键词集 Wd和描述应急措施的关键词集 Ws, 并依据抽取过程中的统计数值赋以相应的权值。

5) 信息抽取。直接使用关键词的集合来表示文本将丢失很多细节信息,因此还需要回到文档中,抽取出与关键词关系密切的原始信息。将文档按照段落或句子进行拆分,分别以 Wd Ws作为抽取标准,计算文本片段与关键词集合的相似性,相似度高的文本片段作为抽取结果。相似性的计算采用余弦度量,

其中: wi代表标准文本的关键词词频, ki代表目标文本的关键词词频。将抽取的文本片段作为案例的内容放入案例中,关键词集合作为文本的索引以供匹配推理使用。

4 案例表示实例

以2011年7月23日发生的温州动车事故为例,按上述的案例表示方法表述如下:

名称: “7·23”甬温线特别重大铁路交通事故。

时间: 2011年7月23日20时30分05秒。

地点: 甬温线浙江省温州市境内。

伤亡情况: 40人死亡、 172人受伤。

直接经济损失: 19 371.65万元。

信息采集系统搜集了从2011年7月23日到7月28日期间,国内大型信息门户网站上对于该事故的新闻报道内容,数据量如表1所示。

表1 新闻报道数量结果

以2011年7月24日的数据为例,关键词提取结果如表2所示。

表2 关键词抽取结果

信息抽取结果节选:

“昨日20时34分许,杭深线永嘉至温州南间,北京南至福州D301次列车与杭州至福州南D3115次列车发生追尾事故。D301次列车第1至4车厢脱轨, D3115次列车第15、 16车厢脱轨。”

“铁道部部长盛光祖深夜赶赴现场处置,事故原因正在调查。铁路部门及地方有关单位已紧急组织救援。”

“浙江省卫生厅已要求温州附近有序组织医疗抢救队伍,火速赶往救援现场,进行支援。”

从抽取结果来看,可以基本概括案例的事实信息,并描述出一部分细节信息。将自动抽取的结果和事先定义的标准集对照,经过3组实验,计算出信息抽取的准确率在65%~70%。从原始文本数据中抽取案例信息,既避免了人工整理案例的主观性问题,又在一定程度上还原了突发事件发生时从海量信息中检索有用信息的过程,从而提高案例推理的有效性。

整个案例被表示成包含定量化数据和文本数据的半结构形式,前者主要用于案例匹配,后者记录了案例的详细内容,用于推理和提供决策支持。

5 结 论

从突发事件特点和信息源的特性分析入手,本文提出了: 1) 突发事件案例的框架结构; 2) 使用模糊集合表示结构化信息的方法; 3) 针对文本信息的信息抽取方法。这种表示方法既吸取了结构化表达的优点,又充分利用了突发事件的文本信息,可以使案例的内容更加丰富、具体,可操作性强,能够在突发事件应对中提供科学支持,以弥补应急预案的不足。

在下一步工作中,将从案例属性权重的设置方法、案例相似度算法比较、案例推理模型的角度开展研究,研发突发事件案例推理的原型系统。

The authors have declared that no competing interests exist.

参考文献
[1] 张英菊, 仲秋雁, 叶鑫, . CBR的应急案例通用表示与存储模式[J]. 计算机工程, 2009(17): 28-30.
ZHANG Yingju, ZHONG Qiuyan, YE Xin, et al. Case-based reasoning universal mode of representing and storing emergency cases[J]. Computer Engineering, 2009 (17): 28-30. (in Chinese) [本文引用:1] [CJCR: 0.509]
[2] 张贤坤, 刘栋, 高珊, . 基于CBR的应急案例本体模型[J]. 计算机应用, 2011(10): 2800-2803.
ZHANG Xiankun, LIU Dong, GAO Shan, et al. CBR-based emergency case ontology model[J]. Journal of Computer Applications, 2011(10): 2800-2803. (in Chinese) [本文引用:1] [CJCR: 0.886]
[3] Massie S, Wiratunga N. From anomaly reports to cases [C]// ICCBR. Belfast, UK, 2007: 359-373. [本文引用:1]
[4] Lenz M. Case retrieval nets applied to large case-bases[J]. Lecture Notes in Computer Science, 1996, 1137: 227-239. [本文引用:1] [JCR: 0.402]
[5] Lenz M, Auriol E, Manago M. Diagnosis and Decision Support[M]. Artificial Intelligence. Berlin: Springer, 1998: 51-90. [本文引用:1]
[6] Chakraborti S, Lothian R, Wiratunga N, et al. Fast case retrieval nets for textual data [C]//ECCBR. Fethiye, Turkey, 2006: 400-414. [本文引用:2]
[7] Adeyanju I, Wiratunga N. Case retrieval reuse net (CR2N): An architecture for reuse of textual solutions [C]//ICCBR. Seattle, USA, 2009: 14-28. [本文引用:1]
[8] Tactical Situation Object (TSO) [Z/OL]. [2012-12-18]. (2012-01-14). http://www.tacticalsituationobject.org. [本文引用:1]
[9] Salton G, Wong A, Yang C S. Vector-space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. [本文引用:1] [JCR: 2.863]
[10] Patterson D, Rooney N, Galushka M, et al. SOPHIA-TCBR: A knowledge discovery framework for textual case-based reasoning[J]. Knowledge-Based Systems, 2008, 21(5): 404-414. [本文引用:1] [JCR: 3.058]
[11] HUANG Chao, SHEN Shifei, HUANG Quanyi. A comparative study of keyword extraction from disaster reports [C]//ISCRAM Asia. Beijing, China, 2012. [本文引用:1]
[12] Yutaka M, Mitsuru I. Keyword extraction from a single document using word co-occurrence statistical information[J]. International Journal on Artificial Intelligence Tools, 2004, 3(13): 157-169. [本文引用:1] [JCR: 0.321]