基于微博数据的台风灾害舆情分析与灾害损失估计
李绍攀1, 赵飞2, 周义棋1, 田向亮3, 黄弘1    
1. 清华大学 工程物理系, 公共安全研究院, 北京 100084;
2. 应急管理部国家减灾中心, 北京 100124;
3. 中国安全生产科学研究院 矿山采空区灾害防治应急管理部重点实验室, 北京 100012
摘要:该文以2018年台风“山竹”和2019年台风“利奇马”为研究案例,通过网络爬虫爬取微博数据,将Bayes情感分析模型运用到台风自然灾害的舆情分析,讨论了2种不同台风的灾害舆情演化规律。在舆情演化规律的基础上,利用城市热度分布和情感指标,结合城市地理位置、经济、人口数据、台风灾害破坏能力,对临海城市和非临海城市进行了城市灾损数据估计。灾损评估结果对于各地级市的灾情评估有较好的一致性,具有一定的参考意义。研究结果及方法可为灾情研判及救灾需求分析提供参考,帮助解决台风灾害发生初期应急救援过程中各地级市物资调配问题。
关键词台风    灾害舆情    灾害情感    灾损评估    
Analysis of public opinion and disaster loss estimates from typhoons based on Microblog data
LI Shaopan1, ZHAO Fei2, ZHOU Yiqi1, TIAN Xiangliang3, HUANG Hong1    
1. Institute of Public Safety Research, Department of Engineering Physics, Tsinghua University, Beijing 100084, China;
2. National Disaster Reduction Center of China, Beijing 100124, China;
3. Key Laboratory of Mining Goaf Disaster Prevention and Control of Ministry of Emergency Management, China Academy of Safety Science & Technology, Beijing 100012, China
Abstract: This study searched Microblog data related to Typhoon "Mangkhut" in 2018 and "Lekima" in 2019 and then used the Bayesian sentiment analysis model to analyze the public opinions related to these typhoons. The results show two different typhoon disaster public opinion temporal and spatial evolution laws and an emotional evolution law. Then, the urban typhoon disaster loss was estimated for coastal and inland cities based on the temporal and spatial evolution and emotional evolution laws. The data includes the city's geographic location, economy, population and typhoon disaster damage as well as sentiments. The disaster damage assessment model is consistent with the disaster assessment. The research results and methods provide references for disaster research and disaster relief demand analyses and guidelines for supply allocation in cities during initial emergency responses during typhoons.
Key words: typhoons    public opinions during typhoons    disaster sentiment    disaster loss assessments    

我国是世界上受台风影响最严重的国家之一。据我国气象部门相关资料显示,2000—2019年,台风灾害造成我国高达700~800亿元的直接经济损失[1-5]。台风灾害一般会伴有大风暴雨,容易导致泥石流、山体滑坡等次生灾害的发生,加重灾害造成的伤害。传统自然灾害信息收集手段耗时长、工作量大,信息获取较大滞后于灾情,已经无法满足政府部门针对灾情及时开展应急救援工作的需求。将自然人作为传感器这一思想,使得以微博为代表的新兴社交媒体成为政府部门及时掌握灾情进展的一项重要手段。灾区公众通过网络提供的灾害事件信息,为政府部门提供了辅助决策的第一手资料。利用实时产生的社交媒体数据,一方面,可以监测社交媒体用户对于该事件的关注度和情感态度,为应急决策和舆论引导提供可靠参考;另一方面,利用社交媒体网络数据的实时性,实时评估灾区灾情动态,为应急救灾提供灾情评估,辅助救灾决策的制定。

目前国内外对于社交媒体数据挖掘在灾害过程的应用大部分基于文本数据进行文本分析和文本识别。研究成果涉及“灾害舆情时空分析” [6-7]、“灾情事件检测”[8-9]、“灾害发生趋势预测” [10]、“社会响应特征研究” [11-13]、“灾害情感分析”[14]等方面。Sakaki等[15]基于Twitter实时信息,采用了以关键字为证据的Bayes决策方法,建立了一个地震监控系统,地震监测成功率达到80%,比当地地震机构预报更快地发布了地震信息,为地震疏散赢得了30~ 60 s的时间。这些成果促进了政府部门对于灾害的研判工作,提高了灾害预防和灾后救助工作的效率。

目前对于社交数据在灾害过程中的文本信息挖掘已经较为完备,而对于社交媒体数据结合地理信息的灾情研判和灾情评估方法研究还较少。本文在文献调研基础上,以2018年“山竹”台风和2019年“利奇马”台风为研究对象,将舆情热点演化模型,Bayes情感分析模型运用到台风灾害的分析评估中,分析了不同环境下的2类台风灾害的话题讨论度分布和情绪指数时空分布,并结合舆情分布数据估计台风灾害损失情况。

1 研究对象 1.1 “山竹”台风

2018年9月7日20时,台风“山竹”在西北太平洋洋面上生成;9月15日,台风“山竹”从菲律宾北部登陆;15日18时,广东省防总决定将防风Ⅱ级应急响应提升至Ⅰ级;16日17时在广东台山海宴镇登陆,登陆时中心附近最大风力14级,中心最低气压95.5 kPa。

台风“山竹”造成广东、广西、海南、湖南、贵州5省(区)471.3万人受灾,6人死亡,160.1万人紧急避险转移和安置;5省(区)的1 200余间房屋倒塌,800余间严重损坏,近3 500间一般损坏;农作物受灾面积174.4千公顷,其中绝收3.3千公顷;直接经济损失142.3亿元[2]

1.2 “利奇马”台风

2019年8月4日15时,日本气象厅命名了“利奇马”台风,8月10日1时45分许在浙江省温岭市城南镇沿海登陆,登陆时中心附近最大风力有16级(52 m/s),是2019年以来登陆中国的最强台风。

台风“利奇马”共造成河北、辽宁、吉林、上海、江苏、浙江、安徽、福建、山东9省(直辖市)1 402.4万人受灾,209.8万人紧急转移安置,3.7万人需紧急生活救助;1.6万间房屋倒塌,13.4万间不同程度损坏;农作物受灾面积1 139.7千公顷,其中绝收93.4千公顷;直接经济损失537.2亿元。

台风肆虐期间,广大网民通过互联网表达和传播了海量关于台风的网络舆情信息,本次研究选择台风从命名开始到编号结束此段时间作为舆情数据采集区间。

2 研究方法 2.1 舆情信息采集

本次舆情信息采集所使用的软件工具为“八爪鱼”,舆情获取平台为新浪微博社交平台,其允许用户通过Web、Wap、Mail、App、IM、SMS以及用PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。大规模的活跃用户使微博对于热点事件有反应迅速、覆盖面广、影响范围大等特点。

2.2 舆情分析方法 2.2.1 舆情热度分析方法

本文通过对舆情热度进行量化分析,统计出每个小时内新浪微博中关于台风话题的讨论参与人次,绘制台风灾害环境下的舆情热度演化时序分布图,并统计出不同时期舆情发展的关键词,进行关键词分析。

其中,微博话题热度=原创微博点赞数+评论数+转发数,将原创微博博文内容下的每次人员行为都视为一次热度。

关键词分析使用TF-IDF(term frequency-inverse document frequency)方法,用来评估单一词语对于一个文档集或一个语料库中的指定文档的重要程度,TF-IDF值高,则说明该词在该文档中的重要程度高。计算方法如下[16]

$ \begin{array}{l} \;\;\;\;\;\;\;\;\;{\rm{TF}} - {\rm{IDF = TF}} \times {\rm{IDF, }}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{\rm{TF}}\left( w \right) = \frac{{{n_{i, {\rm{ }}j}}}}{{\sum\limits_k^{} {{n_{k, {\rm{ }}j}}}}} , \\ {\rm{IDF}}\left( w \right) = {\rm{log}}\left( {\frac{{\left| D \right|}}{{1 + \left| {\left\{ {j:w \in {d_i}} \right\}} \right|}}} \right). \end{array} $

其中:ni, j是词语w在文档dj中出现的次数,$ \sum\limits_k^{} {{n_{k, j}}} $是文档dj中所有词汇出现次数的总和;|D|是文档集的文件总数,|{jwdi}|是包含词语w的文件数目。

2.2.2 情感分析方法

本文采用朴素Bayes算法进行灾害舆情情感分析。算法基本原理如下[17]

对于给定文本{d}和给定情感文本库{D}的情感分类问题而言,去除文本中非必要副词和助词、停顿词等之后,假定待分类文本特征项为W(w1, w2, …, wn),类别集合为C(c1, c2, …, cn),通过计算出文本情感特征属于每类文档的概率P(cm|W), 以概率最大所在类别作为预测文档所属类别cm。本文分类类别c1表示正向情感,c2表示负向情感,朴素Bayes计算如下:

$ P({c_i}|{w_1}, {\rm{ }}{w_2}, {\rm{ }} \cdots , {\rm{ }}{w_n}) = {\rm{ }}\frac{{P({w_1}, {\rm{ }}{w_2}, {\rm{ }} \cdots , {\rm{ }}{w_n}|{c_i})\cdot P({c_i})}}{{P({w_1}, {\rm{ }}{w_2}, {\rm{ }} \cdots , {\rm{ }}{w_n})}}{\rm{ }}. $

其中:P(w1, w2, …, wn)为情感特征词w1, w2, …, wn在文本库{D}中出现的概率,在给定文本库{D}的情况下为常数,先验概率P(ci)=$ \frac{{{N_{{c_i}}}}}{N}$, N为训练样本数量,Nci为训练样本类别ci的数量。

朴素Bayes算法假定各特征项之间独立,故而

$ P({w_1}, {\rm{ }}{w_2}, {\rm{ }} \cdots , {\rm{ }}{w_n}|{c_i}) = \prod\limits_{j = 1}^n {P({w_j}|{c_i})} . $

对于未知类别的样本T计算每个类别的P(T|ci)P(ci),获得最大概率的类别即为样本T的预测类别,即

$ C = {\rm{argmax}}P({c_i})\prod\limits_{j = 1}^n {P({t_j}|{c_i})} . $

本文所采用的情感分析文本库为Python类库——SowNLP中所带的开源文本库。

2.3 灾情评估方法

结合舆情热度地理分析和情绪指数分析结果,考虑台风自身灾害效应和地区经济发展状况,对受灾城市做灾害损失估计,损失估计函数与下列因子相关:

$ {f_{{\rm{Loss}}}} = F\left\{ {\begin{array}{*{20}{c}} {{f_{{\rm{(pe}}{{\rm{r}}_{{\rm{GDP}}}}{\rm{)}}}}, {\rm{ }}{f_{{\rm{(population)}}}}, }\\ {{f_{{\rm{(area)}}}}, {\rm{ }}{f_{{\rm{(distance)}}}}, {\rm{ }}{f_{{\rm{(windspeed)}}}}, {\rm{ }}{f_{{\rm{(sentiment)}}}}} \end{array}} \right\}{\rm{ }}. $

其中:{f(perGDP); f(population)}衡量地区经济发展因素,f(perGDP)与地区人均GDP相关,f(population)与地区年末常住人口数相关;{f(area); f(distance)}衡量地理区位因素,f(area)与地区土地面积相关,f(distance)与研究地区距台风登陆点的距离相关;f(windspeed)与台风登陆时地区风速相关;f(sentiment)与台风持续时间内地区情感值相关。

3 结果与分析 3.1 台风灾害事件舆情热度分析

对舆情信息采集时间自中央气象局通报台风形成之日起(“山竹”为2018年9月7日,“利奇马”为2019年8月4日),到气象局对台风停止编号当天为止(“山竹”为2018年9月17日晚20时,“利奇马”为2019年8月13日14时),采集“山竹”相关数据54 518条,微博热度908 897,采集“利奇马”相关数据233 666条,微博热度15 790 555。

将台风舆情话题讨论热度时间序列以小时为划分标准,考虑台风登陆前24 h至台风离境后24 h的舆情热度。

对“山竹”和“利奇马”台风以小时为单位作舆情时序讨论时,从图 1中可以看出,以小时为单位的舆情热度时序讨论整体仍然服从于整体舆情时序变化规律,台风登陆前6 h内是话题讨论的高峰期,每小时话题讨论热度在此段时间内到达最大值,之后的数个小时内话题讨论度逐渐下降。以24 h为区间来看,舆情变化随人员日常作息而出现规律性的变化:凌晨0~6时,舆情热点呈逐步迅速下降并趋于极小范围内的话题讨论;凌晨6时之后,话题讨论呈现波动性,整体呈现上升趋势;24 h内舆情最高峰一般出现在午间12时前后或下午6时前后。在台风登陆前1天,舆情热度在波动中持续攀升,直至第2天凌晨;台风登陆后,每日话题讨论度峰值呈下降趋势,但仍在每日保持着相对较高的话题讨论度峰值。台风离境后,话题讨论度迅速下降。

注:时间序列为登陆前24 h至离境后24 h,1表示登陆前一天(“山竹”为9月14日,“利奇马”为8月9日)凌晨0—1时,以此类推,121为台风过境后(“山竹”为9月18日,“利奇马”为8月13日)23—24时。 图 1 台风讨论热度对比图

对比二者的时序序列,发现“山竹”舆情呈现短时爆发,舆情加速期和成熟期重叠,后平缓下降,衰退期较长,而“利奇马”则呈现出短时爆发,后成熟期和衰退期出现局部峰值的特点。结合台风登陆路径和影响范围,可认为“山竹”属于短时间爆发,受台风较大影响区域在相对统一的时间点遭受台风破坏(台风主要影响区域为广东、香港、澳门,对广西、云南等地影响较小),故呈现出舆情短时间内大规模爆发的情况;而“利奇马”属于不同时间段,不同地区相继遭受影响(由浙江登陆,而后向江苏、安徽、山东、河北等地快速推进,造成大面积破坏),舆情在登陆后的不同时刻仍会出现局部峰值。

3.2 台风灾害事件情感趋势分析

采用Bayes情感分析方法,对所选取的微博博文进行情感分析,得到每一条博文的Bayes情感分析结果。以小时为单位,统计得到“山竹”积极情感人次443 248,消极情感人次465 649,积极∶消极比例为1∶0.952;“利奇马”积极情感人次8 708 585,消极情感人次7 081 970,积极∶消极比例为1∶1.223(情感分析结果认为0.5表示情绪不带任何情感,为中性状态,0.50~1.00为积极状态,值越大,说明情绪越积极;0.00~0.50为消极状态,值越小,说明情绪越消极)。

以小时为划分标准,考虑台风登陆前后的网民舆情情感变化,结果如图 2所示。对图中情绪局部峰值进行关键词分析,分析采用峰值所在点前后各3 h内的微博博文作为分析对象,TF-IDF所得结果标注如图 2所示。

注:图中蓝圈为“山竹”台风统计所得关键词,黄圈为“利奇马”台风所得关键词,图 2时间序列同图 1 图 2 台风情感值对比图

图 2中可以看出,“山竹”台风登陆前,微博舆情情感整体呈现由积极向中性情绪变化的趋势;台风登陆时间内,情感变化在积极情绪和消极情绪间迅速波动;台风离境后,情感变化大部分时间趋于积极,但仍然有少部分时刻出现中性偏消极情绪(0.35~0.45)。“利奇马”台风登陆前,微博舆情情感呈现出消极向积极的转变趋势,且当日晚持续处于积极状态;台风登陆时间内,登陆前整体情感处于消极状态,而后消极和积极状态迅速波动;台风离境后24 h内,微博用户整体呈现出由消极向积极转变的情绪状态。

从整体看来,台风登陆前和台风离境后,用户整体情绪均趋于积极状态;台风影响期间,积极情绪和消极情绪交替出现,且较容易出现较为消极的状态(情绪值在0.30及以下);消极情绪较容易出现在晚间至次日凌晨,此段时间话题讨论人数相对较少,用户较容易表达消极情绪并将消极情绪传达给同时间段的话题讨论者,引起情绪低潮。

一定程度上,网络舆情能够反映整体灾情的严重程度和抢险救灾行动的顺利与否。左右网民舆情情感变化和舆情热度波动的话题大部分来自灾害破坏和抢险救灾行动,由于台风所引起的洪灾、塌方、隧道堵塞等次生灾害的报道经常易引起舆情负向情感的出现,而抢险过程之中,积极正面的救灾报道以及灾区基础设施恢复情况的报道能极大提升舆情情感的积极性。

3.3 空间特征分析

舆情信息的变化一定程度上反映台风过境前后广大民众的灾情变化的感知,利用话题讨论热度指标和情绪指标,结合灾情数据对受灾地区做灾情验证。

对讨论热度做空间讨论,结果如图 3所示。从话题讨论热度中可以发现,对于台风“山竹”,话题热度最高值出现在广东、深圳2个超级城市,累计讨论达100万人次,而与广东、深圳接壤的城市区也表现为高热度状态,除此之外,广东东北部揭阳市和汕头市也呈现出高热度状态,讨论次数达10万人次,热度讨论呈现出沿海城市高于内陆城市的特点;而对于台风“利奇马”而言,台风从沿海到内陆均遭受了较大影响,故而沿海城市诸如温州市、宁波市、内陆城市诸如杭州市,话题热度都相对较高,最高达50万人次,而受台风灾害影响较小的衢州和丽水,话题讨论热度就仅停留在5 000人次以下。

图 3 台风话题讨论热度空间分布

对情感值空间分布做讨论,结果如图 4所示。从情感值结果分析来看,台风舆情情绪消极地区大部分出现在沿海地区,随台风传播路径由沿海向内地推进,情绪整体有消极向积极转变的趋势,内陆且不在台风直线路径上的地区网民整体情感积极程度高于其他地区,内陆城市大部分情绪均处于中性状态,情绪相对平静。

图 4 台风舆情情感值空间分布

除此之外,也存在部分地区的反常现象,如台风“山竹”中揭阳、潮州两地话题讨论热度依然很高,且网民讨论情绪也处在较为积极的状态。查询相关微博信息可知,揭阳、潮州在台风灾害中均出现不同程度的船只遇险情况,抢救及时,未造成人员伤亡,大规模减少了船只上的财产损失。

3.4 台风灾害损失估计

结合上文所提到的舆情热度地理分析和情绪指数分析结果,考虑台风自身灾害效应和地区经济发展状况,对广东省和浙江省地级市做灾害损失估计, 部分灾情数据如表 1所示。

表 1 台风灾情数据
地区 人均经济损失/元 人均GDP/万元 distance 是否临海 风力等级 情感值
广东省 江门 607.10 6.330 0 1 12 0.312
阳江 935.28 5.297 1 1 12 0.294
惠州 273.17 8.542 4 1 7 0.388
汕尾 220.63 3.082 5 1 7 0.456
珠海 274.21 15.943 3 1 10 0.383
揭阳 75.51 3.539 6 1 6 0.531
茂名 58.03 4.941 0 1 7 0.404
湛江 18.04 4.111 1 1 7 0.634
潮州 45.90 4.022 7 1 6 0.766
汕头 0.91 4.467 4 1 6 0.403
中山 442.32 11.059 2 0 10 0.355
广州 88.51 15.549 3 0 10 0.535
云浮 308.84 3.375 1 0 7 0.724
东莞 52.10 9.894 4 0 10 0.388
肇庆 39.28 5.327 2 0 7 0.715
佛山 20.48 12.769 2 0 10 0.435
河源 6.70 3.253 5 0 7 0.874
清远 2.76 4.048 3 0 7 0.808
韶关 0.08 4.497 4 0 7 0.555
浙江省 宁波 637.08 14.034 1 1 7 0.450
温州 1 003.38 7.103 1 1 10 0.311
舟山 888.21 11.663 2 1 7 0.476
台州 4 415.40 8.348 0 1 12 0.460
杭州 168.00 14.839 0 0 7 0.569
嘉兴 115.43 11.188 2 0 6 0.522
湖州 176.75 10.204 0 0 6 0.494
绍兴 203.71 11.431 0 0 7 0.282
金华 110.65 8.108 1 0 7 0.574
衢州 96.14 7.094 1 0 7 0.451
丽水 285.03 6.672 1 0 7 0.413
注:distance定义为台风地级市与台风直接登陆地级市之间所间隔的城市数量最小值,是衡量地级市与台风登陆地距离远近的一个量。临海的定义为地级市行政区划线与海岸线有重叠,其中,由于广东、东莞通过海湾港口与海岸线小部分相连,故将其定义为非临海城市,此变量主要是用来考虑到台风对于内陆城市和沿海城市造成的破坏差异,台风造成的不同影响。

分析数据可看出,城市临海与否一定程度上影响台风灾害在地级市区域造成的经济损失情况;相邻地级市之间,经济较发达地区灾害损失普遍低于经济欠发达地区,经济低区灾害损失也相对较高;风力等级越高,经济损失越大;情感值较高地区经济损失小,情感值低区经济损失大。

对于各地区灾害经济损失fLoss,主要考虑地区经济发展因素{f(perGDP), f(population)},地理区位因素{f(area), f(distance)},灾害物理因素台风登陆风速f(windspeed)和人的社会因素f(sentiment)等4个方面。假定各部分因素相互独立,共同作用于灾情因子灾害经济损失fLoss,故假设其有如下形式:

$ \begin{array}{l} {f_{{\rm{Loss}}}} = \varepsilon \cdot{f_{{\rm{(pe}}{{\rm{r}}_{{\rm{GDP}}}})}}\cdot{f_{{\rm{(population)}}}}\cdot{f_{{\rm{(area)}}}}\cdot\\ \;\;\;\;\;{f_{{\rm{(distance)}}}}\cdot {f_{{\rm{(windspeed)}}}}\cdot{f_{{\rm{(sentiment)}}}} + \delta . \end{array} $

其中:ε为城市灾损函数修正系数,δ为修正常数。

考虑函数f(x)有如下形式:f(x)=(x+α)β, x为除情绪值以外的各影响因子,对各影响因子而言[18],通过确认对应的αβ即可确认影响因子函数公式。而对于f(sentiment),考虑其取值区间为(0, 1),为使其能够正确反映情感值在经济损失函数中的影响因素,取其形式为

$ {f_{{\rm{(sentiment)}}}} = {\rm{lo}}{{\rm{g}}_{0.01}}(1 - {\rm{sentiment}}). $

为修正经济因素所带来的灾害损失影响,引入修正函数

$ \begin{array}{l} \;\;\;\;\;I\left( {{\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}}} \right) = \\ \left\{ \begin{array}{l} \frac{{{\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}}}}{{{\rm{Pe}}{{\rm{r}}_{{\rm{GDP}}}}}}, {\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}}\\ \frac{{{\rm{Pe}}{{\rm{r}}_{{\rm{GDP}}}}}}{{{\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}}}}, {\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} > {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}} \end{array} \right.. \end{array} $

对其进行修正,

fLoss表示如下:

$ \begin{array}{l} \;\;\;{f_{{\rm{Loss}}}} = \varepsilon \cdot I({\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}})\cdot\\ {({\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} + {\alpha _1})^{\beta 1}}\cdot{({\rm{populatio}}{{\rm{n}}_{{\rm{density}}}} + {\alpha _2})^{\beta 2}}\cdot\\ \;\;\;\;\;\;{({\rm{area}} + {\alpha _3})^{\beta 3}}\cdot{({\rm{distance}} + {\alpha _4})^{\beta 4}}\cdot\\ {({\rm{windspeed}} + {\alpha _5})^{\beta 5}}\cdot{\rm{lo}}{{\rm{g}}_{0.01}}(1 - {\rm{sentiment}}) + \delta . \end{array} $

实验过程中取α1=α2=α3=0, α4=distancemax, α5=-(windspeedmin-1),基于数据分析,获得各影响因素与经济损失相关度最大值,从而确认系列{β}的值。

得到临海城市损失估计函数如下[17-21]

$ \begin{array}{l} {f_{{\rm{Loss}}}} = {\varepsilon _1}\cdot I\left( {{\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}}} \right)\cdot\\ \;\;{\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}}^{3/2}\cdot{\rm{ }}\frac{1}{{{\rm{populatio}}{{\rm{n}}_{{\rm{density}}}}^2}}{\rm{}}\cdot{\rm{area}}\cdot\\ \;\;\;\;\;\;\;\;\;\;{({\rm{distanc}}{{\rm{e}}_{{\rm{max}}}}{\rm{ + distance}})^{ - 2/3}}\cdot\\ {({\rm{windspeed - windspee}}{{\rm{d}}_{{\rm{min}}}} + 1)^2}\cdot\\ \;\;\;\;\;{\rm{lo}}{{\rm{g}}_{0.01}}(1 - {\rm{sentiment}}) + {\delta _1}. \end{array} $

非临海城市损失估计函数如下:

$ \begin{array}{l} {f_{{\rm{Loss}}}} = {\varepsilon _2}\cdot I({\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}})\cdot\\ {\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}}^{3/2}\cdot{\rm{ }}\frac{1}{{{\rm{populatio}}{{\rm{n}}_{{\rm{density}}}}^2}}\cdot{\rm{are}}{{\rm{a}}^{1/3}}\cdot\\ {({\rm{windspeed - windspee}}{{\rm{d}}_{{\rm{min}}}} + 1)^{2/3}}\cdot\\ \;\;\;\;{\rm{lo}}{{\rm{g}}_{0.01}}(1 - {\rm{sentiment}}) + {\delta _2}. \end{array} $

其中:PerGDP是地区人均GDP;ProvinceGDP是省人均GDP;sentiment是情绪值,取值范围为0~1;populationdensity是地区人口密度;windspeed是台风登陆时台风风圈地区风速等级,取值范围为6~12;distance是地图行政区划所在地与台风登陆所在地区的地理空间插值;area是地区土地面积;ε为非临海区域城市灾损函数修正系数。

为获得参数εσ,令

$ \begin{array}{l} \;\;\;\;\;\;\;\;F = I({\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} < {\rm{Provinc}}{{\rm{e}}_{{\rm{GDP}}}})\cdot\\ {({\rm{pe}}{{\rm{r}}_{{\rm{GDP}}}} + {\alpha _1})^{\beta 1}}\cdot{({\rm{populatio}}{{\rm{n}}_{{\rm{density}}}} + {\alpha _2})^{\beta 2}}\cdot\\ \;\;\;\;\;{({\rm{area}} + {\alpha _3})^{\beta 3}}\cdot{({\rm{distance}} + {\alpha _4})^{\beta 4}}\cdot\\ {({\rm{windspeed}} + {\alpha _5})^{\beta 5}}\cdot{\rm{lo}}{{\rm{g}}_{0.01}}(1 - {\rm{sentiment}}), \end{array} $

$ {f_{{\rm{Loss}}}} = \varepsilon \cdot F + \delta . $

选取部分广东省地级市(选取临海城市为阳江市、江门市、惠州市、汕尾市、珠海市、湛江市、汕头市;非临海城市为中山市、广州市、佛山市、肇庆市、清远市、韶关市),获得广东省城市灾损评估修正系数εδ,结果如图 5所示。

图 5 广东省“山竹”灾害损失评估曲线拟合

曲线拟合得到广东省修正系数ε1=0.749, δ1=22.973;ε2=1.100, δ2=-5.440。

用所得修正参数,对其余地级市作灾情验证,所得结果如表 2所示。

表 2 广东省“山竹”灾害损失评估结果验证
地级市 人均经济损失(元) 误差(|A-B|/A)/%
实际值A 估计值B
广东省临海地级市
揭阳市 75.506 79.520 5.315
茂名市 58.033 66.434 14.476
潮州市 45.895 57.344 24.944
广东省非临海地级市
云浮市 308.844 277.699 10.084
东莞市 52.101 47.016 9.761
河源市 6.703 6.226 7.126

选取浙江省各地级市(选取临海城市为温州市、舟山市、宁波市,非临海城市为丽水市、绍兴市、杭州市、衢州市、金华市),获取浙江省灾损评估修正系数,所得结果如图 6所示。

图 6 浙江省“利奇马”灾害损失估计曲线拟合

曲线拟合得到浙江省修正系数ε1=0.781, δ1=163.020;ε2=0.774, δ2=16.849。

用所得修正参数,对其余地级市作灾情验证,所得结果如表 3所示。

表 3 浙江省“利奇马”灾害损失评估结果验证
地级市 人均经济损失(元) 误差(|A-B|/A)/%
实际值A 估计值B
浙江省临海地级市
湖州市 176.747 198.529 12.324
浙江省非临海地级市
台州市 4 415.403 5 032.842 13.983

从结果来看,临海区域内,灾害损失函数在轻灾城市估计结果相对吻合,在重灾区域估计相对偏高,在非临海城市区域内,对诸如广东等特大城市估计能力不足,轻灾区域估计结果相对较为吻合。推测特大城市估计出现差距的原因在于城市本身所具有的经济效益和人口规模,促使城市在应对自然灾害本身具有较强的对抗自然灾害的能力,超大城市内部应对自然灾害的基础设施和人员安置能力等属性,使得超大城市应对自然灾害的能力相对于其他城市有显著提升。

4 结论

本文对网络爬虫爬取的台风“山竹”和“利奇马”微博数据进行了结构化预处理,结合数据对台风灾害下的微博舆情数据做了微博热度时序分析,并根据朴素Bayes模型计算了舆情信息的情感值,对其完成了情感变化时序分析和空间分布分析,发现情感指数与城市受灾情况密切相关;利用城市热度分布和情感指标,结合城市地理位置和灾害自身破坏能力等数据,对各大临海城市和非临海城市进行了城市灾损数据估计,估计方法具有较好的一致性。

参考文献
[1]
康斌. 我国台风灾害统计分析[J]. 中国防汛抗旱, 2016, 26(2): 36-40.
KANG B. Statistical analysis of typhoon disasters in China[J]. Flood Control and Drought Relief in China, 2016, 26(2): 36-40. DOI:10.3969/j.issn.1673-9264.2016.02.013 (in Chinese)
[2]
中国气象局. 中国气象灾害年鉴2019[M]. 北京: 气象出版社, 2019.
China Meteorological Administration. China meteorological disaster yearbook 2019[M]. Beijing: Meteorological Press, 2019. (in Chinese)
[3]
中国气象局. 中国气象灾害年鉴2018[M]. 北京: 气象出版社, 2018.
China Meteorological Administration. China meteorological disaster yearbook 2018[M]. Beijing: Meteorological Press, 2018. (in Chinese)
[4]
中国气象局. 中国气象灾害年鉴2017[M]. 北京: 气象出版社, 2017.
China Meteorological Administration. China meteorological disaster yearbook 2017[M]. Beijing: Meteorological Press, 2017. (in Chinese)
[5]
中国气象局. 中国气象灾害年鉴2016[M]. 北京: 气象出版社, 2016.
China Meteorological Administration. China meteorological disaster yearbook 2016[M]. Beijing: Meteorological Press, 2016. (in Chinese)
[6]
CHAE J, THOM D, JANG Y, et al. Special section on visual analytics: Public behavior response analysis in disaster events utilizing visual analytics of microblog data[J]. Computers & Graphics, 2014, 38(1): 51-60.
[7]
陈梓, 高涛, 罗年学, 等. 反映自然灾害时空分布的社交媒体有效性探讨[J]. 测绘科学, 2017, 42(8): 44-48.
CHEN Z, GAO T, LUO N X, et al. Social media effectiveness to reflect the spatial and temporal distribution of natural disasters[J]. Science of Surveying and Mapping, 2017, 42(8): 44-48. (in Chinese)
[8]
白华, 林勋国. 基于中文短文本分类的社交媒体灾害事件检测系统研究[J]. 灾害学, 2016, 31(2): 19-23.
BAI H, LIN X G. Social media disaster event detection system based on Chinese short text classification[J]. Journal of Catastrophology, 2016, 31(2): 19-23. DOI:10.3969/j.issn.1000-811X.2016.02.005 (in Chinese)
[9]
彭敏, 官宸宇, 朱佳晖, 等. 面向社交媒体文本的话题检测与追踪技术研究综述[J]. 武汉大学学报·理学版, 2016, 62(3): 197-217.
PENG M, GUAN C Y, ZHU J H, et al. A survey of topic detection and tracking technology for social media texts[J]. Journal of Wuhan University (Science Edition), 2016, 62(3): 197-217. (in Chinese)
[10]
MARK A S, ALISA E P, et al. Making the most of a brave new world: Opportunities and considerations for using Twitter as a public health monitoring tool[J]. Preventive Medicine, 2014, 63(6): 109-111.
[11]
刘宏波, 翟国方. 基于社交媒体信息不同灾害的社会响应特征比较研究[J]. 灾害学, 2017, 32(1): 187-193.
LIU H B, ZHAI G F. A comparative study of the social response characteristics of different disasters based on social media information[J]. Journal of Catastrophology, 2017, 32(1): 187-193. DOI:10.3969/j.issn.1000-811X.2017.01.033 (in Chinese)
[12]
刘超然. 在线新闻网民评论情感倾向性分析及可视化研究[D]. 哈尔滨: 哈尔滨工业大学, 2018.
LIU C R. Online news netizens comment on emotional orientation analysis and visualization[D]. Harbin: Harbin Institute of Technology, 2018. (in Chinese)
[13]
仇培元, 陆锋, 张恒才, 等. 蕴含地理事件微博客消息的自动识别方法[J]. 地球信息科学学报, 2016, 18(7): 886-893.
QIU P Y, LU F, ZHANG H C, et al. Containing automatic recognition methods for geo-event micro-blog messages[J]. Journal of Geo-information Science, 2016, 18(7): 886-893. (in Chinese)
[14]
杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地理信息科学学报, 2018, 20(7): 906-917.
YANG T F, JIE J B, LI Z Y, et al. Identification and classification of typhoon disaster loss information in Weibo[J]. Journal of Earth Sciences, 2018, 20(7): 906-917. (in Chinese)
[15]
SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake shakes Twitter users: Real-time event detection by social sensors[C]//Proceedings of the 19th International Conference on World Wide Web. New York, USA: ACM, 2010: 851-860.
[16]
KUMAR M A, GOPAL M. A comparison study on multiple binary-class SVM methods for unilabel text categorization[J]. Pattern Recognition Letters, 2010, 31(11): 1437-1444. DOI:10.1016/j.patrec.2010.02.015
[17]
ALFARRARJEH A, AGRAWAL S, KIM S H, et al. Geo-spatial multimedia sentiment in disasters[C]//The 4th IEEE International Conference on Data Science and Advanced Analytics 2017. Tokyo, Japan: IEEE, 2017.
[18]
XU B, GUO X, YE Y, et al. An improved random forest classifier for text categorization[J]. Journal of Computers, 2012, 7(12): 2913-2920.
[19]
CHIO S, BAE B. The real-time monitoring system of social big data for disaster management[M]. Berlin: Springer, 2015.
[20]
PETER D.T. Learning algorithms for keyphrase extraction[J]. Information Retrieval, 2000, 2(4): 303-336. DOI:10.1023/A:1009976227802
[21]
YANG T, XIE J, LI G. A social media based dataset of typhoon disasters[DB]. Science Data Bank, 2017, DOI: 10.11922/sciencedb.547.