微博用户的应急预警信息传播行为研究
陈安滢1,2, 朱昊然1,2, 苏国锋1,2    
1. 清华大学 工程物理系, 公共安全研究院, 北京 100084;
2. 城市综合应急科学北京市重点实验室, 北京 100084
摘要:以微博为代表的在线社交媒体在预警信息的传播中发挥着越来越重要的作用。该文以灾害应急预警信息为例,从用户的角度出发,分别从利益相关、理性思考和用户兴趣3个方面分析微博用户传播应急预警信息的动机。基于分析结果,提出以地域指数(突发事件是否和用户所在地域相关)和兴趣指数(用户平时转发微博的内容)作为特征变量对用户的预警转发行为进行预测。该预测模型预测正确率达到同类型研究水平,且具有可解释性。研究结果可以对用户转发行为进行快速预测和识别,有利于进行应急预警信息的定向投送,进一步扩大传播范围。
关键词预警信息    地域分析    情感分析    兴趣分析    行为预测    
Emergency warning information repost behavior of Weibo users
CHEN Anying1,2, ZHU Haoran1,2, SU Guofeng1,2    
1. Institute of Public Safety Research, Department of Engineering Physics, Tsinghua University, Beijing 100084, China;
2. Beijing Key Laboratory of City Integrated Emergency Response Science, Beijing 100084, China
Abstract: Online social networks, such as Sina Weibo, are playing increasingly important roles in disseminating early warning information. This paper uses disaster warning information as an example to analyze the motivation of users for spreading emergency warning information on Sina Weibo from the perspectives of interest correlation, rational thinking and user interest. The results show that a regional index and an interest index predict user warning information repost behavior. The prediction accuracy of this model is similar to related research and is interpretable. This research can predict and identify user repost behavior which can facilitate delivery of emergency warning information and expand the information spread.
Key words: warning information    geographic analysis    emotional analysis    interest analysis    behavior prediction    

近年来,以微博为代表的社交媒体逐渐成为信息传播中的重要力量,而其社交属性更推动了信息快速集中传播,是预警信息发布的理想平台之一。其中不同用户对特定信息的转发行为分析和预测是在线社交网络领域的一大研究热点,对重要信息的发布策略和传播管理具有重要意义。

按照分析和预测使用的模型和方法,可将目前的研究分为推荐算法模型、主题分析模型、因子图模型和机器学习方法4类。

推荐算法模型是通过用户的历史转发内容来挖掘其传播信息的喜好偏向,其核心是相似度的计算[1-2]。相似度的计算依赖于较多的样本,而在信息传播过程中,用户-信息矩阵一般比较稀疏,因此需要进行相应改进[3]。例如,Pan等[4]通过抓取在线社交网络的信息流行度和网络邻近节点的特征,提出了一种结合信息传播特征的协同过滤算法模型,并进行了验证。

主题分析通过总结用户过往发布的信息文本来分析用户的兴趣偏好,常用的模型是隐性Dirichlet分布(latent Dirichlet allocation,LDA)[5]模型。如Xu等[6]借助LDA模型综合多个因素的影响,对Twitter用户的转发行为进行预测,并发现该模型的预测效果较好。

陈楠[7]通过研究大型微博网络中的社会影响,发现用户的信息传播行为主要受到用户自身网络中亲密朋友的影响,这种影响可通过因子图的方法进行分析。例如Bian等[8]利用因子图模型表示微博内容、社交关系和流行现象对该用户信息传播行为的影响,通过真实数据验证了预测的准确性。

由于用户是否传播信息是一个二分类问题,因此可以通过机器学习的方法实现对用户信息传播行为的预测[9]。在用户的信息传播行为预测中,常选取的特征包括发布者特征、内容特征和社会关系特征等。刘玮等[10]分别用决策树分类器和Bayes网络分类器,以用户特征、微博内容特征、兴趣特征和历史行为特征作为分类特征预测用户的微博转发行为,预测准确度较高。唐晓波等[11]进一步提出融入情感差异和用户兴趣的微博转发预测模型,发现增加此特征作为学习特征时,预测准确率可达83.2%。

以上4种方法均可较好地分析和预测用户信息传播行为,但也都有不足之处。推荐算法会遇到大量的新信息使用户-信息矩阵较稀疏,影响预测效果;主题分析模型在预测用户信息传播行为时考虑的因素过于单一,且在用户文本内容较少时预测效果不好;在因子图模型中有环时,难以通过和积算法准确求出边缘分布;机器算法模型需要大量的样本进行学习训练,模型解释性较弱。针对以上问题,本文提出了基于“动机-指标-预测”3层结构的用户转发应急预警信息预测模型。与上述方法相比,该模型综合考虑多种影响因素,避免了上述方法考虑因素单一的问题;从用户的角度出发,根据用户转发动机筛选预测的特征变量,为预测特征变量的选取提供新思路;与机器学习方法相比,可以在样本量较小时通过多维度分析得到比较准确的结果,并且预测结果兼具准确性和可解释性。

1 用户传播应急预警信息的动机

根据前人的研究,用户是否转发一条微博,与微博发布者特征、用户特征以及社会关系特征有关,如表 1所示。本文主要研究不同用户对特定某条预警微博的转发行为,因此暂不考虑发布者特征对用户转发行为的影响。

表 1 影响用户微博转发行为的因素
影响因素 来源文献
发布者特征
(发布者粉丝数量;发布者是否为官方账号等)
Luarn等[12], Gui等[13], Liu等[14],
曹玖新等[15], Comarela等[16]
用户特征
(用户兴趣;所处地域等)
Gui等[13], Liu等[14], 曹玖新等[15],
Peng等[17], Zhang等[18], Hoang等[19]
社会关系特征
(是否互粉;是否保持点赞、评论互动等)
Luarn等[12], Liu等[14], 曹玖新等[15],
Peng等[17], Zhang等[18]

为了进一步验证用户传播应急预警信息的动机,本文研究设计了关于用户转发微博原因的在线问卷,并发放给清华大学工程物理系学生。问卷内容包括用户的性别、家乡、所在地等个人信息,微博关注数、粉丝数、发博频率等微博习惯,以及对于特定预警微博的转发行为及原因。共回收有效问卷135份,其中97份问卷的填写者是微博的周活跃用户。根据信度和效度分析的结果,其α系数和KMO系数均大于0.7,说明信效度符合要求。调查结果如图 1所示。

图 1 用户转发微博的动机

根据问卷调查结果,用户背景因素与是否转发微博以及转发微博的动机没有显著关系。用户转发微博的原因主要可以分为利益相关、情绪或思考唤起和用户兴趣3个方面。26%的用户会由于微博内容利益相关而转发微博。“利益相关”在管理学上指个体受到组织决策和行动的影响,对于应急预警信息来说,即为预警内容中的灾害影响范围涉及到用户自身或亲朋好友的所在地。由于受到微博内容的情绪带动或理性思考而转发的用户分别达41%和46%,且问卷的结果显示两类用户几乎没有重合。考虑到预警信息与灾情通报不同,往往不会涉及太多的情感内容,因此可以假设用户发布微博内容情感强度较低的用户是较为理性的用户,更容易转发应急预警信息相关微博,本研究将对此假设进行分析验证。用户兴趣是导致用户转发预警微博的最主要原因,超过80%的用户会由于对微博内容感兴趣而转发该微博,对于应急预警信息来说即为用户对灾害信息或其他时事类信息比较感兴趣。同时,根据问卷调查结果,转发情况受到社会关系影响的用户非常少。在大多研究中,社会关系的主要依据是上下游用户之间的互动,比如互粉或者互相转发,但是受限于预警微博发布者的官方性质,这种社会关系不明显。

根据以上结论和假设,提出基于“动机-指标-预测”3层结构的用户转发应急预警信息预测模型(见图 2)。模型认为用户传播应急预警信息的行为主要来源于他们传播该信息的动机,因此应根据用户传播动机选取预测模型的特征变量,包括利益相关、理性思考和用户兴趣3个方面。节2、3和4将分别定量分析地域指数、情感极性指数和兴趣指数与用户转发行为间的关系。最后在这些指标中选取合适的指标作为特征变量对微博用户的预警信息转发行为进行预测并进行验证。

图 2 用户转发应急预警信息预测模型

2 用户地域分析

突发事件的一个重要特征是地域性,即不同地区关注的灾害类型会有所不同,这个特点在自然灾害中更加突出。为了研究不同地区用户转发应急预警微博的差异,在新浪微博中选取微博用户“人民日报”在2019年8月发布的关于利奇马台风的微博和2020年7月发布的关于长江流域强降雨的微博作为研究对象,爬取其转发用户的地域信息,微博内容如图 34所示。

图 3 利奇马台风微博具体内容

图 4 长江流域强降雨微博具体内容

对于利奇马台风的预警微博,本文爬取了830名转发用户的数据。由于系统采集限制,无法采集大量的人民日报粉丝信息作为样本,因此采集830名转发用户和3 108名未转发该微博的活跃粉丝作为未转发预警信息的用户样本。对于长江流域强降雨的预警微博,用同样的方法爬取了1 213名转发用户和1 519名未转发用户的数据。这里的活跃用户是指在该预警微博的发布日前后3天内发布了多条原创微博或转发微博的用户。

经计算,我国大陆地区各省份用户在利奇马台风和长江流域强降雨期间相关预警微博的转发比例如表 2所示。为避免某一省份用户样本过少而造成的随机误差,表 2中仅统计了转发人数和未转发人数至少有一个大于10的省份。在利奇马台风案例中,浙江是预警转发率最高的省份,达到了32%,这很可能是由于利奇马台风是在浙江温岭登陆。其他高预警转发的地区包括北京、山东、江西、河南、上海、江苏、天津、福建和安徽。其中江苏、上海、安徽、江西、福建是本次台风的登陆地相邻省份,北京、上海、天津等地是全国范围内较发达的地区,江苏、山东、上海、福建等地是台风多发地区,因此假设微博转发率与台风登陆地的地理距离、地区人均GDP值以及该地往年的台风受灾程度有关。这一点也在强降雨案例中得到了初步验证。转发率高的地区多为微博中提及的省份及其相邻省份,包括重庆、贵州、江苏、陕西、河南、湖北、安徽、江西、上海、浙江等地。除此之外,北京、上海、广东等较发达地区的预警转发率也较高。同时,转发率高的地区主要集中在长江流域一带,该地区是暴雨洪涝灾害多发地区。

表 2 各省用户转发预警信息转发率
地区 台风预警信息转发率 强降雨预警信息转发率
安徽 0.222 0.493
北京 0.28 0.452
重庆 0.056 0.527
福建 0.229 0.386
广东 0.160 0.367
广西 0.250 0.333
贵州 0.074 0.412
甘肃 0.171
海南 0.114
河南 0.263 0.487
河北 0.168 0.364
黑龙江 0.067 0.200
湖南 0.115 0.354
湖北 0.134 0.529
江苏 0.234 0.534
江西 0.271 0.408
吉林 0.176
辽宁 0.122 0.237
内蒙古 0.121
宁夏 0.056
青海 0.034
上海 0.237 0.471
山东 0.277 0.306
山西 0.116 0.250
四川 0.174 0.304
陕西 0.140 0.455
天津 0.232 0.391
新疆 0 0.286
西藏 0
云南 0.128 0.429
浙江 0.321 0.436

因此,本文考虑的影响因素同样为与受灾地区的地理距离、地区人均GDP值以及该地往年的相同类型灾害的受灾程度。地理距离方面,利奇马台风取的是该省省会与台风路径(来自于中国气象台台风网)最小距离,强降雨取的是各省省会与强降雨流域各省省会的最小距离;地区人均GDP值来源于各省市2018年国民经济和社会发展统计公报;地区往年受灾程度数据来源于《中国气象灾害年鉴》中2017年各地的热带气旋受灾人口数和暴雨洪涝灾害的受灾人口数。对这3个变量与各地的预警转发率的相关分析结果如表 34所示。3个变量中,与灾害发生地的地理距离与预警转发率的线性相关程度是最显著的。而相关系数为负值,说明与灾害发生地的地理距离越短,用户的预警转发率越高。在利奇马台风的案例中,人均GDP越高,用户的预警转发率越高,但在长江流域强降雨案例中关系并不显著。往年受灾程度在两个案例中与预警微博的转发率均没有显著关系。综合两个案例来看,可以认为人均GDP和往年受灾情况与预警微博的转发行为无关。

表 3 各变量与台风预警微博转发的相关分析结果
序号 变量 相关系数 显著性
1 与台风登陆地的
地理距离
-0.751 0.000
2 地区人均GDP 0.510 0.003
3 往年受灾程度 0.023 0.903

表 4 各变量与强降雨预警微博转发的相关分析结果
序号 变量 相关系数 显著性
1 与强降雨地区的地理距离 -0.714 0.000
2 地区人均GDP 0.328 0.364
3 往年受灾程度 0.112 0.587

3 用户对应急预警信息的情感极性分析

根据节1的假设,用户发布微博内容情感强度较低的用户是较理性的用户,更容易转发预警微博。本节通过基于情感词典的情感分析方法验证该假设,爬取对象的选择与节2中相同。在利奇马台风预警微博中,共爬取了转发预警信息的830名用户发布的25 022条微博与未转发的3 108名用户发布的64 340条微博;在强降雨预警微博中,爬取了转发该微博的1 213名用户共167 878条微博与未转发微博的1 519名用户的36 914条微博。并对这些微博通过情感词典的方式进行情感极性分析。

情感词典是一种通过对句子中每个词语进行情感打分获取句子的整体情感值的方法,分析流程如图 5所示。

图 5 基于情感词典的情感分析方法流程图

首先通过分词和去除停用词对语句进行预处理。在情感分析中,有3类词语对句子的情感值有所贡献,包括情感词、程度副词和否定词。情感词是指具有实际含义的、包含情感倾向的词语。每个情感词对应了一个情感值。当情感值为正数时,代表对应的情感词是积极的,反之则为消极的。程度副词是用来修饰情感词的副词,对应一个情感系数。单个否定词的出现使其修饰的情感值极性相反。本文将经过预处理的微博与词语列表进行检索匹配,最后按照式(1)对该微博的总情感值进行计算。

$ E_{\mathrm{S}}=\sum\limits_{i}(-1)^{n_{i}}\left(\prod\limits_{j} \sigma_{i j}\right) V_{i}. $ (1)

其中:ES代表整个句子的情感值,Vi代表句子中的第i个情感词的情感值,否定词ni代表第i-1个情感词和第i个情感词间的否定词数量,σij代表第i-1个情感词和第i个情感词间的所有程度副词中的第j个程度副词。

完成每条微博的情感值计算后,计算每个用户的平均微博情感值,即

$ E_{\mathrm{u}}=\frac{\sum\limits_{n} E_{\mathrm{w}n}}{N}. $ (2)

其中:Eu为用户情感值;N为用户所发的微博总数;Ewn为该用户发布的第n条微博的情感值得分。

对于利奇马台风预警微博案例的情感分析结果如图 6所示。根据拟合结果,转发和未转发用户的情感值均呈正态分布。根据独立样本t检验的结果,转发用户和未转发用户的情感值平均值有显著性差异,且转发用户的情感值相对较高。

图 6 (网络版彩图)利奇马台风预警微博案例情感分析结果

对于长江流域强降雨预警微博案例的情感分析结果如图 7所示。根据拟合结果,转发和未转发用户的情感值均呈正态分布,与利奇马台风的案例结果相一致。根据独立样本t检验结果,两者均值有显著差异,但与利奇马台风案例不同的是,本案例中未转发用户的情感值较高。

图 7 (网络版彩图)强降雨预警微博案例情感分析结果

根据以上两个案例的情感分析结果,发现无论转发用户还是未转发用户,其情感值分布均满足正态分布。但两个案例的情感值均值没有明显规律,利奇马台风案例中转发用户的情感平均值较高,而长江流域强降雨案例中未转发用户的情感平均值较高,这可能与两个案例的微博内容和语言风格有关:利奇马台风案例的预警内容相对长江流域强降雨案例语言更加通俗幽默。总体来说,本文的假设不成立,用户转发预警信息的概率与情感极性之间的关系需要通过更多案例进一步分析和验证。

4 用户对应急预警信息的兴趣分析

根据问卷调研结果,兴趣是促使微博用户转发微博的最主要原因。本节继续沿用节2和3的数据,基于LDA模型,通过学习用户发布的微博内容挖掘用户的发博兴趣,进而探寻用户的兴趣和预警微博转发之间的关系。

LDA模型具体文档生成过程为[20]

1) 对文档集D中的某个文档di,通过参数为α的Dirichlet分布生成该文档对应的主题分布的多项式分布参数θi

2) 从主题集T中通过参数为θi的多项式分布选取文档中第j个词语的主题tij

3) 通过参数为β的Dirichlet分布生成主题tij对应的词语分布的多项式分布参数φij

4) 从主题集T对应的词语集W中通过参数φij的多项式分布选取一个词语wij

5) 重复以上过程直至文档d中的每一个单词均被选取。

与另一类常用的主题生成模型PLSA(probabilistic latent semantic analysis) 式(3)相比,LDA模型认为生成主题和生成词语的两个多项式分布的参数服从Dirichlet分布(式(4)),而不是固定的,这种设计可以在模型计算中防止过拟合的现象。

$ P(w \mid d)=P(w \mid t) \cdot P(t \mid d), $ (3)
$ \text { Dirichlet }(\vec{p} \mid \vec{\alpha})=\frac{{\mathit{\Gamma}}\left(\Sigma_{k} \alpha_{k}\right)}{\Pi_{k} {\mathit{\Gamma}}\left(\alpha_{k}\right)} \prod\limits_{k} p_{k}^{\alpha_{k}-1} . $ (4)

本文通过困惑度判断最合适的主题数量。困惑度是Blei等[21]2003年提出的一个衡量语言模型好坏的指标,困惑度越低,语言模型就越好。困惑度计算如下:

$ \operatorname{PP}(S)=\sqrt[N]{\prod\limits_{i=1}^{N} \frac{1}{p\left(w_{i} \mid w_{1} w_{2} \cdots w_{i-1}\right)}}. $ (5)

对于利奇马台风预警微博,在LDA主题分析中输入不同的主题数量,计算得到的主题分类结果和困惑度如图 8所示。当主题数量为7时,困惑度最低,因此确定主题数量k=7。当主题数量k=7时,获得的训练结果在各个主题下的主题词见表 5

图 8 利奇马台风预警案例不同主题数量的困惑度

表 5 利奇马台风预警案例的主题分类及其部分关键词
序号 主题 关键词
1 追星 “超话”+“链接”+“网页”+“一起”+“朱一龙”+“红包”+……
2 广告 “钉”+“打卡”+ “定位”+“修改”+“福利”+“轻松”+……
3 日常 “想”+“推荐”+“生活”+“喜欢”+“爱”+“超市”+……
4 时事 “中国”+“新”+“今天”+“周年”+“深圳”+“足球”+……
5 娱乐 “超话”+“薛之谦”+“苏有朋”+“可口可乐”+“品牌”+“拍”+……
6 追星 “朱一龙”+“香港”+“电影”+“祖国”+“啊啊啊”+“超话”+……
7 搞笑 “哈哈哈”+“哈哈哈哈”+“音乐”+“周震南”+“超话”+……

通过LDA主题模型训练,获得每条微博的主题分布。计算每位微博用户发布的微博中各主题的分布,并以分布概率最大的主题作为该微博用户的主要发博兴趣主题,并计算兴趣为各主题的用户的预警微博转发率,利奇马台风预警微博案例的计算结果如图 9所示。

图 9 不同主题用户的利奇马台风预警微博转发率

根据计算,利奇马台风案例中的样本的平均转发率为21%。兴趣为时事类微博的用户比其余用户更有可能转发预警微博。由于预警信息也是时事新闻的一种,因此这个结果是合理的。除时事外,兴趣为日常类微博的用户转发预警微博的倾向也比较大;兴趣为搞笑类微博的用户的预警微博的转发率与所有用户的转发率持平;而兴趣为剩余的4类主题的用户的预警微博的转发率远远小于所有用户的平均值。

对于长江流域强降雨的预警微博,首先也利用困惑度分析选择合适的主题数与主题分类。困惑度分析的结果如图 10所示。根据困惑度分析结果,当主题数量k=5时,困惑度最低,获得的训练结果在各个主题下的主题词如表 6所示。

图 10 强降雨预警案例不同主题数量的困惑度

表 6 强降雨预警案例的主题分类及其部分关键词
序号 主题 关键词
1 时事 “中国”+“美国”+“发布”+“新冠”+“新闻”+“国家”+“疫情”+……
2 追星 “肖战”+“超话”+“少年”+“王一博”+“DAYTOY”+“邓伦”+……
3 搞笑 “哈哈哈”+“想”+“吃”+“现在”+“哈哈哈哈”+“孩子”+……
4 娱乐 “朱一龙”+“超话”+“预告”+“代言人”+“品牌”+“刘雨昕”+……
5 日常 “一起”+“熊猫”+“守护者”+“辣”+“驿站”+“森林”+“爱心”+ ……

为了使本案例的主题与利奇马台风案例的主题保持一致,以便进行对比分析,对内容相似的主题分类进行合并,共获得时事、日常和娱乐3个主题。为了使两个案例的预警微博转发率有可比性,对利奇马台风案例中的未转发用户进行按比例随机筛选,使两次案例样本的转发比例相同。经过合并整理后的两个案例的各主题转发率结果为:兴趣为时事的用户对台风预警信息的转发率为80.2%,对强降雨预警信息的转发率为75.0%;兴趣为日常的用户的转发率分别为58.2%和54.5%;兴趣为娱乐的用户的转发率分别为23.2%和28.4%。

两次案例每个主题的转发比例结果非常相似,3个主题的转发率差异较大,其中兴趣为时事类的用户的预警微博转发率最高,其次是日常类用户,娱乐类用户的转发率最低。因此可以认为,用户兴趣对用户转发预警微博的行为有显著影响,与本文假设一致。

5 用户应急预警信息传播行为预测

将节2和节4中的预测指标作为特征变量,对用户传播应急预警信息的行为进行预测。

为了使预测结果具有可解释性,且考虑到用户是否传播预警信息是一个二分类问题,本节采用逻辑回归的方法进行预测。逻辑回归主要借助逻辑函数解决二分类问题,表示如下:

$ g(z)=\frac{1}{1+\mathrm{e}^{-z}}. $ (6)

用户转发预警的预测是一个多变量问题,对应的逻辑函数形式为

$ \ln \frac{p}{1-p}=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{m} x_{m}. $ (7)

其中:p代表用户转发微博的概率,xi代表第i个影响因素的数值大小,β0为模型中的常数项,βi为第i个影响因素的系数。

由于两次事件发生的地点类型不同,一个为单一地域,一个为成片地域;发生的事件也不同,可能会导致相同用户的转发概率有所变化。并且两次采样时间相隔一年,导致不同兴趣的用户比例有所差异。因此,两次事件不适合进行共同预测。

用户对预警转发的预测分析通过SPSS的逻辑回归功能实现。对于利奇马台风预警案例,本文随机选取了914名用户的微博数据,其中转发了预警微博的用户595名,未转发预警微博的用户319名。对于强降雨预警案例,本文随机选取了1 212名用户的微博数据,其中转发了预警微博的用户680名,未转发预警微博的用户532名。模型的预测结果表明两个案例的预测正确率分别为67.2%和62.8%,对应的回归参数及其显著性分析结果如表 78所示。

表 7 利奇马台风案例逻辑回归参数分析结果
系数 标准误差 显著性 exp(B)
地理距离 -0.046 0.013 0.000 0.955
主题指数 4.802 0.464 0.000 121.699
常量 -2.509 0.279 0.000 0.081

表 8 强降雨案例逻辑回归参数分析结果
系数 标准误差 显著性 exp(B)
地理距离 -0.063 0.015 0.000 0.939
主题指数 3.719 0.384 0.000 41.221
常量 -1.766 0.201 0.000 0.171

总体而言,该预测方法的预测正确率达到了国内外同类型研究的预测水平(见表 9)。与常用的机器学习方法相比,该预测模型具有可解释性,可以解释和分析各变量的变化对转发用户预测结果的影响。且计算过程不需要大量样本,在用户转发行为的快速预测和识别上可以发挥较大作用。但在实际应用中,预测正确率仍有较大的提升空间。一方面通过加深用户转发动机的认识,增加预测过程中的特征变量,如进一步分析情感波动对用户转发的影响,从而提高预测准确度;另一方面依靠更庞大的数据库对用户的各动机进行分析,将可以实现更精准的预测。

表 9 国内外同类型研究的预测正确率对比
作者 发表年份 方法 正确率/%
曹玖新等[15] 2014 Bayes方法 50.7~79.5
Bian等[8] 2014 TMP 68.0
Xu等[6] 2012 MLT 17.2
Zhang等[18] 2015 HDP 69.4
Lee等[22] 2014 随机森林 78.5

6 结论

本文基于文献调研和问卷调研,将用户传播应急预警信息的行为动机分为利益相关、理性思考、用户兴趣等3类,并提出“动机-指标-转发”3层结构的用户预警信息传播行为预测模型。分别通过地域分析、微博情感极性分析、主题分析的方法,研究3类传播动机对用户传播预警信息行为的影响。根据分析结果确定每个动机的转发预测指标,并通过逻辑回归的方法预测用户的转发行为,得到较好的预测结果。研究发现:1) 用户所处地区与预警信息中描述的突发事件发生地的地理距离越短,用户的预警微博转发概率越高。2) 用户发布微博的情感值分布为正态分布。用户对预警信息的转发概率与用户以往发布微博的情感强度之间的关系有待进一步研究。3) 用户兴趣是用户转发预警微博的一个重要的影响因素。当用户兴趣为时事新闻时,用户转发预警信息相关微博的概率较高。

本文从用户的角度出发,基于用户转发动机筛选预测模型的自变量,提出用户对应急预警信息传播行为的预测模型,为在线社交媒体的用户转发行为的预测提供了新的思路。模型预测正确率达到同类型研究水平,且具有可解释性。研究可以对用户转发行为进行快速预测和识别,进一步扩大预警信息的传播范围。

参考文献
[1]
OLDALE A, OLDALE J, REENEN J V, et al. Collaborative filtering: WO/2002/010954[P]. 2002.
[2]
HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM SIGIR Forum, 2017: 227-234.
[3]
WALKER A E, RECKER M M, LAWLESS K, et al. Collaborative information filtering: A review and an educational application[J]. International Journal of Artificial Intelligence in Education, 2004, 14(1): 3-28.
[4]
PAN Y, CONG F, CHEN K, et al. Diffusion-aware personalized social update recommendation[C]//Proceedings of the 7th ACM Conference on Recommender Systems. New York, USA: Association for Computing Machinery, 2013: 69-76.
[5]
祖弦, 谢飞. LDA主题模型研究综述[J]. 合肥师范学院学报, 2015, 33(6): 55-58, 61.
ZU X, XIE F. An overview of LDA thematic model[J]. Journal of Hefei Normal University, 2015, 33(6): 55-58, 61. (in Chinese)
[6]
XU Z, ZHANG Y, WU Y, et al. Modeling user posting behavior on social media[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: Association for Computing Machinery, 2012: 545-554.
[7]
陈楠. 关系类型和信息类型对社交网络用户转发意愿的影响研究-基于权力距离和大五人格调节效应的分析[D]. 北京: 北京邮电大学, 2017.
CHEN N. Research on the influence of relationship types and information types on social network users' reposting willingness-Based on the analysis of power distance and the moderating effect of big five personality[D]. Beijing: Beijing University of Posts and Telecommunications, 2017. (in Chinese)
[8]
BIAN J W, YANG Y, TAT-SENG C. Predicting trending messages and diffusion participants in microblogging network[C]//Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. New York, USA: Association for Computing Machinery, 2014: 537-546.
[9]
LI Y L, YU H T, LIU L X. Predict algorithm of micro-blog retweet scale based on SVM[J]. Application Research of Computers, 2013, 30(9): 2594-2597.
[10]
刘玮, 贺敏, 王丽宏, 等. 基于用户行为特征的微博转发预测研究[J]. 计算机学报, 2016, 39(10): 1992-2006.
LIU W, HE M, WANG L H, et al. Research on Weibo reposting prediction based on user behavior characteristics[J]. Journal of Computer, 2016, 39(10): 1992-2006. (in Chinese)
[11]
唐晓波, 罗颖利. 融入情感差异和用户兴趣的微博转发预测[J]. 图书情报工作, 2017, 61(9): 102-110.
TANG X B, LUO Y L. Weibo forwarding prediction incorporating emotional differences and user interests[J]. Library and Information Service, 2017, 61(9): 102-110. (in Chinese)
[12]
LUARN P, YANG J C, CHIU Y P. The network effect on information dissemination on social network sites[J]. Computers in Human Behavior, 2014, 37: 1-8. DOI:10.1016/j.chb.2014.04.019
[13]
GUI X, WANG Y, KOU Y, et al. Understanding the patterns of health information dissemination on social media during the Zika outbreak[C]//AMIA Annual Symposium Proceedings. Online, American Medical Informatics Association, 2017: 820-829.
[14]
LIU I L B, CHEUNG C M K, LEE M K O. User satisfaction with microblogging: Information dissemination versus social networking[J]. Journal of the Association for Information Science and Technology, 2016, 67(1): 56-70. DOI:10.1002/asi.23371
[15]
曹玖新, 吴江林, 石伟, 等. 新浪微博网信息传播分析与预测[J]. 计算机学报, 2014, 37(4): 779-790.
CAO J X, WU J L, SHI W, et al. Information transmission analysis and prediction on Sina weibo[J]. Journal of Computer Science, 2014, 37(4): 779-790. (in Chinese)
[16]
COMARELA G, CROVELLA M, ALMEIDA V, et al. Understanding factors that affect response rates in Twitter[C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media. New York, USA: Association for Computing Machinery, 2012: 123-132.
[17]
PENG H K, ZHU J, PIAO D, et al. Retweet modeling using conditional random fields[C]//2011 IEEE International Conference on Data Mining Workshops. New York, USA: IEEE, 2011: 336-343.
[18]
ZHANG Q, GONG Y, GUO Y, et al. Retweet behavior prediction using hierarchical dirichlet process[C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin: AAAI Press, 2015: 403-409.
[19]
HOANG T A, LIM E P. Retweeting: An act of viral users, susceptible users, or viral topics?[C]//Proceedings of the 2013 SIAM International Conference on Data Mining. Online: Society for Industrial and Applied Mathematics, 2013: 569-577.
[20]
MEHROTRA R, SANNER S, BUNTINE W, et al. Improving LDA topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: Association for Computing Machinery, 2013: 889-892.
[21]
BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[22]
LEE K, MAHMUD J, CHEN J, et al. Who will retweet this? Automatically identifying and engaging strangers on Twitter to spread information[C]//Proceedings of the 19th International Conference on Intelligent User Interfaces. New York, USA: Association for Computing Machinery, 2014: 247-256.