2. 国家计算机网络应急技术处理协调中心, 北京 100029;
3. 西安交通大学智能网络与网络安全教育部重点实验室, 西安 710049
2. National Computer Network Emergency Response Technical Team/Coordination Center, Beijing 100029, China;
3. MOE Key Laboratory for Intelligent Networks and Network Security, Xi'an Jiaotong University, Xi'an 710049, China
随着网络技术的快速发展,在线社会网络(如微博、交友网站、论坛和博客等)已经成为人们发布信息、分享观点和传播消息等不可或缺的媒介和工具。一方面,网络传播内容的数量增长迅速;另一方面,用户的注意力是有限的[1]。因此势必导致网络上同一时间段内出现的话题对用户注意力的竞争,而这种多话题之间的竞争会影响话题的传播[2]。
已有的针对在线社会网络大多建立在话题独立传播的假设上,只考虑单个话题的传播,并不考虑多话题之间的交互。这些研究以大量真实的在线社会网络如Twitter[3, 4]、 Facebook[5]、 YouTube[6]和新浪微博[7, 8]等的数据为基础,从网络结构和用户行为等方面对信息传播机制展开分析。Leskovec等[9]提出跟踪新闻话题的方法框架,并且发现话题瞬时规模增长呈心电图形状。Yang等[10]采用聚类的方法发现话题的演变在时间上表现出先增长再下降的趋势。Eytan等[11]研究发现在线社会网络结构将影响话题传播。对网络结构的研究主要基于复杂网络理论,大量研究表明在线社会网络中存在小世界特性和无标度特性,而且好友网络的连接度呈现降幂分布[4, 6]。刘玮等[7] 研究了话题生成网络的拓扑结构,基于话题构建用户关注网络和转发网络,并设计话题倾向性、用户兴趣和行为的话题相关性等测量方法。另外,用户行为方面的研究发现:用户的好友数量少于关注者的数量[3],好友数量存在阈值即Dunbar系数[12],用户在线使用习惯以24 h或7 d为周期等[5]。周亚东[8]分析了用户对同一个话题的发帖数量,用户参与的话题数量分布,参与热点话题讨论的用户与不参与的用户在发帖数、好友数以及发帖内容差异性等。
实际情况下,在线社会网络有多个话题并存,传播过程相互影响,竞争用户资源。目前针对多话题竞争的深入研究不多。Weng等[1]基于用户注意力有限的假设提出了话题竞争的代理模型,并研究了话题竞争与话题规模和话题生命周期等的关系。Myers等[2]研究了多话题之间的竞争与合作对每个用户接收到信息的概率的影响,提出了话题传播的概率模型。Xu等[13]从可视化的角度提出了一种“川流式”(river theme)系统来展示意见领袖、媒体和政党等在不同话题和时间上的竞争关系。目前尚未有量化方法测量多话题传播的竞争特性。
本文从资源竞争的角度研究多话题传播特性的测量。从话题和用户这2个层面分析多话题传播的竞争特性,设计话题竞争的资源数变化规律、话题竞争激烈程度、用户注意力的转移规律和用户注意力转移的话题相关性等的测量方法,提出话题资源数波动率、话题竞争激烈度、用户注意力正或负向转移率和用户注意力在话题间的转移率等定量测量指标,并基于新浪微博数据进行测量分析。
1 测量对象与数据描述本文选取新浪微博作为目标观测网络。新浪微博目前是中国最大的微博平台之一,也是一个典型的在线社会网络。它对内容长度有140个汉字的限制。用户可以随时随地发布简短的信息,查看他人状态,了解事件最新进展等。微博的发布简单、传播迅速、覆盖广泛,这些特点使其成为人们重要的获取信息、交换观点和相互联系的平台。
因为微博数据非常庞大很难完整获取,所以本文的数据集是对整体用户的采样。利用新浪微博API,随机选取新浪微博中粉丝数较多的账号作为采集起点,采用“滚雪球”策略,采集了2013年3月1日到3月31日期间这些账号发布的每条微博的ID号、发布时间、发布人和内容等信息,经过去除垃圾微博等预处理后,构建了包括66 224名用户、 583万条微博的原始数据集,如表1所示。
数据集 | 用户个数 | 微博条数 | 话题个数 | 时间范围 |
原始数据集 | 66 224 | 5 831 294 | 87 584 | 2013.03.01 - 2013.03.31 |
话题数据集 | 36 038 | 195 461 | 106 | 2013.03.01- 2013.03.31 |
由于本文的研究对象是多话题传播,因此通过识别每条微博中的话题标签生成研究中需要的话题数据集。在新浪微博中,用2个“#”标识一个话题,比如 “#雅安地震#”和“#李宇春戛纳行#”等。本文首先识别微博中出现的所有话题标签,共87 584个(见表1),其中大部分的话题包含的微博数很少,对话题传播的作用也有限,因此本文进一步识别传播范围较广的热门话题数据。考虑到新浪微博会公布每天的前10个话题,实验中选取2013年3月出现的微博数最多的300个话题标签,合并属于同一个话题的多个标签,生成话题列表。然后,在全部微博(其中包括未使用#标识但提及某个话题的微博)中逐个搜索话题列表中的话题,如果一条微博中出现多个话题标签,则标记第一个出现的话题标签作为这条微博所属的话题类别。另外,为了观测到话题的完整生命周期,实验中只保留了2013年3月2日以后出现的话题。最后,构建了包括36 038名用户、 19.5万条微博、涵盖106个最热门话题的话题数据集(见表1)。参照新浪微博的话题类别划分方法,将106个热门话题分为5大类,如表2所示。另外,采用以话题峰值为中心的阈值窗口方法[10]确定每个话题的起止时间,构建话题传播规模随时间变化的序列。
类别 | 话题个数 | 用户个数 | 微博条数 |
社会新闻类 | 24 | 28 812 | 114 023 |
广告公关类 | 25 | 15 721 | 38 864 |
网络热点类 | 19 | 6 853 | 17 179 |
电影电视类 | 12 | 7 831 | 12 699 |
其他类 | 16 | 6 162 | 12 696 |
本节从话题层面分析多话题在传播过程中的竞争特性。如果把用户看作多话题之间要竞争的资源,那么话题的规模就是指话题占有的资源数。接下来将分别研究话题的资源数变化规律和话题竞争的激烈程度。
2.1 话题竞争的资源数变化规律网络上同时存在很多话题,话题之间竞争用户资源。每个话题都有其生命周期,有的话题规模呈增长态势,有的话题规模呈下降趋势,并且处于不断动态更新中。 图1是2013年3月新浪微博最热门的8个话题包括“315消费者日”和“李宇春生日”等的传播趋势,其中话题瞬时规模是指当天参与话题的用户的数目。每个话题规模有着类似的上升和下降的模式,即迅速增长到峰值然后逐渐下降,并形成一个单峰。这种话题规模增长模式在文[9]也发现过。此外,新的话题陆续出现,而老话题逐渐消失,说明用户相继地关注和不关注某个话题。话题的规模显示出单峰且交替出现的现象,这同时也是各个话题占有的用户资源数的变化趋势。单峰交替的现象是由用户注意力的转移引起的。
图2是话题竞争中用户资源总数的变化趋势,其中用户资源总数是指以天为单位在微博上发帖的所有用户的数目。从2013年3月1日到3月31日,每天的资源总数在3.3万到4万之间,且以7天为周期。尽管新浪微博每天都有新增长的用户使得总用户数不断增加,但是每天的发帖用户数目变化并不大。
对比图1和2,各话题中的用户资源数目有明显的上升和下降的模式,而用户资源总数波动较小。因此,提出资源数波动率指标σ来测量话题竞争中资源数的变化规律。截止时刻t的总资源数波动率为
$ {\sigma _S}\left( t \right) = \sqrt {\frac{{\sum\limits_{k = 1}^t {{{\left( {S\left( k \right) - \hat S} \right)}^2}} }}{{t - 1}}} . $ | (1) |
其中:S(k)表示k时刻的用户资源总数,${\hat S}$表示S(k)的均值。
话题i的资源数波动率用σU,i表示,因为话题有其生命周期,所以话题的资源数波动率为
$ {\sigma _{U,i}}\left( t \right) = \sqrt {\frac{{\sum\limits_{k = 1}^{{\kappa _i} - {\tau _i}} {{{\left( {{U_i}\left( k \right) - {{\hat U}_i}} \right)}^2}} }}{{{\kappa _i} - {\tau _i} - 1}}} . $ | (2) |
其中:Ui(k)表示话题i在k时刻的瞬时规模,i表示Ui(k)的均值,τi和κi分别是话题i的开始和结束时间。
根据资源数波动率指标分别对总用户资源数和话题资源数的变化趋势进行了统计(为了便于对比,本文对总资源数和各话题资源数进行了归一化处理,所有取值在[0,1]之间),结果为:σS为0.036;σU,i的最小值、最大值和均值分别为0.228、 0.636和0.417,在0.228~0.636变化。σU,i远远大于σS,说明话题资源数在话题生命周期内的波动较为剧烈,该结果与话题规模上升再下降的演变模式相一致。
通过计算资源数波动率指标发现,用户资源总数基本保持不变,这也说明多话题竞争的资源总数受限,该结论是建立多话题竞争模型的重要基础。
2.2 话题竞争的激烈程度测量同一时刻的话题瞬时规模有明显的差异,例如图1中3月15日有多个话题在生命周期内,最热门的话题瞬时规模将近7 000,占当天参与热门话题讨论的总用户数的53.3%,在话题竞争中占据绝对优势,第二热门话题的瞬时规模为1 826,占当天总用户数的13.9%。由此,定义时刻t话题i的资源占有率为
$ {\varphi _i}\left( t \right) = \frac{{{U_i}\left( t \right)}}{{\sum\limits_j {{U_j}\left( t \right)} }}. $ | (3) |
其中Ui(t)表示话题i在t时刻的话题瞬时规模。各个话题的资源占有率越平均,说明话题的竞争越激烈;而如果存在占绝对优势的话题,则该话题主导竞争,其他的话题无法与之抗衡。因此,竞争的激烈程度与资源占有率的方差成反比。
另一方面,参与竞争的话题数目越多,竞争越激烈。在资源总数有限的情况下,每个话题平均能获得的资源数将减小[13]。因此,竞争的激烈程度与话题的数目成正比。
由此,设计时刻t话题竞争的激烈度指标β(t),使该指标与话题数目和资源占有率的方差有关:
$ \beta \left( t \right) = K\left( t \right)/\sqrt {\frac{{\sum\limits_{i = 1}^{K\left( t \right)} {{{\left( {{\varphi _i}\left( t \right) - \hat \varphi \left( t \right)} \right)}^2}} }}{{K\left( t \right) - 1}}} . $ | (4) |
其中:K(t)表示t时刻在生命周期内的话题的数目,${\hat \varphi }$(t)是φi(t)的均值。另外,如果每个话题都具有相同的资源占有率,则β(t)=$\infty $。β值越大说明话题竞争越激烈。
每一天话题竞争的激烈度如图3所示。对比图1和3发现,虽然3月15日参与热门话题的用户资源明显高于其他时间的,但是其竞争激烈程度与其他时间的相比并不高。这和本节对资源占有率的分析一致,3月15日的最热门话题在话题规模上远远领先于其他的话题,占据了当天话题资源比例上的绝对优势,而且由于累积优势使得竞争继续倾向于资源数领先的话题[14]。但同时由于话题的时效性以及如节2.1所分析的话题资源数波动率较大,某个话题在资源数比例上的绝对优势持续的时间不长。图3中竞争激烈程度最大的是3月22日,当天排名前5位的话题规模分别是416、 288、 241、 184和125,虽然数值不大但是很接近,因此对用户资源的竞争也更激烈。另外,3月2日到3月10日话题竞争激烈程度的数值波动较大的原因是样本存在偏差。
通过分析话题竞争的激烈程度,发现竞争的激烈程度与话题规模大小没有正相关关系,话题竞争受已有话题规模累积优势的影响。这些发现有助于建立多话题传播模型。
3 多话题竞争的用户行为分析 3.1 用户注意力的转移用户注意力在话题间的转移产生了各个话题规模的变化,这个过程也可以看作是话题之间在竞争用户的注意力资源。因为每个用户的注意力有限[1],用户同时只能参与有限的话题,而用户的注意力又是多变的,不会永远停留在同一个话题上。本节将分析用户注意力在多话题之间转移的情况。
用户u在观测周期内一共发布nu条消息。用hi表示第i条消息所属的话题,i=1,2,…,nu。如果话题a的出现时间晚于话题b即τa < τb,则把话题a叫做“老话题”,把话题b叫做“新话题”。比较用户u发布的第i条和第(i+1)条消息所属话题的出现时间,如果τ(hi+1)>τ(hi),说明第(i+1)条消息所属话题比第i条消息所属的话题出现得晚,即用户u在老话题中发帖后被新出现的话题吸引,用户的注意力从老话题转到新话题,这种情况被定义为用户注意力的正向转移;如果τ(hi+1) < τ(hi),说明用户的注意力从新话题回到老话题,这种情况被定义为用户注意力的负向转移。
于是,定义用户u注意力的正向转移率为正向转移发生的比例为
$ \eta _u^ + = \frac{{\sum\limits_{i = 1}^{{n_u}} {I\left( {\tau \left( {{h_{i + 1}}} \right) < \tau \left( {{h_i}} \right)} \right)} }}{{{n_u} - 1}},\;\;\;{n_u} > 1. $ | (5) |
其中I是示性函数。类似的,定义负向转移率为
$ \eta _u^ - = \frac{{\sum\limits_{i = 1}^{{n_u}} {I\left( {\tau \left( {{h_{i + 1}}} \right) < \tau \left( {{h_i}} \right)} \right)} }}{{{n_u} - 1}},\;\;\;{n_u} > 1. $ | (6) |
比如,某个用户的发帖序列为(12,24,14,14,49,54,94),其中数字代表消息所在的话题的标号,数字越大表示该话题出现的时间越晚,nu=7。用(a,b)表示用户注意力从话题a到话题b。这个发帖序列一共包含4次正向转移(12,24)、 (14,49)、 (49,54)和(54,94),1次负向转移(24,14),因此该用户的正向转移率为4/(7-1)= 0.67,负向转移率为0.17(不发生转移的部分表示用户在一个话题中重复发帖)。
用户注意力正或负向转移率在0和1之间,转移率数值越大说明正或负向转移越多,该指标衡量了用户注意力的转移偏好。用户注意力转移率的逆累积分布(CCDF)曲线如图4所示。为了研究用户大部分注意力的转移方向,设定转移率的阈值为 0.6,测量发现P(ηu+≥0.6)=0.4,而P(ηu-≥0.6)=0.1,用户注意力正向转移发生的比例更高。图4中注意力转移率接近0和1的部分出现了曲线斜率的突变,这和用户发帖数目较少有关。在话题数据集中有17.9%的用户只发布过2条消息,即只发生一次正或负向转移,使得正或负向转移率要么为0,要么为1。
通过测量用户注意力的转移情况发现,大多数用户的注意力是从老话题转到新话题,即新话题从老话题中竞争用户资源。用户注意力转移到新话题,使得新话题的规模增加,但由于更加新的话题出现,用户注意力继续发生转移,使得原先增长的规模开始下降,直到降为0也就意味着该话题的消失。由此说明,图1中观测到的单峰交替现象是由用户注意力的转移引起的。这些结论为用资源竞争理论研究多话题传播提供了依据。
3.2 用户注意力转移的话题相关性用户的兴趣具有惯性,吸引用户的话题和其发帖历史有很大相似性[1]。由于用户的注意力有限,用户一般只会参与有限的感兴趣的话题。如果用户曾经参与过某类话题,其更有可能对同类型的其他话题感兴趣,而忽略其他类型的话题,比如一个对社会热点类话题感兴趣的用户通常不关心娱乐八卦类话题。因此,本节将分别研究用户注意力转移和话题的相关性。
话题的类别用Cx表示,x∈{社会新闻类,广告公关类,网络热点类,电影电视类,其他类}。定义用户u的注意力在Cx间的转移率为
$ \rho _u^{{C_x}} = \frac{{\sum\limits_{i = 1}^{{n_u}} {I\left( {{h_i} \in {C_x},{h_{i + 1}} \in {C_x}} \right)} }}{{{n_u} - 1}},{n_u} > 1. $ | (7) |
则用户u的注意力在同类话题间的转移率定义为
$ \rho _u^C = \sum\limits_x {\rho _u^{{C_x}}} . $ | (8) |
用户u的注意力在不同类话题间的转移率为
$ \rho _u^{\bar C} = 1 - \rho _u^C. $ | (9) |
ρuC和ρu${\bar C}$在0和1之间。ρuC为0意味着在用户的整个发帖行为中没有一次注意力的转移发生在同类话题间,而数值为1意味着用户每一次注意力的转移都发生在同类话ρuC越大说明同类话题间的转移越多,衡量了用户注意力转移的话题偏好。ρu${\bar C}$与此类似。用户注意力在话题间转移率的CCDF曲线如图5所示。同类话题间的转移率高于不同话题间的转移率,说明用户倾向于关注同一类型的话题,验证了对用户兴趣的猜想。以转移率阈值0.6为例,测量发现P(ρuC≥0.6)=0.6,而P(ρu${\bar C}$≥0.6)= 0.45,用户注意力在同类话题间转移发生的比例更高。
通过测量用户注意力转移发生在同类还是不同类话题间,可以发现大多数用户的注意力转移发生在同类话题间。在对话题传播建模时应考虑不同话题对用户吸引力的差异。
4 结 论本文从话题和用户这2个层面分析了多话题传播的竞争特性,设计了话题竞争的资源数变化规律、话题竞争激烈程度和用户注意力的转移规律等测量方法,并提出相应的定量测量指标。通过对新浪微博真实数据的测量研究,发现多话题传播存在单峰交替、总用户资源基本稳定、话题竞争受话题规模的累积优势影响、用户注意力的转移大部分是从老话题到新出现的话题、用户注意力的转移大部分发生在同类话题间等。这些测量结果为进一步建立多话题传播模型、预测多话题传播的发展趋势提供了基础。
下一步可以尝试更深入的测量工作,研究话题发展早期的特征以及能预测话题早期发展趋势的方法;也可以进一步挖掘用户的行为特征,比如用户注意力转移的时间间隔、用户在各类话题中停留的时间等;还可以研究话题适应度的估计方法。
[1] | Weng L, Flammini A, Vespignani A, et al. Competition among memes in a world with limited attention[J]. Scientific Reports, 2012, 2:335-343. |
[2] | Myers S A, Leskovec J. Clash of the contagions:Cooperation and competition in information diffusion[C]//Proceedings of the 12th IEEE International Conference on Data Mining. Brussels, Belgium:IEEE press, 2012:539-548. |
[3] | Huberman B A, Romero D M, Wu F. Social networks that matter:Twitter under the microscope[J]. First Monday, 2009, 14(1):47-61. |
[4] | Kwak H, Lee C, Park H, et al. What is Twitter, a social network or a news media[C]//Proceedings of the 19th International Conference on World Wide Web. New York, NY, USA:ACM press, 2010:591-600. |
[5] | Golder S A, Wilkinson D M, Huberman A. Rhythms of social interaction:Messaging within a massive online network[C]//Proceedings of the 3rd International Conference on Communities and Technologies. London, UK:Springer, 2007:41-66. |
[6] | Mislove A E. Online Social Networks:Measurement, Analysis, and Applications to Distributed Information Systems[D]. Houston, TX, USA:Rice University, 2009. |
[7] | 刘玮, 王丽宏, 李锐光. 面向话题的微博网络测量研究[J]. 通信学报, 2013, 34(11):171-178.LIU Wei, WANG Lihong, LI Ruiguang. Topic-oriented measurement of microblogging network[J].Journal on Communicaitons, 2013, 34(11):171-178.(in Chinese) |
[8] | 周亚东. 在线社会网络热点话题识别与动态传播建模与分析研究[D]. 西安:西安交通大学, 2011.ZHOU Yadong. Modeling and Analysis for Topic Detection and Group Dynamics over Online Social Networks[D]. Xi'an:Xi'an Jiaotong University, 2011.(in Chinese) |
[9] | Leskovec J, Backstrom L et al. Meme-tracking and the dynamics of the news cycle[C]//Proceedings of the 15th ACM International Conference on Knowledge Discovery and Data Mining. Paris, France:ACM press, 2009:497-506. |
[10] | Yang J, Leskovec J. Patterns of temporal variation in online media[C]//Proceedings of the 4th ACM International Coference on Web Search and Data Mining. Hongkong, China:ACM press, 2011:177-186. |
[11] | Bakshy E, Rosenn I, Marlow C, et al. The role of social networks in information diffusion[C]//Proceedings of the 21st International Conference on World Wide Web. Lyon, France:ACM press, 2012:519-528. |
[12] | Gonçalves B, Perra N, Vespignani A. Modeling users' activity on twitter networks:Validation of dunbar's number[J]. PLoS One, 2011, 6(8), e22656. |
[13] | Xu P, Wu Y, Wei E, etc. Visual analysis of topic competition on social media[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12):2012-2021. |
[14] | Barabási A L, Albert R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439):509-512. |