2. 清华大学清华信息科学与技术国家实验室(筹), 北京 100084
2. Tsinghua National Laboratory for Information Science and Technology, Tsinghua University, Beijing 100084, China
传统的万维网在实现信息分享功能时,是以内容为中心进行组织的,而微博这类服务的不同之处在于它是以用户为中心进行组织的。用户作为基本单元,构成了规模巨大、 连接复杂的线上关系网络,不仅将线下关系映射到线上,同时其非对称的连接机制大大增进了人们之间的联系。用户已不仅是信息的消费者,也成为信息的生产者和传播者。因此用户个体在信息系统中的作用越发重要[1]。
探讨微博中用户的转发行为规律的意义在于:首先,有助于认识人的行为特点及可能的心理、 兴趣、 作息和环境等影响因素[2];其次,量化并准确地描述用户行为有助于服务资源的管理和分配,从而带来经济效益[3];最后,有助于通过对用户行为的有效介入实现对信息传播过程的干预和控制[4]如最大化影响力[5]和谣言控制。
各类互联网服务中的用户行为规律一直受到大量研究者的关注。在实际数据测量的基础上,许多研究者利用统计推断和机器学习理论,建立了用户行为模型[6, 7, 8]。这些模型从较宏观的角度刻画了用户转发行为的影响因素和行为特点,能够对信息的转发量进行预测。但在微观上,用户个体的行为机理仍不够明确。在人类行为动力学的研究中[2],许多经验数据表明社交媒体中用户行为相邻时间间隔的分布呈现重尾特点[9, 10, 11, 12]。这与用户的在其他领域的行为如书信、 网页浏览和股票交易等具有一致性。这一特点使得传统的基于Poisson过程的简化模型不再适用于这一类行为的建模。研究者力图从微观机理上解释这种重尾分布及其他相关的统计特性。Yan等[12]建立了一个由用户兴趣和社会身份共同作用的动力学模型,仿真结果较好地解释了幂律分布和社会影响力对用户行为的影响;Jiang等[9]提出了一个有限记忆模型,对幂律分布特性以及容易被忽视的非幂律分布特性给出了机理上的解释;Wang等[10]针对微博中用户转发行为在时间尺度上分布的异质性,同时考虑用户兴趣和记忆效应的共同作用,建立了解释相邻转发时间间隔重尾分布和时间尺度异质性的动态模型。这些基于人类行为动力学的模型既考虑了重尾分布这一较普遍的特点,又考虑了某些特定因素的影响。
微博提供了大量有价值的数据支撑对用户在线行为的认识[13],但同时也存在着诸多挑战。第一,在研究人类行为的动态特性时,由于影响因素众多,除了昼夜作息和季节周期外,很难找到能够预测人类行为模式的规律[2]。第二,用户行为由内因和外因共同作用[14]。内因包括个人兴趣、 情绪等,不易量化和测量;外因包括突发事件、 人与人之间的影响等,随机性较强。第三,即使在可测量的层面上,用户的行为规律也较为复杂。例如,尽管众多模型给出了幂律分布的可能成因,但现实中许多行为的时间间隔并不满足严格的幂律分布[9]。
本文从实际数据的测量出发,研究微博用户的转发行为规律。由于转发行为的产生机理可以用兴趣的变化来解释,本文分析了一个兴趣可变的人类行为动力学模型[15],并提出了考虑行为周期时长差异性和昼夜作息规律的模型改进方案,兼顾了影响用户转发行为主要的内在和外在因素。所提出的模型从转发意愿变化的角度刻画转发行为的动态过程。不同于已有的结合2种不同影响因素或作用机制的模型[10, 12],改进模型给出了用户行为周期时长差异化的合理描述,并通过引入固定睡眠时长这一简单机制,给出了时长分布中分段现象的合理解释。
1 用户转发行为时间间隔分布的数据测量在人类行为动力学的研究中,相邻事件发生的时间间隔是一个重要的测量指标。呈指数分布的时间间隔具有无记忆性,能够简化建模过程。而其他分布形式同样广泛存在。为了测量微博用户转发行为的相邻时间间隔,本文采用了一个由7千万条消息构成,分布在2009年8月到2010年4月之间的新浪微博数据集,其中包括消息内容、 发布者、 转发链的标识信息和发布时间等等。
该数据集中最活跃(定义用户发布原始信息的数量越大则越活跃)的10 000个用户在2010年3月内全部的相邻转发行为时间间隔的分布如图1所示。纵轴为互补累积概率分布(CCDF),8条虚线从左至右所指示的时间分别为8、 24、 48、 72、 96、 120、 144和168 h。可以看出,分布曲线出现了周期性的震荡,表明用户行为受日常作息影响较大。这种周期性的波动现象同样出现在其他人类活动中[16]。
接着考察不同用户的个体行为。图2给出了4个随机选取的用户相邻转发行为时间间隔τ的分布示例。不同用户的分布均呈现分段特点,在8 h左右出现。
这一结果与人们的日夜作息周期直接相关,导致在不同时间尺度下这些分布呈现异质性。人们的转发行为一般不会发生在深夜时间段内,因而多数转发间隔低于8 h,但由于睡眠自然也会造成一定量的转发行为间隔时间大于8 h。而对于不活跃的用户来说,间隔周期可能更大,因此偏折点可能大于8 h。
2 兴趣可变的人类行为动力学模型传统的对人类行为动态性的研究将其简化为Poisson点过程,例如一部电梯在一段时间内的乘客到达过程,一个电话呼叫中心在一定时间内的电话呼入过程等等。这一模型导致相邻2次事件发生的时间间隔满足指数分布,即不太可能出现特别大的时间间隔。然而大量的经验数据表明多种人类行为的时间间隔服从重尾分布,即大的时间间隔会以一定的概率出现。研究者试图找出这一分布产生的可能机理。Barabási[2]建立了一个基于优先级的事件队列模型,得到了事件发生时间间隔满足幂律分布这一结果。但Han等[15]指出并非所有的人类行为都能够用处理事件这一机制来解释;人们浏览信息、 观看视频和转发微博等均是兴趣的变化在起作用;对此,提出了一个兴趣可变的模型来解释某些人类行为时间间隔的重尾分布。
文[15]中,在离散时间点t=0,1,2,…上定义事件发生的概率r(t)来表示人们做某件事的兴趣。在每个离散时刻,均会以该时刻的r(t)随机地产生事件,并且在每个时刻只进行一次尝试。如果没有事件发生,维持r(t+1)=r(t)进行独立重复试验。一旦一个事件发生,记录其发生时刻。连续2次事件发生的时间间隔用表示。如果在t时刻第个事件发生,那么(t+1)时刻事件发生的概率依赖于第i个和第(i+1)个事件之间的时间间隔τi,具体为r(t+1)=a(t)r(t),定义为[15]
$ a\left( t \right) = \left\{ \begin{array}{l} {a_0},\;\;\;\;\;\;\;\;\;{\tau _i} \le {T_1};\\ a_0^{ - 1},\;\;\;\;\;\;\;\;{\tau _i} \ge {T_2};\\ a\left( {t - 1} \right),\;{T_1} < {\tau _i} < {T_2}. \end{array} \right. $ | (1) |
其中:a0控制兴趣值变化的幅度,0 < a0 < 1;T1和T2控制兴趣值何时翻转。式(1)仅在事件发生时起作用。该模型r(t)的一个仿真示例如图3所示(a0=0.5,T1=1,T2=600,仿真次数为 44 640)。其基本参数设定与文[15]一致。为了进一步说明式(1)在兴趣变化过程中所起的作用,在图4中将图3的一部分进行放大用以对式(1)的作用进行详细说明。由于图4中的T1 < τi < T2,故概率变化趋势不变,依然下降。概率下降后,进行独立重复试验直到下一个事件发生。期间事件发生的概率不变。由于此时事件发生的概率已经较小,故独立重复试验成功的期望次数较大,当第(i+2)个事件发生时已有τi+1≥T2。故概率变化趋势翻转,由下降变为上升,之后继续进行独立重复试验。概率由上升到下降的翻转过程可类比。
可以看到,r(t)的变化具有一定的周期性,一个兴趣值上升和下降阶段对应活跃时间段,并且上升和下降阶段基本对称。一个兴趣值局部最低的水平阶段对应休眠时间段。每个活跃时间段所占的时间宽度相差不大,休眠时间段的情况类似。
文[15]中模型参数作用如下:a0 控制r的变化倍数,即上升和下降过程每一个“台阶”的高度;T1决定用户兴趣何时由增长转向下降;T2决定用户兴趣何时由下降转向增长,也即2个行为周期的时间间隔。当用户兴趣降低到一定程度,事件发生的概率已经很低时,需要尝试多次才能成功,整个过程为一个前(n-1)次均失败,恰好在第n次成功的n次Bernoulli试验。此时2次事件发生的时间间隔较大,当间隔大于T2时,用户接下去的兴趣将会增长。当用户的兴趣增长到一定程度,使得连续2次事件发生的时间间隔小于T1时,用户接下去的兴趣又开始下降。以上2个条件均未达到时,用户会惯性地维持当前的兴趣值直到下一次事件发生。该模型较好地描述了用户兴趣的变化,并且从理论和仿真上证明了该模型生成的随机事件的相邻时间间隔近似满足指数为-1的幂律分布。
针对微博用户的转发行为,该模型的合理性在于,人们日常使用微博时兴趣会周期性地变化。当人们长时间地“刷微博”时,使用兴趣会逐渐降低,直至关掉网页或客户端;当长时间地不使用微博时,时间越长,开始使用的可能性会增大。并且,本文假设在使用过程中,兴趣的变化是由转发事件所触发。
3 用户行为周期时长分析文[15]模型中用户的兴趣变化具有准周期性(quasi-periodicity),一个周期由活跃和休眠时间段组成,其中活跃时间段又分为兴趣的增长和下降阶段。对于用户的转发行为,活跃时间段即用户打开微博连续浏览信息的时间段;休眠时间段即用户关闭账户不进行信息浏览的时间段。在一个活跃时间段内,用户会随机地产生转发行为。为了探讨采用兴趣模型刻画转发行为的合理性,有必要在期望的意义下分析活跃和休眠时间段的长度。
由于模型中为常数a0,因此活跃时间段内兴趣的增长和下降阶段具有对称性。仅考虑兴趣下降阶段所对应的时间段的长度。在一个兴趣下降过程中,事件发生的次数约为[15]
$ I \approx \left\lceil {\log _{{a_0}}^{ - 1}\left( {{T_2}/{T_1}} \right)} \right\rceil . $ | (2) |
向上取整运算是为了避免对数函数项非整数取值。一个周期中兴趣最大值的平均值为[15]
$ {{\bar r}_m} = \sum\limits_{k = 0}^{I - 1} {{{\left( {{r_0}a_0^k} \right)}^2}\prod\limits_{i = 0}^{I - k - 1} {\left( {1 - {r_0}a_0^{I - i}} \right)} } . $ | (3) |
其中r0为事件发生概率的初始设定值。对式(3)进行数值计算,得到:
$ {{\bar r}_m} \approx 1 - {a_0}. $ | (4) |
当一个事件发生时,兴趣r值降低为a0r,此时下一个事件发生所需时间间隔的期望为1/(a0r)。平均来说,在一个下降过程中r的最大值为${\bar r}$m,最小值约为T2-1。考虑活跃时间段的事件发生次数,其值应比一个下降过程中事件的总数少1,因为最后一个事件的发生表示用户已进入休眠时间段。因此活跃时间段内的事件数为
$ {I_{{\rm{act}}}} \approx \left\lfloor {\log a_0^{ - 1}\left( {{{\bar r}_m}{T_2}} \right)} \right\rfloor . $ | (5) |
对每个事件发生后的时间间隔的期望求和,可得一个下降过程对应的时间区间的长度值为
$ {L_{{\rm{act}}}} = \bar r_m^{ - 1}\sum\limits_{i = 1}^{I - 1} {a_0^{ - i} = \frac{{a_0^{ - i} - 1}}{{{{\left( {1 - {a_0}} \right)}^2}}}.} $ | (6) |
如果a0不太大,Iact不太小(如文[15]中 a0=0.5,Iact≈12 ),那么a-Iact0>>1。此时Iact可进一步简化:
$ {I_{{\rm{act}}}} \approx \frac{{a_0^{{{\log }_{{a_0}}}}{{\bar r}_m}{T_2}}}{{{{\left( {1 - {a_0}} \right)}^2}}} = \frac{{{T_2}}}{{\left( {1 - {a_0}} \right)}}. $ | (7) |
以上分析表明,在a0不太大,Iact不太小的情况下,a0为常数时Iact由T2所决定。另外,休眠时间段的长度Lslp∝T2。这是因为,当兴趣值达到T2-1时,平均需要T2次离散时间间隔才能发生下一个事件。此时兴趣已由下降趋势翻转为上升趋势,因此这段时间间隔正好对应当前周期的休眠状态。综上,用户行为周期的时长由T2所决定。如果固定其取值,由于模型中事件的生成基于独立重复试验,因此大量仿真得到的活跃和休眠周期时长会较为固定。
4 模型改进方案在参数固定的情况下,文[15]模型产生的活跃时间段和休眠时间段时长较为固定,这一结果在某些特定的问题中并不适用。首先,大量的经验数据表明,相邻2次行为的时间间隔并不固定,且通常其分布满足Pareto法则即会出现少数间隔特别大的情形[17],包括人们查看电子邮件、 网页浏览和股票交易等行为。其次,人们持续做一件事情的时长并不一定十分固定。例如,人们持续使用移动智能电话应用程序的时长会受使用者所处的时空环境的影响。最后,以移动客户端使用微博应用为例,常识表明人们既不太可能等间隔的打开应用,又不可能持续较为固定的时长(例如睡觉前的使用时长不同于乘坐交通工具时的使用时长)。另外,文[15]模型得到的τ近似满足指数为-1的幂律分布,这一结果无法体现实际数据所反应的用户转发行为在时间尺度上的异质性。基于实际数据测量和用户行为周期时长分析,为了建立更加合理的微博用户转发行为模型,本文对上述模型做如下改进:
1) 为实现差异化的活跃阶段和休眠阶段时长,将设置为一个服从离散幂律分布的随机变量,其概率质量函数(PMF)为
$ p\left( x \right) = \Pr \left( {X = x} \right) = C_x^{ - \alpha },\;\;\;\;\;x \in {\mathbb{N}_ + }. $ | (8) |
该分布存在下界xmin,C 为归一化系数。其中xmin可解释为人们的最小休眠时间,α控制较大时间间隔出现的概率。
2) 为实现图2所示τ分布中的分段现象,考虑人们日常行为的昼夜周期特性,以固定的活动和睡眠时间作为一个行为周期。具体的,本文对随机化T2后得到的仿真结果,每隔固定时长(如16 h),对随后出现的第一个休眠周期的长度扩张一定的时长(如8 h,即一般睡眠时长)。
假设人们的睡眠时长为θ,改进后的仿真算法可由以下步骤进行描述:
步骤1 初始化参数;
步骤2 循环开始;根据r(t)判断事件是否发生;
步骤3 如果事件未发生,转步骤2;如果事件发生,根据本次事件和上次事件之间的时间间隔,由式(1)计算a(t);
步骤4 由a(t)更新r(t);
步骤5 如果r(t)恰由上升过程进入下降过程,由式(8)生成新的T2;
步骤6 如果r(t)恰由下降过程进入上升过程,且第(24-θ)×60k(k=1,2,…)min恰好位于本次事件与上次事件发生时刻之间,则将本次事件与上次事件之间的时间间隔τ增加60θ min;
步骤7 如果达到最大仿真次数,算法终止;否则转步骤2。
5 改进模型仿真结果对于上述改进方案,先不考虑昼夜作息影响,T2随机化后r(t)的一个仿真示例如图5所示(其参数xmin=100,α=1.80)。可以看出,活跃时间段和休眠时间段的持续长度都显示出了较大的差异性。
考虑昼夜作息影响(每隔16 h则扩张8 h),T2分布函数中的xmin可理解为人们在白天的最小休眠时长。图6为α固定为2.0,xmin取不同值时τ的分布。xmin较小时转发时间间隔的分布出现了明显的分段现象。当xmin增大到与8 h这一数量级相同时,分段现象消失。这是由于xmin较小时,大的间隔主要由周期性的扩张机制所产生;而当xmin增大到一定程度后,由式(8)生成的随机数对较大时间间隔的贡献同样很大。
当xmin固定时,增大α会降低较大时间间隔出现的概率,分段现象将会变得明显,如图7所示(图7中xmin=20)。另外,注意到,当α接近于1时,由于较大的T2可能很多,因此事件发生的次数明显降低。
由于文[15]模型中参数变化对分布的影响较小,改进模型引入了2个新的参数α和xmin,因此其灵活性较强。相比文[15]模型,可以调节改进模型的参数使得仿真结果与真实数据的分布更为接近。图8给出了一个简单示例。按照图3所采用的参数设定对文[15]模型运行了3次仿真,从图8中可以看到文[15]模型的仿真结果变化不大。而改进模型由于参数可调带来的灵活性,可以得到与真实数据匹配得更好的仿真结果。
为了定量地比较文[15]模型和改进模型的仿真效果,并得到较好的模型参数,随机选取节1中7千万条消息中某一用户τ的分布作为真实数据,本文比较了文[15]模型和改进模型与真实数据的接近程度。真实数据为某一用户的转发行为时间间隔分布。对于文[15]模型,仍设置图3中使用的参数,重复仿真100次得到相邻事件发生时间的间隔分布。对于改进模型,选择参数集xmin∈{10,50,100},α∈{1.2,1.5,2.0},对9组参数组合分别进行100次仿真,得到相邻事件时间间隔的分布。为了评价模型和真实数据的接近程度,首先利用分段的水平线段对双对数坐标下的模型仿真结果分布曲线进行近似,进而计算最小二乘意义下仿真结果曲线与真实数据的误差平方和,再求其平方根ε,作为模型与真实数据接近程度的度量。
通过计算,文[15]模型的ε约为2.848。改进模型在不同参数组合下的ε见表1。
从表1中可以看到,当α=2.0,xmin=50时,得到了9组参数组合中最小的ε。文[15]模型、 本文改进模型仿真结果以及真实数据的分布如图9所示。可以看到改进模型与真实数据较为接近。实验结果验证了改进模型的灵活性和有效性。由于模型的仿真过程基于参数的随机生成和事件的随机产生,很难得到事件发生时间间隔的分布与α和xmin的解析关系,因此本文简单地通过遍历来寻找较好的参数组合。
6 结 论针对微博用户的转发行为,本文从实际数据中统计了用户个体相邻转发行为时间间隔的分布。结果表明该分布具有重尾现象,同时,由于昼夜作息的影响,该分布具有时间尺度上的异质性。为了描述这种用户转发行为的统计特性,本文参考了一个兴趣驱动的人类行为动力学模型,分析了文[15]模型中活跃和休眠时间段长度的近似表达式。发现行为周期时长与文[15]模型参数T2成比例。在此基础上,将T2设置为一个满足离散幂律分布的随机变量,并引入睡眠周期扩张机制,以实现差异化的用户行为周期时长和相邻转发时间间隔分布中的分段现象,以此对用户转发行为进行建模。最后,本文通过仿真对改进模型的有效性和灵活性进行了验证,结果表明改进模型相比文[15]模型较好地反映了实际数据中的统计特性。下一步将设计合理的方法选择改进模型的最优参数组合,以更好地实现对真实数据的模拟;同时建立有效的方法估计用户从信息到达流中实际阅读的信息数量,从而建立更加合理的用户转发行为模型。
[1] | Fu F, Liu L, Wang L. Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A:Statistical Mechanics and its Applications, 2008, 387(2-3):675-684. |
[2] | Barabási A L. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005, 435(7039):207-211. |
[3] | 张晶, 黄京华, 黎波, 等. 新浪企业微博口碑传播的实证研究[J]. 清华大学学报(自然科学版), 2014, 54(5):649-654. ZHANG Jing, HUANG Jinghua, LI Bo, et al. Empirical research on enterprise micro-blogs' word-of-mouth of Sina Weibo[J]. J Tsinghua Univ(Sci and Tech), 2014, 54(5):649-654.(in Chinese) |
[4] | 李栋, 徐志明, 李生, 等. 在线社会网络中信息扩散[J]. 计算机学报, 2014, 37(1):189-206.LI Dong, XU Zhiming, LI Sheng, et al. A survey on information difusion in online social networks[J]. Chinese Journal of Computers, 2014, 37(1):189-206.(in Chinese) |
[5] | Kempe D, Kleinberg J, Tardos É. Maximizing the spread of influence through a social network[C]//Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington DC, USA:ACM Press, 2003:137-146. |
[6] | 曹玖新, 吴江林, 石伟, 等. 新浪微博网信息传播分析与预测. 计算机学报, 2014, 37(4):779-790.CAO Jiuxin, WU Jianglin, SHI Wei, et al. Sina microblog information difusion analysis and prediction[J]. Chinese Journal of Computers, 2014, 37(4):779-790.(in Chinese) |
[7] | Peng H K, Zhu J, Piao D, et al. Retweet modeling using conditional random fields[C]//2011 IEEE 11th International Conference on Data Mining Workshops. Vancouver, Canada:IEEE Press, 2011:336-343. |
[8] | Gao S, Ma J, Chen Z. Modeling and predicting retweeting dynamics on Microblogging platforms[C]//Proceedings of the 8th ACM International Conference on Web Search and Data Mining. Oxford, UK:ACM Press, 2015:107-116. |
[9] | Jiang Z, Zhang Y, Wang H, et al. Understanding human dynamics in microblog posting activities[J]. Journal of Statistical Mechanics:Theory and Experiment, 2013, 2013(02):P02006. |
[10] | Wang C, Guan X, Qin T, et al. Modeling the heterogeneity of human dynamics based on the measurements of influential users in Sina Microblog[J]. Physica A:Statistical Mechanics and its Applications, 2015, 428:239-249. |
[11] | Zhou T, Zhao Z D, Yang Z, et al. Relative clock verifies endogenous bursts of human dynamics[J]. Europhysics Letters, 2012, 97(1), 18006. |
[12] | Yan Q, Yi L, Wu L. Human dynamic model co-driven by interest and social identity in the microblog community[J]. Physica A:Statistical Mechanics and Its Applications, 2012, 391(4):1540-1545. |
[13] | 廉捷, 周欣, 曹伟, 等. 新浪微博数据挖掘方案[J]. 清华大学学报(自然科学版), 2011, 51(10):1300-1305.LIAN Jie, ZHOU Xin, CAO Wei, et al. Sina microblog data retrieval[J]. J Tsinghua Univ(Sci and Tech), 2011, 51(10):1300-1305.(in Chinese) |
[14] | Crane R, Sornette D. Robust dynamic classes revealed by measuring the response function of a social system[J]. Proceedings of the National Academy of Sciences, 2008, 105(41):15649-15653. |
[15] | Han X P, Zhou T, Wang B H. Modeling human dynamics with adaptive interest[J]. New Journal of Physics, 2008, 10(7), 073010. |
[16] | Wang P, Lei T, Yeung C H, et al. Heterogenous human dynamics in intra-and inter-day time scales[J]. Europhysics Letters, 2011, 94(1), 18005. |
[17] | Zhou T, Han X P, Wang B H. Towards the understanding of human dynamics[J]. Science Matters:Humanities as Complex Systems, 2008:207-233. |