社交网络用户隐私量化研究: 建模与实证分析

引用本文

朱涵钰, 吴联仁, 吕廷杰. 社交网络用户隐私量化研究: 建模与实证分析. 2014, 54(3): 402-406[Hanyu ZHU, Lianren WU, Tingjie LU. Research on quantifying user privacy on social networking sites[J]. 2014, 54(3): 402-406] 复制到剪切板

Permissions

社交网络用户隐私量化研究: 建模与实证分析

朱涵钰¹, 吴联仁², 吕廷杰¹

1. 北京邮电大学经济管理学院, 北京 100876

2. 北京第二外国语学院酒店管理学院, 北京 100024

孙玉强, 教授, E-mail:sunyuq126@126.com

作者简介: 朱强(1964-), 男(汉), 河南, 副教授。

基金:浙江省自然科学基金资助项目(Y1100314 ); 国家广电总局研究项目(GD10101);

摘要

社交网络的流行对用户的隐私保护提出了新的挑战。该文通过使用人类动力学和统计物理的方法,研究用户的网络行为与用户隐私量值的关系。以当前国内流行的社交网络——人人网和新浪微博——为研究对象,获取用户的真实数据,提出隐私量化模型。研究结果表明: 用户的网络行为对隐私量值具有重要的影响,如在人人网中用户的地理位置分享行为对隐私量值影响较大,而在新浪微博中发私信行为对隐私量值的影响最大。研究的结果对社交网络隐私关注下的用户行为规律探讨具有理论与实际意义。

关键词: 隐私保护; 隐私量化; 人类动力学; 社交网络; 网络用户行为

中图分类号:N949 文献标志码:A 文章编号:1000-0054(2014)03-0402-05

Research on quantifying user privacy on social networking sites

Hanyu ZHU¹, Lianren WU², Tingjie LU¹

1. School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing 100876, China

2. School of Hospitality Management, Beijing International Studies University, Beijing 100024, China

Fund:

Abstract

The popularity of social networks puts forward new challenges on the user's privacy protection. In this paper, the methods of human dynamics and statistical physics were used to study the relationship of user's network behaviors and user's privacy value. Current domestic popular social networking sites, Renren and Sina Weibo, were used as the research objects, with the user's actual data then obtained and a privacy quantitative model proposed. The results show that the user's behaviors on the network have an important impact on the value of privacy. Renren's sharing behavior in the user's geographic location has great impact on privacy, while Sina microblogging sending private messages has the greatest impact on the value of privacy. Conclusions of this study have theoretical and practical significance.

Keyword: privacy protection; privacy quantification; human dynamics; social networks; user network behavior

Show Figures

社交网站(SNS)无论是在个人生活还是工作中变得越来越重要。出于各种在线社交目的,人们在社交网络上提供了许多真实的个人信息,包括个人资料、教育和工作经历、联系方式、照片、言论和在线活动等^[1]。由于社交网络具有开放性、共享性和连通性等特点,用户的个人隐私信息更容易被窥探、收集和非法利用,用户因此遭受的损失和伤害也更大。很大部分的社交网络用户是刚成年的学生,甚至是未成年人,隐私信息的泄露将会给这部分用户带来更为严重的危害。因此,社交网络用户隐私信息的保护问题成为学术界和业界近年来关注的热点^[2,3,4,5,6]。从实际角度来讲,社交网络服务提供商也引进了许多隐私设置,例如限制访问他人的社交网站主页等来保护用户的隐私。

在社交网络用户行为分析方面,理论和实证研究都已经非常深入。研究大致集中在用户的发帖、电影点播、发送电子邮件、微博的发表等一系列在线社会网络中的行为,从人类行为动力学的角度和统计学的角度进行分析。在人类动力学研究方面,国内比较有影响力的学者,如电子科技大学的周涛^[7],通过对全球最大的在线电影共享网站Netfix的数据进行分析,发现在群体水平上用户点播电影的间隔时间分布近似服从幂率分布,而且幂指数与对应人群观看电影的活跃度之间存在单调的关系。另外,吴哗^[8]对天涯网络社区上用户的回复进行了统计分析,发现用户发表评论的时间间隔分布符合幂率分布,具有胖尾特性。王晓光^[9]以“新浪微博”为研究样本,对微博用户行为特征与关系特征进行了实例分析,发现用户的关注数和粉丝数、博文数之间均有高度正相关性,符合普通社会网络的特点。闫强^[10]也以新浪微博数据研究了微博社区中用户行为特征。国外的Dezso等^[11]对匈牙利新闻娱乐网上大约25 万独立访问者的浏览历史记录进行了分析,通过研究所有个体的时间间隔的群集数据,发现其分布满足幂率函数,指数约为1.2。

然而,在社交网络用户隐私量化方面的研究还较少。高锡荣和杨康^[12]运用随机抽样问卷调查数据的方法,制定相关因素量表,研究了影响互联网用户网络隐私的保护行为。蒋骁和季绍波^[13]通过分析相关文献,提出了一个网络隐私关注和行为意向影响因素的概念模型,但是并未做数据收集和相关分析。也有学者就用户的LBS(location business services)信息的隐私保护进行了研究,张志杰^[14]通过问卷调查、构建结构方程的方法研究得知用户的LBS行为受用户的隐私影响作用强烈。王斌和段友祥等^[15]则从实际保护用户隐私信息的角度出发,制定了一种通过分析上下文的基于普适向量的用户隐私量化模型,综合考虑了用户个体和系统中心对网络用户的隐私的影响。

本文研究用户隐私设置行为对隐私量值的影响,并对社交网络用户的隐私量值与用户属性及网络行为进行相关性分析。因此,本文研究对社交网络隐私关注下的中国的用户行为规律探讨具有一定的理论与实际意义。

1 数据获取

本文研究利用了两个数据集。第一个数据集来自新浪微博(http://weibo.com/)。使用Java语言编写微博爬虫,然后通过新浪授权的API接口进行抓取。

在微博中,用户与用户的关系可以是粉丝关系、关注关系和互粉关系。其中粉丝和互粉关系是单向关系,属于格兰诺维特所提到的弱关系,而互粉关系,需要有联系的双方共同接受对方才可维系,属于强关系。在本文研究中,考虑到研究的具体问题,只抓取了双向好友关系(互粉关系)。

抓取过程由某一随机用户开始,通过广度遍历算法抓取与其具有互粉好友关系的好友,以此循环,抓取具有此关系的4层用户数据(即起点A、起点A的好友、起点A好友们的好友,以及起点A好友们的好友们的好友)。共抓取到用户数据样本32 368个,以及这些用户发布的微博864多万条和这些微博的转发微博2 000万余条,历时4个月。数据格式包括用户的粉丝数、关注数、隐私设置等。在隐私设置中,考虑在微博中比较重要的3个隐私设置,即:

1) 是否允许所有人给我发私信(AllowMessage, AM);

2) 是否允许陌生人评论(AllowComment, AC);

3) 是否允许进行地理位置标记(AllowGeography, AG)。

这3个设置通过0和1来表示, 1为是, 0为否。

本文研究的另一个数据集来自人人网(http://www.renren.com)。人人网是目前中国最大的社交网络之一,截止到2013年5月已经有超过2.8亿用户注册了人人网,月度在线活跃用户数达到1.36亿。通过将爬虫软件安装在学院的服务器上,采用滚雪球抽样的方法,匿名收集了北京邮电大学经济管理学院272名人人网用户的数据。考虑到研究的可实施性,只收集了两层用户数据。即这272名人人网用户以及与这272名用户具有好友关系的用户数,总共收集到76 375个用户数据。为了研究用户的隐私设置行为,向这76 375个用户发电子问卷,问卷包括3个简单的问题:

a) 是否允许陌生人访问你的人人网主页(AllowAccess, AA);

b) 是否接受来自陌生人的信息(AllowMessage, AM);

c) 是否使用地理位置信息服务(AllowGeography, AG)。

这些问题的答案都是通过0和1来表示, 1为是, 0为否。最后总共收集到58 045个回复,回复比例达到76%。

2 建模与分析

2.1 熵权理论

为能够更加全面科学地对用户的不同隐私设置因素进行研究,采用决策分析理论中的熵处理技术实现不同隐私设置指标的权重大小。

考虑一个( m, n)问题,即有 m个评价指标, n个评价对象。按照定性与定量相结合的原则取得多对象关于多指标的评价矩阵

$\begin{matrix} R' = [\begin{matrix} r'_{11} & r'_{12} & \dots & r'_{1 n} \\ r'_{21} & r'_{22} & \dots & r'_{2 n} \\ ⋮ & ⋮ & ⋮ \\ r'_{m 1} & r'_{m 2} & \dots & r'_{mn} \end{matrix}] . \end{matrix}$

标准化 R'得到

$\begin{matrix} R = (r_{ij})_{nm} . \end{matrix}$

式中, r_ij称为第 j个评价对象在指标 i上的值, r_ij∈(0,1),且

$\begin{matrix} r_{ij} = \frac{r'_{ij} - \min {r'_{ij}}}{\max_{j} {r'_{ij}} - \min_{j} {r'_{ij}}} . \end{matrix}$

由以上公式可以定义第 i个评价指标的熵 $\begin{matrix} ^{[1617]} \end{matrix}$ 为

$\begin{matrix} H_{i} = - k \overset{m}{\sum_{j = 1}} f_{ij} \ln f_{ij}, i = 1,2, \dots, n. \end{matrix}$

式中, $\begin{matrix} f_{ij} = \frac{r_{ij}}{\overset{n}{\sum_{i = 1}} r_{ij}}, k = \frac{1}{lnn} \end{matrix}$ 。

第 i个评价指标的商权 ω_i定义为

$\begin{matrix} ω_{i} = \frac{1 - H_{i}}{m - \overset{m}{\sum_{i = 1}} H_{i}}, i = 1,2, \dots, n. \end{matrix}$

从评价指标的定义发现,指标的熵越大,其商权越小,该指标越不重要,而且满足:

$\begin{matrix} \begin{matrix} 0 \leq ω_{i} \leq 1, \\ \overset{n}{\sum_{i = 1}} ω_{i} = 1 . \end{matrix} \end{matrix}$

2.2 用户隐私量化研究

采用商权理论,在新浪微博情况下,文中假设了3个评价指标: 1) 是否允许所有人给我发私信(AM); 2) 是否允许陌生人评论(AC); 3) 是否允许进行地理位置标记(AG)。这3项指标基本可以反映出用户对隐私信息的关注程度。由此,对于新浪微博用户的隐私具体量化问题,采用一个向量来表示不同的新浪微博用户的隐私量:

$\begin{matrix} P_{1} = (AM, AC, AG) . \end{matrix}$

其中: 向量 P₁(privacy)代表每个用户在隐私方面的保护程度; AM是用户对于其他用户发私信的隐私保护关注值; AC是用户对于其他用户对自身信息评论方面的保护量值; AG是用户对于微博获取地理信息方面的隐私保护量值。对微博用户的隐私向量 P₁进行量化就可以得出能够用来表示该用户的隐私的数值,本文研究称之为隐私量。下面就这3项指标在整个用户隐私量值中所占的权重进行分析研究。

在微博数据中,总共收集到的用户数(即评价对象)为32 368; 因此,得到一个(3,32 368)问题,以及建立多对象关于多指标的评价矩阵 R_{3×32 368}。

通过计算可得用户隐私相关的3项隐私指标权重系数如表1所示。

表1 新浪微博用户隐私指标权重系数

进一步计算每个用户的隐私量值。

用户隐私量值为3项相关因素量化求和,表示为

$\begin{matrix} \begin{matrix} P = 0.4221 q (AM) + 0.3397 q (AC) + \\ 0.2382 q (AG) . \end{matrix} \end{matrix}$

其中, q(AM)、 q(AC)、 q(AG)分别代表允许私信、允许评论、允许地理标注的概率,此概率取值为0或1。该量值表示不同用户对于隐私保护方面的具体量值,隐私量值较低的用户其隐私关注意识就比较高,属于高隐私关注的群体,而隐私量值较高的用户相对而言其关注意识就薄弱一些,属于低隐私关注群体。

对新浪微博用户隐私量值分布情况统计分析,如图1所示。

	Figure Option View Download New Window Download As Powerpoint Slide
	图1 新浪微博用户隐私量值分布图

从图1可见,在隐私值量为AM+AC点的用户数最多,而该值表示用户同时允许他人评论和获取地理信息。则可知,相较而言,微博用户对于微博信息的评论和获取地理信息不那么在意,而更倾向于保护自身的信息自主权,保护自己避免他人的私信影响。这也是微博用户在使用微博过程中的一种主流表现,即用户更倾向于与人交流沟通,分享信息,与此同时也关注于自身信息空间的保护。此外,如图1所示,低隐私关注群体和高隐私关注的群体在整体的分布比例要低于5%,即高隐私关注群体的数量和完全不关注隐私的群体的数量属于两个较小值,说明绝大部分用户对于隐私保护方面都有不同的关注。

通过相同的方法和步骤,可以研究人人网用户的隐私量化问题。在人人网环境下,提出的3个评价指标为: 1) 是否允许陌生人访问你的人人网主页(AllowAccess, AA); 2) 是否接受来自陌生人的信息(AllowMessage, AM); 3) 是否使用地理位置信息服务(AllowGeography, AG)。这3项指标也基本可以反映出用户对隐私信息的关注程度。由此,对于人人网用户的隐私具体量化问题,采用一个向量来表示不同的用户的隐私量。

$\begin{matrix} P_{2} = (AA, AM, AG) . \end{matrix}$

其中: 向量 P₂代表每个用户在隐私方面的保护程度; AA为用户对于其他用户访问个人主页的隐私保护关注值; AM为用户对于其他用户发来信息的保护量值; AG为用户对于帖子获取地理信息方面的隐私保护量值。下面就这3项指标在整个用户隐私量值中所占的权重进行分析研究。

在人人网数据中,总共收集到的有关隐私设置行为的用户数(即评价对象)为58 045。因此得到一个(3,58 045)问题,以及建立多对象关于多指标的评价矩阵 R_{3×58 045}。

通过计算可得用户隐私相关的3项隐私指标权重系数如表2所示。

表2 人人网用户隐私指标权重系数

进一步计算每个用户的隐私量值。

用户隐私向量值为3项相关因素量化求和,表示为

$\begin{matrix} \begin{matrix} P = 0.5627 q (AA) + 0.1882 q (AM) + \\ 0.2491 q (AG) . \end{matrix} \end{matrix}$

其中, q(AA)、 q(AM)、 q(AG)分别代表允许访问、允许私信、允许地理标注的概率,此概率取值为0或1。对人人网用户隐私量值汇总,如图2所示。

	Figure Option View Download New Window Download As Powerpoint Slide
	图2 人人网用户隐私量值分布图

在表2中发现, AA允许访问指标在3个指标中的权重最大,说明人人用户最关注其他用户访问其个人主页,其次关注的是在发帖子时使用地理位置信息。

如图2所示,用户隐私量在AM点的用户数最多,而该值表示用户允许其他用户发私信。这点与新浪微博用户隐私关注恰好相反,在新浪微博中用户更倾向于保护自身的信息自主权,保护自己避免他人的私信影响。人人网用户非常关注个人网站上的信息,因为在个人网站内包含了太多关于用户的隐私信息,如好友圈子、个人状态和日志、照片等非常重要的信息。因此,人人网用户一般限制陌生人访问自己的网站,只允许好友访问。

3 结束语

社交网络的出现,给人们的生活带来了巨大的改变。伴随着社交网络而来的是用户的隐私保护问题,从用户的角度,应该如何保护自己的隐私?本文从网络用户隐私设置行为出发,为解决社交网络的隐私保护问题提供建议。

本文首先从用户隐私的设置行为中总结出描述用户隐私量的评价指标,如用户的访问设置行为、发私信和评论设置行为和地理位置信息设置行为。然后,建立了用户隐私量化模型。研究结果表明用户的这些网络行为对用户的隐私量值具有重要的影响,如在人人网中用户的地理位置信息设置行为对隐私量值影响较大,而在新浪微博中发私信设置行为对隐私量值的影响最大。

研究中还发现,大部分的微博用户更倾向于传播信息,而不是因为出于隐私保护的目的而减少交流,因而,如果微博服务的提供商能够通过提供一些高效合理的个人信息保护机制来很好地保护好用户的隐私信息,将会有更多的用户参与到微博的使用和体验中。而在人人网中,用户仅向自己的好友分享自己的生活体验,而对陌生人限制就很严,这点是和微博最大的区别。在新浪微博中,没有相关的设置去限制其他人访问微博主页。

从社交网络提供商的角度,社交网站应该为其用户提供更安全和便捷的隐私设置功能,从网站的角度科学合理地保护用户的隐私。

The authors have declared that no competing interests exist.

参考文献

View Option

[1]	胡启平, 陈霞. 试析社交网络环境中个人隐私保护[J]. 信息网络安全, 2010(8): 43-44. HU Qiping, CHEN Xia. Protection of privacy on social networking environments[J]. Information Network Security, 2010(8): 43-44. (in Chinese) [本文引用:1]
[2]	Ziegele M, Quiring O. Privacy in social network sites[M]//Perspectives on Privacy and Self-Disclosure in the Social Web. Springer, 2011. [本文引用:1]
[3]	Røssvoll T H, Fritsch L. Trustworthy and inclusive identity management for applications in social media[M]//Human-Computer Interaction. Users and Contexts of Use. Springer Berlin Heidelberg, 2013: 68-77. [本文引用:1]
[4]	Liu Y, Gummadi K P, Krishnamurhy B, et al. Analyzing facebook privacy settings: User expectations vs. reality [C]// Proc of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference. New York, NY, USA: ACM, 2011: 61-70. [本文引用:1]
[5]	Strater K, Lipford H R. Strategies and struggles with privacy in an online social networking community [C]// Proceedings of the 22nd British HCI Group Annual Conference on People and Computers: Culture, Creativity, Interaction-Volume 1. UK: British Computer Society, 2008: 111-119. [本文引用:1]
[6]	Lewis K, Kaufman J, Christakis N. The taste for privacy: An analysis of college student privacy settings in an online social network[J]. Journal of Computer-mediated Communication, 2008, 14(1): 79-100. [本文引用:1]
[7]	Zhou T. Human activity pattern on on-line movie watching[J]. Complex Systems and Complexity Science, 2008(3): 1-5. [本文引用:1] [CJCR: 0.561]
[8]	Wu Y, Zhou C, Chen M, et al. Human comment dynamics in on-line social systems[J]. Physica A, 2010, 389(24): 5832-5837. [本文引用:1] [JCR: 1.722]
[9]	Wang X G. Empirical analysis on behavior characteristics and relation characteristics of micro-blog users: Take “Sina Micro-blog” for example[J]. Library and Information Service, 2010, 54(14): 66-70. [本文引用:1] [CJCR: 1.24]
[10]	闫强, 吴联仁, 郑兰. 微博社区中用户行为特征及其机理研究[J]. 电子科技大学学报, 2013, 42(3): 328-333. YAN Qiang, WU Lianren, ZHENG Lan. Research on user behavior characters and mechanism in microblog communities[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(3): 328-333. (in Chinese) [本文引用:1]
[11]	Dezso Z, Almaas E, Lukacs A, et al. Dynamics of information access on the web[J]. Physical Review E, 2006, 73(6): 066132. [本文引用:1] [JCR: 2.326]
[12]	Gao X R, Yang K. Factors affecting internet users' information privacy protection[J]. Journal of Intelligence, 2011(4): 39-42. [本文引用:1]
[13]	Jiang X, Ji S B. Conceptual model of the factors influencing consumer online privacy concern and behavior intention[J]. Science Technology and Management, 2009, 11(5): 71-74. [本文引用:1] [CJCR: 0.641]
[14]	Zhang Z J, Lv T J. Empirical study of users' acceptance model on mobile LBS[J]. Journal of Beijing University of Posts and Telecommunications: Social Sciences Edition, 2012, 14(1): 56-61. [本文引用:1] [CJCR: 0.502]
[15]	Wang B, Duan Y X. Research on information privacy quantization method facing ubiquitous computing environment[J]. Computer Engineering and Applications, 2011, 47(27): 1-5. [本文引用:1] [CJCR: 0.557]
[16]	Jing L, Ng M K, Huang J Z. An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(8): 1026-1041. [本文引用:1] [JCR: 1.815]
[17]	Liu X. Parameterized defuzzification with maximum entropy weighting function: Another view of the weighting function expectation method[J]. Mathematical and Computer Modelling, 2007, 45(1): 177-188. [本文引用:1] [JCR: 2.02]

0.0

... 出于各种在线社交目的,人们在社交网络上提供了许多真实的个人信息,包括个人资料、教育和工作经历、联系方式、照片、言论和在线活动等^[1] ...

2011

0.0

... 因此,社交网络用户隐私信息的保护问题成为学术界和业界近年来关注的热点^[2-6] ...

2013

0.0

2011

0.0

2008

0.0

2008

0.0

... 因此,社交网络用户隐私信息的保护问题成为学术界和业界近年来关注的热点^[2-6] ...

0.0

0.561

... 在人类动力学研究方面,国内比较有影响力的学者,如电子科技大学的周涛^[7],通过对全球最大的在线电影共享网站Netfix的数据进行分析,发现在群体水平上用户点播电影的间隔时间分布近似服从幂率分布,而且幂指数与对应人群观看电影的活跃度之间存在单调的关系 ...

2010

1.722

0.0

... 另外,吴哗^[8]对天涯网络社区上用户的回复进行了统计分析,发现用户发表评论的时间间隔分布符合幂率分布,具有胖尾特性 ...

2010

0.0

1.24

... 王晓光^[9]以“新浪微博”为研究样本,对微博用户行为特征与关系特征进行了实例分析,发现用户的关注数和粉丝数、博文数之间均有高度正相关性,符合普通社会网络的特点 ...

2013

0.0

... 闫强^[10]也以新浪微博数据研究了微博社区中用户行为特征 ...

2006

2.326

0.0

... 国外的Dezso等^[11]对匈牙利新闻娱乐网上大约25 万独立访问者的浏览历史记录进行了分析,通过研究所有个体的时间间隔的群集数据,发现其分布满足幂率函数,指数约为1 ...

0.0

... 高锡荣和杨康^[12]运用随机抽样问卷调查数据的方法,制定相关因素量表,研究了影响互联网用户网络隐私的保护行为 ...

2009

0.0

0.641

... 蒋骁和季绍波^[13]通过分析相关文献,提出了一个网络隐私关注和行为意向影响因素的概念模型,但是并未做数据收集和相关分析 ...

2012

0.0

0.502

... 也有学者就用户的LBS(location business services)信息的隐私保护进行了研究,张志杰^[14]通过问卷调查、构建结构方程的方法研究得知用户的LBS行为受用户的隐私影响作用强烈 ...

2011

0.0

0.557

... 王斌和段友祥等^[15]则从实际保护用户隐私信息的角度出发,制定了一种通过分析上下文的基于普适向量的用户隐私量化模型,综合考虑了用户个体和系统中心对网络用户的隐私的影响 ...

2007

1.815

0.0

2007

2.02

0.0