基于群体偏好的交易评价可信度
陈元琳, 柴跃廷 , 刘义, 徐扬    
清华大学 自动化系, 电子商务交易技术国家工程实验室, 北京 100084
摘要:利用交易评价数据对商品和卖家进行信用评价以供用户参考成为电子商务在线交易平台最基本的服务。然而,目前的信用评价方法很少考虑不同用户间的评价偏好差异,将所有用户的评价同等看待,导致蓄意刷分或恶意差评等信用造假问题屡禁不止。该文提出了一种基于群体偏好的交易评价可信度确立方法。首先采用K-means聚类算法将用户分为3类用户群,通过实证数据分析验证了用户群间明显的评价偏好差异,然后利用评价偏好特征确立每类用户不同类型交易评价的可信度,并提出了动态的交易评价可信度更新策略。该方法能够有效地限制信用造假行为。
关键词K-means聚类    群体偏好    交易评价    可信度    行为分析    
Transaction rating credibility based on user group preference
CHEN Yuanlin, CHAI Yueting , LIU Yi, XU Yang    
National Engineering Laboratory for E-Commerce Technologies, Department of Automation, Tsinghua University, Beijing 100084, China
Abstract:Transaction and rating data can be used to evaluate credit as a key underlying service provided by online transaction platforms. However, credit evaluation methods pay little attention to user rating preferences, so rating manipulations can expand arbitrarily. A method is given here to determine transaction rating credibility based on group preferences. This method uses the K-means clustering algorithm to divide all the users into three groups and analyzes and validates each group's rating preferences. Then, the algorithm provides three steps to determine the credibility of ratings on different levels for different user groups based on these preferences. This paper also provides a strategy to dynamically update the group division and credibility to effectively restrict credit manipulation.
Key words: K-means clustering    group preference    transaction rating    credibility    behavior analysis    

电子商务在线交易发生后,买家用户会根据交易表现,对所购买的商品或服务(以下统称为商品)作出评价,例如在B2C购物平台“天猫商城”上,用户可以对描述相符、服务态度、发货速度和物流速度等作出评价。一般而言,评价分为2种形式: 等级评价和文字评价。其中,等级评价多以数值或分级形式出现,数值一般为5分制(1—5分), 分级一般为三级制(“好评”、“中评”和“差评”)。文字评价则是用户通过语言文字来描述或评论所购买的商品。

在大多数交易平台上,已作出的评价会实时展示在对应的商品或卖家的页面上。文[1,2,3,4]从多个方面表明: 用户在购买商品时会参考已有的购买和评价记录,这些由其他用户形成的历史记录会对购买决策产生很大影响。

一般而言,受影响的用户分为2类:一类受到历史记录的正面影响,选择购买该商品; 一类受到历史记录的负面影响,拒绝购买该商品。第一类用户由于产生了交易订单,其购买行为能够被准确记录,且在交易完成后也能评价该商品,为其他用户提供信息。第二类用户因为没有生成交易订单,因此无法被准确记录。尽管可以通过“浏览后未购买”的情形进行侧面推断,但是造成此类情形的原因很多,并不能认为一定是由于商品评价造成的。因此,评价信息主要来源于第一类用户,这类用户的购买和评价行为是实际发生并准确记录的。

利用记录的交易及评价信息对卖家或商品进行信用评估的方法称为交易信用评估。传统的交易信用评估方法同等看待所有用户评价或者将他们的评分进行简单的加权平均,很少考虑用户间存在的评价偏好差异,致使关键的评价信息没有得到充分的重视和利用,甚至被淹没,这种情况下很容易出现信用造假。

本文根据用户历史评价记录对用户进行聚类,得到几类具有明显偏好差异的用户群,并采用真实数据计算出不同用户群对不同评价等级的偏好程度,再依据偏好程度确定不同用户群所给出不同评价的可信度,为交易信用评估提供更加可信的去偏好评分数据。

1 交易评价可信度问题描述

由于在线交易的虚拟性和匿名性以及商品购买和使用时空分离的特征,交易双方间的信息不对称性得以放大,导致了交易过程中具有利己动机的交易双方的投机行为如虚假交易、假冒欺骗、共谋作弊和恶意诋毁等[5] 时有发生。为了解决存在的投机问题,建立和维护在线交易主体间的信任关系, Resnick[6]提出了在线声誉系统,目前该系统及其拓展已成功应用于eBay、 Amazon和淘宝等各大电子商务交易平台。在线声誉系统的核心是利用交易双方在交易完成后对产品属性特征、服务质量表现和使用感受经验等方面的评价信息,建立社区性和口碑型的商品和服务信息的交流、互动与分享机制。

然而,用户作出的评价并非总是公正无偏的,研究人员使用“可信度”一词来描述评价信息的真实性和可靠性程度[7]。信息的可信度建立在信息之上,与信息的组成结构密切相关。从整体上看,信息的组成结构包括3个方面: 信息的来源、信息的传播渠道和信息的内容。

首先,交易评价信息来源于购买过对应商品的用户。由于不同用户具有不同的背景、知识、偏好、经验和动机[8,9], 且看待商品的角度和使用商品的环境不同,对于商品期望和要求也不同,甚至是对于完全相同的商品,不同的用户也可能作出不同的评价,因此信息来源会造成信息可信度差异。

其次,信息传播渠道包括报纸、广播、电视和熟人消息等传统媒介,也包括移动终端和互联网等新兴媒介,后者是电子商务交易评价的主要传播渠道。相比传统媒介,互联网信息传播成本低、速度快、受众广、可操纵性强,真实性更加难以保障。不同类型和功能的网站或者社区如政府网站和自媒体社交网站等可能具有巨大的可信度差异[10], 不同电子商务交易平台如C2C平台淘宝和B2C平台天猫等的可信度同样不同。

最后,信息的内容是信息存在的载体,主要包括信息的数量、信息的效价和信息的质量。同样的,评价信息的内容指的是评价的数量、评价的效价以及评价的质量[11]

评价的数量表示某一商品或者服务获得的评价的规模和多少。规模越大,讨论越多,关于该商品或者服务的信息越多,信息的不对称性越小。评价越多的商品,人为操纵评价的难度越大、成本越高。如前所述,在电子商务交易平台上,只有购买过的用户才有评价的权利,因此评价越多,也说明商品销量越好,销量越好也能反映出总体评价越好。

评价的效价指的是用户评论时对商品价值所持的态度。评价效价一般分为正面、中性和负面评价。无论在线交易还是线下面对面交易,不实评价都无法完全避免。Dellarocas[12]将不实评价分为不实高评价和不实低评价。不实高评价是为了抬高商品评价,提升销量; 不实低评价是为了打压商品评价,遏制商品销售。目前,解决故意不实评价的方法主要是通过建立高信任节点或公共信任节点来人为增加某些节点的可信度,但是这些方法依赖于高信任节点必须具有足够多的交易历史或者公共信任节点具有足够广泛的认知范围,这在电子商务环境下很难实现,而且这种方法下,多数的意见会被忽略,话语权过于集中,不利于信息的多向传播。

评价的质量指的是使用文字或图片等手段对商品的特征、属性和服务的细节作出明确、细致和真实描述的程度。文[8,13]表明: 包含诸多商品细节的文字评价能给用户带来更多的信息,具有更高的可信度和更大的影响力。除此之外,评价的时效性也是评价质量的重要指标,近期的评论往往具有较高的影响权重。

对同一电子商务平台而言,信息传播的渠道基本相同,而评价的质量涉及到语义的分析和理解,研究方法难以统一,因此,本文重点从评价信息来源主体——用户出发,利用其交易评价的数量和效价,将具有相似评价偏好特征的用户进行聚类,并通过实证数据分析验证通过聚类分离的用户群间显著的偏好差异,进而利用获得的偏好差异信息确立每类用户群所作出的不同交易评价的可信度,同时提供了动态的可信度更新策略以应对变化的在线交易社区环境。

2 交易评价行为分析

电子商务交易评价的方式主要分为2种: 一种是针对商品的多个属性的多维评价,一种是针对商品的综合表现的一维评价。多维评价是一维评价的扩展,一维评价是多维评价的特殊形式,本文只考虑一维评价。一维评价多为等级评价。无论是数值式还是分级式的等级评价都可以转化为3个层级,也就是“好评”、“中评”和“差评”。对于1—5分制, 4—5分代表“好评”, 3分代表中评, 1—2分代表“差评”,本文后面的研究也将采用这样的划分。好评表示对所购买的商品的认可,代表正面立场; “中评”代表对所购买的商品的部分认可,代表中立立场; “差评”代表对所购买的商品的不认可,代表负面立场。

对用户而言,立场选择有如下2种情形: 1) 同一用户对某一商品的一次交易只能选择一种立场,即“好评”、 “中评”和“差评”之一; 2) 不同用户对同一件商品可以表现出相同或者不同立场,这种情形常在推荐系统中用来分析用户间相似度; 3) 同一用户对不同商品表现多种立场,每种立场出现的频率可以反应出用户的评价偏好,这种情形是本文的研究重点。

用户通过评价对购买的商品展现立场,影响参与评价的因素很多,包括用户个性、态度、经历、专家知识、主观规范、责任心、经济利益、社交需求和个人价值实现等[2, 14], 这些因素共同作用于用户的评价动机,并且具有强烈的个体差异。尽管用户具有不同的评价动机,但是用户作出何种评价主要依赖于商品质量和有用性感知[15], 以及在此基础上产生的用户满意度。

当用户具有较高满意度时,用户倾向正面评价,对商品给予肯定,并乐于向其他用户推荐以帮助他们减少选择购买时的担忧; 相反,如果不能获得足够的满意度,用户倾向负面评价,否定商品并提醒其他用户谨慎购买以避免损失。用户满意度的形成与用户期望密切相关,不同用户的期望水平不同,对满意度的需求也不同。根据行为一致性理论和计划行为理论[16,17], 在交易过程中用户的期望和对满意度的需求相对稳定,对预先期望与实际使用感知差距带来的满意度波动有比较稳定的容忍度区间。

虽然一些情况下,用户作出的评价受到其他非自身的外在因素的影响,比如担心卖家报复骚扰而不敢给差评,或者出于某些目的故意挑剔而不给好评[5]。但是这些外在因素一直存在,且持续稳定地影响用户,相当于在用户原始容忍度区间上增加一个调节量,形成实际的容忍度区间。

容忍度反映用户对外界事物的变化可接受的程度,容忍度与个体特性和经历密切相关,具有明显的个体差异。根据容忍度高低和电子商务在线交易的特征,推测用户可以分为以下几类:

1) 容忍度高,对在线交易的商品抱有很低的期望,能容忍较多缺点的存在,在评价时总体上偏好好评,所给出的好评占据绝大比例;

2) 容忍度较高,对在线交易的商品抱有较低的期望,能容忍部分缺点的存在,在评价时总体上偏好好评,且好评占据较大比例,但中评和差评也占有一定比例;

3) 容忍度居中,对在线交易的商品抱有理性的期望,能容忍部分缺点的存在,在评价时会根据实际情况给予相应的评价,从评分效果看,各级评分相对均匀。

4) 容忍度低,对在线交易的商品抱有很高的期望,很难容忍商品存在缺点,一旦有缺点,便给予中差评,从评分效果看,偏好中差评,好评相对较少。

在电子商务环境下,以上4类用户中前3类较为常见,第4类相对较少,特别是在交易次数较多的用户群中更是如此,这主要源于以下几个原因:

1) 电子商务交易是用户在线参与商品交易的一种形式,由于在线交易购买与使用时空分离的特性,使用户间信任度比起“面对面交易”具有天然的劣势,期望很高和容忍度很低的用户对在线交易具有较大的不信任感,不信任感会极大地降低他们的在线交易动机,减少交易次数。

2) 用户如果一直差评,表明其购买的商品的实际表现与期望一直具有较大差距,这将极大损害用户的购买信心、大大降低用户在线交易的满意度,久而久之,用户将减少甚至放弃在线交易,因此参与交易次数不会很多。

3) 电子商务交易平台商品种类繁多、层次多样,购买则表示已在多种同类商品中作出了比较选择,如果一直购买不到满意的商品,用户一般会尽量调整其选择策略如购买热销或者评价较好的商品,减少购买风险,因此差评也不会持续存在。

4) 对于“恶意差评”等不当行为,目前的电子商务系统均能及时检测、投诉并严厉惩罚,从制度上限制了“恶意差评师”的生存和发展空间,因此交易次数也不会太多。

因此,容忍度低和偏好中差评的用户并不适合在电子商务平台上进行在线交易。最常见的主流群体是前3类用户,他们不同的容忍度决定了其交易评价时的不同偏好。下面本文将采用实际数据分析和验证这3类用户的评价偏好特征。

3 用户聚类方法

如节1所述,交易评价来自于用户,且多以评价向量的形式存在。假设某一用户u*的多次评价向量组成的历史评分矩阵为[ru*,m1,ru*,m2,...,ru*,mi,...,ru*,mn]。其中: n代表用户u*的历史交易次数, mi代表第i次交易的标的商品, ru*,mi=[r1u*,mi,r2u*,mi,...,rsu*,mi,...,rku*,mi]T为用户u*对第i交易的多维评价向量,评价维度k≥1, rsu*, mi∈[L,M](1≤s≤k)为多维评价向量的第s维分量, L和M分别为评价下限和上限,设上下限之间(包含上下限)共有H个评价等级,则用户第i次交易综合加权评分为

${\hat r_{u*.{m_i}}} = {\alpha _1}r_{u*.{m_i}}^1 + {\alpha _2}r_{u*.{m_i}}^2 + ... + {\alpha _k}r_{u*.{m_i}}^k.$ (1)
其中: α12+...+αk=1, αi∈[0,1]为第i维评价分量的权重。因此,根据式(1), 用户评分矩阵可以转化为用户综合加权评分序列: $\hat r$u*,m1,$\hat r$u*,m2,...,$\hat r$u*,mn, 其中$\hat r$u*,mi∈[L,M]。

设评分L~M之间共有H个等级,则用户u*的综合评分在第h个等级所占的比率为

${\rm{per}}_h^{u*} = {\textstyle{{{\rm{NUM}}({{\hat r}_{u*.{m_1}}} = h)} \over {\sum\limits_{i = 1}^H {{\rm{NUM}}({{\hat r}_{u*.{m_1}}} = i)} }}}.$ (2)
其中: h∈[1,H], Hh=1peru*h=1,NUM(${\hat r_{u*.{m_1}}} = i$)为用户所作出的所有评价中第i个评分等级的个数。

假设一共存在N个不同用户,则用户综合加权评分等级比率矩阵为

$\left[ {\begin{array}{*{20}{c}} {per_1^{{u^1}}}&{per_1^{{u^1}}}&{per_1^{{u^1}}}& \cdots &{per_H^{{u^1}}}\\ {per_1^{{u^2}}}&{per_2^{{u^2}}}&{per_3^{{u^2}}}& \cdots &{per_H^{{u^2}}}\\ {per_1^{{u^3}}}&{per_2^{{u^3}}}&{per_3^{{u^3}}}& \cdots &{per_H^{{u^3}}}\\ \vdots & \vdots & \vdots &{}& \vdots \\ {per_1^{{u^x}}}&{per_2^{{u^x}}}&{per_3^{{u^x}}}& \cdots &{per_H^{{u^x}}} \end{array}} \right]$

下面本文将根据用户综合加权评分等级比率矩阵对用户进行聚类。

常见的聚类方法包括基于层次的方法、基于划分的方法、基于密度的方法和基于网格的方法等。基于层次的聚类方法是根据距离的远近逐步归并或者逐步扩充簇的个数; 基于划分的聚类方法起初将数据集随机任意划分到给定个数的不同部分,然后通过不断更新簇的中心来调整划分各部分中数据元素的构成; 基于密度的聚类方法是通过分析对象周围邻居的密集程度进行簇的划分,该方法可以识别任意形状的簇; 基于网格的聚类方法把对象空间划分为多个网格单元,通过计算每个网格单元的密度,来决定是否删除密度过低的单元或者是否与邻近的稠密单元压缩合并成簇,因为计算是在网格单元内进行的,所以该方法在处理大规模数据集时具有良好的可伸缩性。

节2中的用户评分行为分析根据容忍度大小将用户分为有限的组别,结合几种聚类方法的特点,本文采用基于划分的聚类方法中的K-means算法作为用户评价偏好聚类方法。K-means算法的核心是将N个数据对象划分为K个类,并使得每一类的数据点到该类的中心点的距离平方和最小。本文采用Euclid距离,设2个点分别为u′=(peru′1,peru′2,...,peru′H),u″=(peru″1,peru″2,...,peru″H), 则u′和u″的Euclid距离为

$D = \sqrt {\sum\limits_{h = 1}^H {{{(per_h^{u'} - per_h^{u''})}^2}} } $。

K-means算法过程如下:

步骤1 在N个数据对象中随机选择K个对象作为K个聚类的初始中心;

步骤2 计算N个对象到这K个中心的距离,并将每个对象分配给离某个中心的Euclid距离最近的聚类中;

步骤3 新的K个聚类生成后,重新计算K个聚类的中心;

步骤4 如果得到的聚类中心发生变化,则转步骤2重新计算分配; 否则输出聚类的结果。

评价K-means聚类算法所采用的变量是误差平方和准则函数公式:

$E = \sum\limits_{i = 1}^k {\sum\limits_{per \in {p_i}} {\parallel per - \overline {c{r_i}} {\parallel ^2}} } .$

其中:P1,P2,...,PK为K个聚类,cr1,cr2,...,crK为K个聚类的中心。

下面采用实际交易评价数据来分析和验证用户的聚类效果。本文采用斯坦福大学网络分析项目(Stanford network analysis project)从电子商务购物平台Amazon上获取的交易评论数据集[18]。数据集时间跨度为1995年6月至2013年3月,总共包含6 643 669个用户和34 686 770条用户评分,通过如下步骤处理该数据集:

步骤1 为了避免数据稀疏性带来的误差,更好地利用评价数据来对用户聚类,本文从该数据集中统计提取出交易评分个数排在前100位的用户以及他们所有的评分构成。Amazon评论采用的评分是综合5分制,即$\hat r$u*,mi∈[1,5]。得到的部分结果如表1所示。

表1 部分前100用户评分个数表
排序评1分评2分评3分评4分评5分总评分数
1 0 0 4 2825 26525 297
25714681 0654 36313 26419 731
303844 62710 49415 208
42 0732 1121 4612 6036 29314 542
531991 5175 7086 75014 177
629884081 7699 87712 171
91 0471 5822 6662 9996868 980
1091922231 4996 9048 809
201493732 5164 0066 945
50129474 6724731
70132991 7801 4173523 861
8011982948382 5003 741
90211566061 8859563 624
100000123 4553 467

步骤2 表1中,从排名第1到第100的用户的总评分数从最高的25 297到3 467逐步下降,且不同用户在5个评分等级上的评价数目呈现不同的分布。对用户评分分布作出归一化处理,也就是根据式(2)计算用户每个评分等级所占的百分比。表2为前100个用户综合加权评分等级比率。

表2 部分前100用户综合加权评分等级比率
排序评1分评2分评3分评4分评5分总比例
10.0000.0000.0000.0010.9991
20.0290.0240.0540.2210.6721
30.0000.0000.0060.3040.6901
40.1430.1450.1000.1790.4331
50.0000.0140.1070.4030.4761
60.0020.0070.0340.1450.8121
90.1170.1760.2970.3340.0761
100.0100.0100.0250.1700.7841
200.0000.0070.0540.1700.7841
500.0000.0000.0020.0100.9881
700.0030.0770.4610.3670.0911
800.0030.0260.0790.2240.6681
900.0060.0430.1670.5200.2641
1000.0000.0000.0000.0030.9971

步骤3 将得到的用户综合加权评分等级比率作为输入数据,也就是把每个等级评分比例向量作为“数据点”的坐标,采用K-means算法进行聚类。基于节2中根据容忍度对用户分类的假设,设组数为4和3两种情况进行聚类。

1) 聚类组设为4组(即K=4), 进行多次聚类实验,当取最小的聚类误差平方和为6.738时,每组用户个数分别为: 第1组16个,第2组20个,第3组19个,第4组45个。

将4组用户按所属组别重新排序归类,第1组序号为1—16,第2组序号为17—36,第3组序号为37—55,第4组序号为 56—100, 并分别计算每组用户评价中好评(4—5分)、 中评(3分)和差评(1—2分)所占比例,如图1所示。可以看出,4组用户的好、中和差评比例具有明显的分布差异。然而不难发现,第2组和第4组评价分布非常相似,可以进行类别合并,因此设组数为3再次进行聚类。

图1 聚类4组各级评价比例曲线图

2) 聚类组设为3组(即K=3), 进行多次聚类实验,当取最小的聚类误差平方和为8.745时,各组用户个数分别为: 第1组14个,第2组47个,第3组39个。

同样将3组用户按组别重新排序归类,第1组序号为1—14, 第2组序号为15—61, 第3组序号为62—100, 好、中和差评比例如图2所示。

图2 聚类3组各级评价比例曲线图

对比图1和2可以看出,当聚类组数为3组时,用户群间区分度更大,聚类更加显著。且从图2可 以看到,第1组用户(第1—14个用户,占总用户数的14%)评分相对均匀地分布在各等级上,符合节2提出的容忍度居中的用户特征; 第2组用户(第15—61个用户,占总用户数的47%)好评较多,中评和差评较少,符合容忍度较高的用户特征; 第3组用户(第62—100个用户,占总用户数的39%), 好评占据绝大部分,中评和差评只占极少部分,符合容忍度高的用户特征。因此,通过真实的Amazon评价数据对用户进行聚类分组的结果与节2中通过用户评价偏好和容忍度对用户进行的分组结果完全吻合。

综上,本节采用Amazon实际评价数据进行的用户聚类实验支持和验证了节2中的电子商务平台上常见的3类用户群推测,并形成了很好的匹配对应。

4 交易评价可信度计算方法

不同用户由于容忍度不同,对各级评价表现了明显的偏好差异。对于偏好好评的用户,其容忍度较大,当对某次交易给出了并不常见的差评或者中评时,则表示这次交易的商品表现与预期的差距确实很大,以至于连容忍度较大的用户都给予差评,此时的差评比经常差评的用户所给出的差评更有说服力,更应该重视; 反之亦然。基于对用户反常评价的关注,本文如下计算用户不同评价的可信度:

1) 计算3组用户和全体用户所给出好评、中评和差评的占比。表3为各组各级评价比例平均值,图3为各组各级评价比例平均值曲线。

表3 各组各级评价比例平均值
组别 差评 中评 好评
第1组 0.252 0.299 0.448
第2组 0.066 0.158 0.776
第3组 0.016 0.047 0.937
全体 0.073 0.134 0.793
图3 各组各级评价比例平均值曲线

表3图3可以看出,与全体用户相比,第2组用户的各级评价占比与之比较接近; 第1组用户差评和中评偏多,好评偏少; 第3组用户差评和中评偏少,好评偏多。

2) 分别用全体用户好、中和差三级评价平均占比除以对应各组用户群中三级评价的平均占比,得到概率因子。概率因子越大,表示该级评价在该组用户中出现的概率越小,一旦出现该级评价,则该评价越应受到重视。概率因子如表4所示。

表4 全体评价与各级评价概率因子
组别 差评 中评 好评 因子和
第1组 0.288 0.449 1.768 2.505
第2组 1.107 0.851 1.021 2.979
第3组 4.382 2.876 0.847 8.104
全体 1 1 1 3

3)对每组用户群而言,分别计算三级评价概率因子占该组用户概率因子和的权重比例,该比例即为评价可信度权重系数。为计算方便,将可信度权重系数同时放大9倍,得到可信度权重系数如表5所示。

表5 用户群组评价可信度权重系数表
组别 差评 中评 好评 权重和
第1组 1.034 1.613 6.354 9
第2组 3.345 2.570 3.085 9
第3组 4.866 3.194 0.942 9
全体 3 3 3 9

表5中,不同的用户组群在全部评价上具有相同的总权重系数和(等于9), 依据评价偏好特征,不同用户群在三级评价上具有不同的权重分配,第1组用户每次差评相当于1.034次差评, 第2组用户每次差评相当于3.345次差评, 第3组用户每次差评相当于4.866次差评,也就是说第3组用户的差评具有最大的影响力; 每组用户的中评和好评以此类推。由图3表5可以看到,第2组用户与全体用户在评价偏好上具有最大的相似度,其评价可信度接近于全体评价可信度均值。全体可信度均值(3,3,3)是新用户评价可信度的缺省可信度; 第1组偏好中差评,其给出的差评可信度较低(1.034), 反而其反常评价——好评具有更大的可信度,这种情形下,能够有效地遏制经常性恶意差评行为; 第3组用户偏好好评,其给出的好评可信度较低,反而其反常评价——差评具有更大的可信度,这种情况下能够遏制蓄意刷分行为。因此,可信度权重系数确定了不同用户不同等级的评价的可信度,从客观上区分了不同评价的影响力,经常差评或者好评的用户会逐渐降低他们差评或好评的影响力,这种机制能够引导用户真实合理地评价商品,有效地遏制故意的信用造假行为。

5 交易评价可信度更新策略

用户评价可信度是完全基于用户交易评价的分布特征确立的,用户的评价分布特征与在线社区环境和用户交易次数密切相关,当交易次数少时,不能很好地判断用户的偏好,从记录上看会随着时间不断变化,因此需要根据用户交易评价特征的实际变化来动态更新用户群组的构成及其评价可信度权重系数,步骤如下:

步骤1 判断某一用户所属用户群组。对某一新用户,如果从未交易或交易次数极少,则将其评价可信度权重设为初始值(3,3,3); 否则,计算该用户评分等级比例向量离3个聚类中心的Euclid距离,选择距离最近的作为其所属的用户群组,所属群组的评价可信度即为该用户的评价可信度。

步骤2 更新用户群组聚类及其评分比例。定期重新计算具有代表性的交易评价总数排在前N(本文中N=100)位的用户的评价分布,并采用K-means聚类方法来更新用户聚类分组及各组各级评分比例均值。

步骤3 更新用户群组评价可信度权重系数。根据新的用户群组评价分布,重新计算各组用户在各级评价上的概率因子和可信度权重系数; 转步骤1, 将更新后的结果应用于新产生的评价中,已作出的评价可信度系数维持不变。评价可信度权重系数根据上述步骤随着交易次数变化不断循环地进行动态更新。

6 结 论

本文提出了一种基于群体偏好的交易评价可信度确立方法。根据用户交易评价分布特征,使用K-means聚类方法分3步对用户进行聚类,依据聚类结果分析各类用户交易评价的偏好特征; 在此基础上,动态计算出了各类用户交易评价的可信度权重。该方法将用户评价偏好纳入到评价的可信度计算中,区别看待不同用户不同等级的评价,克服了传统方法将所有评价等量齐观的弱点; 通过实际评价数据得到的用户评分等级比例表,使用K-means算法对用户进行聚类,聚类分组效果明显,克服了人为分组的主观性和不确定性,具有很好的说服力和可解释性; 根据3类用户评价的等级分布,考虑组间和组内区分,对用户先后作出横向和纵向比较,并作出归一化处理,给予每组用户相同的可信度权重总和,易于比较和使用; 给出了交易评价可信度的动态更新策略,使得该方法能够适应不断变化的在线社区交易和评价环境。

与其他算法相比,本文提出的方法利用具有代表性的交易评价总数排在前N的用户进行偏好分析,用每组用户的平均偏好代替属于该组的所有用户的个体偏好,能很好地克服评价数据稀疏性和冷启动的问题。该方法也能通过评价可信度权重来抑制节点的虚假评价,极大限制了恶意差评和蓄意刷分等信用造假行为,有利于净化在线交易社区信用环境。

参考文献
[1] Liu Y. Word of mouth for movies: Its dynamics and impact on box office revenue [J]. Journal of Marketing, 2006, 70(3): 74-89.
[2] Hennig-Thurau T, Gwinner K P, Walsh G, et al. Electronic word-of-mouth via consumer-opinion platforms: What motivates consumers to articulate themselves on the Internet [J]. Journal of Interactive Marketing, 2004, 18(1): 38-52.
[3] Bansal H S, Voyer P A. Word-of-mouth processes within a services purchase decision context [J]. Journal of Service Research, 2000, 3(2): 166-177.
[4] Gupta P, Harris J. How e-WOM recommendations influence product consideration and quality of choice: A motivation to process information perspective [J]. Journal of Business Research, 2010, 63(9-10): 1041-1049.
[5] Zhang Y, Bian J, Zhu W. Trust fraud: A crucial challenge for China's e-commerce market [J]. Electronic Commerce Research and Applications, 2013, 12(5): 299-308.
[6] Resnick P, Kuwabara K, Zeckhauser R, et al. Reputation systems [J]. Communications of the ACM, 2000, 43(12): 45-48.
[7] Mcknight H, Kacmar C. Factors of information credibility for an Internet advice site [C]//Proceedings of the 39th Annual Hawaii International Conference on System Sciences. Piscataway, NJ, USA: IEEE, 2006, 6: 113b-113b.
[8] Kusumasondjaja S, Shanka T, Marchegiani C. Credibility of online reviews and initial trust: The roles of reviewer's identity and review valence [J]. Journal of Vacation Marketing, 2012, 18(3): 185-195.
[9] Xu Q. Should I trust him? The effects of reviewer profile characteristics on eWOM credibility [J]. Computers in Human Behavior, 2014, 33: 136-144.
[10] Patton M, J Euclid FrakturxCp sang A. Technologies for trust in electronic commerce [J]. Electronic Commerce Research, 2004, 4(1-2): 9-21.
[11] Pan Y, Zhang J Q. Born unequal: A study of the helpfulness of user-generated product reviews [J]. Journal of Retailing, 2011, 87(4): 598-612.
[12] Dellarocas C. Immunizing online reputation reporting systems against unfair ratings and discriminatory behavior [C]//Proceedings of the 2nd ACM Conference on Electronic Commerce. New York, NY: ACM, 2000: 150-157.
[13] Ghose A, Ipeirotis P G. Estimating the helpfulness and economic impact of product reviews: Mining text and reviewer characteristics [J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(10): 1498-1512.
[14] Picazo-Vela S, Chou S Y, Melcher A J, et al. Why provide an online review? An extended theory of planned behavior and the role of big-five personality traits [J]. Computers in Human Behavior, 2010, 26(4): 685-696.
[15] Li H, Liu Y, Suomi R. Exploring the factors motivating e-service users' WOM behaviour [J]. International Journal of Services Technology and Management, 2013, 19(4): 187-200.
[16] Epstein S. The stability of behavior: I. On predicting most of the people much of the time [J]. Journal of Personality and Social Psychology, 1979, 37(7): 1097-1126.
[17] Ajzen I. The theory of planned behavior [J]. Organizational Behavior and Human Decision Processes, 1991, 50(2): 179-211.
[18] Mcauley J, Leskovec J. Hidden factors and hidden topics: Understanding rating dimensions with review text [C]//Proceedings of the 7th ACM Conference on Recommender Systems. New York, NY, USA: ACM, 2013: 165-172.