集成加权软投票的众包真值推理方法
张桦1,2, 沈菲1, 蒋世豪1, 张灵均1,3, 徐宏1    
1. 杭州电子科技大学 计算机学院,杭州 310018;
2. 浙江大学 浙江省网络多媒体技术研究重点实验室,杭州 310058;
3. 浙江省脑机协同智能重点实验室,杭州 310018
摘要:为了提高众包的质量并获取高质量的标注数据,已有许多基于真值推理的众包标注方法被提出。传统真值推理利用多噪声标签作为输入,通过聚合策略推断出真实标签,该过程只考虑了实例的标签而忽略了实例的特征,且忽略了不同工人对不同实例的标注质量。该文引入实例的特征以最大程度地挖掘实例中蕴含的有用信息。通过计算众包实例属于每一个类别的概率,得到新划分的众包数据集;提出一种基于元学习的集成分类器,在新数据集上训练并利用相似度计算得到工人权重,即工人对不同的实例有不同的标注能力;在投票模型的基础上引入工人权重,提出加权软投票的方法用于推测标签。在公开数据集和创建的数据集上的实验结果表明,所提出的方法优于现有的真值推理算法。
关键词众包    特征    元学习    分类    
Ensemble weighted soft voting truth inference method for crowdsourcing
ZHANG Hua1,2, SHEN Fei1, JIANG Shihao1, ZHANG Lingjun1,3, XU Hong1    
1. School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China;
2. Key Laboratory of Network Multimedia Technology of Zhejiang Province, Zhejiang University, Hangzhou 310058, China;
3. Key Laboratory of Brain Machine Collaborative Intelligence of Zhejiang Province, Hangzhou 310018, China
Abstract: Many truth inference methods have been proposed to improve crowdsourcing quality and to obtain high-quality annotated data. Traditional truth inference uses multiple noisy labels as inputs to deduce the real labels through an aggregation strategy. This paper introduces the features of the instances that most effectively mine the useful information contained in the instances. The probability that a crowdsourcing instance belongs to each category is used to divide the crowd-sourcing dataset. An integrated meta-learning classifier is trained on the new dataset to calculate a similarity degree to get worker weights that show each worker's annotation ability for different instances. Finally, a weighted soft voting method is used to predict the labels. Tests show that this method is superior to existing truth inference algorithms for public and constructed datasets.
Key words: crowdsourcing    feature    meta-learning    classify    

众包标注是一种有效且经济的获取标注数据的方式。机器学习算法需要大量、高质量的标注数据来训练模型。传统获取高质量标注数据的途径是专家标注,然而这种方法的时间和经济成本都较高。众包标注为快速获得大量的标注数据提供了有效且经济的方法,众包平台通过划分任务、雇佣网络大众可以获取大量标注过的数据。目前活跃的众包平台有Amazon Mechanical Turk和CrowdFlower等。众包标注有很多优点,比如经济成本低以及高效获取大量标注数据等。但是,众包标注也存在一些缺点,由于众包工人知识水平、专业方向、兴趣爱好、标注意图的不同,导致众包标签的质量比专家标签要低。为了解决众包标注的质量问题,众包平台通常将一个标注实例分配给多个工人,然后采用真值推理的方法推测出真实的标签。

真值推理是指从不同的来源推断出真实的标签或者客观的观点,在众包领域中也被称为真值发现或者标签聚合[1]。近年来,众包标签聚合方向出现了很多前沿性的研究成果。其中多数投票(majority voting,MV)是一种简单且有效的聚合方法,但是这种方法默认工人具有相同的标注能力,这明显与现实情况不符。为了解决MV存在的问题,研究人员提出了基于不可知论的真值推理方法,其中最经典的就是Dawid-Skene (DS)[2]算法。DS算法将标签属于某个类别的概率作为隐藏变量,利用极大似然估计迭代地计算每个工人的混淆矩阵以及每个类别的先验概率。近年来,研究人员在DS算法的基础上进行很多改进。Zhang等[3]在DS算法的基础上引入光谱的概念,用来优化DS算法中初始值的设置。Demartini等[4]提出了ZenCrowd(ZC)策略,引入工人模型的概念并提出了一个简单的模型,采用{good, bad}的参数来对工人的可靠性进行建模,该方法可以有效防止数据集稀疏时参数出现偏差。Zhou等[5]通过工人、实例、标签三者的概率分布生成的最大熵来推断真值。Welinder等[6]提出了一个更加复杂的工人可靠性模型,可以防止数据集稀疏时出现多个维度参数合并的问题。基于聚类的地面真值推理(ground truth inference using clustering, GTIC)[7]对每一个例子都引入了每个类别的概率,然后对概率采用k-means进行聚类以提高标签聚合精度。

尽管近年来研究人员提出了很多真值推理算法来提高众包标签的准确性,然而现有的真值推理算法未考虑以下几方面的影响:

1) 实例的特征反映着实例之间隐藏的联系,这种联系可能会提高真值推理的准确性。现有的真值推理算法很少考虑实例特征的影响,这也许会导致重要信息的丢失。文[8]提出从人群中学习从而推理真值也可以理解成分类模型,将真值推理和分类器相结合可能会产生更好的性能。传统的单个分类器包括线性分类器、支持向量机(support vector machine, SVM) 等。然而,大量研究表明,与单个弱分类器相比,集成学习生成的强分类器具有更好的稳定性、防止过拟合性以及更好的预测性。

2) 众包工人的标注质量直接影响到标签的质量,虽然之前的研究[4-6]在真值推理中加入了工人模型,但是得到的只是某一个工人标注的所有实例的整体质量,而忽略了每个工人对于不同实例的标注能力。

针对上述问题,本文提出了一种基于元学习的加权软投票的真值推理方法。该方法充分利用实例的特征,首先通过计算实例属于每一个类别的概率,复制实例副本,从而转换众包数据集用以训练弱分类器;然后采用基于极大似然估计的方法聚合弱分类器,预测标签。接着引入工人在不同实例上的不同标注能力,采用基于相似度比较的方法计算工人权重,最后采用加权软投票的方式生成聚合标签。在几个合成数据集上的实验结果表明本文方法优于现有的真值推理算法。本文的主要贡献如下:1) 在真值推理算法中引入实例特征,基于元学习策略通过计算类标签概率,并将其作为新的特征训练分类器,利用特征与类标签的关联提高分类的准确性;2) 采用基于极大似然估计的方法聚合弱分类器,使之适用于众包任务场景,达到局部最优解;3) 考虑工人对不同实例的不同标注质量,基于相似度计算工人标注质量,采用加权软投票的方式生成聚合标签。

1 相关理论 1.1 多数投票

众包数据集是一个存在多噪声标签的数据集。为了得到聚合标签,最经典的方法是多数投票算法,具体的公式为

$ c^{(i)}=\arg \max \limits_{k}\left\{\sum\limits_{j=1}^{J} \delta\left(l_{i j}, c_{k}\right)\right\}, 1 \leqslant k \leqslant K. $ (1)

其中:lij表示第j个工人对于第i个实例给出的标签,ck表示真实的类标签。多噪声标签lij∈{c1, c2, c3, …, ck}中,lij表示对第i个实例第j个工人给出的标签,C={ck}k=1K是所有类标签的集合。δ(·)是指示函数,当括号里面的2个值相等时函数值为1,否则为0。式(1)的推理方法简单且直观,但是却存在一些问题:1) 该算法认为所有的工人都具有同样的标注能力,而在现实的众包平台中每个工人拥有不同的标注能力;2) 多数投票只考虑了实例、工人、标签三者之间的显性关系而忽略了实例特征中隐藏的联系,而这种联系可能影响到真值推理的性能。

1.2 元学习

元学习利用模型已获得的多个学习经验,在新的任务中取得更好的学习效果[9]。元学习的形式化表示为

$ { }_{\omega}^{\min } E_{T \sim p(T)} L(\boldsymbol{R} ; \omega) . $ (2)

其中:ω用来制定如何学习,p(T)是任务T的分布,L(R; ω)用来度量在数据矩阵R上的模型性能。

近年来元学习引起了人们的广泛兴趣。Brazdil等[10]提出元学习可以避免主动机器学习在训练阶段出现的多次运行。Salvador等[11]基于元学习不仅优化了数据挖掘工作流中的数据清理和预处理步骤,还优化了建模方法和超参数的选择。

元学习由于学习训练过程的灵活性而容易适应不同类型的特征[12],同时可以用一个元学习器来优化当前的元学习器进而优化结果。对于有噪声的数据来说,元学习可以有效减弱噪声数据的影响,达到提高分类精度的目的。

2 基于工人权重的软投票方法

为了解决多数投票存在的问题,本文提出基于元学习的加权多数投票的真值推理方法。首先考虑众包数据的特征对真值推理的影响,引入弱分类器训练众包数据,并将弱分类器集成聚合成强分类器来预测未标注的数据,并且考虑工人对不同实例的不同标注能力来计算出工人对于不同实例的权重,最后采用加权软投票的方法得出聚合标签。图 1展示了本文提出的算法模型。

图 1 本文算法模型

2.1 类别的概率

实例特征既包含着与真实标签的联系也包含着实例与实例之间的联系,将特征引入众包真值推理模型中可以对真实标签和实例特征之间的关系进行建模,以提高推理算法的性能。与不使用特征的算法相比,使用特征的推理算法精度有所提高[5, 13],然而这种方法存在一个主要弊端——标签噪声。因为在众包系统中每一个实例都存在多个噪声标签,为了适应分类器训练,现有的算法采用预先推断出的聚合标签来指导分类器,但是预先推断出的标签是有噪声的,可能会误导分类器。为了解决这个问题,本文提出一种基于元学习的分类预测方法,首先计算每个实例属于每个类别的概率,然后复制K-1个实例副本,将实例与不同的类别标签相关联,从而转换众包数据集,用新的数据集训练分类器。该方法消除了推测的聚合标签的影响,提高了分类的准确性。

众包数据集被定义为D={ei}i=1I,每一个实例为ei=<xi, yi, li>。其中:xi是众包数据中第i个实例的特征向量,yi是其真实标签。li是第i个实例的噪声标签集,包含J个工人对第i个实例的所有标签,li={li1, li2, li3, …, lij},其中i∈{1, 2, 3, …, I}, j∈{1, 2, 3, …, J}。每个类别的占比计算如下:

$ \operatorname{Pr}\left(+\mid l_{i}\right)=\frac{\sum\limits_{j=1}^{J} \delta\left(l_{i j},+\right)+1}{\sum\limits_{j=1}^{J} \delta\left(l_{i j},+\right)+\sum\limits_{j=1}^{J} \delta\left(l_{i j},-\right)+K}, $ (3)
$ \operatorname{Pr}\left(-\mid l_{i}\right)=\frac{\sum\limits_{j=1}^{J} \delta\left(l_{i j},-\right)+1}{\sum\limits_{j=1}^{J} \delta\left(l_{i j},+\right)+\sum\limits_{j=1}^{J} \delta\left(l_{i j},-\right)+K} . $ (4)

其中:Pr(+|li)表示对第i个实例工人标注为正类的标签在该例所有标签中的占比,Pr(-|li) 表示对第i个实例工人标注为负类的标签在该例所有标签中的占比。与文[14]相同,采用Laplace方法来防止出现概率为0的情况。经过上述处理,众包数据集D转换成了D′=<xi, $ \hat{y}_{i}=c_{k}$, Pr(ck|li)>,k=1, 2, …, K的形式。其中$ \hat{y}_{i}=c_{k} $表示第i个实例的预测标签的类别是ck。将众包数据进行以上转换可以避免采用聚合标签进行训练,同时利用了实例特征与不同类别之间的关联,在提高分类器精度的基础上同时提高了真值推理的准确性。

2.2 弱分类器聚合

本文提出了一种基于极大似然估计的分类器聚合策略,加入弱分类器的混淆矩阵迭代计算属于每个类别的概率从而聚合弱分类器。传统集成学习聚合标签有2种策略:bagging和boosting。本文采用bagging的数据采样方法booststrapping对众包数据采样,进而训练弱分类器,然后聚合弱分类器。通常采用的分类器聚合方法是hard voting,

$ H(\boldsymbol{x})=\arg \max \limits_{1 \leqslant k \leqslant K} \sum\limits_{m=1}^{M} \delta\left(h_{m}(\boldsymbol{x}), c_{k}\right). $ (5)

H(x)表示通过投票方式获得的强分类器,hm(x)表示第m个弱分类器。这种弱分类器聚合策略在众包场景中存在风险,因为转换的数据集D′是随机的,所以每个弱分类器的性能不能确定。如果采用投票的方式聚合分类器,那么生成的强分类器可能没有达到全局最优,因此本文提出了一种基于极大似然估计的聚合弱分类器。首先假设采用M个弱分类器预测T个未标注的实例,所有分类器对T个未标注的实例的预测结果生成了一个矩阵A,那么根据极大似然估计全概率公式可得

$ L=\operatorname{Pt}(\boldsymbol{A} \mid \varPi, P)=\prod\limits_{t=1}^{T}\left(\sum\limits_{k=1}^{K} p_{k} \prod\limits_{m=1}^{M} \prod\limits_{l=1}^{K}\left({\rm{ \mathsf{ π} }}_{k l}^{(m)}\right)^{\lambda_{t l}^{(m)}}\right). $ (6)

其中:Π={πklm}1Mm∈{1, 2, …, M}是所有弱分类器的混淆矩阵的集合,πkl(m))表示第m个分类器将真实ck预测成cl的概率。P={pk}k=1K表示每个类标签的先验概率的集合,λtl(m)∈{0, 1}表示第m个分类器是否将第t个实例预测为cl类。为了估计式(6)中的参数,采用期望最大化(expectation-maximization, EM)算法进行迭代计算。在E步中估计未标注的实例t属于ck的概率,

$ \operatorname{Pt}\left(\hat{y}_{t}=c_{k} \mid \varPi, P\right) \propto p_{k} \prod\limits_{m=1}^{M} \prod\limits_{m=1}^{K}\left({\rm{ \mathsf{ π} }}_{k l}^{(m)\lambda_{t l}^{(m)}} \right). $ (7)

$ \operatorname{Pt}\left(\hat{y}_{t}=c_{k} \mid \varPi, P\right) $表示实例t属于ck的概率。在M步中更新每个分类器的混淆矩阵以及每个类的先验概率$ {\hat p_k} $

$ \hat{{\rm{ \mathsf{ π} }}}_{k l}^{(m)}=\frac{\sum\limits_{t=1}^{T} \delta\left(\hat{y}_{t}, c_{k}\right) \lambda_{t l}^{(m)}}{\sum\limits_{l=1}^{K} \sum\limits_{t=1}^{T} \delta\left(\hat{y}_{t}, c_{k}\right) \lambda_{t l}^{(m)}}, $ (8)
$ \hat{p}_{k}=\frac{1}{T} \sum\limits_{t=1}^{T} \delta\left(\hat{y}_{t}, c_{k}\right) . $ (9)
2.3 基于相似度的工人权重加权聚合标签

在实际的众包标注中,不同工人对不同实例的标注能力不同[15]。本节通过比较工人标签与强分类预测标签之间的相似度,计算出工人的整体质量,再通过比较工人之间的相似度计算出工人的特定质量。然后,将这2种质量组合得到工人对不同实例的不同标注质量。假设每个工人标注测试集中的所有数据,将工人对测试集的标注结果与分类器预测的结果比较,如果两者相同就说明这两者之间有很强的相似性,从而就可以计算出工人标注的所有实例的总体质量,

$ \tau_{j}=\frac{\sum\limits_{i=1}^{I} \delta\left(l_{i j}, f\left(\boldsymbol{x}_{i}\right)\right)}{I} . $ (10)

其中:f(xi)是分类器根据特征向量xi预测出来的类标签,τj表示第j个工人的总体质量,I表示实例的总数。

式(10)通过比较工人的标签获得工人本身特定的标注质量。如果2个工人对于同一个问题标注相同的标签,说明这2个工人的相似性高。

$ s_{i j}=\sum\limits_{j^{\prime}=1 \wedge j^{\prime} \neq j}^{J} \delta\left(l_{i j}, l_{i j^{\prime}}\right). $ (11)

其中sij是第j个工人对于第i个实例的具体的质量。

通过组合式(10)和(11)所得到的2种工人具有的质量可以得出工人对于不用实例的权重wijwij表示对第i个实例第j个工人的权重,

$ w_{i j}=\frac{1}{Z} w_{i j}^{\prime}. $ (12)

其中Z是归一化常数,用来保证第i个实例的所有的工人的权重之和仍然为J

$ Z=\frac{1}{J} \sum\limits_{j=1}^{J} w_{i j}^{\prime}, $ (13)
$ w_{i j}^{\prime}=\frac{1}{1+\mathrm{e}^{-\gamma_{i j}}}. $ (14)

其中可靠度γij

$ \gamma_{i j}=\tau_{j}\left(1+s_{i j}^{2}\right). $ (15)

计算出每个工人对不同实例的权重之后,基于软投票配对的方法计算实例属于某一个类别的概率:

$ \operatorname{Pt}\left(+\mid l_{i}\right)=\frac{\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},+\right)}{\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},+\right)+\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},-\right)}, $ (16)
$ \operatorname{Pt}\left(-\mid l_{i}\right)=\frac{\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},-\right)}{\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},+\right)+\sum\limits_{j=1}^{J} w_{i j} \delta\left(l_{i j},-\right)} . $ (17)

Pt(+|li)表示实例i属于正类的概率,Pt(-|li)表示实例i属于负类的概率。然后,通过软投票的策略确定多数类的概率,

$ w_{H_{i}}=\left\{\begin{array}{l} \mathrm{Pt}\left(+\mid l_{i}\right), \mathrm{Pt}\left(+\mid l_{i}\right) \geqslant \mathrm{Pt}\left(-\mid l_{i}\right) ; \\ \mathrm{Pt}\left(-\mid l_{i}\right), \operatorname{Pt}\left(+\mid l_{i}\right)<\mathrm{Pt}\left(-\mid l_{i}\right) . \end{array}\right. $ (18)

wHi表示第i个实例属于多数类的概率。

算法的求解过程如图 2所示。

图 2 基于元学习的分类器训练和集成算法

3 实验过程和结果分析 3.1 实验数据

与本文相关的研究课题是检测印刷电路板(printed circuit board,PCB)上有缺陷的焊点,目标是对PCB上焊点进行分类标注,从而获得PCB板上好坏焊点的位置和特征信息。原始的PCB板如图 3所示。由于焊点目标小且标注需求量大,因此采用众包的方式进行标注。然而,众包标注的质量存在不稳定性,为了提高众包标注的质量采用了本文的算法,并在数据集上进行了实验。焊点数据集PCB可在https://github.com/Aromashen/Dataset获得。在标注的过程中,将好的焊点定义为正样本,持有缺陷的焊点定义成负样本,将焊点数据集处理成一个二分类的数据集。

图 3 PCB示例图

为了验证所提出算法的有效性,除了在本文作者创建的PCB数据集上进行实验以外,还在UCI数据集(http://archive.ics.uci.edu/ml/index.php)上选取了相关数据集进行实验。因为焊点数据集是一个二分类的数据集,所以选取了UCI上的4个二分类数据集:kr-vs-kp(king-rook vs king-pawn)、spambase、sick和vote,这些数据集也被平台CEKA[18]使用。表 1展示了本研究所使用的数据集的具体信息。

表 1 5个二分类数据集
数据集 实例数 特征数
kr-vs-kp 3 196 37
spambase 4 601 58
sick 3 772 30
vote 435 17
PCB 979 8

3.2 数据预处理

由于UCI数据集中的数据格式不同,为了使数据适应分类器训练,因此采用独热(one-hot)编码对数据集进行归一化处理。

在获取了原始数据集以后将数据集随机划分成70%的训练集DT和30%的测试集DL。假设对每个实例所有工人都给出了标签。为了模拟众包工人的行为,首先将真实标签隐藏,接着对每个工人以p的概率分配真实标签,以1-p的概率生成错误的标签,其中概率p在区间[0.5, 0.9]随机分布。在获取众包标签之后,采用booststrapping的方法对DT进行采样,将其分成M个子数据集{DT1, DT2, …, DTM},然后对这M个子数据集使用节2.1中的方法转换,从而组合生成新的数据集{DT1′, DT2′, …, DTM}。用这些数据集来训练M个弱分类器{h1(x), h2(x), …, hM(x)}。弱分类选取反向传播(back propagation, BP)神经网络,然后再聚合生成强分类器并在测试集中测试分类精度。

3.3 真值推理评估指标

在本文中采用Accuracy和AUC作为评估指标。Accuracy(准确率)为正确推理出真值的标签的比例;AUC是受试者工作特征(receiver operating characteristic,ROC)曲线覆盖的面积,AUC越高分类的准确度越高。Accuracy和AUC的定义分别为:

$ \text { Accuracy }=\frac{\sum\limits_{i=1}^{I} \delta\left(\hat{y}_{i}, y_{i}\right)}{I}, $ (19)
$ \mathrm{AUC}=\frac{\sum I(\mathrm{Pt}(+), \mathrm{Pt}(-))}{S \cdot N}. $ (20)
$ I(\mathrm{Pt}(+), \operatorname{Pt}(-))= \begin{cases}1, & \mathrm{Pt}(+)>\mathrm{Pt}(-) ; \\ 0.5, & \mathrm{Pt}(+)=\mathrm{Pt}(-) ; \\ 0, & \mathrm{Pt}(+)<\mathrm{Pt}(-) .\end{cases} $ (21)

其中:SN表示正负样本的数量,Pt(+)表示预测为正类的概率,Pt(-)表示预测为负类的概率。

3.4 实验结果分析 3.4.1 工人人数的影响

为了验证本文方法的有效性,将本文方法和其他5种现有的算法MV、DS[2]、GLAD (generative model of labels, abilities, and difficulties)[16]、GTIC[7]、EnsembleMLE (maximum likelihood estimation)[14]进行比较。MV、DS和GLAD 3种算法采用文[17]中公开的代码进行实验,GTIC采用CEKA[18]提供的代码实现。在实验中,将弱分类器的个数M固定为5,工人的数量从3递增到10, 以1为步长递增,每一组实验进行10次以保证可靠性。从图 4中可以看出,本文方法在5个数据集上的准确率都高于80%,性能优于其他5种算法。其主要原因是工人的质量概率p>0.5,随着工人的增多,提供的标签质量相对稳定,每个类别的概率更能反映出与真实标签间的联系,因此本文方法的分类器的预测效果更好,这也就使得到工人的质量系数更加准确,在最后推理真实标签时加强了高质量工人的影响,导致最后推理出的标签更加贴近真值。

图 4 本文方法与5种算法准确率的比较结果

3.4.2 弱分类器个数的影响

本节主要研究弱分类器个数M对真值推理的影响。因为从节3.4.1可以看出工人数量为10时分类效果好,所以将工人人数固定为10,然后将弱分类器的个数从3递增到13,增长的步长为2。表 2展示了5个合成数据集在不同弱分类器个数下的实验结果。从表 2中可以看出,随着分类器个数的增加,对于不同数据集,聚合成的强分类器的预测精度有的提高有的降低,spambase、sick、vote的精度变化分别为1.42%、1.2%、1.89%,都在2%以内, 而kr-vs-kp的变化为2.18%。可以看出,弱分类器个数的影响在每个数据集下是不同的。

表 2 弱分类器个数不同时本文方法的AUC
数据集 M=3 M=5 M=7 M=9 M=11 M=13
spambase 0.878 0.871 0.874 0.876 0.864 0.873
kr-vs-kp 0.863 0.868 0.868 0.879 0.877 0.885
sick 0.867 0.876 0.878 0.874 0.867 0.879
vote 0.892 0.880 0.900 0.881 0.885 0.892
PCB 0.865 0.866 0.879 0.857 0.885 0.870

文[14]的实验数据显示,sick数据集的AUC值都低于80%。为了进一步验证本文方法的有效性,将EnsembleMLE[14]和本文方法在sick数据集上进行AUC指标比较,参数设置都保持与文[14]一致。图 5展示了2种算法在不同弱分类器个数下的情况比较。可以看出,随着弱分类器个数的增加,EnsemleMLE[14]的AUC增加,因为增加的弱分类器可能达到局部最优,所以集成的强分类器具有更好的预测效果。本文得到的聚合标签是以分类器预测结果作为衡量工人质量的尺度,然后采用工人权重聚合得到,因此随着弱分类器个数改变,其变化幅度小。但是,总体上本文方法优于文[14]中的算法(除了M=11),在分类器个数为5时AUC可以达到80%,其原因是本文提出的方法在强分类器预测完未标注数据后,没有将预测标签直接作为最后的结果,而是将其作为衡量工人整体质量的标准,然后将工人的标签和预测标签进行了相似度比较,计算出工人的总体质量,并对每一个实例都计算出工人特定的质量。最后,组合这2种质量并推断出真实的标签。这个过程有利于降低恶意工人的影响使结果更加接近真实值。

图 5 sick数据集上EnsembleMLE和本文方法的AUC比较

4 结论

本文提出了一种真值推理方法用于提高众包标签的质量。首先引入实例的特征,保留了特征间的重要信息。计算实例属于每一个类别的概率,并将其作为新的特征,转换众包数据集。其次,采用元学习的方法训练分类器,聚合弱分类器预测标签。然后,基于相似度比较预测标签和工人标签得到工人的权重。最终基于工人权重采用加权软投票的方法推测出最后的标签。通过多组实验数据的对比,结果表明该方法在准确率以及AUC等指标上都高于其他现有的真值推理算法。

参考文献
[1]
LI Y L, GAO J, MENG C S, et al. A survey on truth discovery[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD). San Francisco, USA, 2016: 1-16.
[2]
DAWID A P, SKENE A M. Maximum likelihood estimation of observer error-rates using the EM algorithm[J]. Applied Statistics, 1979, 28(1): 20-28. DOI:10.2307/2346806
[3]
ZHANG Y C, CHEN X, ZHOU D Y, et al. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing[C]// Proceedings of 28th Annual Conference on Neural Information Processing Systems (NIPS). Montreal, Canada, 2014: 1260-1268.
[4]
DEMARTINI G, DIFALLAH D E, CUDRE'-MAUROUX P. ZenCrowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C]// Proceedings of the 21st World Wide Web Conference (WWW). New York, USA, 2012: 469-478.
[5]
ZHOU D Y, PLATT J C, BASU S, et al. Learning from the wisdom of crowds by minimax entropy[C]// Proceedings of 26th Annual Conference on Neural Information Processing Systems (NIPS). Lake Tahoe, USA, 2012: 2195-2203.
[6]
WELINDER P, BRANSON S, BELONGIE S, et al. The multidimensional wisdom of crowds[C]// Proceedings of 24th Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada, 2010: 2424-2432.
[7]
ZHANG J, SHENG V S, WU J, et al. Multi-class ground truth inference in crowdsourcing with clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(4): 1080-1085. DOI:10.1109/TKDE.2015.2504974
[8]
RAYKAR V C, YU S P, ZHAO L H, et al. Learning from crowds[J]. The Journal of Machine Learning Research, 2010, 11: 1297-1322.
[9]
HOSPEDALES T, ANTONIOU A, MICAELLI P, et al. Meta-learning in neural networks: A survey[Z/OL]. arXiv: 2004.05439v2, 2020.
[10]
BRAZDIL P, GIRAUD CARRIER C, SOARES C, et al. Metalearning: Applications to data mining[M]. Berlin, Germany: Springer Science & Business Media, 2009.
[11]
SALVADOR M M, BUDKA M, GABRYS B. Adapting multicomponent predictive systems using hybrid adaptation strategies with auto-WEKA in process industry[C]// Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA, 2016: 1-8.
[12]
FINN C, XU K, LEVINE S. Probabilistic model-agnostic meta-learning[C]// Proceedings of 32nd Annual Conference on Neural Information Processing Systems (NIPS). Montreal, Canada, 2018: 9516-9527.
[13]
DIZAJI K G, HUANG H. Sentiment analysis via deep hybrid textual-crowd learning model[C]// Proceedings of 32nd AAAI Conference on Artificial Intelligence (AAAI). New Orleans, USA, 2018: 1563-1570.
[14]
ZHANG J, WU M, SHENG V S. Ensemble learning from crowds[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(8): 1506-1519. DOI:10.1109/TKDE.2018.2860992
[15]
TAO F N, JIANG L X, LI C Q. Label similarity-based weighted soft majority voting and pairing for crowdsourcing[J]. Knowledge and Information Systems, 2020, 62(7): 2521-2538. DOI:10.1007/s10115-020-01475-y
[16]
WHITEHILL J, WU T F, BERGSMA J, et al. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise[C]// Proceedings of 23rd Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada, 2009: 2035-2043.
[17]
ZHENG Y D, LI G L, LI Y B, et al. Truth inference in crowdsourcing: Is the problem solved?[J]. Proceedings of the VLDB Endowment, 2017, 10(5): 541-552.
[18]
ZHANG J, SHENG V S, NICHOLSON B, et al. CEKA: A tool for mining the wisdom of crowds[J]. The Journal of Machine Learning Research, 2015, 16(88): 2853-2858.