2. 智能技术与系统国家重点实验室, 北京 100084;
3. 清华大学信息技术国家实验室, 北京 100084
2. State Key Laboratory of Intelligent Technology and Systems, Beijing 100084, China;
3. Tsinghua National Laboratory for Information Science and Technology, Beijing 100084, China
显著区域检测[1-2]是当前计算机视觉[3]、模式识别[4]、图像处理[5]和计算机图形学等交叉研究的热点和难点,主要任务是模拟人类的视觉注意机制,快速定位图像中的重要信息。但在很多自然场景图像中,重要信息(前景)一般比较复杂、难以用简单的特征来描述,更难以直接准确定位。然而,其中的背景可能相对比较简单,甚至可以用简单的特征来描述。如果图像中的背景能得到较准确的描述,那么与背景区域差异越大的区域就越可能是重要信息,这就是显著区域检测中的背景先验。
近年来背景先验在显著区域检测中得到了广泛应用[6-12]。基于背景先验的显著区域检测算法从图像背景的角度出发,先确定图像中的背景区域,再依据与该背景区域之间的关联度来确定图像中其他区域的显著性。
背景先验中最常用的是边界先验,即认为图像四周边界中的部分或全部图像块是背景。文[6]发现在MSRA-B数据集[6]中的所有5 000张图像中,边界区域中有98%的像素属于背景。同时在拍摄图像时,一般人都会把想展示的重要物体放在图像的中部,以引起观察者的注意。
文[7]发现图像中的显著物体通常不与图像的边界连通,而且图像背景一般连续且均匀。因此,文[7] 首先把图像四周边界的图像块分为显著图像块和非显著图像块; 然后将其中的非显著图像块作为该图像的虚拟背景,并定义其他所有图像块的显著性为其到虚拟背景的测地距,该测地距越大则越显著。文[6]以图像四周边界15个像素宽的区域作为参考背景来计算其他区域的背景性描述子。文[8]提出利用边界连接性测度来表示一个区域属于背景的概率。该测度等于区域在图像边界上的周长除以其面积的平方根。一个区域的边界连接性测度越大,则属于背景的概率越大。文[8]在粗略估计背景显著性和前景显著性的基础上,利用优化算法得到了最终的显著图。在文[9]中,图像的四周边界图像块被当做背景掩模,将显著性建模成从边界图像块重构其他图像块时的误差大小。图像块的重构误差越大则越可能是前景。
文[10]将显著性检测建模成二级流形排序问题。首先利用图像上、下、左、右4个边界的图像块分别作为背景种子对全图所有图像块进行显著性排序,排序得分越高表示显著性越低。通过融合4组排序结果得到第一级显著图。然后将该显著图二值化后得到的前景作为种子进行第二次排序,从而得到最终的显著图。在文[11]中,同样将图像的四周边界图像块作为背景,首先根据颜色特征将四周边界图像块聚为3类; 然后依据与每类边界图像块的颜色和空间差异构建3组基于背景的显著图,并将3组结果融合得到初步的显著图; 最后通过元胞自动机(cellular automata)对其进行优化得到最终的显著图。另外,为了解决前景与图像边界有重合的问题,文[12]首先从图像的上、下、左、右4个边界中选出3个作为背景边界; 然后将背景边界中的图像块作为种子,采用与文[10]相同的二级排序算法得到前景的显著性估计; 最后,再从上一步的结果中提取参考种子,采用规则化的随机游走进行排序,从而得到像素级的显著图。
综上所述,现有采用背景先验的算法仅仅利用部分或者全部的四周边界图像块作为背景来估计整幅图像的显著性,因此不可避免会出现如下问题:
1) 当图像背景杂乱或者分布不均匀时,仅仅利用图像四周边界的图像块很难准确描述整幅图像的背景信息,内部的背景图像块在显著图中将会带来大量噪声,如图 1b第1行所示。
2) 当前景与图像边界有重合时,由于有重合的前景图像块也会被当做参考背景,因此显著图很难完整地凸显整个前景区域,如图 1b第2行所示。
3) 当前景物体表观差异大或者有多个表观差异大的物体时,仅仅以边界图像块为参照来估计全图的显著性同样很难凸显图像中所有的前景区域,如图 1b第3行所示。
为了克服传统背景先验中的上述问题,与仅仅将四周边界图像块作为背景相反,本文提出基于边界扩展的显著区域检测算法。图 1c为本文算法结果,相比图 1b,本文算法所得到的显著图背景噪声更小,而且图像前景得到了较好的凸显,与数据集提供的真值即图 1d更加接近。
1 算法框架与数据集介绍 1.1 算法框架本文算法整体框架如图 2 所示。首先依据图像块之间的表观相异性和空间位置关系将四周边界图像块尽可能地向图像内部扩展; 然后将剩余未扩展到的图像块作为参考前景(种子),利用排序算法来计算其他图像块的显著性,生成第一级显著图; 最后,将第一级显著图二值化,并以得到的前景图像块为种子进行第二级排序,从而得到最终的显著图。
本文算法建立在图像块的基础上。因此首先利用SLIC算法[13]对原始图像进行过分割,以产生合适大小的初始图像块。对于一幅典型的300×400像素分辨率的图像,本文设定对应的图像块个数n为600。本文称沿着图像四周边界分布的最外层图像块为边界图像块。
1.2 数据集介绍MSRA10K[1]、ECSSD[14]和DUT-OMRON[10]等3个数据集是当前图像显著区域检测算法研究中应用较多的数据集。3个数据集各具特色,综合起来能较好地概括自然场景中的多种情况。
MSRA10K数据集共包含10 000幅图像,这些图像均随机选自文[15]所提供的数据集。ECSSD数据集包含1 000幅图像,图像内容和背景结构变化均较大,与现实自然场景中的图像比较接近。
DUT-OMRON 数据集共包含5168 幅图像,每幅图像包含一个或多个显著物体。除了背景复杂外,相比其他数据集,DUT-OMRON 数据集中还包含很多显著物体非常小的图像,有的显著物体仅有几十个像素。由于难以保证图像的初始过分割算法能将如此小的显著物体单独分割出来,因此对以图像过分割区域为基本处理单元的显著区域检测算法是一个很大的挑战。
以上数据集均提供了像素级显著区域标注真值。
2 边界扩展 2.1 内部像素与边界像素之间的差异与像素位置的关系为了研究图像中内部像素与边界像素之间的表观差异随着其位置即到图像四周边界的最短距离的变化关系,首先定义如下2个测度:
1) 内部背景像素与边界背景的差异(IBBD): 内部背景像素与图像中所有四周边界的背景像素差异的最小值。
2) 前景像素与边界背景的差异(FBD): 前景像素与图像中所有四周边界的背景像素差异的平均值。
在上述定义中: 1) 以图像四周2 个像素宽的区域作为四周边界; 2) 度量像素之间差异时采用的是RGB 颜色空间下的Euclid距离; 3) 以数据集提供的真值来判断像素属于前景还是背景。
具体实现方法: 首先将所有像素的位置归一化到[0,1]范围内; 然后将其量化到50个区间,统计每个区间中所有像素的IBBD 和FBD 的平均值; 最后统计3个公开数据集(见节1.2)中所有图像的IBBD 和FBD值。结果如图 3所示。
由图 3a可以看出,随着像素位置逐渐接近图像中心,内部背景像素与边界背景像素的差异逐渐变大。因此,图像四周边界的背景像素并不能完全描述全图的背景信息; 如果仅仅依靠边界像素来描述整幅图像的背景必然会带来较大误差。另外,由图 3b可以看出,随着像素位置逐渐接近图像中心,内部前景像素与边界背景像素的差异也基本逐渐变大。综合图 3可以看出,图像内部前景像素与边界背景像素的差异远大于内部背景像素与边界背景像素的差异。这正是本文算法可行的理论基础,确保了在背景扩展时不至于把大量前景扩展为背景。
2.2 背景像素比例与像素位置的关系在分析像素间差异与像素位置关系的基础上,本文还比较了背景像素所占比例随着像素位置变化的关系。同样,将像素位置量化到[0,1]范围内的50个区间,然后统计每个区间中背景像素所占比例,结果如图 4所示。可以看到,随着像素逐渐接近图像中心,背景像素所占比例逐渐下降,但是最少也还有超过20%的像素属于背景。这从另一面证明了背景扩展的必要性。另外,在图 4中还值得注意,相比其他数据集,DUT-OMRON数据集中像素的背景比例变化并不大。这与该数据集中存在大量面积较小的物体有关,同时也说明该数据集的难度更大,具体可以参考本文的实验数据。
2.3 图像块间的相异性度量与边界扩展
基于节1.1和1.2,本文将依据图像块之间的表观相异性和空间位置关系,将边界图像块尽可能地向图像内部扩展,使得剩下的图像块中前景的比例尽可能地高。
首先,定义图像块之间的相异性测度为
$~d({{p}_{i}},{{p}_{j}})=exp\left( \frac{d_{p}^{2}\left( {{p}_{i}},{{p}_{j}} \right)}{\sigma _{1}^{2}} \right){{d}_{c}}({{p}_{i}},{{p}_{j}}).$ | (1) |
其中: dp(pi,pj)表示图像块pi与图像块pj之间空间位置的Euclid距离,图像块p的空间位置即平均的(x,y)坐标事先依据图像的宽度和高度进行归一化; 表示dc(pi,pj)在Lab颜色空间下图像块pi和pj的平均颜色间的Euclid距离; σ1用于调节不同位置像素间相异性测度的强度,当σ1在[0.05,0.13]区间变化时,实验结果比较稳定,因此本文所有实验中将σ1设为常数0.09。接下来,定义图像块p与边界图像块之间的相异性为
$d\left( {p,B} \right) = \mathop {\min }\limits_{{p_j} \in B} d(p,{p_j}),$ | (2) |
其中B表示边界图像块集合。
当图像块p满足式(3)时被扩展为背景。
$d\left( {p,B} \right) < \frac{1}{N}\sum\limits_{i = 1}^N {} d({p_i},B).$ | (3) |
其中: pi表示所有非边界图像块,N为非边界图像块的个数。
由于多数自然图像的四周边界图像块均属于图像背景[6],因此通过上述边界扩展,使得与四周边界图像块颜色差异小的图像块都被归类为背景。而与四周边界图像块差异大的图像块一般属于图像中的前景物体,则不会被扩展到。本文将利用未扩展到的图像块作为初始的前景种子进行排序,从而确定其他图像块属于前景的可能性即显著性。
3 二级排序节1.3中未扩展到的图像块未必完全属于图像中的显著物体,而且图像中的显著物体也可能会被部分地扩展为背景,但在未扩展到的图像块中大部分应该属于图像中的显著物体。因此可以用节1.3中未扩展到的图像块作为前景种子来进一步确认其他图像块属于前景的可能性,即估计其他图像块的显著性。与前景种子关联度越高的图像块越显著。
本文采用流形排序算法[16-17]来估计图像块之间的关联度。本文仅介绍流形排序算法中核心的相似度矩阵和排序函数选择方法。
3.1 相似度矩阵本文以初始过分割得到的图像块为节点构建加权无向图。图的相似度矩阵定义为A,其中元素 aij(i,j=1,2,…,n)表示图像块pi与pj之间的相似度。具体在本文算法中,aij被定义为
${a_{ij}} = exp\left( { - \frac{{d_c^2({p_i},{p_j})}}{{\sigma _2^2}}} \right).$ | (4) |
其中: 尺度参数σ2在[4, 10]范围内变化时,算法性能基本稳定。因此,本文所有实验中取σ2为常数7。
3.2 排序函数令y=[y1,y2,…,yn]T表示初始的指示向量,其中yi=1表示图像块pi被标注为查询项; yi=0表示图像块的标签未知,需要用排序算法来估计其与查询项的相关度。根据文[17],本算法中定义排序函数为
${f^*} = {(I - \alpha {D^{ - 1}}A)^{ - 1}}y.$ | (5) |
其中: D=diag{d11,d22,…,dnn}为相似度矩阵A的度矩阵,即dii=jaij; I为单位矩阵; 常数α固定为0.99。f*为最终的排序结果,指示所有图像块与查询项之间的关联度。
3.3 二级排序框架基于式(5),利用初始前景区域中的图像块作为查询项得到图像块的第一级显著值为
${S_{step1}}({p_i}) = {{\hat f}^*}({p_i}),i = 1,2, \cdots ,n.$ | (6) |
其中
前面已指出,一些背景图像块可能会被误当作初始前景种子,而一些前景图像块同样也可能会被误当作背景。这些都会在Sstep1的结果中产生噪声。为了降低噪声,有必要对Sstep1的结果进一步排序。
本文采用Otsu算法[18]首先将Sstep1变换为二值图,然后将二值图中前景对应的图像块做为新的前景种子进行第二级排序。与第一级排序相同,可以得到最终的显著图为
${S_{step2}}({p_i}) = \hat f_2^*({p_i}),i = 1,2, \cdots ,n.$ | (7) |
其中
最后,同一超像素内的所有像素赋以相同的显著值即得到最终的显著图。
4 实验结果为了验证本文算法的有效性,在MSRA10K、ECSSD和DUT-OMRON这3个数据集上将本文算法与最相关的5种显著区域检测算法进行了实验对比。这5种算法包括BSCA[11]、RRWR[12]、wCtr*[8]、MR[10]和GS[7]。其中,wCtr*、BSCA和RRWR的显著图结果均来源于公开的原始程序,MR和GS的显著图结果来源于文[8]提供的原始程序。
4.1 评价指标介绍在显著区域检测中,一般采用如下2种方式来进行量化比较。
4.1.1 固定阈值分割首先采用0~255等固定的整数阈值对显著图进行二值化; 然后根据数据集提供的真值计算每幅二值图下的精确度P和召回率R。再利用P和R计算二者的加权调和函数即F(F-measure)指标:
$F = \frac{{(1 + {\beta ^2})PR}}{{{\beta ^2}P + R}}.$ | (8) |
根据文[19],本文设定β2=0.3来强调精确度指标。F值越大则说明算法性能越好。
4.1.2 自适应阈值分割在显著区域检测的算法评测中,一般采用显著图中所有像素灰度平均值的2倍作为自适应阈值来分割显著图[19]。然后与节4.1.1相同,计算分割结果的P、R和F等指标。对整个数据集中所有图像的P、R和F结果进行累加平均即可得到算法在自适应阈值分割时的性能。
另外,还可采用平均绝对误差(MAE)[20]指标来对自适应阈值的分割结果进行评价。MAE指显著图S与数据集提供的二值真值图G之间的平均绝对误差。
$MAE = \frac{1}{{N \times M}}\sum\limits_{x = 1}^N {} \sum\limits_{y = 1}^M {} \left| {S\left( {x,y} \right) - G\left( {x,y} \right)} \right|.$ |
其中N和M分别为显著图S的宽度和高度。显著图越完整地凸显真正的显著区域且背景噪声越小,则MAE越小。
4.2 不同数据集实验结果对比当采用固定阈值分割时,MSRA10K数据集上的结果见图 5,几乎在整个固定阈值区间内,其他5种显著区域检测算法的F最大值均小于本文算法的。ECSSD数据集上的结果见图 6,与MSRA10K 数据集相比,其他算法的F最大值与本文算法的差距更大。DUT-OMRON 数据集上的结果见图 7,本文算法的F明显大于其他算法的。由图 5—7可以看出,本文算法的F曲线一直相对比较平坦。这意味着任意提供一个阈值对本文算法产生的显著图进行分割,均可得到相对较好的图像前景估计。
当采用自适应阈值分割时,本文算法与其他5种算法的P、R和F指标如表 1所示,其中的M、E和D分别表示MSRA10K、ECSSD和DUT-OMRON数据集。在3个数据集上,本文算法的P和F指标均为最大值。另外,可以看出各算法在DUT-OMRON 数据集上的指标明显低于在其他2个数据集上的,这主要是因为该数据集中存在大量面积较小的显著物体。
算法 | P | R | F | ||||||
M | E | D | M | E | D | M | E | D | |
本文 | 0.898 | 0.786 | 0.580 | 0.792 | 0.688 | 0.676 | 0.871 | 0.761 | 0.600 |
BSCA | 0.872 | 0.751 | 0.516 | 0.789 | 0.695 | 0.675 | 0.851 | 0.737 | 0.546 |
RRWR | 0.889 | 0.772 | 0.550 | 0.757 | 0.653 | 0.632 | 0.855 | 0.740 | 0.567 |
wCtr* | 0.862 | 0.717 | 0.508 | 0.825 | 0.714 | 0.750 | 0.853 | 0.716 | 0.549 |
MR | 0.857 | 0.730 | 0.493 | 0.797 | 0.721 | 0.702 | 0.842 | 0.728 | 0.529 |
GS | 0.803 | 0.636 | 0.451 | 0.785 | 0.628 | 0.700 | 0.799 | 0.634 | 0.491 |
本文算法与其他显著区域检测算法的MAE指标如表 2所示。在MSRA10K和ECSSD数据集上,本文算法取得了最优的MAE指标; 在DUT-OMRON数据集上,本文算法取得了次优的MAE指标,与最优的wCtr*算法的比较接近。
算法 | MSRA10K | ECSSD | DUT-OMRON |
本文 | 0.093 | 0.153 | 0.155 |
BSCA | 0.123 | 0.181 | 0.190 |
RRWR | 0.124 | 0.184 | 0.185 |
wCtr* | 0.100 | 0.164 | 0.147 |
MR | 0.131 | 0.186 | 0.187 |
GS | 0.144 | 0.219 | 0.189 |
以上实验充分说明了本文算法的鲁棒性和较高的检测性能。
4.3 算法耗时本文在ASD 数据集上采用配置为英特尔酷睿i7-2600 3.4 GHz 处理器、6 GB 内存的计算机,对比了所有算法的平均计算时间(每种算法共测试运行10次,取10次的平均耗时)。本文算法、BSCA、RRWR、wCtr*、MR和GS的平均每幅图像计算时间分别为0.270、0.769、0.962、0.429、0.241和 0.288 s。 其中,wCtr*、BSCA 和RRWR 等算法均采用公开的原始程序,算法MR 和GS 采用文[8]提供的原始程序; 所有算法均为Matlab代码。相比当前最新的显著性区域检测算法BSCA 和RRWR,本文算法的耗时分别减少65% 和72%,而且性能并不比二者的差。
5 结 论本文提出了一种基于边界扩展的显著区域检测算法。首先依据图像块之间的表观相异性和空间位置关系将边界图像块向图像内部扩展; 然后将剩余未扩展的图像块作为初始前景种子,利用排序算法来实现显著性传播。相对于仅仅将边界图像块作为背景图像块的显著区域检测算法,本文算法能够克服背景杂乱或分布不均匀、显著物体靠近图像边界、显著物体不同部件之间表观差异大以及图像中存在多个表观差异大的物体等问题。
在3个公开的显著区域检测数据集上的实验结果表明,本文方法优于其他5种显著区域检测算法,并且在多个指标上均取得了较大改善。
[1] | CHENG Mingming, Mitra N J, HUANG Xiaolei, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569–582. DOI:10.1109/TPAMI.2014.2345401 |
[2] | LIU Jie, WANG Shengjin. Salient region detection via simple local and global contrast representation[J]. Neurocomputing, 2015, 147(1): 435–443. |
[3] | Papageorgiou C, Poggio T. A trainable system for object detection[J]. International Journal of Computer Vision, 2000, 38(1): 15–33. DOI:10.1023/A:1008162616689 |
[4] | ZHENG Liang, WANG Shengjin, LIU Z, et al. Fast image retrieval:Query pruning and early termination[J]. IEEE Transactions on Multimedia, 2015, 17(5): 648–659. DOI:10.1109/TMM.2015.2408563 |
[5] | Mishra A K, Aloimonos Y, Cheong L F, et al. Active visual segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 639–653. DOI:10.1109/TPAMI.2011.171 |
[6] | JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection:A discriminative regional feature integration approach[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA:IEEE, 2013:2083-2090. |
[7] | WEI Yichen, WEN Fang, ZHU Wangjiang, et al. Geodesic saliency using background priors[C]//Proc of European Conference on Computer Vision. Firenze, Italy, 2012:29-42. |
[8] | ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA:IEEE, 2014:2814-2821. |
[9] | LI Xiaohui, LU Huchuan, ZHANG Lihe, et al. Saliency detection via dense and sparse reconstruction[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA:IEEE, 2013:2976-2983. |
[10] | YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA:IEEE, 2013:3166-3173. |
[11] | QIN Yao, LU Huchuan, XU Yiqun, et al. Saliency detection via Cellular Automata[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:110-119. |
[12] | LI Changyang, YUAN Yuchen, CAI Weidong, et al. Robust saliency detection via regularized random walks ranking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015:2710-2717. |
[13] | Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274–2282. DOI:10.1109/TPAMI.2012.120 |
[14] | SHI Jianping, YAN Qiong, XU Li, et al. Hierarchical image saliency detection on extended CSSD[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(4): 717–729. DOI:10.1109/TPAMI.2015.2465960 |
[15] | LIU Tie, YUAN Zejian, SUN Jian, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2): 353–367. DOI:10.1109/TPAMI.2010.70 |
[16] | ZHOU Dengyong, Weston J, Gretton A, et al. Ranking on data manifolds[J]. Advances in Neural Information Processing Systems, 2004, 16(1): 169–176. |
[17] | ZHOU Dengyong, Bousquet O, Lal T N, et al. Learning with local and global consistency[J]. Advances in Neural Information Processing Systems, 2004, 16(16): 321–328. |
[18] | Otsu N, A threshold selection method from gray-level histograms[J]. IEEE Transactions Systems, Man, and Cybernetics, 1979, 9(1):62-66. |
[19] | Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA:IEEE, 2009:1597-1604. |
[20] | Perazzi F, Krähenbühl P, Pritch Y, et al. Saliency filters:Contrast based filtering for salient region detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA:IEEE, 2012:733-740. |