2. 浙江清华长三角研究院, 嘉兴 314006
2. Yangtze Delta Region Institute of Tsinghua University, Jiaxing 314006, China
在汽车刹车片的生产过程中,利用机器视觉取代人眼对刹车片外形、表面质量、尺寸等进行检测可以极大地提高生产效率。
根据刹车片的形状进行自动分类及分拣是其中的重要步骤之一。图像处理算法上,首先需要通过图像分割的方法从背景中分割出刹车片轮廓区域,其次需要提取刹车片的特征对其外形进行描述,最后以合理的特征匹配算法比较提取的特征与标准模板特征,生成最后的分类结果。
然而在生产现场,工业相机拍摄的刹车片图像往往以深绿色传送带作为背景,与黑色的刹车片区分度不高,给图像分割造成困难;此外,刹车片种类繁多,有的刹车片之间外型相差较小,即使人眼也可能造成误判,如何选择特征及特征匹配算法是刹车片分类算法的另一个难点。
刹车片视觉检测方面,国内学者的研究多数集中在利用商用机器视觉软件HALCON进行功能集成及开发。例如,文[1-2]通过边缘提取及局部阈值分割计算刹车片尺寸并通过光学字符识别(OCR)的方法识别刹车片上的字符;曾强等[3]利用形状模板匹配及差影法实现了刹车片轮廓缺陷的检测。而在分割及形状匹配算法的改进上,国内研究较少。
形状匹配在目标识别、图像检索、人脸识别、机器人导航等领域均有广泛的应用。形状表示方面:Belongie等[4]提出形状上下文(shape context)描述法,以轮廓序列上的某点与其他点的空间分布关系来描述目标外形;Mokhtarian等[5]提出曲率尺度空间(curvature scale space, CSS)描述子,使用曲率尺度空间进行形状检索;形状匹配方面:Chui等[6]提出了用薄板样条点匹配(thin-plate spline robust point matching, TPS-RPM)的方法对非刚性点进行匹配;Adamek等[7]在多尺度凹凸表示(multi-scale convexity concavity, MCC)描述子的基础上采用动态规划算法对两个形状进行匹配,效果较好。
基于以上工程背景及相关研究成果,本文重点研究汽车刹车片外观检测中的刹车片图像前景分割及形状特征的提取和匹配算法。首先采用色调、饱和度、明度(hue saturation value, HSV)色彩空间转换实现刹车片图像前景分割,然后提出了一种多种几何特征融合的形状描述子和信息熵加权的几何特征模板匹配算法。用该方法对生产线上采集到的刹车片图像进行分类实验,取得了良好的效果。
1 基于HSV色彩空间的刹车片图像前景分割算法 1.1 HSV色彩空间转换刹车片生产线上采集到的汽车刹车片图像如图 1所示。由图可见,普通黑色刹车片与深色背景区分度不高,而彩色刹车片的颜色不定,很难直接利用原始图像的红、绿、蓝(red green blue, RGB)值或灰度值进行阈值分割。
除RGB之外,像素点的色彩信息还可以使用HSV,色调、饱和度、亮度(hue saturation intensity, HSI)等其他色彩空间表示。由于刹车片与背景传送带表面性质不同,虽然在整体颜色上对比度不大,但利用HSV空间表示颜色时,刹车片与背景之间的饱和度S通道差异明显,因此选择利用HSV空间的S通道对刹车片进行前景分割。RGB到HSV空间的转换公式如下:
$ V = \max \left( {R,G,B} \right). $ | (1) |
$ S = \left\{ \begin{array}{l} \frac{{V - \min \left( {R,G,B} \right)}}{V},\;\;\;\;\;V \ne 0;\\ 0,\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;其他. \end{array} \right. $ | (2) |
$ \begin{array}{*{20}{c}} {H = \left\{ \begin{array}{l} \frac{{60\left( {G - B} \right)}}{{V - \min \left( {R,G,B} \right)}},\;\;\;\;\;\;\;\;\;\;\;\;\;\;V = R;\\ 120 + \frac{{60\left( {G - B} \right)}}{{V - \min \left( {R,G,B} \right)}},\;\;\;\;\;\;V = G;\\ 240 + \frac{{60\left( {R - G} \right)}}{{V - \min \left( {R,G,B} \right)}},\;\;\;\;\;\;V = B; \end{array} \right.}\\ {H < 0,\;\;\;H = H + 360.} \end{array} $ | (3) |
对刹车片图像进行HSV色彩空间转换,得到S通道灰度图如图 2b所示。
1.2 图像阈值分割及形态学运算
在刹车片S通道灰度图上,首先利用Gaussian滤波去除噪声干扰,使得画面更平滑;然后采用Otsu最大类间方差算法计算画面整体阈值并对S通道图进行阈值分割,其结果如图 2c所示。
为了合并刹车片整体区域以及消除刹车片区域之外的干扰噪点,需要对分割结果进行形态学运算。首先通过腐蚀与膨胀操作连通刹车片主体,然后对图像中所有区域进行面积阈值滤波,最终得到单独、连通的刹车片分割前景,如图 2d所示。
2 刹车片特征提取及模板匹配 2.1 几何特征选择图像中区域的特征主要通过几何、纹理、颜色等方式描述[8],本文主要采用几何特征提取及模板匹配来进行刹车片分类。经过观察刹车片的轮廓特点,初选8类几何特征进行提取。
1) 区域面积A及周长P。
区域面积:前景区域中包含的实际像素数。区域周长:采用八邻域跟踪算法[9]提取区域外轮廓,逐对计算轮廓上相邻两像素间的距离之后累加作为区域的周长。
2) 圆形度C。
圆形度为周长的平方与面积的比值,
3) 密实度S。
首先作出包含目标区域的最小凸多边形,则密实度S定义为同时在目标区域和其最小凸多边形中的像素比例,
从图 3中可以看到,左右两种刹车片的外观比较相似,两者之间最大的差别在于底部曲线的曲率不同。计算密实度时,由内凹曲线曲率差异引起的图中阴影部分面积的差异最终导致两者密实度S的不同。因此,密实度特征能较好地鉴别此类相似的刹车片。
4) 离心率E、主轴长度L1和副轴长度L2。
首先计算目标区域的标准二阶中心矩,然后作出具有相同标准二阶中心矩的椭圆,则该椭圆的长轴长定义为区域的主轴长度L1,短轴长定义为区域的副轴长度L2,椭圆的焦距与其长轴的比值定义为离心率E。离心率描述了区域的扁平程度,若区域为圆,则E=0;若区域为一条线段,则E=1。
5) Hu矩。
图像的p+q阶几何矩定义为:
$ {m_{pq}} = \sum\limits_x {\sum\limits_y {{x^p}{y^q}f\left( {x,y} \right)} } . $ | (4) |
中心矩定义为:
$ {\mu _{pq}} = \sum\limits_x {\sum\limits_y {{{\left( {x - \bar x} \right)}^p}{{\left( {y - \bar y} \right)}^q}f\left( {x,y} \right)} } . $ | (5) |
归一化中心矩为:
$ {\eta _{pq}} = \frac{{{\mu _{pq}}}}{{\mu _{00}^\rho }},\;\;\;\;\;\rho = 1 + \frac{{p + q}}{2}. $ | (6) |
通过2、3阶归一化中心矩的组合,Hu[10]提出描述图像几何特征的7个Hu矩,此处列举其中前4个Hu矩定义:
$ \begin{array}{*{20}{c}} {{h_1} = {\eta _{20}} + {\eta _{02}},}\\ {{h_2} = {{\left( {{\eta _{20}} - {\eta _{02}}} \right)}^2} + 4\eta _{11}^2,}\\ {{h_3} = {{\left( {{\eta _{30}} - 3{\eta _{12}}} \right)}^2} + {{\left( {3{\eta _{21}} - {\eta _{03}}} \right)}^2},}\\ {{h_4} = {{\left( {{\eta _{30}} + {\eta _{12}}} \right)}^2} + {{\left( {{\eta _{21}} + {\eta _{03}}} \right)}^2},}\\ { \cdots \cdots .} \end{array} $ | (7) |
Hu矩具有平移、旋转、放缩不变性,其幅值反映了物体的形状特征,广泛应用于模式识别中。
所有上述特征均具有平移及旋转不变性,实际生产中,相机的拍摄距离固定不变,而刹车片的位置和姿态可能发生变化,因此,理论上上述14个特征可以作为刹车片分类的依据。实际上,分割得到的刹车片区域边缘并不是平滑曲线,通常存在锯齿状的波纹,图 4显示了上述刹车片分割区域边缘的细节。
图 4中像素级别的区域边缘粗糙对于区域面积、密实度、离心率等的影响可以忽略不计,但是由于锯齿状边缘的影响,计算得到的区域周长将会大于实际周长并且误差较大,并不能反映刹车片的实际特征。综上所述,最终去除周长P及其相关的圆形度C特征,采用剩下的6类共12维特征进行提取、融合及匹配。部分样本刹车片图像的特征提取结果如表 1所示。表中面积A、主轴长L1、副轴长L2均以像素为单位。
面积A /105 |
密实度 S |
离心率 E |
主轴长 L1 |
副轴长 L2 |
Hu矩 | |||||||
h1/10-1 | h2/10-2 | h3/10-5 | h4/10-5 | h5/10-10 | h6/10-7 | h7/10-10 | ||||||
样本1 | 3.91 | 0.89 | 0.82 | 3 259 | 1 096 | 2.31 | 2.34 | 1.23 | 0.064 | 0.012 | 0.048 | -0.014 |
样本2 | 2.91 | 0.73 | 0.79 | 3 019 | 808 | 2.06 | 0.56 | 0.36 | 3.63 | 3.48 | -27.21 | 2.32 |
样本3 | 2.96 | 0.96 | 0.86 | 3 189 | 1 235 | 3.46 | 8.94 | 254.87 | 25.52 | -1 726.3 | -689.3 | -1 121.7 |
样本4 | 1.46 | 0.96 | 0.69 | 2 909 | 859 | 3.42 | 8.37 | 180.51 | 20.73 | -1 209.4 | -573.6 | 382.5 |
2.2 特征预处理
提取出的刹车片12维特征量纲各不相同并且取值范围差异很大,首先对原始特征作归一化处理,将各个特征值映射到一定的范围内。
本文采用z-score标准化对每种原始特征分别进行预处理,其转换函数为:
$ z = \frac{{x - \mu }}{\sigma }. $ | (8) |
其中:μ为所有样本数据的均值,σ为所有样本数据的标准差。处理后的特征值具有均值为0,标准差为1的分布。
2.3 特征空间距离度量为了对刹车片进行分类,首先提取每一种刹车片标准模板的特征作为特征空间中的基准点;然后对匹配特征向量计算其到每个基准点的距离,则特征空间的距离即表征了待匹配刹车片与各个标准模板刹车片的相似程度。特征空间距离越小,则认为2种刹车片越相似,因此选择距离最近的基准点作为匹配结果。
常用的多维空间距离计算方法有Euclidean距离、Mahalanobis距离、Manhattan距离、Hamming距离等。经过多次实验和对比,本文采用计算速度最快的Manhattan距离作为样本相似度的度量方法,并提出使用信息熵对每维特征进行加权的改进距离计算方法。两个k维向量X1=(x11, x12, …, x1k),X2=(x21, x22, …, x2k)间的Manhattan距离的计算公式如下:
$ d = \sum\limits_{i = 1}^k {\left| {{x_{1i}} - {x_{2i}}} \right|} . $ | (9) |
在实际的分类过程中,每种特征对于刹车片的区分能力是不同的,有的特征在所有刹车片中具有相近的值,包含的信息量不大。此外,有实践[11]表明:3阶以上Hu矩的不变性不佳,而在传统的距离空间计算方法中,每一维特征的权值系数都是1,即每种特征平等对待,这种做法不符合上述实际情况。因此,本文提出基于信息熵的加权方法对不同特征的重要程度进行区分。
Shannon等[12]提出信息熵的概念来解决对信息的量化问题,常用来对不确定性进行度量。离散随机变量x的信息熵H(x)定义为:
$ H\left( x \right) = E\left[ { - {{\log }_2}P\left( x \right)} \right] = - \sum\limits_x {P\left( x \right){{\log }_2}P\left( x \right)} . $ | (10) |
H(x)的值越大,说明x的不确定性也越大,当随机变量x为定值的时候,其熵为0;当x服从均匀分布时,其熵值最大。
针对刹车片的某维特征,提取不同类型刹车片的该特征作为随机变量Xi=(x1i, x2i …, xni),其信息熵Hi表征了该特征在不同类型刹车片上的区分度。若信息熵较大,则表明不同类型的刹车片上的该特征具有不同的值,在进行特征空间距离计算时则应当赋予该特征更大的权重。
对于一维离散特征向量Xi,本文采用如下的信息熵计算步骤:
步骤1 找到x1i x2i …, xni中的最大值和最小值,并以此作为上下界将特征的取值均分为m个区间。
步骤2 统计每个区间中特征值出现的次数并计算其频率Pj(x), j=1, 2, …, m。
步骤3 代入信息熵计算公式计算该特征的信息熵:
$ {H_i} = \sum\limits_{j = 1}^m {{P_j}\left( x \right){{\log }_2}{P_j}\left( x \right)} . $ | (11) |
最后将信息熵作为Manhattan距离的权值加入(9)式中得到基于信息熵加权的距离计算公式:
$ {d_H} = \sum\limits_{i = 1}^k {{H_i} \cdot \left| {{x_{1i}} - {x_{2i}}} \right|} . $ | (12) |
改进后的匹配算法量化了不同特征之间的重要程度,在进行模板匹配时使包含信息量更大的特征对匹配结果的贡献度更大,符合刹车片分类问题的客观规律,具有更高的匹配准确率和稳定性。
3 实验与分析整个实验过程在MATLAB 2017a环境下进行。首先建立54类刹车片的形状特征模板库,采用Photoshop对54类刹车片标准图像进行手工分割并按照节2中的流程提取其12维特征作为匹配模板。计算每种特征的信息熵如表 2所示。从表 2中可以看到高阶Hu矩的信息熵明显偏低,印证了高阶Hu矩不适用于匹配的猜想。
特征 | 面积 A |
密实度 S |
离心率 E |
主轴长 L1 |
副轴长 L2 |
Hu矩 | ||||||
h1 | h2 | h3 | h4 | h5 | h6 | h7 | ||||||
信息熵 | 4.69 | 4.97 | 5.22 | 4.98 | 4.88 | 4.93 | 4.91 | 3.81 | 3.51 | 1.86 | 3.34 | 0.75 |
测试图像共98张,其中68张为从工业现场采集的真实刹车片图像,剩余30张图像通过对原图进行平移、旋转等仿射变换及亮度变换而生成,作为测试集的扩充。对98张刹车片图像进行HSV空间图像分割,均能成功从暗绿色传送带背景中分割出刹车片前景,部分分割结果如图 5所示。
最后提取几何特征并采用本文算法进行刹车片分类实验。在评价分类结果时引入Top-k准确率。Top-k准确率定义为:在找到的与待分类刹车片相似度最高的k个模板刹车片中,有正确分类结果的概率。实验表明,本文算法的Top-1准确率为95.00%,Top-2准确率达到100%。误分类的刹车片主要受到不规则卡扣的影响。算法效率方面,本文算法的准确率对图像尺寸不敏感,因此首先将原始图像缩小为0.5倍再完成分割及分类,检测一个刹车片平均耗时110 ms。
4 结论本文提出了一套基于HSV色彩空间分割及信息熵加权Manhattan距离特征匹配的刹车片外形分类算法。首先通过图像的HSV色彩空间转换,利用S通道信息从暗绿色传送带背景中分割出刹车片前景区域;然后提取刹车片的Hu矩等几何特征进行特征融合,最后采用信息熵表征特征的重要程度并作为权值改进了特征匹配算法。实验表明:本文提出的算法能成功对工业生产现场采集的刹车片图像进行自动分类,并且具有较高的准确率。
[1] |
左东祥, 陈晓荣.
基于HALCON的刹车片尺寸和表面缺陷检测系统[J]. 电子科技, 2016, 29(11): 78–80.
ZUO D X, CHEN X R. Detection system of brake based on HALCON[J]. Electronic Science and Technology, 2016, 29(11): 78–80. (in Chinese) |
[2] |
马艳宁, 陈晓荣, 张运涛.
基于Halcon的刹车片字符检测算法研究[J]. 电子科技, 2016, 29(10): 101–103.
MA Y N, CHEN X R, ZHANG Y T. Research on the brake character detection algorithm based on Halcon[J]. Electronic Science and Technology, 2016, 29(10): 101–103. (in Chinese) |
[3] |
曾强, 孙坚.
基于HALCON的刹车片轮廓缺陷检测方法研究[J]. 煤矿机械, 2016, 37(8): 143–146.
ZENG Q, SUN J. Research on contour defects detection for break pad based on HALCON[J]. Coal Mine Machinery, 2016, 37(8): 143–146. (in Chinese) |
[4] | BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509–522. DOI:10.1109/34.993558 |
[5] | MOKHTARIAN F, ABBASI S, KITTLER J. Efficient and robust retrieval by shape content through curvature scale space[C]//Proceedings of the International Workshop on Image Databases and Multi-Media Search. Amsterdam, Netherlands: IAPR, 1996: 35-42. |
[6] | CHUI H, RANGARAJAN A. A new algorithm for non-rigid point matching[C]//Proceedings of the 2000 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hilton Head Island, USA: IEEE, 2000: 44-51. |
[7] | ADAMEK T, O'CONNOR N E. A multiscale representation method for nonrigid shapes with a single closed contour[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2004, 14(5): 742–753. DOI:10.1109/TCSVT.2004.826776 |
[8] | DU P J, TAN K, SU H J. Feature extraction for target identification and image classification of OMIS hyperspectral image[J]. Mining Science and Technology, 2009, 19(6): 835–841. |
[9] |
冯彦铭, 谢家龙, 李林升, 等.
基于八邻域跟踪算法的封闭区域几何尺寸测量[J]. 机械工程与自动化, 2013(6): 170–171, 173.
FENG Y M, XIE J L, LI L S, et al. Closed area geometric measurement based on eight neighborhood tracking algorithm[J]. Mechanical Engineering & Automation, 2013(6): 170–171, 173. (in Chinese) |
[10] | HU M K. Visual pattern recognition by moment invariants[J]. Information Theory, IRE Transactions on, 1962, 8(2): 179–187. DOI:10.1109/TIT.1962.1057692 |
[11] |
肖汉光, 蔡从中.
特征向量的归一化比较性研究[J]. 计算机工程与应用, 2009, 45(22): 117–119.
XIAO H G, CAI C Z. Comparison study of normalization of feature vector[J]. Computer Engineering and Applications, 2009, 45(22): 117–119. DOI:10.3778/j.issn.1002-8331.2009.22.038 (in Chinese) |
[12] | SHANNON C E, WEAVER W. The mathematical theory of communication[J]. Physics Today, 1950, 3(9): 31–32. DOI:10.1063/1.3067010 |