基于特征增强的水工结构裂缝语义分割方法

引用本文

陈波, 张华, 陈永灿, 李永龙, 熊劲松. 基于特征增强的水工结构裂缝语义分割方法[J]. 清华大学学报(自然科学版), 2023, 63(7): 1135-1143.

CHEN Bo, ZHANG Hua, CHEN Yongcan, LI Yonglong, XIONG Jinsong. Semantic segmentation method of hydraulic structure crack based on feature enhancement[J]. Journal of Tsinghua University (Science and Technology), 2023, 63(7): 1135-1143.

基于特征增强的水工结构裂缝语义分割方法

陈波¹, 张华^1,2, 陈永灿^3,4, 李永龙^5,6, 熊劲松⁷

1. 西南科技大学信息工程学院，绵阳 621000;
2. 西南科技大学西南科大四川天府新区创新研究院，成都 621010;
3. 清华大学水沙科学与水利水电工程国家重点实验室，北京 100084;
4. 西南石油大学土木工程与测绘学院，成都 610500;
5. 清华大学电子工程系，北京 100084;
6. 清华四川能源互联网研究院，成都 610213;
7. 重庆红岩建设机械制造有限责任公司，重庆 400712

收稿日期：2022-10-27

基金项目：国家自然科学基金资助项目(U21A20157)；四川省科技计划项目(2022YFSY0011，2022YFQ0080, 2023YFS0410)

作者简介：陈波(1994—)，男，博士研究生

通讯作者：李永龙，高级工程师，E-mail: liyonglong@hotmail.com

摘要：基于计算机视觉的混凝土裂缝自动检测方法逐渐成为大坝、廊道和引水隧洞等水工结构场景检测任务的主流选择。然而，目前大多数方法在裂缝特征提取过程中均存在不同程度的损耗，缺乏针对性的补偿措施，导致最终检测效果不佳。该文提出了一种基于特征增强的水工结构裂缝语义分割方法，主要用于解决混凝土水工结构裂缝高精度语义分割问题。该方法通过对裂缝数据进行统计学分析，获取裂缝像素与非裂缝像素关系及其对应分布情况；采用ResNet-152特征提取网络提取裂缝图像抽象语义信息，并根据统计分析结果对高维特征进行区域聚集，构建自注意力模块，增强模型对裂缝的定位性能；结合裂缝信息分布情况，对网络损失函数进行优化，增加裂缝特征对总体损失值的贡献率，提升模型对裂缝的识别精度。该文采用智能化设备获取大坝和廊道2种水工结构场景的图像数据，图像数据经图像预处理和标注整理后获得的裂缝图像和标签共3 000张；将由训练获得的分割模型在测试集上进行测试，裂缝像素准确率、召回率、交并比和总像素准确率分别达92.48%、86.52%、80.82%和99.79%。该文提出的分割方法在水工结构裂缝检测方面具有一定应用研究价值和推广意义。

关键词：水工裂缝卷积神经网络统计学分析语义分割

Semantic segmentation method of hydraulic structure crack based on feature enhancement

CHEN Bo¹, ZHANG Hua^1,2, CHEN Yongcan^3,4, LI Yonglong^5,6, XIONG Jinsong⁷

1. School of Information Engineering, Southwest University of Science and Technology, Mianyang 621000, China;
2. Innovation Research Institute of Sichuan Tianfu New District, Southwest University of Science and Technology, Chengdu 621010, China;
3. State Key Laboratory of Hydroscience and Engineering, Tsinghua University, Beijing 100084, China;
4. College of Civil Engineering and Surveying and Mapping, Southwest Petroleum University, Chengdu 610500, China;
5. Department of Electronic Engineering, Tsinghua University, Beijing 100084, China;
6. Sichuan Energy Internet Research Institute, Tsinghua University, Chengdu 610213, China;
7. Chongqing Hongyan Construction Machinery Manufacturing Co., Ltd., Chongqing 400712, China

Abstract: Objective Scientific, comprehensive, and standardized health monitoring is critical in the operation and maintenance of all types of water conservancy infrastructure. In this study, intelligent equipment is used to capture crack images of concrete dams and corridor hydraulic engineering scenes, and an artificial intelligence algorithm is used to achieve accurate recognition of crack information. However, most current research on concrete crack recognition lacks the analysis of crack information and simply obtains crack features through convolution and pooling to form a feature extraction network. The extracted high-dimensional features are not enhanced further, so the recognition effect cannot be continuously improved. A semantic segmentation technique for feature enhancement is proposed to solve the problem of low accuracy of crack location in the automatic detection of concrete cracks. Methods Statistical theory is used in this study to assess the pixel values of the cracked and non-cracked regions in three color channels and the proportion of the cracked region in the image. The size relationship and corresponding distribution of cracked and non-cracked regions on the pixel level are also obtained. Then, the ResNet-152 feature extraction network based on the residual structure is used to extract high-dimensional abstract semantic features from crack images. Due to the particularity of the residual structure, it can effectively reduce the loss of crack information during feature transmission and improve feature interoperability between different layers of the network so as to avoid the problem of gradient disappearance or explosion. Then, based on the results of statistical analysis, high-dimensional abstract features are sampled into two coarse segmentation feature maps corresponding to cracks and non-cracks. The similarity between the high-dimensional abstract features and the coarse segmentation feature map is calculated, the results of which are then used as weights to update high-dimensional abstract features to realize regional clustering of them. Finally, the clustered features are combined with the high-dimensional abstract features to obtain the enhanced features, which improve the crack location performance of the model. Meanwhile, the network loss function is optimized based on the crack information distribution. By controlling the number of samples used in the calculation of loss value, the contribution rate of crack information and non-crack information to the total loss value is balanced. As a result, the recognition accuracy of crack information is improved. Results We used an unmanned aerial vehicle and an orbital robot to capture images of two hydraulic engineering scenes, including the dam and the corridor. After image preprocessing and labeling, we obtained a total of 3 000 crack images and labels, including 1 000 dam crack images and 500 corridor crack images. We stratified the data set into a training set, a validation set, and a test set in an 8∶1∶1 ratio. The crack pixel accuracy, recall rate, intersection-over-unions, and overall total pixel accuracy of the model on the test set reached 92.48%, 86.52%, 80.82%, and 99.79%, respectively. Conclusions By analyzing the relationship and distribution of pixel values between crack information and non-crack information in crack images and using them as prior information to construct a feature enhancement network and design the objective function of network optimization, the shortcomings of current concrete crack identification methods can be effectively overcome, and the performance of the network to recognize crack information can be improved.

Key words: hydraulic cracks convolutional neural network statistical analysis semantic segmentation

受水流冲击、地质灾害和超负荷运行等多种因素长期影响，各类水利枢纽基础设施结构极易丧失功能或产生变形，逐渐形成裂缝、剥落和冲坑等缺陷特征。如果不及时对各类水利枢纽基础设施进行维护管理，长此以往，就会导致不可预估的严重后果。因此，科学、全面、规范的健康监测对各类型水利枢纽基础设施的维护和运行起着至关重要的作用。水利枢纽结构健康监测的主要方式是采用各类传感器对相关基础设施结构的运行状态进行实时跟踪和损伤检测。随着信息、自动化控制和测绘等技术的发展，水工结构缺陷检测逐步从人工转向智能化，呈现更加集成、精细和标准的检测态势。得益于计算机视觉技术的进步，基于计算机视觉的水工结构缺陷识别技术逐渐成为行业内的主要检测手段^[1-4]。与人工检测相比，基于计算机视觉的缺陷识别技术能够有效避免漏识别和误识别等情况，提升识别精度和识别鲁棒性，获得更加客观、精准和完整的缺陷识别结果。

裂缝作为水工结构中最典型的一类缺陷，利用计算机视觉技术从裂缝图像中提取相应的特征，进而实现裂缝信息的精准定位与识别，对整个水工结构的安全评估和维护具有重大意义。早期的研究人员主要采用图像处理和传统机器学习算法对混凝土图像中的裂缝特征进行自动识别，并在实际工程现场取得了巨大突破，极大地提升了识别效率。文[5-7]将Canny、Sobel等边缘检测算法应用于裂缝信息识别中，通过调整阈值，成功识别裂缝图像中较为清晰的裂缝特征。文[8-10]则主要采用小波变换、中值滤波和多尺度线性滤波等图像滤波算法将裂缝特征从裂缝图像的背景和噪声中分离出来，进一步结合边缘检测和阈值调整，获取更加精细的裂缝特征。随着工程场景越来越复杂多变，这类方法的弊端也逐渐显现，如极易受污渍、光照、水流等噪声干扰，鲁棒性和泛化能力较差。为在越来越复杂多变的场景中更加有效精准地获取裂缝信息，学者们逐步将机器学习的相关理论和技术应用于混凝土裂缝识别任务中。文[11-13]采用图像处理算法提取图像中裂缝信息的纹理特征和形状特征，并构建支持向量机、随机森林等分类器，实现裂缝信息的可靠识别。然而这类方法同样无法避免手工特征提取、阈值设定等烦琐操作，在实际应用过程中也逐步被摒弃。

近年来，嵌入式开发板、计算机和服务器等的发展使运算平台的计算能力和存储空间得到跨越式提升。这使以深度学习为代表的计算机视觉和模式识别算法再次成为研究热点，同时在实际应用中该算法也获得巨大成功。文[14-16]通过迁移学习策略或重新构建的卷积神经网络训练获得裂缝分类器，该分类器可高效精确地筛选包含裂缝信息的图像。但此类图像的分类识别只能定性判断裂缝信息的有无，无法获得更多有价值的信息。文[17-19]将YOLO(you only look once)、Faster R-CNN(faster regions-convolutional neural network)等目标检测算法改进后应用于混凝土裂缝识别领域，不仅极大提升了裂缝特征的识别精度和效率，也从图像中获取了裂缝特征的粗略位置。然而在后续的应用中，除需要对裂缝特征进行定性判断和初步定位之外，还需要获取对应的量化信息。文[20-22]通过构建基于编解码结构的全卷积神经网络，完成特征提取和分类，成功从图像中获取了像素级裂缝信息。文[23-25]采用注意力机制、特征金字塔等方式对提取的特征进行增强，获得了更高精度的分割模型。国内外各研究团队针对混凝土结构的表观裂缝检测已经做了大量研究，如使用不同的特征提取网络获取裂缝特征、加入多尺度特征融合和注意力机制增强特征相关性等，但是绝大部分研究都未考虑裂缝信息的本身特点，也没有对其加以利用，从而导致识别效果未能继续提升。因此，通过分析裂缝图像的特性，减小裂缝信息在传递过程中的损耗，从而增强裂缝信息在网络优化中的贡献率，是提升模型性能的有效途径。

本文结合裂缝图像统计学分析结果，提出一种基于特征增强的水工结构裂缝语义分割方法。该方法首先采用ResNet-152(网络深度为152层的residual network)作为特征提取网络提取图像抽象语义信息；然后根据分割类别构建特征增强模块，将编码网络提取的高维特征按照类别进行区域聚集，提升特征间相关性；最后在网络优化过程中将裂缝信息统计结果作为先验，控制损失值计算所需观测像素样本数，从而提升裂缝信息对网络优化的贡献率。

1 水工结构裂缝分割

将可见光相机搭载在机械臂、无人机等设备上，按照规划路径完成大坝、隧洞等混凝土水工结构场景全覆盖式图像采集。借助卷积神经网络提取这些图像数据中的裂缝信息，实现像素级裂缝特征检测，可有效评估水工结构损伤情况。裂缝语义分割的核心目标是将裂缝图像中的所有像素分为裂缝像素与非裂缝像素2类。然而，相比于其他数据，裂缝图像中裂缝信息占比较少，使用过深的网络进行特征提取容易造成裂缝信息损失。

1.1 裂缝数据分析

采用计算机视觉技术处理二维图像的本质是对图像的各像素值进行计算以获取像素间关系。图像中裂缝像素与非裂缝像素在r、g、b这3个颜色通道上的像素值大小的计算可表示为：

$ \bar{V}_{\text {ck_r }}=\frac{1}{N_{\mathrm{ck}}} \sum\limits_{s=1}^{N_{\mathrm{ck}}} {}_{i, j \in[0, 480)} V_{\text {ck_r }, (i, j)}^s, $

(1)

$ \begin{aligned} & V_{\text {ck_gray, }(i, j)}^s=\frac{1}{100}\left(V_{\text {ck_r }, (i, j)}^s \times 30+\right. \\ & \left.V_{\text {ck_g }, (i, j)}^s \times 59+V_{\text {ck_b }, (i, j)}^s \times 11\right), \\ & \end{aligned} $

(2)

$ \bar{V}_{\text {ck_gray }}=\frac{1}{N_{\text {ck }}} \sum\limits_{s=1}^{N_{\mathrm{ck}}}{ }_{i, j \in[0, 480)} V_{\text {ck_gray }, (i, j)}^s. $

(3)

其中：$V_{\text {ck_r, }(i, j)}^s$、$V_{\text {ck_g, }(i, j)}^s$、$\mathrm{V}_{\mathrm{ck} \_\mathrm{b}, (i, j)}^s$和$V_{\text {ck_gray, }(i, j)}^s$分别为图像(i, j)处裂缝像素在r、g、b这3个颜色通道的像素值和灰度值；V_{ck_r}和V_{ck_gray}分别为图像中所有裂缝像素的平均r通道像素值和平均灰度值；N_ck为图像中裂缝像素量；s为计数单位，用于统计裂缝像素数量，s=1, 2, …, N_ck；i和j的取值范围均为[0, 480)，用于遍历图像上的所有像素。将式(1)、(2)和(3)的比较结果作为先验构建神经网络，可有效提升网络对裂缝信息的获取率。同时，裂缝图像区别于其他图像的一个显著特点是所关注的裂缝像素在图像中占比较小，因此将该占比情况引入后续网络优化过程是提升模型性能的有效途径。该占比可表示如下：

$ \lambda=\frac{N_{\mathrm{ck}}}{N_{\mathrm{all}}}. $

(4)

其中N_all为总像素量。

分析结果表明：1) 裂缝像素之间像素值差异较大，非裂缝像素间也存在较大差异；2) 裂缝像素的平均像素值低于非裂缝像素；3) 图像中裂缝像素所占比例小于5%，存在严重的样本不平衡问题。

1.2 裂缝特征提取网络

无论是图像级分类检测、网格级定位检测还是像素级分类检测，对输入图像进行特征提取都是必不可少的环节。一般来说，网络层数与模型性能呈正相关关系，但过深的网络也易导致训练过程中产生梯度消失或梯度爆炸问题。使用Vgg(visual geometry group network)、ResNet和DenseNet(dense convolutional network) 等性能优异的预训练网络提取图像中的抽象特征，在其他场景的视觉识别任务中已得到了验证。然而，通过裂缝数据统计学分析可得，裂缝图像与普通场景数据的主要区别表现在：1) 裂缝图像中裂缝区域的像素值均低于非裂缝区域的像素值；2) 裂缝特征在整个图像中占比偏少。因此，为减少裂缝信息在特征传递过程中的损耗、增强网络各层间特征的流动性和避免产生梯度问题，本文采用裂缝特征提取网络ResNet-152获取图像中的抽象语义信息。

不同于其他网络结构，ResNet系列网络主要通过标准卷积和跨步卷积实现，可避免过多的池化操作破坏裂缝特征与非裂缝特征的相互联系和裂缝信息的损耗。尽管ResNet-152网络深度较深，但凭借其独有的残差结构能有效解决梯度异常和模型退化的问题。裂缝特征提取网络ResNet-152如图 1所示，ResNet-152共包含151个卷积层和1个池化层，将尺寸为480×480×3的原始裂缝图像输入网络中，经过特征提取后可得到尺寸为15×15×2 048的高维特征。本文使用在ImageNet数据集上训练好的网络权重初始化裂缝特征提取网络ResNet-152，以此为基础在所使用的裂缝数据集上继续进行迭代训练。

图 1 裂缝特征提取网络ResNet-152

图选项

1.3 裂缝特征增强网络

ResNet-152提取的高维特征可直接通过上采样模块实现像素级目标分割，同时在上采样过程中引入多尺度特征融合、注意力机制和空间金字塔池化等基于像素聚集的特征增强策略能有效提升模型的分割性能。考虑裂缝图像中裂缝特征占比较小的问题，本文根据分割类别构建基于Transformer^[26]的裂缝特征增强网络，如图 2所示，将提取的高维特征按照特征相关性进行区域聚集，提升模型对裂缝特征的分割性能。

图 2 裂缝特征增强网络

图选项

裂缝图像中像素级分割目标仅包含裂缝像素与非裂缝像素2类。本文将特征提取网络ResNet-152提取的高维特征直接上采样为2个粗分割特征图{M₁, M₂}，M₁对应非裂缝像素，M₂对应裂缝像素，并在空间维度上对2个粗分割特征图进行softmax操作，获得每个粗分割特征图上各元素属于对应类别的概率分布情况。先将粗分割特征图与高维特征进行聚合，得到对应类别的区域特征图；再计算高维特征中各层像素特征与区域特征图的相关性，形成像素-区域关系特征图；最后将像素-区域关系特征图与类别区域特征图聚合，可获得基于区域聚集的抽象特征，即区域聚集特征图，计算过程可表示为：

$ \begin{gathered} \boldsymbol{f}_k=\sum\limits_{a \in \boldsymbol{I}} \boldsymbol{m}_{k a} \boldsymbol{x}_a, \\ \boldsymbol{w}_{k a}=\frac{\exp \left(\phi\left(\boldsymbol{x}_a\right)^{\mathrm{T}} \varphi\left(\boldsymbol{f}_k\right)\right)}{\sum\limits_{t=1}^2 \exp \left(\phi\left(\boldsymbol{x}_a\right)^{\mathrm{T}} \varphi\left(\boldsymbol{f}_t\right)\right)}, \\ \boldsymbol{y}_a=\rho\left(\sum\limits_{k=1}^2 \boldsymbol{w}_{k a} \delta\left(\boldsymbol{f}_k\right)\right) . \end{gathered} $

(5)

其中：x_a为高维特征I在任意位置a处的像素特征；k为待分割的类别，取值1，2，分别表示非裂缝和裂缝；m_ka为第k类粗分割特征图M_k在位置a处像素属于该分割类别的概率；t为计数变量，用于求和；f_k为第k类目标的区域特征图；w_ka为高维特征与第k类区域特征的关系；y_a为位置a处基于区域聚集的抽象特征；ϕ(·)、φ(·)、δ(·)、ρ(·)为由1×1卷积→批正则化→激活函数(1×1 convolution→batchnormal→rectified linear unit，1×1conv→BN→ReLU)实现的变换函数。

为进一步加强特征间的互通性，首先将原高维特征与基于区域聚集的抽象特征进行级联，并采用1×1卷积进行整合后获得增强的高维特征，然后采用反卷积运算对高维特征进行逐级解码，最终得到预测图。该高维特征的计算可表示为

$ \boldsymbol{z}_a=\mathit{\kappa}\left(\left[\begin{array}{ll} \boldsymbol{x}_a^{\mathrm{T}} & \boldsymbol{y}_a^{\mathrm{T}} \end{array}\right]^{\mathrm{T}}\right) . $

(6)

其中：z_a为位置a处增强更新后的高维特征；κ(·)为由1×1conv→BN→ReLU实现的变换函数，用于融合原高维特征与基于区域聚集的抽象特征。

1.4 网络损失值

获取更高性能模型的关键条件之一是准确建立预测结果与标签间的误差关系。为解决裂缝图像中存在的样本不均衡问题，本文将图像中裂缝信息的占比情况作为权重因子引入误差函数中，提升裂缝像素对误差函数的影响。构建全新的复合函数f(·) 用于计算网络的损失值loss，相关计算可表示为：

$ \begin{aligned} \xi & =\left\lceil\lambda \times N_{\mathrm{bat}} \times N_{\mathrm{cla}} \times N_{\mathrm{all}}\right\rceil, \\ \text { loss } & =f\left(\left(-P_{\mathrm{tru}} \ln P_{\mathrm{pred}}\right), \xi, P_{\mathrm{thr}}\right) . \end{aligned} $

(7)

其中：ξ为在误差序列中实际需要参与计算整体损失值的误差值个数；λ为数据集中裂缝像素所占图像比例，实际训练过程中取最大值；N_bat、N_cla分别为训练过程中单次参与训练的数据量和分割类别数；P_pred、P_tru分别为预测结果和标签所属类别概率；P_thr为设定的概率阈值。

具体计算流程为：首先使用交叉熵函数(-P_trulnP_pred)逐像素计算预测结果和标签的误差，并降序排列；其次通过裂缝信息在图像中的占比情况确定网络训练过程中至少需要参与模型优化的误差值个数ξ；最后将降序误差序列中第ξ个值与设定概率阈值P_thr对应的误差值进行比较，根据比较结果获得网络最终损失值。若(－P_trulnP_pred)|_ξ ≥－lnP_thr，则计算误差序列中所有满足该条件的误差值的平均值作为误差结果。若(－P_trulnP_pred)|_ξ < －lnP_thr，则计算误差序列前ξ个值的平均值作为误差结果。

2 实验结果与分析 2.1 实验配置与数据集

本文所涉及的数据处理和水工裂缝语义分割均在惠普图形工作站Z840上完成测试和部署，其中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、随机存储器(random access memory，RAM)等硬件配置如表 1所示。此外，本文通过Anaconda建立虚拟Python环境并配置基于Pytorch深度学习框架，具体版本号见表 1。

表 1 硬件配置与软件版本

硬件/软件	参数/版本
CPU	Inter^® Xeon(R) CPU E5-2650 v4 @ 2.20 GHz×48
GPU	Quadro P4000/PCIe/SSE2/8 GB
RAM	64 GB
系统	Ubuntu 16.04
Anaconda	3-4.4.10
Python	3.6.5
PyTorch	1.1.0

表选项

本文使用的缺陷数据由2部分组成：一部分来自某水利大坝工程，使用旋翼无人机对坝体进行全覆盖式数据采集；另一部分来自水利廊道工程，通过该工程中安装的轨道机器人完成数据采集，各场景图像采集过程如图 3所示。由于高清相机采集的原始图像分辨率过高，对硬件资源的要求较高。本文通过裁剪、翻转等操作将大尺寸原始图像裁剪为小尺寸图像块，并通过人工标注构建图像块与标签一一对应的裂缝数据集。最终，获得的数据集中包含480×480分辨率大小的图像块和标签共3 000张。

图 3 各场景图像采集过程

图选项

考虑像素级分类目标仅包含裂缝像素和非裂缝像素2类，上千级的数据量对于训练已经足够多。因此本文采用留出法将裂缝数据集按照8∶1∶1的比例分为训练集1 200张、验证集150张和测试集150张。同时，本文使用的数据包含2个场景，在实际划分过程中先采取分层抽样的方式，对2个场景的数据分别按照预定比例进行划分，再对应合并构成训练集、验证集和测试集。

2.2 模型评价指标

在神经网络训练过程中，损失值可用于刻画模型的优化程度，而最终模型的测试则通常采用预测准确率、召回率和交并比等进行表征。不同于图像级分类检测和网格级定位检测，语义分割的核心是对图像上每个像素进行逐一分类。因此，每个像素的测试情况可分为4类：裂缝像素被预测为裂缝像素(true positives，TP)，裂缝像素被预测为非裂缝像素(false negatives，FN)，非裂缝像素被预测为裂缝像素(false positives，FP)，非裂缝像素被预测为非裂缝像素(true negatives，TN)。由于裂缝图像中非裂缝像素占比较大，因此本文的模型评价指标仅针对裂缝像素，各项指标的计算可表示为：

$ \begin{gathered} \operatorname{Pre}_{\mathrm{ck}}=\frac{R_{\mathrm{TP}}}{R_{\mathrm{TP}}+R_{\mathrm{FP}}} \times 100 \%, \\ \operatorname{Rec}_{\mathrm{ck}}=\frac{R_{\mathrm{TP}}}{R_{\mathrm{TP}}+R_{\mathrm{FN}}} \times 100 \%, \\ \mathrm{IoU}_{\mathrm{ck}}=\frac{R_{\mathrm{TP}}}{R_{\mathrm{TP}}+R_{\mathrm{FP}}+R_{\mathrm{FN}}} \times 100 \%, \\ \mathrm{Acc}=\frac{R_{\mathrm{TP}}+R_{\mathrm{TN}}}{R_{\mathrm{TP}}+R_{\mathrm{TN}}+R_{\mathrm{FP}}+R_{\mathrm{FN}}} \times 100 \% . \end{gathered} $

(8)

其中：R_TP、R_TN、R_FP和R_FN分别为预测结果中TP、TN、FP和FN的数量；Pre_ck为裂缝像素准确率，表示预测结果中预测正确的裂缝像素个数与总裂缝像素个数的比例；Rec_ck为裂缝像素召回率，表示预测结果中预测正确的裂缝像素个数与标签中总裂缝像素个数的比例；IoU_ck为裂缝像素交并比，表示预测结果中预测正确的裂缝像素个数占预测结果和标签中所有裂缝像素的比例；Acc为总像素准确率，表示预测结果中所有预测正确的像素个数与标签中所有像素个数的比例。

2.3 结果与分析

训练神经网络时设置适当的超参数可获得更好的分割性能，本文采用Adam optimizer作为网络训练的优化器，网络学习率和损失函数中的概率阈值分别设置为1×10^-4和0.9。在本文所用的工作站上训练100个迭代轮次(epoch)所需时间不到10 h，其中网络训练过程中训练集损失值、验证集损失值和各项指标的收敛情况如图 4所示。裂缝像素准确率、召回率、交并比和总像素准确率分别达92.48%、86.52%、80.82%和99.79%。图 5a和5b分别展示了训练好的分割模型在测试集上预测结果较好和较差的效果图。由图 5可知，本文模型无论对单条还是多条裂缝都有较好的分割效果；但是对于成像不清晰、含由光线导致的阴影和存在剥落区域等的图像，该模型分割的效果不是特别理想，易出现错误的预测结果，这是由于裂缝区域像素值普遍较低甚至接近黑色，且这几类情况在图像上像素值的呈现形式都与裂缝区域相似。

图 4 网络训练过程损失值和各项指标收敛情况

图选项

图 5 分割模型测试集图像预测结果

图选项

为验证所提语义分割方法，本文设置了一组消融实验分别验证裂缝特征提取网络、裂缝特征增强网络和网络损失值计算方式3部分的有效性，消融实验测试集的验证指标如表 2所示。由表 2可知，利用裂缝特征提取网络ResNet-152训练得到的分割模型可获得更好的性能。同时，使用所提出的特征增强网络和损失值计算方法能显著提升模型的分割性能。

表 2 消融实验测试集的验证指标

%
特征提取网络	特征增强网络	损失值计算	Pre_ck	Rec_ck	IoU_ck	Acc
Vgg-19	√	√	87.63	82.18	73.65	99.71
DenseNet-121	√	√	91.84	81.95	76.36	99.74
ResNet-152	—	√	91.90	85.65	79.60	99.78
ResNet-152	√	—	85.82	81.98	72.09	99.68
ResNet-152	√	√	92.48	86.52	80.82	99.79
注：√表示应用本文提出的特征增强网络和损失值计算方法。

表选项

此外，为了验证数据集划分方式的合理性和所提方法的鲁棒性，本文对数据集进行了另一种划分，并采用所提方法训练，同时利用所提方法对文[27]中的裂缝数据集进行训练。不同数据集和数据划分方式对应测试集指标如表 3所示。

表 3 不同数据集和数据划分方式对应测试集指标

数据集	划分比例	Pre_ck/%	Rec_ck/%	IoU_ck/%	Acc/%
文[27]	8∶1∶1	92.28	88.19	82.05	99.21
本文	6∶2∶2	83.02	69.33	60.56	99.58
本文	8∶1∶1	92.48	86.52	80.82	99.79

表选项

2.4 对比实验与分析

此外，本文将所提方法与文[23, 27-28]采用的混凝土裂缝分割方法进行了比较。文[23]以Vgg-11作为特征提取网络用于提取图像中的裂缝信息，并采用反卷积操作对提取的抽象特征进行解码，在整个过程中引入注意力机制，提升网络对裂缝信息的关注度。文[27]提出将编码网络各阶段的输出特征逐步级联形成输出，并结合引导滤波完成裂缝分割任务。在同样的实验配置和超参数前提下，采用上述3种裂缝语义分割方法训练，并获取对应测试集的验证指标，不同裂缝语义分割方法测试集指标如表 4所示。文[28]采用ResNet-152提取裂缝特征，并在解码网络中采用多尺度特征融合策略获取特征上下文信息，实现了准确的裂缝分割。同时，在测试集上随机抽取4张图像，分别使用文[23]、[27]和[28]的裂缝语义分割方法和本文所提方法进行预测对比，不同裂缝语义分割方法测试集图像预测结果如图 6所示。由图 6可知，本文提出的裂缝分割方法对图像中裂缝信息的细节部分具有更好的分割效果。

表 4 不同裂缝语义分割方法测试集指标

%
裂缝分割方法	Pre_ck	Rec_ck	IoU_ck	Acc
文[23]	89.55	72.63	66.77	99.63
文[27]	86.89	74.56	66.64	99.62
文[28]	88.11	74.55	67.60	99.65
本文	92.48	86.52	80.82	99.79

表选项

图 6 不同裂缝语义分割方法测试集图像预测结果

图选项

3 结论

本文提出了基于特征增强的水工结构裂缝语义分割方法。通过对裂缝数据集进行统计学分析，获取裂缝像素与非裂缝像素的像素值关系和各自的分布情况；根据分析结果构建基于ResNet-152的裂缝特征提取网络，并设计基于Transformer的裂缝特征增强网络，提升模型对裂缝信息的关注度；将分析结果引入网络优化过程，设计基于裂缝特征的损失值计算方法，提升裂缝信息在损失值中的贡献率，最终实现对水工结构裂缝的高精度语义分割。

通过消融实验和对比实验表明：结合裂缝数据分析结果构建卷积神经网络和优化算法，能有效提升模型对裂缝特征的分割性能。根据裂缝识别结果，本文提出的方法对水工结构裂缝分割检测展现了较强的准确性和鲁棒性，可为实际工程提供丰富的理论依据和有力的数据支撑，具备显著的应用研究价值和推广意义。然而本文首要考虑的是提升裂缝特征的分割精度，因此在一定程度上牺牲了模型的处理速度，未来工作可在此基础上进行模型轻量化处理，提升识别效率，达到快速响应各水工结构损伤情况的目的。

参考文献

[1]	YE X W, DONG C Z, LIU T. A review of machine vision-based structural health monitoring: Methodologies and applications[J]. Journal of Sensors, 2016, 2016: 7103039.
[2]	FENG D M, FENG M Q. Computer vision for SHM of civil infrastructure: From dynamic response measurement to damage detection—A review[J]. Engineering Structures, 2018, 156: 105-117. DOI:10.1016/j.engstruct.2017.11.018
[3]	XU Y, BROWNJOHN J M W. Review of machine-vision based methodologies for displacement measurement in civil structures[J]. Journal of Civil Structural Health Monitoring, 2018, 8(1): 91-110. DOI:10.1007/s13349-017-0261-4
[4]	SPENCER B F JR, HOSKERE V, NARAZAKI Y. Advances in computer vision-based civil infrastructure inspection and monitoring[J]. Engineering, 2019, 5(2): 199-222. DOI:10.1016/j.eng.2018.11.030
[5]	ABDEL-QADER I, ABUDAYYEH O, KELLY M E. Analysis of edge-detection techniques for crack identification in bridges[J]. Journal of Computing in Civil Engineering, 2003, 17(4): 255-263. DOI:10.1061/(ASCE)0887-3801(2003)17:4(255)
[6]	LI G, ZHAO X X, DU K, et al. Recognition and evaluation of bridge cracks with modified active contour model and greedy search-based support vector machine[J]. Automation in Construction, 2017, 78: 51-61. DOI:10.1016/j.autcon.2017.01.019
[7]	YU S N, JANG J H, HAN C S. Auto inspection system using a mobile robot for detecting concrete cracks in a tunnel[J]. Automation in Construction, 2007, 16(3): 255-261. DOI:10.1016/j.autcon.2006.05.003
[8]	LI G, HE S H, JU Y F, et al. Long-distance precision inspection method for bridge cracks with image processing[J]. Automation in Construction, 2014, 41: 83-95. DOI:10.1016/j.autcon.2013.10.021
[9]	YAMAGUCHI T, HASHIMOTO S. Fast crack detection method for large-size concrete surface images using percolation-based image processing[J]. Machine Vision and Applications, 2010, 21(5): 797-809. DOI:10.1007/s00138-009-0189-8
[10]	FUJITA Y, HAMAMOTO Y. A robust method for automatically detecting cracks on noisy concrete surfaces [C]// 22nd International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Tainan, China: Springer, 2009: 76-85.
[11]	LIU Z W, SUANDI S A, OHASHI T, et al. Tunnel crack detection and classification system based on image processing [C]// Proceedings Volume 4664, Machine Vision Applications in Industrial Inspection X. San Jose, USA: SPIE, 2002: 145-152.
[12]	GAVILÁN M, BALCONES D, MARCOS O, et al. Adaptive road crack detection system by pavement classification[J]. Sensors, 2011, 11(10): 9628-9657. DOI:10.3390/s111009628
[13]	SHI Y, CUI L M, QI Z Q, et al. Automatic road crack detection using random structured forests[J]. IEEE Transactions on Intelligent Transportation Systems, 2016, 17(12): 3434-3445. DOI:10.1109/TITS.2016.2552248
[14]	CHA Y J, CHOI W, BÜYÜKÖZTÜRK O. Deep learning-based crack damage detection using convolutional neural networks[J]. Computer-Aided Civil and Infrastructure Engineering, 2017, 32(5): 361-378. DOI:10.1111/mice.12263
[15]	ZHANG L, YANG F, ZHANG Y D, et al. Road crack detection using deep convolutional neural network [C]// 2016 IEEE International Conference on Image Processing. Phoenix: IEEE, 2016: 3708-3712.
[16]	陈波, 张华, 王姮, 等. 基于迁移学习的坝面表观缺陷智能检测方法研究[J]. 水利水电技术, 2020, 51(4): 106-112. CHEN B, ZHANG H, WANG H, et al. Transfer learning-based study on method of intelligent detection of dam surface apparent defect[J]. Water Resources and Hydropower Engineering, 2020, 51(4): 106-112. (in Chinese)
[17]	ZHANG Y X, HUANG J, CAI F H. On bridge surface crack detection based on an improved YOLO v3 algorithm[J]. IFAC-PapersOnLine, 2020, 53(2): 8205-8210. DOI:10.1016/j.ifacol.2020.12.1994
[18]	YU Z W, SHEN Y G, SHEN C K. A real-time detection approach for bridge cracks based on YOLOv4-FPM[J]. Automation in Construction, 2021, 122: 103514. DOI:10.1016/j.autcon.2020.103514
[19]	李太文, 范昕炜. 基于Faster R-CNN的道路裂缝识别[J]. 电子技术应用, 2020, 46(7): 53-56, 59. LI T W, FAN X W. Road crevice recognition based on Faster R-CNN[J]. Application of Electronic Technique, 2020, 46(7): 53-56, 59. (in Chinese)
[20]	DUNG C V, ANH L D. Autonomous concrete crack detection using deep fully convolutional neural network[J]. Automation in Construction, 2019, 99: 52-58. DOI:10.1016/j.autcon.2018.11.028
[21]	LI S Y, ZHAO X F, ZHOU G Y. Automatic pixel-level multiple damage detection of concrete structure using fully convolutional network[J]. Computer-Aided Civil and Infrastructure Engineering, 2019, 34(7): 616-634. DOI:10.1111/mice.12433
[22]	FENG C C, ZHANG H, WANG H R, et al. Automatic pixel-level crack detection on dam surface using deep convolutional network[J]. Sensors, 2020, 20(7): 2069. DOI:10.3390/s20072069
[23]	CHEN J, HE Y. A novel U-shaped encoder-decoder network with attention mechanism for detection and evaluation of road cracks at pixel level[J]. Computer-Aided Civil and Infrastructure Engineering, 2022, 37(13): 1721-1736. DOI:10.1111/mice.12826
[24]	YANG F, ZHANG L, YU S J, et al. Feature pyramid and hierarchical boosting network for pavement crack detection[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(4): 1525-1535. DOI:10.1109/TITS.2019.2910595
[25]	CHEN B, ZHANG H, LI Y L, et al. Quantify pixel-level detection of dam surface crack using deep learning[J]. Measurement Science and Technology, 2022, 33(6): 065402. DOI:10.1088/1361-6501/ac4b8d
[26]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[27]	LIU Y H, YAO J, LU X H, et al. DeepCrack: A deep hierarchical feature learning architecture for crack segmentation[J]. Neurocomputing, 2019, 338: 139-153. DOI:10.1016/j.neucom.2019.01.036
[28]	BANG S, PARK S, KIM H, et al. Encoder-decoder network for pixel-level road crack detection in black-box images[J]. Computer-Aided Civil and Infrastructure Engineering, 2019, 34(8): 713-727. DOI:10.1111/mice.12440

文章信息

工作空间