基于目标检测的混凝土坝裂缝实时检测方法

引用本文

黄贲, 康飞, 唐玉. 基于目标检测的混凝土坝裂缝实时检测方法[J]. 清华大学学报(自然科学版), 2023, 63(7): 1078-1086.

HUANG Ben, KANG Fei, TANG Yu. A real-time detection method for concrete dam cracks based on an object detection algorithm[J]. Journal of Tsinghua University (Science and Technology), 2023, 63(7): 1078-1086.

基于目标检测的混凝土坝裂缝实时检测方法

黄贲, 康飞, 唐玉

大连理工大学水利工程学院，大连 116023

收稿日期：2022-10-31

基金项目：国家重点研发计划项目(2022YFB4703404)；国家自然科学基金面上项目(51779035, 52079022, 51979027)

作者简介：黄贲(1996—)，男，博士研究生

通讯作者：康飞，教授，E-mail: kangfei@dlut.edu.cn

摘要：裂缝是大坝最常见的损伤之一，可反映大坝的受力状态和安全性。针对混凝土坝裂缝传统检测算法速度慢、精度低、泛化性能不足等问题，该文基于目标检测神经网络YOLOX(you only look once x)深度学习目标检测算法，提出一种混凝土坝表观裂缝实时检测方法(YOLOX-dam crack detection，YOLOX-DCD)。该方法对YOLOX目标检测神经网络进行改进，首先在网络结构中加入卷积注意力机制，使网络更关注裂缝特征，提高检测效果；其次引入完全交并比(complete intersection over union，CIoU)作为目标定位损失函数；最后在自制的混凝土坝裂缝数据集上进行实验评估，并与现有的多种目标检测神经网络进行对比。结果表明：该文所提方法具有速度快、精度高、参数少的特点，且明显优于经典目标检测算法。因此，该文所提方法能满足混凝土坝裂缝检测高效、精确、实时的要求，可为混凝土坝裂缝检测提供技术支持。

关键词：混凝土坝裂缝检测深度学习目标检测 YOLOX神经网络注意力机制

A real-time detection method for concrete dam cracks based on an object detection algorithm

HUANG Ben, KANG Fei, TANG Yu

School of Hydraulic Engineering, Dalian University of Technology, Dalian 116023, China

Abstract: Objective As a major part of water conservancy infrastructure, dams play an important role in economic construction and social development. Cracks are one of the most common types of damage to dams, destroying the overall structure and affecting the durability, strength, and stability of the structure. Therefore, regular and systematic crack detection of concrete dams is of great importance to ensure their safe and stable operation. However, the traditional concrete dam crack detection technology suffers from slow speed, low precision, and insufficient generalization performance, bringing difficulty in meeting the requirements of concrete dam crack detection. Therefore, the objective of this study is to develop an efficient, accurate, and real-time concrete dam crack detection technology. Methods Existing crack detection methods based on semantic segmentation algorithms run slowly and detect concrete cracks in real time with difficulty. In addition, the dam operation environment is harsh, resulting in complex image backgrounds and inconspicuous crack image features, increasing the difficulty of identification. This study proposes a real-time detection method for concrete dam cracks based on deep learning object detection method you only look once x (YOLOX), called YOLOX-dam crack detection (YOLOX-DCD), to address the problems of slow speed, low accuracy, and insufficient generalization of the traditional detection techniques for concrete dam cracks. This method improves the performance of YOLOX to detect concrete dam cracks. First, a lightweight convolutional block attention module (CBAM) is added to the network structure, which integrates the spatial attention mechanism with the channel attention mechanism. The CBAM makes the network pay more attention to crack features and improves detection performance. Second, a complete intersection over union (CIoU) is introduced to replace IoU as the loss function. The CIoU incorporates the normalized distance between the predicted box and the target box and summarizes three geometric factors in bounding box regression, i.e., overlap area, central point distance, and aspect ratio, thereby improving the convergence speed and detection performance of the algorithm. Results The experimental evaluation was conducted on a self-made concrete dam crack dataset. Ablation experiments were performed on each improved module, and the results showed that the improved method proposed in this paper effectively improved the detection accuracy of the model and maintained a high detection speed. The proposed model had an AP_0.5 on the test set of 90.84% and an F₁ of 87.74%, which were higher than those of various existing object detection methods. The FPS of the model was 65, and the detection speed was faster. The model was small, with a size of 25.67 MB, and could be deployed on a mobile terminal for real-time crack detection. Conclusions In this study, a CBAM and the CIoU loss function are added to the YOLOX network, which make the network pay more attention to crack characteristics and improves the detection performance for concrete dam cracks. Experiments reveal that the method in this paper has fast speed, high precision, and few parameters and is obviously better than the classical object detection algorithms. Therefore, the proposed method meets the requirements of efficient, accurate, and real-time crack detection of concrete dams and is promising for providing a technical means for crack detection.

Key words: concrete dam crack detection deep learning object detection YOLOX neural network attention mechanism

大坝作为水利基础设施的主要组成部分，在经济建设和社会发展中发挥着重要作用^[1]。环境侵蚀、内部化学反应和荷载的长期混合作用易导致混凝土坝坝体出现病害。裂缝是最主要的混凝土坝病害之一，会破坏混凝土坝的整体结构，影响结构的耐久性、强度和稳定性^[2-3]。因此，定期和系统地进行混凝土坝裂缝检测，对保障水库大坝的安全稳定运行具有重要意义。

裂缝大多源于结构的表面，是混凝土坝普遍存在的问题^[4]。裂缝不仅会对混凝土坝运行造成威胁，还会诱发其他坝体损伤，如坝面混凝土剥落、坝体渗漏、冻融损伤等，裂缝严重时还会引发运行事故^[5]，故及时检测裂缝能有效预防其对混凝土坝结构产生更大破坏。目前，坝体表面损伤检测主要依靠传统的人工目测方法，即在坝体表面悬挂吊篮进行人工目测，或使用望远镜进行目测^[6]。这些方法不能及时发现混凝土坝的损坏情况，易导致混凝土坝错过维修机会，且这些方法的检测成本高、危险系数大^[7]。近年来，得益于无人机、深度学习等技术的发展，部分研究先利用无人机^[8-10]、水下机器人^[11-12]等采集坝体图像，再结合计算机视觉方法识别坝体图像中大坝的破坏情况，从而对坝体损伤进行检测。例如，Feng等^[13]提出一种利用深度卷积网络对混凝土坝表面裂缝进行像素级检测的方法；Dung等^[14]提出一种基于深度全卷积网络(fully convolutional networks，FCN)的裂缝检测方法，平均检测精度达90%左右；陈波等^[15]通过改进全卷积神经网络架构，设计了改进的FCN模型，该模型提升了坝面裂缝检测精度；任秋兵等^[16]对U形全卷积神经网络(U-net)语义分割模型进行改进，提出水工混凝土裂缝像素级形态分割与量化方法，该方法在自制的水工混凝土裂缝数据集上进行验证，取得了较好的效果。以上研究所用方法均基于语义分割算法，可在图像中分割出裂缝，但是推理速度较慢，难以进行实时检测；此外，大坝运行环境恶劣，导致裂缝图像背景复杂，裂缝图像特征相对不明显，增大了识别难度。

深度学习目标检测算法可以解决上述难题。目标检测算法主要分为2种：以SSD(single shot multibox detector)^[17]和YOLO(you only look once)^[18]系列为代表的单阶段算法和以区域卷积神经网络(region-based convolutional neural network，R-CNN)^[19]系列为代表的双阶段算法。Cha等^[20]提出基于Faster R-CNN的多损伤目标识别与定位方法，该方法可对图像中的多种损伤进行识别与定位；Wang等^[21]将目标检测和智能手机相结合，提出一种新的砌体损伤自动检测技术，该技术可检测历史砌体结构的损伤；Xu等^[22]提出改进的Faster R-CNN，该方法可从图像中识别和定位受损钢筋混凝土柱的多类型地震损伤；章世祥等^[23]基于深度学习卷积神经网络提出了多目标路面裂缝检测模型，该模型可对路面裂缝精确识别、分割和统计。以上研究说明目标检测算法在隧道、道路和房建等领域得到了广泛应用，然而基于目标检测算法的混凝土坝表观裂缝实时检测研究相对较少。

针对上述问题，结合无人机等拍摄的大坝裂缝数据，本文基于YOLOX(you only look once x)^[24]目标检测神经网络，提出一种混凝土坝裂缝实时检测方法(YOLOX-dam crack detection, YOLOX-DCD)。通过添加卷积注意力机制，使网络更关注裂缝特征，提高了网络检测性能，同时采用完全交并比(complete intersection over union，CIoU)损失函数，进一步提高网络的检测精度。

1 YOLOX-DCD裂缝检测算法 1.1 YOLOX目标检测神经网络

YOLOX^[24]目标检测神经网络是旷视科技于2021年提出的更先进的YOLO系列单阶段目标检测网络，该网络在主干网络、解耦层和数据增强等部分对原来的YOLO网络进行了改进。YOLOX由主干特征提取网络、加强特征提取网络和解耦头YOLOX-Head组成，网络结构如图 1所示。图 1中，CSPLayer为残差结构；Conv2D_BN_SiLU为卷积、归一化和SiLU激活函数；Reg、Obj和Cls为预测结果，Reg用于表示每一个特征点的回归参数，Obj和Cls用于判断是否包含物体和包含物体的种类。

图 1 YOLOX网络结构

图选项

YOLOX为无锚框(anchor free)的单阶段目标检测神经网络，不需要设置锚框的参数，这极大地减少了网络的参数量，提高网络检测速度和性能，并且YOLOX采用Mosaic和MixUp数据增强方法提升网络性能。其中Mosaic数据增强方法是将随机选取的4张图像先进行裁剪再拼接为一张新图像，MixUp数据增强方法是将随机选取的2张图像混合叠加为一张新图像，Mosaic和MixUp数据增强方法都可丰富训练数据集，提升网络模型的泛化能力。

本研究使用的YOLOX以CSPDarknet作为主干网络，首先，将图像输入主干网络进行特征提取，获得3个尺寸不同的特征图，再将特征图输入加强特征提取网络PAFPN中进行特征融合(concat)；其次，PAFPN先对深层次的特征图进行上采样，再对浅层次的特征图进行下采样，二者融合可获得特征明显的加强特征图；最后，将加强特征图输入YOLOX-Head解耦头，获得预测结果。PAFPN由路径聚合网络(path aggregation network，PANet)和特征金字塔网络(feature pyramid network，FPN) 融合而成，可将不同层次的特征图高效融合。在以往的YOLO系列中，分类和回归的任务在一个1×1的卷积里实现，但是这会影响网络的性能；YOLOX采用解耦头的形式，将分类和回归任务分开进行，不仅可以提高网络的收敛速度，还能增强网络检测性能。

YOLOX网络通过调节超参数深度(depth)和宽度(width)控制网络深度和宽度，可分为s、m、l、x共4个版本。其中，s版本的网络模型最小，但是检测性能相对最差；x版本的检测性能最好，但是网络模型大，不利于部署在移动端平台；m和l版本检测性能相差较小，但是l版本网络模型大小是m版本的2倍。因此，本研究综合考虑检测性能和模型大小，采用YOLOX-m作为基准网络进行改进，depth取值0.67，width取值0.75。

1.2 注意力机制

受人类视觉注意力启发，注意力机制得以被学者重点关注和研究，并被广泛应用于计算机视觉。在处理图像时，注意力机制可对重点区域增加权重，抑制其他冗余信息，从而提高视觉信息处理的效率与准确性，因此注意力机制在图像分类、目标检测和人脸识别等领域发挥了重要作用。与视觉领域的通道注意力SE(squeeze-and-excitation)和ECA(efficient channel attention)模块相比，轻量级卷积注意力模块(convolutional block attention module，CBAM)^[25]在通道注意力机制的基础上融合空间注意力机制，实现了通道注意力和空间注意力双机制应用的目的；轻量级CBAM作为通用模块，一般被集成至目标检测神经网络中，模块在运行过程中占用的计算内存可忽略不计。为提升YOLOX对裂缝的识别检测能力，本研究对网络结构进行改进，在主干网络和加强特征提取网络的输出特征图中加入轻量级CBAM，对主干网络特征图输出和加强网络特征图输出进行注意力权重分配，提高网络对裂缝特征的关注度。

CBAM由通道注意力模块和空间注意力模块融合而成，注意力结构如图 2所示。在通道注意力模块中，首先压缩特征图的空间维度，即对特征图使用最大池化和平均池化；其次对该池化结果进行全连接层计算，2个计算结果相加且经过Sigmoid激活函数后得到输入特征图每一个通道的权值；最后用权值乘原输入特征图得到通道注意力特征图。在空间注意力模块中，首先对通道注意力特征图进行最大池化和平均池化，其次将产生的特征图进行拼接，并使用卷积操作得到通道为1的特征图，最后特征图经过Sigmoid激活函数得到空间注意力权值，权值乘输入特征图得到最终的空间注意力特征图。

图 2 CBAM注意力结构

图选项

1.3 损失函数

边界框回归是目标检测任务中的关键步骤，YOLOX网络采用交并比(intersection over union，IoU)损失函数作为目标定位损失函数，但是IoU损失函数存在收敛慢和回归不准确等问题。因此，文[26]通过合并预测框和目标框之间的归一化距离，同时考虑边界框回归的重叠面积、中心点距离和宽高比这3个几何因素，提出了CIoU(complete IoU)损失函数，该损失函数提高了目标检测神经网络的收敛速度和检测性能。

IoU和CIoU损失函数如图 3所示，其中：B为预测框，B′为目标框，c为包围2个框的最小覆盖框的对角线长度，d为2个框的中心点的距离。

IoU和CIoU的计算如下：

$ {\rm{IoU}} = \frac{{\left| {B \cap B'} \right|}}{{\left| {B \cup B'} \right|}}, $

(1)

$ {\rm{CIoU}} = {\rm{IoU}} - \left( {\frac{{{d^2}}}{{{c^2}}} + \alpha v} \right), $

(2)

$ v = \frac{4}{{{\pi ^2}}}{\left( {\arctan \frac{{w'}}{{h'}} - \arctan \frac{w}{h}} \right)^2}, $

(3)

$ \alpha = \frac{v}{{(1 - {\rm{IoU}}) + {v^2}}}. $

(4)

图 3 IoU和CIoU损失函数

图选项

其中：IoU为预测框和目标框重叠面积与总面积的比值，CIoU在IoU的基础上考虑了中心点距离和宽高比，使边界框回归收敛速度更快，网络性能更好；α为权重参数；v用于度量宽高比的一致性，w′和h′分别为目标框的宽和高，w和h分别为预测框的宽和高。

最终CIoU损失函数可表示为

$ {L_{{\rm{CloU}}}} = 1 - {\rm{CIoU}}. $

(5)

2 实验验证 2.1 实验数据集构建

本研究使用大疆M300 RTK无人机和佳能EOS 80D数码相机对辽宁省多座混凝土重力坝进行拍摄，获取混凝土坝裂缝图像数据。拍摄角度包括平视、斜视和俯视，拍摄距离为3~20 m，拍摄环境包括强光和暗光。本研究通过对获取的混凝土坝裂缝原始图像进行裁切和筛选，构建实验数据集，共获得940张含有裂缝损伤的图像，图像分辨率为640×640，图 4为混凝土坝裂缝图像采集示例。

图 4 混凝土坝裂缝图像采集示例

图选项

首先，为提高YOLOX-DCD网络的鲁棒性，本研究对图像进行数据增强操作，增强方法包括色域调整、添加噪声、水平翻转、亮度调节和旋转。经过人工筛选，将数据集扩充至1 600张，数据增强图像如图 5所示。其次，本研究使用LabelImg标注程序对裂缝损伤进行标注，获得PASCAL VOC格式的标注数据，并将该标注数据存储在xml文件中。最后，将数据集按8∶1∶1的比例进行划分，获得训练集1 280张、验证集160张、测试集160张。

图 5 数据增强图像

图选项

2.2 实验平台

本实验在安装有Ubuntu 18.04系统的工作站上进行，该工作站配备英特尔i9-10850K中央处理器(central processing unit，CPU)和NVIDIA 2080 Ti显卡，运行内存128 G；算法运行环境为CUDA 10.2、Python 3.7和Pytorch 1.2。

2.3 实验参数设置

训练时，为保证网络模型训练至最优，设置训练200轮次，前150轮次开启Mosaic和MixUp数据增强功能，后50轮次关闭Mosaic和MixUp数据增强功能；训练采用随机梯度下降法，动量设置为0.9，权重衰减设为0.000 5；根据显卡内存大小，批大小(batch size)设为8。

2.4 模型评价指标

本研究使用目标检测任务的评价指标评估所提方法的性能，具体包括召回率、精确率、单类别平均精确率、F₁值(F₁-score)、检测速度(frames per second，FPS)和模型大小(model size)。相关计算如下：

$ P = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FP}}}} \times 100{\rm{\% , }} $

(6)

$ R = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}} \times 100{\rm{\% }}, $

(7)

$ {F_1} = 2 \times \frac{{P \times R}}{{P + R}} \times 100{\rm{\% }}, $

(8)

$ {\rm{AP}} = \int_0^1 P (R){\rm{d}}R \times 100\% . $

(9)

其中：P为精确率(precision)，R为召回率(recall)，TP(true positive)为被正确识别的裂缝图像数量，FP(false positive)为被误识别为裂缝的非裂缝图像数量，FN(false negative)为漏检的裂缝图像数量，单类别平均精确率(average precision，AP)为P-R曲线与坐标轴围成的面积。本研究选取IoU=0.5时的AP_0.5对网络模型性能进行评估。

3 结果与讨论 3.1 实验结果

网络模型训练过程的总体损失变化如图 6所示。由图 6可知，在训练的前几个轮次，总体损失迅速下降；随后总体损失缓慢下降并趋于平稳；训练至150轮次时关闭Mosaic和Mixup数据增强功能，总体损失进一步下降，并随着训练轮次增加而逐渐趋于稳定，表明网络训练已收敛。

图 6 网络训练过程的总体损失变化

图选项

3.2 消融实验

为验证各个改进模块对YOLOX-DCD网络的影响，在混凝土坝裂缝数据集上进行消融实验，以YOLOX-m为基准网络，测试不同改进模块对网络性能的影响，所有实验的参数和训练环境均相同，消融实验结果如表 1所示。

表 1 消融实验结果

实验	CIoU	SE	ECA	CBAM	AP_0.5/%	P/%	FPS/(f·s^-1)	模型大小/MB
1	—	—	—	—	88.98	86.81	70	25.28
2	√	—	—	—	89.51	88.99	70	25.28
3	—	—	—	√	90.22	88.79	64	25.67
4	√	√	—	—	89.72	89.51	69	25.47
5	√	—	√	—	90.31	88.52	70	25.28
6	√	—	—	√	90.84	89.10	65	25.67
注：√表示应用该模块。

表选项

表 1中，实验1为基准网络测试结果，实验2和3为改进模块对基准网络性能的影响，实验4—6为网络结构中插入SE、ECA和CBAM模块对整体性能的影响。由实验2和3的结果可知，CIoU损失函数和CBAM模块均提高了网络的检测精度，其中实验2引入了CIoU损失函数，AP_0.5和P值均有提升，且对检测速度和模型大小无影响；实验3在网络中插入CBAM模块，AP_0.5提升了1.24%，P值提高1.98%，提高了网络对裂缝的关注度，进而提高网络对裂缝的检测能力。实验4—6的结果显示，注意力机制可有效增加网络对裂缝特征的注意力权重，抑制其他背景信息，改善网络性能；其中插入CBAM模块对网络整体性能提升最显著，AP_0.5提升了1.86%，P值提高2.29%，这也说明在通道和空间维度对裂缝特征进行注意力加权能提高网络性能。总体上，本文所提出的改进方法(实验6)有效提高了网络的检测精度，并且保持较快的检测速度。

3.3 多种目标检测网络性能对比

为验证YOLOX-DCD的有效性和优越性，本研究对比了其与Faster R-CNN、SSD、YOLOv3、YOLOv4和基准网络YOLOX-m的性能。将以上目标检测神经网络都训练至损失函数收敛、网络性能最佳，并基于测试集对网络性能进行测试。

其他目标检测神经网络和YOLOX-DCD的测试结果如表 2所示，YOLOX-DCD的网络模型大小仅为25.67 MB，检测精度高；AP_0.5达90.84%，且FPS=65，检测速度快，可实现实时检测。YOLOX-DCD相较于基准网络YOLOX-m，由于加入注意力机制使YOLOX-DCD网络检测速度略有降低，但网络的AP_0.5、F₁、P和R值分别提高了1.86%、2.57%、2.29%和2.82%，表明所提改进策略有效提升了网络的裂缝检测能力。与SSD相比，YOLOX-DCD的模型略大，但其他指标均优于SSD，表明YOLOX-DCD检测性能更强、速度更快。在检测精度、检测速度和模型大小方面，YOLOX-DCD均优于Faster R-CNN、YOLOv3和YOLOv4网络。因此，本文所提裂缝检测方法性能更优，速度更快，参数更少。

表 2 其他目标检测神经网络和YOLOX-DCD的测试结果

网络类别	模型大小/MB	AP_0.5/%	F₁/%	P/%	R/%	FPS/(f·s^-1)
Faster R-CNN	136.69	82.50	63.09	48.84	89.07	31
SSD	23.61	82.07	73.74	88.61	63.14	46
YOLOv3	61.95	87.30	83.83	82.16	85.57	48
YOLOv4	64.36	87.05	81.68	88.98	75.49	57
YOLOX-m	25.28	88.98	85.17	86.81	83.60	70
YOLOX-DCD(本文方法)	25.67	90.84	87.74	89.10	86.42	65

表选项

在测试集上使用训练好的多种目标检测神经网络检测图像，部分检测结果如图 7所示，YOLOX-DCD的检测框设置为蓝色，其他网络的检测框设置为红色。由图 7可知，YOLOX-DCD检测出了测试图 1—5的所有裂缝，并且检测框将裂缝区域完全覆盖，而其他5种网络出现了检测结果不准确的情况。对于其他5种网络检测结果不准确的情况，测试图 1、3和5中，YOLOX-m、YOLOv4、YOLOv3和SSD均出现漏检情况，检测效果不佳；测试图 2和4中，除Faster R-CNN外其余网络的检测框都没有实现对裂缝区域的完全覆盖，Faster R-CNN虽然检测出所有裂缝，但是检测框重叠较多，结果不准确。因此，YOLOX-DCD的综合性能优于其他经典目标检测神经网络，对混凝土坝表观裂缝图像的检测能力更强。

图 7 多种目标检测神经网络在测试集上的检测结果

图选项

3.4 不同光照环境下检测效果

由于太阳光照不均匀且闸墩等建筑物遮挡易在溢流坝面形成阴影，故图像易出现明暗不均、阴影遮挡的情况。在强光环境下，光线充足，裂缝特征较明显，易于识别；在弱光昏暗环境中，光线不足，且坝面复杂，图像背景噪声大，增加了裂缝识别难度；在含阴影的图像中，阴影边界明暗交替会导致网络对裂缝识别误判。因此，本研究使用YOLOX-DCD对不同光照情况下的裂缝图像进行检测，检测结果如图 8所示。由图 8可知，本研究所提方法对不同光照环境下拍摄的裂缝图像均取得了高精度的检测结果，这表明该方法可适应不同光照环境下的裂缝检测，具有较强的鲁棒性。

图 8 不同光照环境下裂缝图像检测结果

图选项

3.5 高分辨率图像检测效果

本研究采用的训练数据集图像为640×640的低分辨率图像，实验取得了高精度的检测结果。而无人机机载摄像头或数码相机拍摄的图像为高分辨率图像，因此，为模拟实际直接使用裂缝原始图像的情况，本研究将无人机拍摄的5 184×3 888高分辨率图像输入训练好的网络进行检测，检测结果如图 9所示。由图 9可知，检测结果较好，大部分裂缝都被成功检测出；图 9a中背景复杂斑驳，裂缝特征较模糊，但裂缝均被网络成功检测出；图 9b中存在个别漏检的问题，这是由于高分辨率图像中裂缝像素占比极少、特征不明显，该问题可通过缩短拍摄距离或变换镜头焦距以增强图像中裂缝的特征，进而得到解决。

图 9 高分辨率图像检测结果

图选项

4 结论

本文针对混凝土坝表观裂缝病害，改进了YOLOX网络，提出了一种基于目标检测的裂缝实时检测方法YOLOX-DCD。结合无人机和数码相机拍摄的实际混凝土大坝裂缝图像，自制混凝土坝裂缝图像数据集，对所提方法进行验证。结果表明：本文所提方法具有高效、精确、实时等裂缝检测能力。通过与其他目标检测神经网络的对比实验和多场景测试，得到以下结论：

1) 相较于其他目标检测神经网络，本文所提方法在测试集上的AP_0.5为90.84%，F ₁为87.74%，检测精度更高；FPS为65，检测速度较快；模型大小为25.67 MB，模型较小，可部署在移动端进行裂缝实时检测。

2) 基于YOLOX-m网络，融合CBAM注意力机制，修改定位损失函数为CIoU，可有效提升网络性能，增强网络的裂缝检测能力，相较于YOLOX-m网络，YOLOX-DCD的AP_0.5、F₁、P和R值分别提高了1.86%、2.57%、2.29%和2.82%。

3) 对不同光照环境下拍摄的裂缝图像进行检测，结果表明：YOLOX-DCD可适应不同的光照环境，具有较强的鲁棒性。高分辨率裂缝图像的结果也表明网络检测性能较强。

参考文献

[1]	何金平. 大坝安全监测理论与应用[M]. 北京: 中国水利水电出版社, 2010. HE J P. Dam safety monitoring theory and application[M]. Beijing: China Water Conservancy and Hydropower Press, 2010. (in Chinese)
[2]	吴中如. 重大水工混凝土结构病害检测与健康诊断[M]. 北京: 高等教育出版社, 2006. WU Z R. Safety diagnosis and hidden defects detection of major hydraulic concrete structures[M]. Beijing: Higher Education Press, 2006. (in Chinese)
[3]	WU Z R, LI J, GU C S, et al. Review on hidden trouble detection and health diagnosis of hydraulic concrete structures[J]. Science in China Series E: Technological Sciences, 2007, 50(1): 34-50.
[4]	钮新强. 大坝安全诊断与加固技术[J]. 水利学报, 2007(S1): 60-64. NIU X Q. Technique for diagnosing and strengthening dam safety[J]. Journal of Hydraulic Engineering, 2007(S1): 60-64. (in Chinese)
[5]	苏雨. 基于机器学习的某混凝土坝裂缝成因与预警研究[D]. 长沙: 长沙理工大学, 2017. SU Y. Crack cause and early warning analysis of a concrete dam based on machine learning[D]. Changsha: Changsha University of Science & Technology, 2017. (in Chinese)
[6]	黄朝君, 杨小云, 夏杰. 丹江口初期工程大坝上游面水上裂缝检查与处理[J]. 人民长江, 2015, 46(6): 45-48, 74. HUANG C J, YANG X Y, XIA J. Inspection and treatment of overwater crack of upstream surface of first-stage project of Danjiangkou dam[J]. Yangtze River, 2015, 46(6): 45-48, 74. (in Chinese)
[7]	梅智. 基于无人机图像的混凝土坝表观裂缝监测研究[D]. 大连: 大连理工大学, 2020. MEI Z. Research on the monitoring of concrete dam surface crack based on UAV image[D]. Dalian: Dalian University of Technology, 2020. (in Chinese)
[8]	冯春成, 张华, 汪双, 等. 水电站溢流坝表观裂缝损伤智能检测方法研究[J]. 自动化与仪表, 2021, 36(6): 55-60. FENG C C, ZHANG H, WANG S, et al. Research on intelligent detection method for crack damage of overflow dam of hydropower station[J]. Automation & Instrumentation, 2021, 36(6): 55-60. (in Chinese)
[9]	陈荣敏, 王皓冉, 汪双, 等. 基于无人机的坝面裂纹缺陷智能检测方法[J]. 水利水电科技进展, 2021, 41(6): 7-12. CHEN R M, WANG H R, WANG S, et al. Intelligent detection method of crack defects on dam surface based on UAV[J]. Advances in Science and Technology of Water Resources, 2021, 41(6): 7-12. (in Chinese)
[10]	王琳琳, 李俊杰, 康飞, 等. 基于无人机图像拼接技术的大坝健康监测方法[J]. 人民长江, 2021, 52(12): 236-240. WANG L L, LI J J, KANG F, et al. Dam health monitoring method based on image mosaic technology of unmanned aearial vehicle[J]. Yangtze River, 2021, 52(12): 236-240. (in Chinese)
[11]	陈从平, 聂葳, 吴喆, 等. 基于视觉机器人的大坝水下表面裂缝检测系统设计[J]. 三峡大学学报(自然科学版), 2016, 38(5): 72-74, 86. CHEN C P, NIE W, WU Z, et al. Design of underwater dam surface crack detection system based on visual robot[J]. Journal of China Three Gorges University (Natural Sciences), 2016, 38(5): 72-74, 86. (in Chinese)
[12]	LI Y T, BAO T F, HUANG X J, et al. Underwater crack pixel-wise identification and quantification for dams via lightweight semantic segmentation and transfer learning[J]. Automation in Construction, 2022, 144: 104600.
[13]	FENG C C, ZHANG H, WANG H R, et al. Automatic pixel-level crack detection on dam surface using deep convolutional network[J]. Sensors, 2020, 20(7): 2069.
[14]	DUNG C V, ANH L D. Autonomous concrete crack detection using deep fully convolutional neural network[J]. Automation in Construction, 2019, 99: 52-58.
[15]	陈波, 张华, 汪双, 等. 基于全卷积神经网络的坝面裂纹检测方法研究[J]. 水力发电学报, 2020, 39(7): 52-60. CHEN B, ZHANG H, WANG S, et al. Study on detection method of dam surface cracks based on full convolution neural network[J]. Journal of Hydroelectric Engineering, 2020, 39(7): 52-60. (in Chinese)
[16]	任秋兵, 李明超, 沈扬, 等. 水工混凝土裂缝像素级形态分割与特征量化方法[J]. 水力发电学报, 2021, 40(2): 234-246. REN Q B, LI M C, SHEN Y, et al. Pixel-level shape segmentation and feature quantification of hydraulic concrete cracks based on digital images[J]. Journal of Hydroelectric Engineering, 2021, 40(2): 234-246. (in Chinese)
[17]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 21-37.
[18]	REDOMN J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 779-788.
[19]	GIRSHICK R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.
[20]	CHA Y J, CHOI W, SUH G, et al. Autonomous structural visual inspection using region-based deep learning for detecting multiple damage types[J]. Computer-Aided Civil and Infrastructure Engineering, 2018, 33(9): 731-747.
[21]	WANG N N, ZHAO X F, ZHAO P, et al. Automatic damage detection of historic masonry buildings based on mobile deep learning[J]. Automation in Construction, 2019, 103: 53-66.
[22]	XU Y, WEI S Y, BAO Y Q, et al. Automatic seismic damage identification of reinforced concrete columns from images by a region-based deep convolutional neural network[J]. Structural Control and Health Monitoring, 2019, 26(3): e2313.
[23]	章世祥, 张汉成, 李西芝, 等. 基于机器视觉的路面裂缝病害多目标识别研究[J]. 公路交通科技, 2021, 38(3): 30-39. ZHANG S X, ZHANG H C, LI X Z, et al. Study on multi-objective identification of pavement cracks based on machine vision[J]. Journal of Highway and Transportation Research and Development, 2021, 38(3): 30-39. (in Chinese)
[24]	GE Z, LIU S T, WANG F, et al. YOLOx: Exceeding yolo series in 2021[J/OL]. arXiv. (2021-08-06)[2022-10-31]. https://arxiv.org/abs/2107.08430.
[25]	WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]// Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 3-19.
[26]	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: Faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 12993-13000.

文章信息

工作空间