基于深度学习的复杂地层钻孔图像岩体结构面识别方法
吴金1, 吴顺川1,2,3,4, 王焘2,3,4, 席雅允1    
1. 北京科技大学 土木与资源工程学院,北京 100083;
2. 昆明理工大学 国土资源工程学院,昆明 650093;
3. 自然资源部高原山地地质灾害预报预警与生态保护修复重点实验室,昆明 650093;
4. 云南省高原山地地质灾害预报预警与生态保护修复重点实验室,昆明 650093
摘要:基于钻孔电视图像的结构面调查是一种应用广泛的勘测方法,可为岩体质量评价和工程设计提供基础数据支撑。然而,复杂地层中结构面形态各异,宽度差异大且对比度低,传统算法难以准确完整地识别。为此,该文提出一种基于改进的U-Net网络模型的钻孔电视图像结构面识别方法。首先,采用更深层次的编码-解码网络结构,处理对比度低导致的结构面局部断裂问题,并结合通道注意力机制和残差模块提高编码阶段各层级对结构面特征的提取能力。其次,在较低层级跳跃连接中引入多尺度空间注意力模块,提高对复杂形态结构面处理能力,丰富编码层结构面语义特征;同时,通道注意力也被用于充分融合来自编码层和解码层的多通道结构面信息。然后,通过利用与地质作用下地层变形类似的透视变形等方式扩增钻孔图像数据,并结合焦点损失和Dice损失进行联合训练,以减轻图像数据不平衡问题,增强网络泛化能力。最后,将同一钻孔图像作为训练集,邻近钻孔图像作为测试集进行消融和对比实验。结果表明,相比于已有相关网络模型,该文所提方法能更有效地针对复杂地层钻孔图像,较准确、完整地识别各类岩体结构面,精确率和召回率均超过77.00%,比改进前的U-Net网络分割效果分别提高了7.96%和14.99%。该文方法可为现场结构面钻孔调查以及岩体质量评价提供技术支撑。
关键词钻孔图像    结构面识别    深度学习    U-Net神经网络    注意力机制    
Deep learning-based method for rock discontinuity recognition in complex stratum borehole images
WU Jin1, WU Shunchuan1,2,3,4, WANG Tao2,3,4, XI Yayun1    
1. School of Civil and Resources Engineering, University of Science and Technology Beijing, Beijing 100083, China;
2. Faculty of Land Resources Engineering, Kunming University of Science and Technology, Kunming 650093, China;
3. Key Laboratory of Geohazard Forecast and Geoecological Restoration in Plateau Mountainous Area, Ministry of Natural Resources of the People's Republic of China, Kunming 650093, China;
4. Yunnan Key Laboratory of Geohazard Forecast and Geoecological Restoration in Plateau Mountainous Area, Kunming 650093, China
Abstract: [Objective] Discontinuities are vital components of rock mass, significantly affecting its strength, deformation, and seepage characteristics. They provide essential parameters for rock mass classification and engineering design. Borehole television technology is a widely used method for capturing these discontinuities within the rock mass, offering high-resolution in situ images. However, in complex strata, the discontinuities appear in various morphologies with significant width differences. Coupled with the rapid texture changes on rock wall faces, these discontinuities create a highly uneven contrast, making it challenging for traditional algorithms to recognize them accurately. To address this challenge, this study introduces an improved deep learning network model specifically designed for borehole images of complex strata. [Methods] The proposed model, based on the U-Net architecture, incorporates a deeper encoding-decoding network structure. This structure effectively handles semantic information related to discontinuity breaks caused by uneven contrast. The model integrates channel attention mechanisms and residual modules, enhancing feature extraction capabilities at different levels in the encoding stage. In addition, the channel attention mechanism fuses multichannel discontinuity information from both encoding and decoding layers. A multiscale spatial attention module introduced in the lower-level skip connection improves the ability to process complex morphological discontinuities and enriches the semantic features of discontinuities in the coding layer. In this study, the borehole image data are augmented in various ways, such as using perspective deformation similar to the stratum deformation under geological action. This study also employs joint training with focal loss and Dice loss to handle imbalanced image data. The generalization ability of the network model is thoroughly validated through ablation studies and comparative experiments using the same borehole image as the training set and neighboring borehole images as the test set. For comprehensive quantitative evaluation, this study uses several metrics, including precision, recall, F1-Score, and F2-Score. [Results] Our experimental evaluation, conducted on a self-made borehole image dataset, indicated that compared to several common image segmentation network models, our proposed model significantly improved the recognition capability of rock discontinuities in borehole images from complex strata while ensuring faster computational efficiency. The precision and recall on the test set for the proposed model reached 78.23% and 77.85%, respectively. This marked an improvement in segmentation performance by 7.96% and 14.99%, respectively, compared with the basic U-Net model. Both the F1-Score and F2-Score were close to 78%. Although the model size was 18.13 MB and had approximately twice the parameters of the base U-Net, the deeper network hierarchy reduced the number of channels of shallow high-resolution feature maps, resulting in a reduction in computational load. The model achieved an FPS of 85, which was slightly higher than that of the basic U-Net model. [Conclusions] This study meticulously improves upon the basic U-Net model by strategically incorporating the attention mechanism, residual connections, and multiscale convolutions. The improved model exhibits high accuracy and robustness. It effectively confronts the challenges associated with balancing detailed features and high-level semantics owing to significant width differences in discontinuities within complex strata. Furthermore, it addresses issues related to incomplete extraction of discontinuities caused by uneven contrast between discontinuities and rock wall surfaces. As such, this improved model provides strong technical support for the automatic identification of rock discontinuities in on-site borehole investigations.
Key words: borehole images    rock discontinuity recognition    deep learning    U-Net network    attention mechanism    

结构面是岩体的重要组成部分,显著影响岩体的强度、变形和渗流等特性,在岩体质量分级(rock mass rating,RMR)、Q(rock mass quality)分级和地质强度指标(geological strength index,GSI)等应用广泛的工程岩体分级方法中扮演了重要角色[1]。在隧道、边坡、采矿及水利水电等岩体工程中,通常采用露头或钻孔调查的方式测绘岩体表面和内部结构面[2-3]。其中,钻孔摄像技术能够准确获取岩体内部的高精度图像,直观反映和记录结构面原位特征信息,发展快速且应用广泛[4-6]

对于钻孔勘探工作,一个钻孔中的图像可能包含数十米深岩层状况,人工观测和判读数量繁多的钻孔图像结构面非常耗时,效率低且主观性强[7]。随着计算机视觉技术在岩体工程领域逐步应用和发展,从钻孔图像中自动识别岩体结构面得到深入研究,传统数字图像处理技术主要涉及阈值分割和边缘提取[8-9]。吴剑等[10]对比分析了利用C均值聚类、模糊C均值聚类以及最大类间方差等方法得到的结构面分割结果,建议采用最大类间方差算法确定全局阈值进行图像分割。Li等[11]利用岩土界面、岩溶结构与基岩的颜色差异,建立了HSV(hue, saturation, value)颜色空间模型快速分割钻孔图像,极大地提高了识别效率。直接利用阈值二值化图像提取结构面通常会导致结果中混入较多噪声,因此,除直接利用像素强度外,汪进超等[12]引入梯度算子增强钻孔图像,并提出改进方差法进行图像分割,结合Canny算子检测结构面边缘以便进一步拟合。考虑最大类间方差法难以适用于目标和背景像素数量差异较大的小型结构面,李清波等[13]利用图像的梯度均值和标准差,提出了一种基于边缘信息的自适应图像分割方法,该方法可较好地提取破碎岩体和小型结构面。为优化结构面提取时图像分割与参数提取步骤,邹先坚等[14]根据灰度值和梯度值划分结构面区域和拟合参数范围,通过正弦函数模板匹配、筛选、再匹配的方式智能提取结构面及其参数。夏丁等[15]指出基于正弦函数模板的单行扫描方案计算效率低,且易遗漏同一高度的结构面,因此,其通过二值边缘矩阵分割兴趣区域,并利用低精度和亚像素级Hough变换相结合的方式分步提取,实现自动检测交错结构面。以上数字图像处理技术主要依赖于结构面的高线性和低灰度2项特征,在对比度较高的钻孔图像中表现良好,然而在复杂地层的钻孔图像中,岩壁纹理杂乱,且结构面颜色深浅不一,识别难度大,仅基于梯度或灰度等低级语义分析难以准确完整地提取结构面。

近十年来,深度学习在图像处理领域快速发展,特别是基于CNN的卷积神经网络在目标检测[16]、图像分类[17]和语义分割[18]等任务中表现优异,一些学者将其应用于钻孔图像的结构面识别。Zhang等[19]在U-Net网络框架基础上,结合ResNet预训练网络提出RUnet新模型用于钻孔电视图像分割,实现了结构面信息的智能量化分析。此外,VGG和ResNet预训练网络也被引入U-Net和SegNet模型中进行对比分析[20],由于钻孔图像结构面较清晰,提取结果相差较小,除直接利用图像分割提取结构面像素的方式,先框定结构面区域再进行拟合的思路也可借助神经网络实现。Han等[21]提出一种改进的基于区域的卷积神经网络Faster R-CNN,以精确定位结构面区域,在此基础上利用简化的Hough变换提取结构面,准确率达91.5%。同时,为考虑结构面类别不均衡导致的神经网络训练不充分等问题,Liu等[22]采用2个相同结构的DeepLabV3+网络分别用于提取正弦、垂直结构面和破碎区域,平均识别精度为88.71%。目前,虽然自动提取钻孔图像中的结构面及相关参数已得到较深入研究,尤其是根据分割结果计算结构面产状、岩体质量指标(rock quality designation, RQD)值以及岩体完整性等[23-25],然而,基于深度学习方法的结构面分割还处于初步探索阶段。一方面,神经网络严重依赖训练数据,现阶段尚无较权威的钻孔图像数据集,阻碍了各种网络模型间的性能比较,尤其对于较复杂地层的钻孔图像,不同孔深度下结构面形态和宽度各异,岩层纹理差异明显,结构面与岩壁面较难区分,网络模型的适用性和泛化能力难以得到有效验证;另一方面,多数研究通常基于现有较简单的网络模型,如何更深入地分析并结合钻孔图像结构面特征设计适合的网络结构,有针对性地在复杂地层钻孔图像中提高结构面识别精度,值得进一步探索。

针对上述问题,本文优选了部分复杂地层中的钻孔图像,针对钻孔图像中结构面形态和宽度变化范围广、对比度差异大等问题,基于U-Net图像分割神经网络设计了一种新的网络模型,以提高结构面识别效果。该网络采用经典的编码-解码对称结构,但具有更深的网络层次,可以更好地处理结构面对比度低导致的局部断裂等语义。在编码阶段,通过增加通道注意力机制和残差模块,更好地提取了各层级结构面特征;此外,在较低层级的跳跃连接中引入多尺度空间注意力机制,提高对复杂结构和形态的结构面检测能力,丰富编码层结构面语义信息;最后,将通道注意力机制应用于解码器中,充分融合浅层结构面细节特征与深层结构面语义特征。通过以上对网络模型的针对性改进和设计,提高其对复杂地层钻孔图像结构面的识别能力。

1 研究方法 1.1 钻孔图像结构面分割网络模型

在基于深度学习的图像分割任务中,编码-解码器网络结构应用广泛,编码阶段通过卷积与池化等交替操作提取多尺度图像特征,通过解码器逐级采样恢复特征图原始尺寸,完成对目标的分割[26]。U-Net图像分割网络是最具代表性的解码-编码网络结构之一,采用对称的结构形式,通过跳跃连接融合同层次下采样和上采样的特征图信息,对捕捉图像细节和语义特征具有较强的泛化能力,尤其是在生物医学领域中,小样本病灶学习等验证了其优异的分割性能[27]

然而,传统的U-Net网络模型在编码阶段能提取不同分辨率下的图像特征,但钻孔图像中结构面分布位置随机,形状起伏和宽度差异大,长距离下采样过程中各层级之间的依赖关系弱,易导致结构面连续性差,提取不完整;另外,在解码和编码同层级信息跳跃连接时,特征图通道数量多,低级特征与高级语义的充分融合难度大,对于复杂背景的钻孔图像,可能产生错误分割。针对以上问题,本文改进了U-Net网络结构,改进后的网络模型如图 1所示。在岩体钻孔图像中,结构面通常在左右方向发育并贯穿图像,且软弱岩层等结构面纵向宽度较大,结构面对比度低导致局部断裂、缺失等问题突出,更深层次的网络结构能充分提取图像高级语义,尽可能保证结构面分割完整,改进的U-Net网络模型中共存在6次最大池化下采样操作,最底层通道数为512。此外,在编码阶段引入通道注意力残差模块(squeeze-and-excitation residual, SER),可以更好地捕捉各种结构面特征,并增强长距离依赖和训练效果;在解码阶段利用卷积通道注意力模块(squeeze-and-excitation convolution, SEC)提高同层级编码和解码器多通道特征图融合效果;在较低层级的跳跃连接中引入多尺度空间注意力模块(receptive field spatial attention module, RSAM),可以丰富编码层结构面高级语义特征。

图 1 改进的U-Net网络模型结构示意

1.2 通道注意力机制

在提取图像特征时,为提高感受野,捕捉不同尺度特征,通常采取在图像下采样的方式进行,并通过增加特征图通道数以弥补下采样过程中丢失的图像信息。大量通道信息繁杂,而通道注意力机制(squeeze-and-excitation,SE)能自适应地学习各通道信息与特征的相关性,通过增强或减弱特定通道响应提高网络模型特征学习效果、抵抗数据噪声[28]

通道注意力机制通过压缩(最大池化)和激励(全连接-ReLU-全连接-Sigmoid)2个步骤获取各通道权重,再与特征图相乘得到加权特征图,如图 2a所示。本文在常规卷积层(Conv(Convolution)-ReLU)中加入SE机制,构建SEC模块用于解码器,如图 2b所示。在此结构基础上,进一步引入残差构建SER模块用于编码器(见图 2a),其中BN (batch normalization) 层仅用于编码阶段,使特征标准化。残差模块[29]通过跳跃连接将原始特征图与加权特征图相加作为输出,卷积(Conv)尺寸为1×1,用于调整原始特征图通道数。C1C2C1C2C3分别表示编码和解码阶段各特征图通道数量,满足2C1=C2C1=2C2=4C3

图 2 SER模块和SEC模块

1.3 多尺度空间注意力机制

在跳跃连接拼接来自编码器和解码器特征图时,解码器特征图部分信息来自最底层,包含的结构面语义可能更高,因此直接拼接可能导致特征难以充分融合。此外,编码器虽然有足够的深度,但同一层级的感受野比较小,难以兼顾复杂形态的结构面。因此,本文在较低层跳跃连接中引入多尺度RSAM。结构面多尺度特征利用RFB(receptive field block)模块[30]提取,如图 3a所示,其通过不同尺寸的卷积核及膨胀卷积叠加模拟人类视觉感受野,从上到下各分支结构的最大感受野分别为3、9和15,加强了特征提取能力。RSAM模块如图 3b所示,其利用SAM(spatial attention mechanisms)[31]将经过RFB模块扩大感受野的特征图作为空间注意力,以增强原图结构面特征。

图 3 RFB模块和RSAM模块

2 实验验证 2.1 数据集构建

图 4展示了一小段连续的具有代表性的实验钻孔图像,图像中结构面以黄色矩形框标选。图中展示了3种类型结构面,最左侧结构面以宽度和起伏不一的软弱夹层呈现,中间结构面张开度较小,而右侧结构面张开明显。此外,在图像的中间位置还存在一些类结构面的纹理。整体上该类钻孔图像岩壁面纹理不均,结构面形态各异,分割难度较大。

图 4 钻孔图像示例

实验选择一个完整钻孔的电视图像制作训练数据集,钻孔深度约34 m,包含17张像素尺寸为760× 6 400的分段彩色钻孔图像,对应的真值标签图像由3位经验丰富的岩土工程师共同标注。整个训练数据集获取流程如图 5所示,训练数据集采取有重叠的裁剪方式制作,裁剪图像大小为380×320,横向和纵向裁剪步距分别为95和80,共获取6 545张像素尺寸为380×320的图像。此外,为防止过拟合,采取Augmentor中翻转、旋转和透视变形等8种增强数据方式[32]图 5显示了各种方式增强数据的效果,对于结构面这类条带状特征,扭曲、透视变形可改变局部线条弯曲程度和方向,该过程类似地质作用下的地层变形,能够很好地实现数据扩增。最终获取58 905张钻孔结构面图像用于网络模型训练。需要特别说明的是,实验中使用的测试集并非来自于该钻孔,而是来自该钻孔周边的钻孔,共裁剪选取测试图像100张,以充分测试网络模型的泛化能力。

图 5 数据集获取与扩增

2.2 训练过程

实验在Windows系统下完成,基于PyTorch深度学习框架,使用GPU加速运算进行训练和推理,GPU型号为NVIDIA RTX3060Ti,显存为32 G。训练图像尺寸为380×320×3,批尺寸为8,最大训练轮次设置为100。优化器采用随机梯度下降法SGD,初始学习率0.01,每25个训练轮次降低90%。训练时所有输入图像均通过通道的均值和标准差进行标准化处理,训练和验证的图像数量比例为0.85∶0.15。数据加载阶段设置了随机种子,保证每次训练过程的训练集和验证集划分相同,以方便对比分析。

2.3 损失函数

对于钻孔图像,一方面,代表结构面的像素数量占比较小,目标与背景像素不均衡,损失函数受结构面像素影响小,难以快速更新网络模型参数;另一方面,由于结构面深浅不一、背景纹理变化快,样本之间结构面识别难易程度不同,如张开度较大、颜色较深的结构面较易识别,损失函数难以聚焦于识别效果较差的样本,影响网络模型泛化能力。因此,为解决样本不均衡的问题,本实验将焦点损失$\mathcal{L}_{\rm{focal}}$和Dice损失$\mathcal{L}_{\rm{dice}}$作为训练的损失函数[33]$\mathcal{L}_{\rm{focal}}$$\mathcal{L}_{\rm{dice}}$和最终损失函数$\mathcal{L}$分别表示如下:

$ \begin{gather*} \mathcal{L}_{\text {focal }}=-\frac{1}{N} \sum\limits_{i=1}^{N}\left(\alpha y_{i}\left(1-p_{i}\right)^{\gamma} \log \left(p_{i}\right)+\right. \\ \left.(1-\alpha)\left(1-y_{i}\right) p_{i}^{\gamma} \log \left(1-p_{i}\right)\right), \end{gather*} $ (1)
$ \mathcal{L}_{\text {dice }}=1-\frac{2|X \cap Y|+\varepsilon_{\text {smooth }}}{|X|+|Y|+\varepsilon_{\text {smooth }}}, $ (2)
$ \mathcal{L}=\mathcal{L}_{\text {focal }}+\mathcal{L}_{\text {dice }}. $ (3)

其中:i为输入钻孔图像的第i个像素索引;N为图像像素总数量;yi为输入图像的第i个像素值;pi为输出图像的第i个像素值,即网络模型预测结果,其值为[0, 1];αγ为引入的超参数,分别用来平衡正负样本和难易样本,实验中采用推荐值,α=0.25,γ=2;XY分别为真值图像和预测图像中结构面像素集合;εsmooth为平滑系数,取值10-5

2.4 评价指标

评价指标用于定量评估和验证神经网络模型的性能,对于图像分割任务,通常采用精确率P和召回率R衡量分割效果,分别表示如下:

$ P=\frac{X_{\mathrm{TP}}}{X_{\mathrm{TP}}+X_{\mathrm{FP}}} \times 100 \%, $ (4)
$ R=\frac{X_{\mathrm{TP}}}{X_{\mathrm{TP}}+X_{\mathrm{FN}}} \times 100 \%. $ (5)

其中:XTP为真阳性,表示成功检测到的真实结构面像素;XFP为假阳性,表示错误地将岩壁面识别为结构面的像素;XFN为假阴性,表示实际存在的漏检的结构面像素。

P定义为图像中被模型正确预测的结构面像素占所有被预测为结构面像素的比例,注重结构面识别的准确性;R表示正确预测的结构面像素占所有实际结构面像素的比例,注重结构面提取完整的能力。由于精确率和召回率相互制约,因此调和平均数F1-Score是常用的综合评价指标。此外,考虑到岩体勘察与工程设计的安全保障要求,可牺牲一定精度保证召回率,进一步引入调和平均数F2-Score以更好地评估模型的整体性能。F1-ScoreF2-Score分别表示如下:

$ F_{1-\text { Score }}=\frac{2 P \times R}{P+R} \times 100 \%, $ (6)
$ F_{2-\text { Score }}=\frac{5 P \times R}{4 P+R} \times 100 \%. $ (7)

其中F2-Score表明召回率的重要性是精确率的2倍。

3 结果与讨论 3.1 实验结果

训练过程中训练集和验证集损失函数值变化如图 6所示,二者在迭代轮次为100时接近且趋于稳定,表明网络模型已收敛,其中,最佳模型用于测试网络性能,部分测试集中钻孔图像分割结果如图 7所示。由图 7可知,本文改进的U-Net网络模型在来自邻近钻孔图像的测试集中具有较好的结构面分割效果,对于多种曲直起伏、宽度不一的结构面识别能力强。此外,对比真值图像和输出结果可知,人工标注的真值受结构面的模糊边界影响,局部毛刺较多,不如输出结果平滑;同时,也存在少量非主要裂隙被成功检测但未人工标注的现象, 这些情形主要源于岩体结构面的复杂性和不确定性。虽然在一定程度上会降低对分割结果的量化评价,但对实际工程分析影响较小。

图 6 损失函数变化曲线

图 7 部分测试集钻孔图像结构面分割结果

3.2 消融实验

本文在分析改进的U-Net网络模型分割结果的基础上设计了消融实验,以验证SER、SEC和多尺度RSAM等模块的有效性。多组实验除网络模型结构不同外,其他训练和测试条件不变,具体如下:1) 采用U-Net作为基准网络;2) 只保留现有改进模型的网络深度,其余与U-Net保持一致,记为U-NetP;3) 在U-NetP模型基础上,在编码阶段引入SER模块;4) 在U-NetP模型基础上,在解码阶段利用SEC模块;5) 在3)的基础上,在解码阶段利用SEC模块;6) 在5)的基础上,在第5层跳跃连接中增加多尺度RSAM,记为Ours。实验结果如表 1所示。

表 1 消融实验结果 
%
实验 模型 P R F1-Score F2-Score
1 U-Net 72.46 67.70 70.00 68.60
2 U-NetP 74.17 74.32 74.24 74.29
3 U-NetP+SER 77.70 75.30 76.48 75.77
4 U-NetP+SEC 76.25 77.50 76.87 77.25
5 U-NetP+SER+SEC 77.88 76.32 77.09 76.63
6 Ours 78.23 77.85 78.04 77.93

表 1中的实验1和2可知,U-Net网络深度的增加显著提升了分割效果,尤其是召回率,增大了9.78%,这表明高级语义特征对钻孔图像结构面分割具有重要意义,能更好地处理大型结构面的识别问题,以及因结构面对比度低导致的分割断裂问题;同时,更高级的语义信息还有助于抑制图像中的局部噪声。实验3—6的结果表明,增加SER模块后,在保证高召回率的同时,较大增加了精确率,即编码阶段对结构面特征的识别能力提高;利用SEC模块后,解码阶段各层级语义充分融合,结构面分割召回率提升明显;引入RSAM模块进一步增强了网络模型同时处理大型结构面和细小结构面的能力,F1-ScoreF2-Score均约78.00%,较原U-Net模型分别提高11.49%和13.60%。综上所述,本文改进模型在多模块配合下显著提升了钻孔图像结构面的分割精度与完整性。

3.3 实验对比

为进一步对比和验证改进的U-Net网络模型在钻孔图像结构面分割的性能,本文选取U-Net、UNet++[34]、DeepLabV3+[35]、Attention U-Net[36]、ResUNet++[37]等网络模型进行对比实验,除网络结构外,其余训练参数保持不变,基于测试集分割结果对各网络模型性能进行评价,结果如表 2所示。基础的U-Net网络分割的精确率为72.46%,召回率为67.70%,整体表现一般,除钻孔图像中结构面和岩壁面低对比度可能导致边界模糊这一原因外,对于宽度、颜色差异较大的结构面分割,网络模型自身适用性较为不足;UNet++网络在精确率和召回率上略有提升;Attention U-Net具有很高的精确率,但召回率降低至65.77%,F1-Score评分和U-Net相近,F2-Score评分最低;DeepLabV3+在精确率和召回率上增加明显,F1-ScoreF2-Score评分分别为74.22%和72.68%,ResUNet++略低于DeepLabV3+。本文所提模型在各项评价指标上表现均最优,与改进前的U-Net相比,精确率和召回率分别提升了7.96%和14.99%。

表 2 多种网络模型结构面分割性能评价
模型 P/% R/% F1-Score/% F2-Score/% 模型大小/MB FPS/(f·s-1)
U-Net 72.46 67.70 70.00 68.60 7.76 68
UNet++ 73.22 69.23 71.17 69.99 9.16 34
DeepLabV3+ 76.94 71.69 74.22 72.68 45.67 54
Attention U-Net 76.45 65.77 70.70 67.66 34.88 21
ResUNet++ 75.07 70.43 72.67 71.31 4.06 47
Ours 78.23 77.85 78.04 77.93 18.13 85

在网络模型大小与推理速度方面,DeepLabV3+包含最多的参数量,Attention U-Net的推理速度最慢。本文改进的U-Net模型大小虽然超过原U-Net模型的2倍,但其处理速度最快,这得益于采用了更深的网络层次,从而使浅层次较大分辨率的特征图的通道数减少,计算量也随之减小。综上所述,本文所提模型不仅较大提高了复杂地层钻孔图像中结构面识别检测能力,而且保持了较高的计算效率。

图 8列举了部分典型钻孔图像在不同网络模型下的分割结果,图 8a8h钻孔图像在结构面宽度、颜色和形态等方面特征明显。图 8a8c中结构面宽度整体较小,起伏度和对比度有所差异;图 8d8f中结构面宽度较大,发育情况不同;图 8g图 8h中均不包含结构面。U-Net在对比度较高的图 8f表现良好,对一些对比度较低的细小结构面(图 8b)及结构面宽度较大的软弱夹层(图 8d)的提取均不完整,分割效果较差。UNet++引入了多尺度融合机制,虽然可使其更好地捕捉较高层级特征,但优势不明显。DeepLabV3+得益于其空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)模块,在宽度较大的结构面识别上连续性较好,如图 8d图 8e所示,但对细小结构面(图 8b图 8c等)的提取效果差。Attention U-Net中的自注意力模块进一步提高了对细节特征的检测,但对宽度较大的结构面分割效果不如U-Net。ResUNet++中融入了残差模块和ASPP模块,结构面特征提取及高级语义处理有所增强,但ASPP模块的空洞现象可能造成局部结构面缺失,如图 8a图 8d等所示。本文提出的改进模型分割结果最好,除了图 8e的左下角和图 8f的右上角等局部有所差别,其余与真值十分接近,可较完整地识别宽大结构面和细小结构面。需要特别说明的是,对于不包含结构面且具有较浅岩壁面线性纹理的图 8g,这些方法均获取了正确的分割结果,而图 8h中存在较深的纹理,判别难度较大,较依赖专家经验,这些方法会存在不同程度的误判,但本文所提模型的错误分割结果较其他方法仍表现出较高的连续性。

图 8 多种网络模型结构面分割结果

4 结论

复杂地层钻孔电视图像中结构面形态各异、对比度低,自动识别面临较大挑战,本文针对性地提出了一种基于改进U-Net的深度学习方法。该方法采用更深层次的编码-解码结构,可以有效处理对比度低可能导致的结构面局部断裂问题。编码阶段利用基于通道注意力机制的残差模块,增强各层级对结构面特征的提取能力。同时,在解码阶段增加通道注意力机制,更充分地融合编码和解码阶段多通道的结构面信息。进一步,在较低层级的跳跃连接中引入多尺度空间注意力机制,通过扩展感受野,丰富编码层的结构面语义特征,以应对形态复杂的结构面。此外,通过对钻孔图像数据进行透视变形等多种方式的扩增,以及采用Focal损失和Dice损失的联合训练抑制数据集不平衡的问题,显著增强了网络结构的泛化能力。

消融实验和对比实验结果表明:相较于现有多种图像分割网络,本文所提改进模型具有很高的准确性和鲁棒性,可以较好地处理复杂地层中结构面宽度差异大导致的细节特征与高级语义难以兼顾的问题,以及结构面与岩壁面对比度低造成结构面提取不完整的问题。在对来自邻近钻孔的钻孔图像进行分割时,精确率和召回率均超过77.00%,可为实际工程中结构面分割提供强有力的技术支撑。

本文采用的测试集图像源自邻近钻孔,如何设计合适的多孔电视图像结构面标签制作策略,在减少标注工作量的同时扩大网络模型对周边钻孔图像的适用性和准确性,并在此基础上完成多钻孔结构面匹配与岩体评价,有待进一步深入研究。

参考文献
[1]
吴顺川, 李利平, 张晓平. 岩石力学[M]. 北京: 高等教育出版社, 2021.
WU S C, LI L P, ZHANG X P. Rock mechanics[M]. Beijing: Higher Education Press, 2021. (in Chinese)
[2]
RIQUELME A J, ABELLÁN A, TOMÁS R, et al. A new approach for semi-automatic rock mass joints recognition from 3-D point clouds[J]. Computers & Geosciences, 2014, 68: 38-52.
[3]
ASSOUS S, ELKINGTON P, CLARK S, et al. Automated detection of planar geologic features in borehole images[J]. Geophysics, 2014, 79(1): D11-D19. DOI:10.1190/geo2013-0189.1
[4]
汪进超, 王川婴, 韩增强, 等. 基于钻孔摄像技术的珊瑚礁完整性评价分析[J]. 中南大学学报(自然科学版), 2016, 47(5): 1619-1624.
WANG J C, WANG C Y, HAN Z Q, et al. Analysis of coral reef integrity based on borehole camera technology[J]. Journal of Central South University (Science and Technology), 2016, 47(5): 1619-1624. (in Chinese)
[5]
BAE D S, KIM K S, KOH Y K, et al. Characterization of joint roughness in granite by applying the scan circle technique to images from a borehole televiewer[J]. Rock Mechanics and Rock Engineering, 2011, 44(4): 497-504. DOI:10.1007/s00603-011-0134-9
[6]
王川婴, 钟声, 孙卫春. 基于数字钻孔图像的结构面连通性研究[J]. 岩石力学与工程学报, 2009, 28(12): 2405-2410.
WANG C Y, ZHONG S, SUN W C. Study of connectivity of discontinuities of borehole based on digital borehole images[J]. Chinese Journal of Rock Mechanics and Engineering, 2009, 28(12): 2405-2410. (in Chinese)
[7]
AL-SIT W, Al-NUAIMY W, MARELLI M, et al. Visual texture for automated characterisation of geological features in borehole televiewer imagery[J]. Journal of Applied Geophysics, 2015, 119: 139-146. DOI:10.1016/j.jappgeo.2015.05.015
[8]
OTSU N. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI:10.1109/TSMC.1979.4310076
[9]
CANNY J. A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679-698. DOI:10.1109/TPAMI.1986.4767851
[10]
吴剑, 冯少孔, 李宏阶. 钻孔成像中结构面自动判读技术研究[J]. 岩土力学, 2011, 32(3): 951-957.
WU J, FENG S K, LI H J. Study of automatically extracting structural plane parameters from borehole images[J]. Rock and Soil Mechanics, 2011, 32(3): 951-957. (in Chinese)
[11]
LI L, YU C, HAN Z Q, et al. Automatic identification of the rock-soil interface and solution fissures from optical borehole images based on color features[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(10): 3862-3873. DOI:10.1109/JSTARS.2019.2940513
[12]
汪进超, 王川婴, 胡胜, 等. 孔壁钻孔图像的结构面参数提取方法研究[J]. 岩土力学, 2017, 38(10): 3074-3080.
WANG J C, WANG C Y, HU S, et al. A new method for extraction of parameters of structural surface in borehole images[J]. Rock and Soil Mechanics, 2017, 38(10): 3074-3080. (in Chinese)
[13]
李清波, 杜朋召. 基于边缘阈值分割的钻孔图像RQD自动分析方法研究[J]. 岩土工程学报, 2020, 42(11): 2153-2160.
LI Q B, DU P Z. Automatic RQD analysis method based on information recognition of borehole images[J]. Chinese Journal of Geotechnical Engineering, 2020, 42(11): 2153-2160. (in Chinese)
[14]
邹先坚, 王川婴, 韩增强, 等. 全景钻孔图像中结构面全自动识别方法研究[J]. 岩石力学与工程学报, 2017, 36(8): 1910-1920.
ZOU X J, WANG C Y, HAN Z Q, et al. Fully automatic identifying the structural planes with panoramic images of boreholes[J]. Chinese Journal of Rock Mechanics and Engineering, 2017, 36(8): 1910-1920. (in Chinese)
[15]
夏丁, 葛云峰, 唐辉明, 等. 数字钻孔图像兴趣区域分割与岩体结构面特征识别[J]. 地球科学, 2020, 45(11): 4207-4217.
XIA D, GE Y F, TANG H M, et al. Segmentation of region of interest and identification of rock discontinuities in digital borehole images[J]. Earth Science, 2020, 45(11): 4207-4217. (in Chinese)
[16]
张新钰, 高洪波, 赵建辉, 等. 基于深度学习的自动驾驶技术综述[J]. 清华大学学报(自然科学版), 2018, 58(4): 438-444.
ZHANG X Y, GAO H B, ZHAO J H, et al. Overview of deep learning intelligent driving methods[J]. Journal of Tsinghua University (Science and Technology), 2018, 58(4): 438-444. DOI:10.16511/j.cnki.qhdxxb.2018.21.010 (in Chinese)
[17]
LI S T, SONG W W, FANG L Y, et al. Deep learning for hyperspectral image classification: An overview[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6690-6709. DOI:10.1109/TGRS.2019.2907932
[18]
HAO S J, ZHOU Y, GUO Y R. A brief survey on semantic segmentation with deep learning[J]. Neurocomputing, 2020, 406: 302-321. DOI:10.1016/j.neucom.2019.11.118
[19]
ZHANG Y, CHEN J Q, LI Y L. Segmentation and quantitative analysis of geological fracture: A deep transfer learning approach based on borehole televiewer image[J]. Arabian Journal of Geosciences, 2022, 15(3): 300. DOI:10.1007/s12517-022-09536-y
[20]
ZHANG Y, CHEN J Q, LI Y L, et al. Deep ensemble learning for quantitative geological fracture analysis using borehole televiewer images[J]. Journal of Applied Geophysics, 2023, 213: 105046. DOI:10.1016/j.jappgeo.2023.105046
[21]
HAN S Y, XIAO X, SONG B Y, et al. Automatic borehole fracture detection and characterization with tailored faster R-CNN and simplified Hough transform[J]. Engineering Applications of Artificial Intelligence, 2023, 126: 107024. DOI:10.1016/j.engappai.2023.107024
[22]
LIU C C, KIM J, SONG J J, et al. Intelligent recognition and identification of fracture types and parameters for borehole images based on developed convolutional neural networks and post-processing[J]. Engineering Fracture Mechanics, 2023, 292: 109624. DOI:10.1016/j.engfracmech.2023.109624
[23]
黄达, 钟助. 基于单个钻孔孔壁电视图像确定地下岩体结构面产状的普适数学方法[J]. 地球科学——中国地质大学学报, 2015, 40(6): 1101-1106.
HUANG D, ZHONG Z. A universal mathematical method for determining the occurrence of underground rock discontinuity based on TV picture of wall of a single borehole rock discontinuity based on TV picture of wall of a single borehole[J]. Earth Science-Journal of China University of Geosciences, 2015, 40(6): 1101-1106. (in Chinese)
[24]
韩增强, 王川婴, 周济芳, 等. 基于钻孔图像的孔壁岩体完整性计算及在裂隙岩体灌浆效果评价中的应用[J]. 岩土工程学报, 2016, 38(S2): 245-249.
HAN Z Q, WANG C Y, ZHOU J F, et al. Calculation of borehole wall rock integrity based on borehole images and its application in evaluation of grouting effect in fractured rock mass[J]. Chinese Journal of Geotechnical Engineering, 2016, 38(S2): 245-249. (in Chinese)
[25]
张帅军, 汪进超, 韩增强. 基于钻孔图像的结构面分布分维数计算方法[J]. 人民长江, 2020, 51(5): 203-209.
ZHANG S J, WANG J C, HAN Z Q. Fractal dimension calculation method on rock mass structural plane distribution based on borehole image[J]. Yangtze River, 2020, 51(5): 203-209. (in Chinese)
[26]
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[27]
RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation [C]// 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015: 234-241.
[28]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 7132-7141.
[29]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.
[30]
LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection [C]// Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 404-419.
[31]
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 3-19.
[32]
BLOICE M D, ROTH P M, HOLZINGER A. Biomedical image augmentation using Augmentor[J]. Bioinformatics, 2019, 35(21): 4522-4524. DOI:10.1093/bioinformatics/btz259
[33]
周迅, 李永龙, 周颖玥, 等. 基于改进DeepLabV3+网络的坝面裂缝检测方法[J]. 清华大学学报(自然科学版), 2023, 63(7): 1153-1163.
ZHOU X, LI Y L, ZHOU Y Y, et al. Dam surface crack detection method based on improved DeepLabV3+ network[J]. Journal of Tsinghua University (Science and Technology), 2023, 63(7): 1153-1163. DOI:10.16511/j.cnki.qhdxxb.2023.26.006 (in Chinese)
[34]
ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: A nested U-Net architecture for medical image segmentation [C]// 4th International Workshop on Deep Learning in Medical Image Analysis and 8th International Workshop on Multimodal Learning for Clinical Decision Support. Granada, Spain: Springer, 2018: 3-11.
[35]
CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [J/OL]. arXiv. (2017-12-05) [2023-07-12]. arXiv: 1706.05587v3.
[36]
OKTAY O, SCHLEMPER J, LE FOLGOC L, et al. Attention U-Net: Learning where to look for the pancreas [J/OL]. arXiv. (2018-05-20) [2023-06-16]. arXiv: 1804.03999v3.
[37]
JHA D, SMEDSRUD P H, JOHANSEN D, et al. A comprehensive study on colorectal polyp segmentation with ResUNet++, conditional random field and test-time augmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 25(6): 2029-2040. DOI:10.1109/JBHI.2021.3049304