Research on small target fire detection model based on improved YOLOv5

Fangpu LI; Xue RUI; Zijun LI; Weiguo SONG

doi:10.16511/j.cnki.qhdxxb.2025.27.004

Journal of Tsinghua University(Science and Technology) >

2025 , Vol. 65 >Issue 4: 655 - 663

DOI: https://doi.org/10.16511/j.cnki.qhdxxb.2025.27.004

Fire in Forests

Research on small target fire detection model based on improved YOLOv5

Fangpu LI ¹ ,
Xue RUI ² ,
Zijun LI ³ ,
Weiguo SONG ^,¹^,*

Expand

1. State Key Laboratory of Fire Science, University of Science and Technology of China., Hefei 230026, China
2. School of Emergency Management, Nanjing University of Information Science and Technology., Nanjing 210044, China
3. School of Resources and Safety Engineering, Central South University., Changsha 410083, China

Received date: 2024-10-28

Online published: 2025-03-27

Copyright

Fold

Abstract

Objective: Fires are disaster events with destructive power. In relation to fire-related accidents, fire monitoring is one of the effective measures to reduce the casualties and economic losses caused by such incidents. Compared to traditional methods in fire monitoring, target detection has shown its strengths in terms of cost and outcome. Many researchers have investigated various ways to improve the efficiency of target detection by proposing new algorithms. Thus, numerous algorithms suited for fire monitoring applications have been proposed. However, these typically lack the capacity to detect small targets, which is the main characteristic of flame targets in incipient fires. To enhance the capacity to detect small targets for fire target detection, this paper improved the YOLOv5 algorithm and trained a model based on it with corresponding datasets collected. Methods: First, a fire image dataset with small target scene conditions is prepared for model training and performance testing. In the validation set, eight sets of mutually exclusive sub-datasets of environmental conditions are divided for the purpose of performance testing. Second, three improvements are introduced to improve the YOLOv5 algorithm: a) expansion of the multiscale detection layer to improve its receptive resolution; b) enhancement of the multiscale feature extraction capability by embedding the Swin transformer module, thus reducing the cost of calculation in algorithm deployment; and c) optimization of the postprocessing function by replacing the original algorithm with soft-NMS algorithm to maintain more potential adjacent targets. Next, an improved model YOLOv5s-SSS (swin transformer with soft-NMS for small target) is proposed. To verify the effect of every improvement and their contributions to the final model, the new model is evaluated using four sets of ablation experiments. After parameter optimization, a set of fire images is inputted into the models in the ablation experiment to compare and verify their outputs. Results: The ablation experimental results indicate that, first, all the improvements introduced into the algorithm are valid. Furthermore, the average accuracy of the improved model is 16.3% higher than that of the original algorithm in flame image targets under challenging scene conditions and 5.9% higher in normal-sized image targets. The verification result shows, compared to the original model, the improved model has obvious improvements in terms of reducing the location range of fire targets, thus minimizing the missing detection of small-sized and densely-distributed fire targets and clearly dividing densely or overlapping distributed fire targets. Conclusions: The dataset prepared in this paper can effectively support the training and testing of the improved fire detection algorithm model. Furthermore, the proposed model improvement has been shown to work effectively, along with the reliable performance test, thus providing a new improvement scheme for fire image detection technology. It can also serve as a reference in improving efficiency in various applications, such as accurate positioning of fire points in incipient forest fires and remote sensing monitoring of large-scale fires. However, the overall accuracy of the improved model is relatively low, possibly due to the images in the validation set being deliberately limited to small targets to assess the model's improvement. In the future, more improvements should be introduced to enhance the model's detection ability under various scenarios, such as low-light conditions, so that it can be adequate for industrial applications.

Key words： deep learning; image recognition; fire monitoring; YOLOv5; small target object detection

Cite this article

Fangpu LI , Xue RUI , Zijun LI , Weiguo SONG . Research on small target fire detection model based on improved YOLOv5[J]. Journal of Tsinghua University(Science and Technology), 2025 , 65(4) : 655 -663 . DOI: 10.16511/j.cnki.qhdxxb.2025.27.004

火灾是一种破坏力极大的灾害，研究火灾监测技术是防范和控制早期火灾，降低人员和财产损失的有效措施之一。随着深度学习领域的快速发展，目标检测方法在火灾监测中比传统方法展现了明显的成本和技术优势。

深度学习、卷积神经网络(convolutional neural networks, CNN)等概念的提出，为研究更加精确、高效的目标检测方法提供了新的理论基础^[1]。目前，深度学习技术在目标检测领域主要有2种方法：二阶段目标检测和单阶段目标检测。前者的运算速度低于后者，但其准确度优于后者。

Redmon等^[2]在2016年提出了一种单阶段目标检测算法YOLO (you only look once)。该算法将图形分为多个网格分别预测目标，运算速度获得大幅提升。经过一系列的改进^[3]，Redmon ^[4-6]在2020年6月提出了YOLOv5算法。YOLOv5算法嵌入自适应锚框计算，引入Focus结构，在减少计算量的同时提升了检测精确率。因代码开源且容易在多平台进行使用部署，YOLOv5算法被广泛应用于科研和工业开发。

然而，YOLOv5算法针对小目标的预测能力较弱，对密集目标预测效果不佳，难以很好完成早期火灾的监测任务。已有研究基于YOLOv5算法通过优化结构^[7]、嵌入注意力模块^[8]、强化数据预处理^[9]等方式实现了检测能力的提升，但提升策略较大程度上受到目标特征的影响，无法直接应用至火灾监测中。因此，现阶段的火灾图像目标检测方法在小目标、低光照条件等具有挑战性的场景下的表现仍有待改进，且缺乏专门的公开数据集对其相应性能进行评估。

本文针对YOLOv5算法在小目标场景下预测能力较弱的问题，构建了一种基于改进YOLOv5算法的火灾目标检测模型YOLOv5s-SSS(swin transformer with soft-NMS for small target)，对多尺度、密集分布条件下的小目标火焰图像检测模型展开研究。

1 数据集制备与再划分

1.1 数据集构建

目前的研究缺乏针对小目标火焰图像识别检测的公开数据集。本研究以小目标火焰为对象，通过整合中国科学技术大学火灾科学国家重点实验室RGB-Thermal Wildfire数据集^[10]、北亚利桑那大学FLAME数据集^[11]以及各类机器学习交流平台上提供的Wildfire Smoke公开数据集^[12]、BoWFire公开数据集^[13]等获得多种场景下的大量火焰烟雾图像；随后使用标注软件LabelMe对图像中的火焰、烟雾2类目标进行统一标注，为图像内目标生成像素级的图像标签；最终形成包括11 582张图像的火灾图像数据集。

1.2 数据集再划分

已有研究通常将目标框的宽和高均小于图像的宽和高的1/10的目标认定为小目标^[14]。因此，从1.1节构建的数据集中筛选出符合该要求的778张目标检测图像，形成小目标火焰图像数据集作为本研究的测试集，余下图像作为训练集。训练集与验证集的比例约为14∶1。本研究测试集的部分图像如图 1所示，图中红色框内为烟雾目标，橙色框内为火焰目标，可以看出数据集中存在尺寸较小的目标以及与背景环境界限模糊的火焰、烟雾对象，且目标存在密集分布、互相堆叠遮挡等现象。

显示原图|下载原图ZIP|生成PPT

图 1 验证集部分图像展示

为了进一步测试模型在不同场景中的泛化性能，本研究对测试集进行了4次再划分，设置了4对环境条件互斥(不良照度-适宜照度、航拍视角-地面视角、室内环境-室外环境、林草火灾-其他火灾)的8组子数据集，子数据集的特征信息如表 1所示。

表 1 验证集子数据集特征信息

互斥环境条件组	数据比例
不良照度-适宜照度	238张(30.6%)∶540张(69.4%)
航拍视角-地面视角	86张(11.1%)∶692张(88.9%)
室内环境-室外环境	22张(2.8%)∶756张(97.2%)
林草火灾-其他火灾	373张(47.9%)∶405张(52.1%)

2 YOLOv5s-SSS模型

2.1 模型概述

本研究对比了多种目标检测技术改进方案，结合火灾图像早期火焰目标尺寸小、分布密集等特点和YOLOv5算法分辨率欠缺、细节提取能力弱、密集目标预测效果不佳等问题，提出了基于YOLOv5算法的火灾目标检测模型YOLOv5s-SSS(swin transformer with soft-NMS for small target)。本研究选取YOLOv5算法下的轻量版本模型YOLOv5s，以该模型的基础代码集成实现改进方案，主要针对算法的输出端结构、骨干网络模块以及后处理损失函数3个方面进行改进。YOLOv5s-SSS模型的总体架构如图 2所示，主要改进结构由红框标出。由图可知，在输出端，YOLOv5s-SSS模型将YOLOv5s模型多尺度检测层的3层结构拓展为4层结构，将骨干网络底层的2个C3模块嵌入swin transformer模块^[15]后得到C3STR模块；将损失函数由原本的NMS(non maximum suppression)改进为soft-NMS ^[16]。以下针对3方面的改进进行逐一介绍。

显示原图|下载原图ZIP|生成PPT

图 2 YOLOv5s-SSS模型的网络结构

2.2 拓展多尺度检测层

早期火灾发生时，火焰在采集到的图像中常以小目标的形式呈现。YOLOv5s模型一般将输入图像的尺寸统一转化为640像素×640像素后输入模型，经多次卷积处理提取特征后，即使分辨率最高的检测头也对图像进行了8倍下采样，这表明YOLOv5算法很难在图像内尺寸小于或接近8像素×8像素的目标上提取到有效的特征信息，导致漏检问题。

为解决此问题，本研究在YOLOv5s模型的多尺度检测层结构中添加了一个4倍下采样探测头，可额外得到尺寸为160像素×160像素的微小尺度感受野特征图，提升感受野分辨率，以支撑小目标火焰图像检测。本文将新增的探测头依照结构原有顺序命名为P2，添加P2检测头后的YOLOv5s模型整体网络结构如图 3所示，主要改进结构由红框标出。

显示原图|下载原图ZIP|生成PPT

图 3 添加P2检测头后的YOLOv5s模型网络结构

2.3 嵌入swin transformer模块

在早期火灾中，受风向、可燃物等条件影响，图像中小目标场景火焰常伴随相似尺寸甚至相对尺寸偏大的火焰的出现，存在火焰形状与颜色特征单一、火焰大小不一的特点，常出现漏检、目标分割紊乱等问题，为密集分布和多尺度检测带来挑战。

注意力模块对处理密集分布预测任务和提升模型多尺度特征提取能力有一定作用，本研究将swin transformer模块嵌入YOLOv5s模型的C3模块中。swin transformer模块是一种注意力模块，由Liu等^[15]于2021年提出，其主要思路为以分层级的方式设置不同尺寸的感受野，以解决目标尺度差异较大与固定的检测头感受野之间的矛盾；利用滑动窗口遍历图像，将自注意力计算限制于不重叠的窗口之中以减少计算量。

本文具体改进方案如图 4所示，主要改进结构由红框标出，由图可知，将YOLOv5s模型中的C3模块内的BottleNeck模块替换为swin transformer^[15]模块，得到C3STR模块，其在取代全局注意力计算的同时保留了更多的上下文信息，在提升模型准确度的同时也有效减少了计算量，提升了模型的综合性能。

显示原图|下载原图ZIP|生成PPT

图 4 C3STR模块改进示意图

2.4 优化后处理函数

早期火灾图像往往呈现出火点密集分布、图像堆叠遮挡等问题，在野外火灾中，由于可燃物分布较为集中，这一现象更为显著。YOLOv5s模型使用的后处理函数是NMS算法，其会将模型为目标生成的邻近置信度较低的预测框全部置零删除，当目标密集分布或遮挡重叠出现时，使用YOLOv5s模型可能会带来较大的漏报率，邻近的火焰目标易被漏检。

适合的损失函数能帮助模型在训练中更高效地实现收敛，提升检测准确率。2017年，Navaneeth等^[16]基于NMS算法改进出soft-NMS算法。soft-NMS算法在处理重叠预测框时与NMS算法不同，其可根据各预测框与最佳预测框的距离，赋予各预测框一个较低的分数进行再次判断，通过循环逐步降低重复框的置信度直至被剔除，从而更多地保留可能存在的重叠目标预测框，更准确且低冗余地检测目标位置。这与本研究提升小目标场景火灾的精确率的目标相符，因此本研究将YOLOv5s模型的NMS算法替换为soft-NMS算法。

3 实验与验证

3.1 实验环境配置

实验运行环境配置情况如下：图形处理器为NVIDIA GeForce RTX 4060 Laptop GPU，显存为8 GB；中央处理器为AMD Ryzen 97945HX，内存为16 GB；操作系统为Windows 11；编译环境为Python 3.8.19，PyTorch 2.2.1，CUDA 11.8。代码运行参数配置情况如表 2所示。

表 2 代码运行参数配置

参数名称	实验配置
初始学习率	0.01
迭代次数	300次
批次大小	4张
优化器	SGD
无增长提前终止轮数	100轮
网络输入尺寸	640像素×640像素

3.2 评价指标

为方便定义各指标，将检测目标分为正样本和负样本，若正样本被正确识别为正样本则称为真阳性(true positives，TP)，若正样本被错误识别为负样本则称为假阴性(false negatives，FN)，即漏检；若负样本被正确识别为负样本则称为真阴性(true negatives，TN)，若负样本被错误识别为正样本则称为假阳性(false positives，FP)，即错检。各指标的定义如下：

1) 精确率P，表示被预测为正样本的结果中真正是正样本的比例，计算公式为

(1)

$P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}.$

2) 召回率R，表示被预测为正样本的结果中预测正确的占所有实际为正样本的比例，计算公式为

(2)

$R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}.$

其中：TP、FP、FN分别为真阳性、假阳性、假阴性的样本数。

P和R具有较强的相关性，绘制P-R曲线可以直观展现二者关系。在理想条件下，P和R均接近于1时表明模型的精确率高、漏检率低。

3) 平均精确率AP，表示在不同R条件下P的均值，数值上对应为P-R曲线的面积积分，表示正确预测某一类目标的概率(精确率)。

4) 平均AP值mAP，表示所有预测类别的AP的平均值，反映了整个模型的检测效果。

3.3 消融实验

本研究首先设计了4组消融实验，用于测试提出的3方面改进对模型AP值的提升效果。下文将拓展多尺度检测层简称为改进a、嵌入swin transformer模块简称为改进b、优化后处理函数简称为改进c，对消融实验过程和结果进行分析。

由于实验数据集中各场景包含的小目标主要为火焰图像目标，故以下实验主要以火焰图像目标检测的平均精确率AP₂作为比较标准，以烟雾图像目标检测的平均精确率AP₁和模型的mAP作为模型对正常尺寸目标检测能力的参考标准。

针对改进a，本文以YOLOv5s模型为对照组，添加P2检测头后的YOLOv5s模型作为实验组，由表 3可知，添加P2检测头后，模型的AP₂较YOLOv5s模型提升了0.3%。

表 3 检测层消融实验结果

实验方案	AP₁(烟雾)	AP₂(火焰)	mAP
YOLOv5s	0.343	0.186	0.264
YOLOv5s+P2检测头	0.325	0.189	0.257

检测层改进效果如图 5所示，其中红色虚线框为本组实验用于预测效果对比的火焰目标，红色实线框为模型预测的烟雾目标，粉色实线框为模型预测的火焰目标；fire 0.42表示模型预测该目标为“火焰”的置信度为0.42，smoke 0.48表示模型预测该目标为“烟雾”的置信度为0.48，依此类推。对比图 5a与图 5b可知，添加P2检测头后的模型能够检测出更多的小尺寸火焰目标。

显示原图|下载原图ZIP|生成PPT

图 5 检测层改进效果可视化

注：fire 0.42表示模型预测该目标为“火焰”的置信度为0.42，smoke 0.48表示模型预测该目标为“烟雾”的置信度为0.48，依此类推。

针对改进b，本研究选取了Biformer^[17]、C2f^[18]、swin transformer^[15]3种针对小目标数据集的主流模块对骨干网络的多个点位进行替换，如表 4所示。无论是与YOLOv5s模型本身还是替换其他模块后的效果相比，swin transformer模块引入后的模型AP₂值最高，为0.209，与YOLOv5s模型0.186的AP₂值相比，得到了2.3%的提高。

表 4 模块消融实验结果

实验方案	AP₁(烟雾)	AP₂(火焰)	mAP
YOLOv5s	0.343	0.186	0.264
在特征融合网络(NECK)中替换Biformer ^[17]	0.352	0.170	0.261
在骨干网络(BACKBONE)中替换Biformer ^[17]	0.313	0.171	0.242
在全网络替换C2f ^[18]	0.336	0.180	0.258
在特征融合网络(NECK)中替换C2f ^[18]	0.354	0.176	0.265
在骨干网络(BACKBONE)中替换C2f ^[18]	0.334	0.184	0.259
在骨干网络(BACKBONE)中替换swin transformer^[15]	0.341	0.209	0.275

各类改进所得模型的预测效果如图 6所示，红色虚线框为本组实验用于预测效果对比的火焰目标，红色实线框为模型预测的烟雾目标；粉色实线框为模型预测的火焰目标；Real为火焰、烟雾目标真值分布情况；fire 0.42表示模型预测该目标为“火焰”的置信度为0.42，smoke 0.48表示模型预测该目标为“烟雾”的置信度为0.48，依此类推。由图可知，嵌入swin transformer模块后，模型对目标的漏检率更低，且定位范围更加精确。

显示原图|下载原图ZIP|生成PPT

图 6 模块改进效果可视化

注：fire 0.42表示模型预测该目标为“火焰”的置信度为0.42，smoke 0.48表示模型预测该目标为“烟雾”的置信度为0.48，依此类推。

针对改进c，本研究选取了2种目前针对小目标数据集的后处理函数，并直接以模块优化后的最优实验结果作为对照组展开消融实验，结果如表 5所示。由表可知，将后处理函数替换为soft-NMS算法后，模型在小目标火焰图像目标检测上的性能表现以及整体性能都有较大幅度的提升，AP₂比未改进的YOLOv5s模型增长了13.1%。该函数的工作特点与实验数据集中大量存在的密集分布小型火源点的特征十分契合，因此可实现密集分布和多尺度火焰目标检测精确率的提升。

表 5 后处理函数消融实验结果

实验方案	AP₁(烟雾)	AP₂(火焰)	mAP
YOLOv5s+ swin transformer^[15]	0.341	0.209	0.275
YOLOv5s+swin transformer^[15]+ soft-NMS^[16]	0.403	0.339	0.371
YOLOv5s+ swin transformer^[15]+ NWD ^[19]	0.322	0.194	0.258

2种后处理函数的模型改进效果如图 7所示，红色实线框为模型预测的烟雾目标，粉色实线框为模型预测的火焰目标；fire 0.57表示模型预测该目标为“火焰”的置信度为0.57，smoke 0.30表示模型预测该目标为“烟雾”的置信度为0.30，依此类推。由图可知，以soft-NMS算法为后处理函数时，模型对邻近目标的区分能力明显优于NWD算法^[19]，能够较为清晰地表示各位置的火焰情况。

显示原图|下载原图ZIP|生成PPT

图 7 不同后处理函数的改进效果对比

注：fire 0.57表示模型预测该目标为“火焰”的置信度为0.57，smoke 0.30表示模型预测该目标为“烟雾”的置信度为0.30，依此类推。

为验证YOLOv5s-SSS模型的整体改进效果，本文以YOLOv5s模型作为对照组，以改进a、改进a+改进b、改进a+改进b+改进c作为实验组开展消融实验，结果如表 6所示。由表可知，随着改进方面的增多，改进方案的AP₂相对于YOLOv5s模型AP₂的增长值逐步上升，且改进c对YOLOv5s-SSS模型性能提升起主要作用。最终得到的YOLOv5s-SSS模型在各方面的AP均明显优于YOLOv5s模型，AP₂提升了15.3%，证明了本研究改进方案是有效的。

表 6 整体改进消融实验结果

实验方案	AP₁(烟雾)	AP₂(火焰)	mAP
YOLOv5s(无改进)	0.343	0.186	0.264
YOLOv5s+改进a	0.325	0.189	0.257
YOLOv5s+改进a+改进b	0.321	0.208	0.264
YOLOv5s+改进a+改进b+改进c(YOLOv5s-SSS)	0.403	0.339	0.371

3.4 YOLOv5s-SSS模型性能实验

首先，通过调整参数使模型达到最佳性能。依据实验数据集特点，参数调优围绕模型的iou阈值展开，本组实验赋予YOLOv5s模型和YOLOv5s-SSS模型一组相同的iou阈值，通过输出的数据观测模型性能。由表 7可知，当iou阈值达到0.20后，YOLOv5s-SSS模型相对YOLOv5s模型AP₂的增长值不再变化，且此时YOLOv5s-SSS模型对于正常尺寸目标对象的检测能力相对抑制程度较小，相对YOLOv5s模型的AP₂提高了16.3%，整体性能表现更佳。因此，本研究选择iou阈值为0.20条件下的YOLOv5s-SSS模型作为最终改进方案。

表 7 参数调优实验结果

iou阈值	测试模型	AP₁(烟雾)	AP₂(火焰)	mAP
0.60	YOLOv5s	0.343	0.186	0.264
	YOLOv5s-SSS	0.403	0.339	0.371
0.40	YOLOv5s	0.352	0.227	0.290
	YOLOv5s-SSS	0.402	0.346	0.374
0.30	YOLOv5s	0.340	0.240	0.290
	YOLOv5s-SSS	0.402	0.346	0.374
0.20	YOLOv5s	0.320	0.247	0.283
	YOLOv5s-SSS	0.402	0.349	0.376
0.10	YOLOv5s	0.309	0.248	0.278
	YOLOv5s-SSS	0.402	0.349	0.376
0.05	YOLOv5s	0.307	0.249	0.278
	YOLOv5s-SSS	0.402	0.349	0.376

为进一步测试YOLOv5s-SSS模型在不同条件下的工作表现，本研究利用表 1中设计的4组互斥环境条件进行对比实验。使用YOLOv5s-SSS模型分别在子数据集上运行验证代码，得到实验结果如表 8所示，加粗数据为组内最佳数据。通过互斥条件组内的互相比较，并以1.2节中构建的完整的小目标火焰图像数据集作为对照组，得出以下结论：YOLOv5s-SSS模型在适宜照度、航拍视角、室内环境、林草火灾等条件下能发挥出较优性能；在地面视角、室外环境、非林草火灾等条件下的性能有待进一步提升；在不良照度条件下的性能有待提升，需要进一步进行增强图像、降低底噪等改进措施。

表 8 互斥环境条件对比实验结果

组别设置	子数据集名称	AP₁(烟雾)	AP₂(火焰)	mAP
实验组一	不良照度	0.419	0.317	0.368
	适宜照度	0.411	0.355	0.383
实验组二	航拍视角	0.401	0.391	0.396
	地面视角	0.403	0.336	0.370
实验组三	室内环境	0	0.400	0.200
	室外环境	0.401	0.338	0.369
实验组四	林草火灾	0.368	0.344	0.356
	非林草火灾	0.434	0.336	0.385
对照组	基线数据集	0.403	0.339	0.371

注：基线数据集为1.2节中构建的完整的小目标火焰图像数据集。

3.5 可视化验证

本研究通过设计可视化评价实验为模型性能补充定性评价。以改进a、改进a+改进b、改进a+改进b+改进c作为实验组，针对一组相同的图像进行检测，获得带有预测框的检测结果，直观对比不同模型在林草火灾、不良照度、航拍视角和室内环境等条件下的检测性能。结果如表 9所示，红色虚线框为本组实验用于预测效果对比的火焰目标，红色实线框为模型预测的烟雾目标；粉色实线框为模型预测的火焰目标；fire 0.39表示模型预测该目标为“火焰”的置信度为0.39，smoke 0.30表示模型预测该目标为“烟雾”的置信度为0.30，依此类推。

表 9 可视化评价结果

工作条件	模型种类
工作条件	YOLOv5s	YOLOv5s+改进a	YOLOv5s+改进a+改进b	YOLOv5s+改进a+改进b+改进c
1-适宜照度的林草火灾
2-不良照度的非林草火灾
3-航拍视角的林草火灾
4-不良照度的室内火灾

注：fire 0.39表示模型预测该目标为“火焰”的置信度为0.39，smoke 0.30表示模型预测该目标为“烟雾”的置信度为0.30，依此类推。拓展多尺度检测层简称为改进a、嵌入swin transformer模块简称为改进b、优化后处理函数简称为改进c。

由表 9可知，在第1类工作条件下，本研究提出的YOLOv5s-SSS模型在适宜照度的林草火灾监测任务中，能够更为清晰全面地划分密集分布的火焰图像目标；在第2类工作条件下，YOLOv5s-SSS模型能够减少在不良照度下的非林草火灾监测任务中，密集分布小目标火焰图像目标的漏检现象；在第3类工作条件下，YOLOv5s-SSS模型能够使航拍视角的林草火灾监测任务中的小目标火焰图像的定位范围缩小；在第4类工作条件下，YOLOv5s-SSS模型能够缩小不良照度的室内火灾监测任务中火灾图像的定位范围。以上改进有利于提升火点精确定位、扑救方案设计等应用场景的工作效率。

将可视化验证结果与3.4节中参数调优实验结果进行对比，可以发现：YOLOv5s-SSS模型比YOLOv5s模型的AP₂提升了16.3%，在常规尺寸烟雾图像上的AP₁也提升了5.9%，但存在一定程度的漏检问题，对于混叠、低照度对象的处理解决也有待进一步提升。这可能是由于室内环境图像数据过少。

4 结论

火灾监测技术中现有的目标检测方法，针对以小尺寸图像形式出现的火灾早期火焰的识别能力不强，本研究提出一种基于改进YOLOv5的小目标火灾检测模型，并制备了测试该类任务检测效果的小目标火焰图像数据集。提出的YOLOv5s-SSS模型拓展了YOLOv5s模型的多尺度检测层以提升感受野分辨率；嵌入了swin transformer模块以提升模型多尺度特征提取能力并有效减少检测的整体计算量，使用了soft-NMS算法优化后处理函数以保留更多可能存在的重叠或邻近目标。

由消融实验和模型性能实验可知，本研究构建的YOLOv5s-SSS模型能有效提升YOLOv5算法在小目标火焰图像上的识别精确率，对小目标火焰图像的平均精确率提升了16.3%；对常规尺寸烟雾图像的平均精确率提升了5.9%。YOLOv5s-SSS模型比YOLOv5s模型在缩小火灾目标定位范围、减少小尺寸及密集分布火灾目标漏检和清晰划分密集或重叠分布火灾目标等方面表现出更优的效果，可为森林火灾的早期火点精确定位、大范围火灾遥感监测等的效率提升提供参考。

目前采用的测试集仅包含小目标火焰图像，因此模型总体准确率偏低，有待后续改进，以达到实际工业应用的要求。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	LECUN Y , BENGIO Y , HINTON G . Deep learning[J]. Nature, 2015, 521 (7553): 436- 444. DOI

2	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016: 779-788.

3	REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017: 6517-6525.

4	REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.

5	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004.10934, 2020.

6	GLENN J. YOLOv5[EB/OL]. (2021-10-12)[2024- 03-14]. https://github.com/ultralytics/yolov5.

7	伍济钢, 梁谋, 曹鸿, 等. 基于改进YOLOv5的PCB小目标缺陷检测研究[J]. 光电子·激光, 2024, 35 (2): 155- 163. WU J G , LIANG M , CAO H , et al. Research on PCB small target defect detection based on improved YOLOv5[J]. Journal of Optoelectronics·Laser, 2024, 35 (2): 155- 163.

8	王洪义, 孔梅梅, 徐荣青. 基于改进YOLOV5的火焰检测算法[J]. 计算机与现代化, 2023 (1): 103- 107. WANG H Y , KONG M M , XU R Q . Flame detection algorithm based on improved YOLOV5[J]. Computer and Modernization, 2023 (1): 103- 107.

9	冷坤, 秦伦明, 王悉. 基于CA-ASFF-YOLOv4的交通标志识别研究[J]. 计算机工程与应用, 2023, 59 (17): 169- 177. LENG K , QIN L M , WANG X . Research on traffic sign recognition based on CA-ASFF-YOLOv4[J]. Computer Engineering and Applications, 2023, 59 (17): 169- 177.

10	RUI X , LI Z Q , ZHANG X Y , et al. A RGB-thermal based adaptive modality learning network for day-night wildfire identification[J]. International Journal of Applied Earth Observation and Geoinformation, 2023, 125, 103554.

11	SHAMSOSHOARA A , AFGHAH F , RAZI A , et al. Aerial imagery pile burn detection using deep learning: The FLAME dataset[J]. Computer Networks, 2021, 193, 108001. DOI

12	EL-MADAFRI I , PEÑA M , OLMEDO-TORRE N . The wildfire dataset: Enhancing deep learning-based forest fire detection with a diverse evolving open-source dataset focused on data representativeness and a novel multi-task learning approach[J]. Forests, 2023, 14 (9): 1697.

13	CHINO D Y T, AVALHAIS L P S, RODRIGUES J F, et al. BoWFire: Detection of fire in still images by integrating pixel color and texture analysis[C]// Proceedings of 2015 28th SIBGRAPI Conference on Graphics, Patterns and Images. Salvador, Brazil: IEEE, 2015: 95-102.

14	贾世娜. 基于改进YOLOv5的小目标检测算法研究[D]. 南昌: 南昌大学, 2022. JIA S N. Research on small object detection algorithm based on improved YOLOv5[D]. Nanchang: Nanchang University, 2022. (in Chinese)

15	LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]// Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada: IEEE, 2021: 9992-10002.

16	BODLA N, SINGH B, CHELLAPPA R, et al. Soft- NMS-improving object detection with one line of code[C]// Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 5562- 5570.

17	ZHU L, WANG X J, KE Z H, et al. BiFormer: Vision transformer with Bi-level routing attention[C]// Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver, Canada: IEEE, 2023: 10323-10333.

18	JOCHER G. Ultralytics[EB/OL]. (2023-01-10)[2024- 03-14]. https://github.com/ultralytics/ultralytics.

19	LAI H Q , CHEN L Y , LIU W H , et al. STC-YOLO: Small object detection network for traffic signs in complex environments[J]. Sensors, 2023, 23 (11): 5307.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 数据集制备与再划分

1.1 数据集构建

1.2 数据集再划分

图 1 验证集部分图像展示

表 1 验证集子数据集特征信息

2 YOLOv5s-SSS模型

2.1 模型概述

图 2 YOLOv5s-SSS模型的网络结构

2.2 拓展多尺度检测层

图 3 添加P2检测头后的YOLOv5s模型网络结构

2.3 嵌入swin transformer模块

图 4 C3STR模块改进示意图

2.4 优化后处理函数

3 实验与验证

3.1 实验环境配置

表 2 代码运行参数配置

3.2 评价指标

3.3 消融实验

表 3 检测层消融实验结果

图 5 检测层改进效果可视化

表 4 模块消融实验结果

图 6 模块改进效果可视化

表 5 后处理函数消融实验结果

图 7 不同后处理函数的改进效果对比

表 6 整体改进消融实验结果

3.4 YOLOv5s-SSS模型性能实验

表 7 参数调优实验结果

表 8 互斥环境条件对比实验结果

3.5 可视化验证

表 9 可视化评价结果

4 结论

References

Visited