Fire in Aircraft

Research on a multiparameter fire detection method for aircraft cargo compartment based on an improved self-attention mechanism

  • Haibin WANG 1, 2 ,
  • Zhihui ZHANG 1 ,
  • Zonghao BU 1 ,
  • Zishan GAO 3 ,
  • Quanyi LIU , 1, 2, *
Expand
  • 1. College of Civil Aviation Safety Engineering, Civil Aviation Flight University of China, Guanghan 618307, China
  • 2. Civil Aircraft Fire Science and Safety Engineering Key Laboratory of Sichuan Province, Civil Aviation Flight University of China, Guanghan 618300, China
  • 3. School of Safety Science, Tsinghua University, Beijing 100084, China

Received date: 2024-07-03

  Online published: 2025-03-27

Copyright

All rights reserved. Unauthorized reproduction is prohibited.

Abstract

Objective: With the rapid advancement of the aviation industry, ensuring aircraft safety, particularly in sensitive areas like cargo holds, is of paramount importance. Fires in aircraft cargo can be triggered by various factors, such as electrical malfunctions, hazardous materials, or environmental conditions, and pose significant threats to passengers and crew. Given the growing complexity of fire detection in these confined spaces, more reliable and accurate fire detection methods are urgently needed. Traditional fire detection systems, which primarily depend on single-sensor technologies, like smoke or heat detectors, have long been criticized for their high false alarm rates and limited accuracy. These deficiencies often result in delayed responses or unnecessary interventions, which ultimately compromise operational safety and efficiency. Therefore, this study aims to develop an innovative fire detection system that can overcome the limitations of conventional methods while meeting the advanced safety standards of modern aviation. Methods: To tackle these challenges, this research introduces an improved multiparameter fire detection method leveraging an advanced self-attention mechanism within the Transformer model architecture. The approach integrates data from multiple sensors, including carbon monoxide, smoke, humidity, and temperature sensors, to capture a wide range of environmental parameters in aircraft cargo holds. Data are gathered by simulating realistic fire scenarios within a laboratory setting, ensuring that the system is trained on diverse datasets that reflect the unpredictable nature of fire development in cargo spaces. The core of the proposed method is a Transformer-based model that incorporates two key innovations: local attention mechanism and multiscale feature extraction. The local attention mechanism addresses the computational complexity of processing long sequences of input data by dividing the data into smaller, manageable windows. This allows the model to focus on localized features without the burden of analyzing the entire sequence at once, making it more efficient and suitable for real-time applications. Furthermore, the multiscale feature extraction module processes data in parallel across different time windows, capturing short-term fluctuations and long-term trends, which is crucial for detecting gradual fires, such as slow-burning or smoldering fires, that traditional systems may miss. Results: The proposed method was rigorously evaluated through a series of experiments on a fire detection dataset designed to mimic real-world conditions in aircraft cargo holds. A range of hyperparameters, including sequence lengths, activation functions, dropout rates, and optimizers, was tested to fine-tune model classification performance. Results revealed that the optimized model significantly outperformed traditional approaches, such as convolutional neural networks, recurrent neural networks, and long short-term memory networks, in terms of classification accuracy, particularly under challenging conditions involving noisy or incomplete sensor data. The model excelled at distinguishing between fire and non-fire events, showcasing its superior ability to handle real-world fire scenarios. Moreover, the Transformer's intrinsic parallel computing capability reduced training times, making it a practical solution for time-sensitive fire detection applications in aviation. Conclusions: This study presents a novel multiparameter fire detection system that integrates an improved self-attention mechanism with local attention and multiscale feature extraction, offering several advantages over traditional models. The proposed method achieves higher accuracy, lower computational complexity, and faster training times, making it highly suitable for deployment in aircraft cargo hold fire detection systems. The promising results from the laboratory-based experiments suggest that this method can be readily adapted to real-world operational settings. Future research will focus on further validating the model's performance in live environments, aiming to extend its applicability to other safety-critical domains beyond aviation, such as industrial safety and transportation systems.

Cite this article

Haibin WANG , Zhihui ZHANG , Zonghao BU , Zishan GAO , Quanyi LIU . Research on a multiparameter fire detection method for aircraft cargo compartment based on an improved self-attention mechanism[J]. Journal of Tsinghua University(Science and Technology), 2025 , 65(4) : 777 -785 . DOI: 10.16511/j.cnki.qhdxxb.2025.27.014

根据适航法规要求,机载火灾探测系统必须在火灾发生后的1 min之内向驾驶员报告火警信息[1]。因此,民航飞机的货舱火灾探测系统搭载的大多为较敏感的光电烟雾探测器,其将烟雾特征作为判断火灾的唯一评判标准,通过检测烟雾的浓度阈值触发火灾警报。然而火灾发生的全过程中存在烟雾浓度、气体含量和温度等多方面的变化,使用单一的烟雾探测器容易导致火灾误报警频发。
传感器技术和硬件计算能力的快速发展,使得利用多个传感器收集到的环境数据实时监测火灾状态成为可能。基于这些实时数据可以提高火灾探测和预警的准确性和可靠性[2]。例如Adityanand[3]设计了融合烟雾浓度、温度和气体的复合式火灾探测器,并在实际运行的飞机中进行了大量的真实火灾情境和干扰源火灾情境的实验对比,通过对传感器采集的数据进行分析后发现,复合式火灾探测器比单一火灾探测器具有更强的抗干扰能力。周志刚[4]使用RBF神经网络融合了烟雾浓度探测器、一氧化碳探测器和温度探测器采集的数据,提升了火灾探测和识别的准确率。
针对飞机货舱的火灾探测研究中,传感器采集的数据具有较为明显的时间序列特性。单一的时间序列分类模型通常只在某种具体的时间序列上呈现较准确的分类效果[5-6],较难满足其他领域时间序列的分类需求。Yang等[7]提出了多通道深度卷积神经网络(multi-channel deep convolutional neural network, MC-DCNN),首次将卷积神经网络(convolutional neural network, CNN)应用于时间序列分类,该模型利用一维卷积核,同时在所有通道进行卷积运算以捕捉数据早期的时间和空间特征。虽然CNN可以捕获时间序列的局部的时间和空间特征,但是无法捕捉数据间的长距离特征。近来有较多研究将循环神经网络和CNN相结合以捕捉数据的长距离依赖关系[8-9],虽然该类模型在时间序列的分类上达到了较高的准确度,但是计算复杂度较高。注意力模型比循环神经网络在捕捉数据的长距离依赖关系上更具优势,可关注到重要特征并抑制不必要的特征以提高网络的表示能力,目前已在自然语言处理领域取得了较成功的应用 [10-11], 因此也有越来越多的研究尝试将注意力模型应用于时间序列分析等领域[12-15]。早期相关研究通常是采用和自然语言处理相同的结构,使用循环网络的模型对输入的序列进行编码,例如基于递归神经网络(recurrent neural network, RNN)[13]和长短期记忆网络(long short-term memory, LSTM)[14]对输入进行编码处理;近期通用的方法是将自注意力机制嵌入到编码器中,且验证了该方法的有效性[15-16]
使用多参数的火灾探测目前仍然面临如下挑战:1)传感器数据通常具备多样化的特征,火灾参数具有复杂的特征和模式,传统的机器学习分类方法难以准确捕捉。2)传感器数据通常是以时间序列的形式收集的,具有时序关联性,因此在进行火灾状态分类时需要考虑数据的时序特性以及不同时间步之间的相互影响。然而,现有研究在处理长序列数据时仍难以克服计算复杂度高的问题,限制了模型在实际应用中的性能和效率。
本研究利用Transformer模型解决多源传感器数据的火灾状态分类问题。通过引入Transformer模型的自注意力机制,充分捕捉多源传感器数据之间的关联性,提高模型对火灾状态的识别和分类准确性;探索适应火灾监测任务的模型结构和训练策略,提高模型的泛化能力和鲁棒性。

1 模型构建

1.1 理论基础

自注意力机制(self-attention mechanism)是一种用于捕捉序列数据内部关联性的机制,最早由Vaswani等[10]提出,并被成功应用于Transformer模型中。
在传统序列模型如RNN中,信息通过隐藏状态顺序传递,限制了并行计算和长序列处理。自注意力机制则直接建立序列内部任意位置的全连接,实现并行计算并捕捉元素间依赖,通过计算元素间相似度得到关联程度度量,以此决定元素重要性,并通过加权求和得到输出表示。在Transformer模型中,多头注意力机制(multi-head attention)基于自注意力机制引入多个“头(head)”增强模型的表达能力。多头注意力中每个头均为独立的自注意力机制实例,负责捕捉输入序列不同方面的特征,其能够在不同的子空间中关注不同的模式,从而更好地捕捉复杂的依赖关系。自注意力机制的结构如图 1所示,其中QKV是由输入特征经过线性变换得到的查询(query)矩阵、键(key)矩阵和值(value)矩阵,在捕捉序列数据的相关性和依赖性关系中发挥重要的作用。由图可知,QK矩阵通过点乘计算得到注意力得分后,和V矩阵进行加权求和得到自注意力的输出。
图 1 自注意力机制的结构

注:QKV分别为查询(query)矩阵、键(key)矩阵和值(value)矩阵。

自注意力机制在火灾传感器数据处理中主要应用于2个方面:1) 特征提取:通过识别时间序列中不同时间点之间的关联性提取有用的特征;通过计算每个时间点与其它时间点的关联程度,自动学习得出时间序列中的哪些时刻的数据对于火灾检测和预测更加重要。2) 序列建模:火灾传感器数据中的观测结果通常存在时间上的相关性,如相邻时间点之间可能存在连续变化的火焰强度,自注意力机制可以捕捉到这种长期依赖关系,更准确地建模火灾传感器数据中的序列信息。

1.2 多参数火灾探测模型设计

Transformer模型基于自注意力机制,在自注意力机制中,每个输入序列中的元素都可以与其他元素进行交互,以便动态地调整其表示。这使得Transformer模型能够更好地捕捉序列中长距离依赖关系,从而提高在序列建模任务中的性能。Transformer模型由编码器(encoder)和解码器(decoder)2部分组成,但在时间序列分类任务中通常只需使用编码器部分。
图 2所示,数据输入首先嵌入位置编码,输入编码器后编码器中每个位置的输入都会经过自注意力层和前馈神经网络层的处理,自注意力层允许模型在不同位置之间建立关联,以便根据整个输入序列来更新每个位置的表示;前馈神经网络层则对每个位置的表示进行非线性变换,增强模型的表达能力。
图 2 Transformer编码器的结构
本文使用带有掩码(mask)的多头注意力机制,多头注意力机制是一种自注意力机制的扩展形式,旨在增强模型对不同表示子空间的表达能力,其允许模型同时在不同的表示子空间中学习注意力,然后将多个注意力机制的输出合并。由于不同长度的输入序列需要对齐到相同长度,所以在较短的序列后面会补充填充符,但填充符本身不包含任何有意义的信息,所以模型需要忽略填充符。掩码的本质是过滤机制,将填充符的权重设置为极小值(-∞)使得在计算注意力权重时屏蔽填充符。带有掩码的多头注意力机制可使模型能够学习到不同的表征,显著增强模型的表达能力,降低模型的过拟合风险,提高模型的泛化能力。
本文使用的基于改进型自注意力机制的飞机货舱多参数火灾探测方法的整体架构如图 3所示,由图可知,基于改进型自注意力机制的飞机货舱多参数火灾探测方法整体分为4部分,首先是模拟货舱环境下的火灾多参量数据采集,基于采集的数据进行数据预处理,预处理完成后使用改进的Transformer模型进行特征选择和特征提取,在模型的训练阶段探索适用火灾探测任务的最佳参数组合,随后模型输出对火灾类型的分类预测。
图 3 基于改进型自注意力机制的飞机货舱多参数火灾探测方法整体架构

1.2.1 数据采集

针对飞机货舱实际运行中的火灾特征,目前尚未有公开的相关数据集。为了确保模型所用数据集可更准确地反映实际运行中的货舱火灾特征,本研究依托中国民用航空飞行学院民机火灾科学与安全工程四川省重点实验室的动压变温实验舱(型号FRC2000)进行实验,选取航空煤油、航空汽油、棉绳、榉木、瓦楞纸片作为燃烧材料,航空煤油和航空汽油均为飞机上的常见燃料,棉绳、榉木和瓦楞纸片分别模拟货舱内的纺织品、货物包装箱和纸制品,固体燃烧材料和液体燃烧材料的用量均设置为50 g,实验使用额定功率2 000 W的加热炉对固体燃烧材料进行加热,液体燃烧材料使用高压电弧发生装置产生的高压电弧引燃,固体燃烧材料的燃烧类型分为明火和阴燃,液体燃烧材料只有明火。为模拟飞机在不同高度飞行时的气压,设置燃烧材料的燃烧气压为60、80和95 kPa, 观察各种燃烧材料不同气压下的着火行为。本研究使用中国民用航空飞行学院自研的融合CO探测模块、双波长烟雾探测模块、温湿度探测模块的多源货舱火灾探测器记录火灾环境数据,将该传感器置于燃烧材料正上方1.6 m处,并将CO质量分数、双波长数据、温度和湿度作为描述火灾发生全过程的特征参数。为避免实验的偶然性,每种实验工况重复3次实验。在数据集标注无火、阴燃和明火3种数据标签。
本文所建立的数据集的部分原始数据如图 4所示,数据集中除时刻外,包含CO质量分数、蓝光功率、红光功率、Sauter平均粒径、温度和湿度6个特征,每个数据集最多包含3个标签,标签为1表示无火,标签为2表示阴燃,标签为3表示明火。
图 4 数据集部分原始数据概览

注:标签为1表示无火,为2表示阴燃,为3表示明火。

最终的实验产生的数据包含固体燃烧材料的明火和阴燃的数据样本、液体燃烧材料的明火样本,所有传感器的采样频率为1 Hz,阴燃实验的持续时间为20 min,明火实验的持续时间为15 min。

1.2.2 数据预处理

使用python编程批处理对实验采集得到的原始数据进行预处理,主要针对缺失值问题和归一化问题。鉴于采集到的是有趋势的时间序列数据,所以采取线性插值的方式对缺失值进行插补[17],由于线性插值是针对一维数据进行缺失值填充和数据平滑的方法,而原始的数据集中存在多个通道的时间序列,所以需要对每一个序列的缺失值多次应用线性插值。不同传感器数据的量纲不同,因此,需要对特征进行缩放,使特征在同一数值范围内,如果不消除这种影响,将导致某些特征无法在模型得到应有的表达效果,造成特征失效,最终会导致特定传感器特征主导模型的训练。本文使用最大-最小值方法进行归一化处理,归一化后的数据被缩放至[0, 1]区间特定的范围,特征缩放后的数据值较小,有助于梯度更新过程中减少梯度消失和梯度爆炸的风险,使得模型更快收敛。
在数据预处理完成后,以4∶1的比例随机选取分为训练集和测试集。利用预处理后得到的火灾参数矩阵形成特征向量矩阵,该矩阵将用于后续的Transformer模型建模和分类识别任务。

1.2.3 嵌入层

假设经过数据预处理后形成的特征向量矩阵为$\boldsymbol{X} \in \boldsymbol{R}^{\left\{N \times d_{\text {feature }}\right\}}$,其中N为火灾数据的行数,dfeature表示Transformer输入特征向量矩阵的特征数目。
本文采用基于线性变换的嵌入方法,将输入数据映射到更高维度的嵌入空间。嵌入层的输出通过以下公式计算:
$\boldsymbol{E}(\boldsymbol{X})=\boldsymbol{X} \boldsymbol{W}_{\mathrm{e}} .$
其中:$\boldsymbol{W}_{\mathrm{e}} \in \boldsymbol{R}^{\left\{d_{\text {feature }} \times D\right\}}$为嵌入权重矩阵,D为嵌入维度。通过该线性变换,原始的传感器数据被映射为高维向量$\boldsymbol{E}(\boldsymbol{X}) \in \boldsymbol{R}^{N \times D}$,为后续的特征提取和模型计算提供了丰富的表示。
在应用Transformer模型进行序列数据处理时,首先对输入的特征信号矩阵进行处理,Transformer模型会对序列数据嵌入位置信息,这个包含位置信息的处理后的输入数据会被传递到编码器中进行进一步处理。考虑到火灾参数特征向量的时序信息对分类结果的重要影响,本研究需要对每个特征数据进行维度转换,并通过位置编码将这些特征数据嵌入到Transformer分类器中,以保留并利用其时序信息。嵌入层主要包含2个部分,即位置编码(position encoding, PE)和全连接层嵌入,位置编码利用正弦和余弦函数添加表征每个参量特征时序信息的位置编码,具体如下:
$\mathrm{PE}(\operatorname{pos}, i)= \begin{cases}\sin \left(\operatorname{pos} / 1\;000^{\frac{2 i}{d_{\text {model }}}}\right), & i=0, 2, 4, \cdots ; \\ \cos \left(\operatorname{pos} / 1\;000^{\frac{2 i}{d_{\text {model }}}}\right), & i=1, 3, 5, \cdots\end{cases}$
其中:pos表示序列中元素的位置索引,i是特征维度的索引,dmodel表示模型嵌入的维度。
本文中以PE表示每个输入位置生成的相应位置编码向量,在嵌入层之后被加入到输入向量中,形成最终的输入表示Xfinal
$\boldsymbol{X}_{\text {final }}=\boldsymbol{E}(\boldsymbol{X})+\mathbf{P} \mathbf{E}.$

1.2.4 局部注意力机制的集成

编码器由多个堆叠的编码器层组成[18],每个编码器层包含自注意力机制和前馈神经网络两个主要部分。该模型利用多个编码器进行并行计算,从而缩短了网络的计算时间,并显著提高了网络的学习效率[16]
为了增强编码器的特征提取能力,本文引入局部注意力机制。这一机制通过限制注意力计算的范围,使得模型能够集中关注于当前时间步的局部特征,从而提高对火灾信号的敏感性。局部注意力的计算包括生成QKV矩阵,并在有限的窗口内进行注意力权重计算。具体计算方式为
$Q=\boldsymbol{E}(\boldsymbol{X}) \boldsymbol{W}_{\boldsymbol{Q}}, $
$\boldsymbol{K}=\boldsymbol{E}(\boldsymbol{X}) \boldsymbol{W}_{\boldsymbol{K}}, $
$\boldsymbol{V}=\boldsymbol{E}(\boldsymbol{X}) \boldsymbol{W}_{\boldsymbol{V}} .$
其中WQWKWV分别为QKV矩阵的权重矩阵。其内部参数是可以学习训练的,经随机初始化后在反向传播中不断更新修正。对于权重矩阵的参数修正,其修正思想类似于神经网络反馈修正的过程。首先确定网络的损失函数的损失率Loss,并设置网络学习率η,则新的权重矩阵为
$\boldsymbol{W}_{\mathrm{new}}=\boldsymbol{W}-\eta \frac{\partial \operatorname{Loss}}{\partial \boldsymbol{W}}$
其中W为修正前的权重矩阵。
在权重矩阵修正过程中,由于原始数据存在较为严重样本不均衡现象,所以选择交叉熵损失函数作为损失函数,为样本的每个类别分配一个权重,权重大小与该类别样本数量成反比,即样本数量少的类别被赋予较高的权重,样本数量多的类别被赋予较低的权重,由此提升模型对少数类别的关注度。
然后,局部注意力得分计算如下:
$\boldsymbol{A}_{\text {local }}=\operatorname{softmax}\left(\frac{\boldsymbol{Q \boldsymbol { K } ^ { \mathrm { T } }}}{\sqrt{d_{\mathrm{k}}}}\right)$
其中:Alocal为局部注意力权重,dk为键的维度,用于缩放以避免数值过大。本文中使用的局部窗口大小为16个时间步,局部注意力通过关注相邻和局部区域的数据,确保模型在处理火灾传感器数据时的响应速度和准确性。

1.2.5 多尺度特征提取

在局部注意力机制的基础上,为了进一步提升特征提取的效果,集成了多尺度特征提取方法。多尺度特征提取通过应用不同大小的卷积核,对输入数据进行卷积操作,从多个层次提取重要特征。设定的卷积操作可表示为
$\begin{gathered}\mathbf { Feature }_{\text {multi-scale }}=\operatorname{Conv}_{k_1}(\boldsymbol{E}(\boldsymbol{X})) \oplus \operatorname{Conv}_{k_2}(\boldsymbol{E}(\boldsymbol{X})) \oplus \\\operatorname{Conv}_{k_3}(\boldsymbol{E}(\boldsymbol{X})) .\end{gathered}$
其中:k1k2k3表示不同卷积核的大小,$\oplus$表示特征拼接。本研究中使用不同大小的卷积核分别提取短期的突发火灾特征、较为持续的火灾特征和缓慢发展的火灾特征。多尺度特征提取可在不同时间尺度上综合提取信息,增强对火灾探测信号的捕捉能力。

1.2.6 残差连接与归一化

在编码器的每个子层之后,采用残差连接与层归一化的组合。残差连接通过将输入与输出相加,能够有效缓解梯度消失问题,增强信息的流动性。具体表达为
$\mathbf { Output }_{\mathrm{res}}=\mathbf { Input }+ \mathbf { Output }.$
层归一化则确保了各层输出的均值和方差在训练过程中的稳定性。整体输出经过归一化后,得到下一层的输入。

1.2.7 前馈神经网络

编码器的最后一步是通过前馈神经网络对注意力输出进行非线性变换。这一过程由两个线性变换和一个激活函数组成,数学表达为
$\operatorname{FFN}(\boldsymbol{X})=\max \left(0, \boldsymbol{E}(\boldsymbol{X}) \boldsymbol{W}_1+\boldsymbol{b}_1\right) \boldsymbol{W}_2+\boldsymbol{b}_2 .$
其中,W1W2是权重矩阵,b1b2是偏置项。前馈网络进一步提升了模型的表达能力,使得编码器能够更好地处理复杂的输入特征。

2 模型参数改进和性能分析

2.1 模型运行环境

本文所有模拟实验均在具有12th Gen Intel(R) Core(TM) i5-12600KF@3.69GHz CPU,64GB RAM和NVIDIA GeForce RTX3060GPU(12 GB缓存)、python3.9、pytorch1.8.0的软硬件设施上进行。

2.2 参数改进

在本文所提出的模型的建立过程中,需要对模型参数进行调整,以不断优化模型实现最佳的检测效果。本研究选取序列长度、激活函数种类、随机失活(Dropout)率以及优化器种类作为需改进的参数进行调整和分析。
Transformer模型中自注意力机制的计算复杂度与序列长度的平方成正比。较大的序列长度会导致显著增加计算开销以及训练和推理的时间。虽然在模型中使用较长的序列有利于捕捉到更远的依赖关系,但并不是所有的任务都需要考虑非常长的上下文。因此应结合实际需求选择适当的序列长度,保持计算效率。序列长度的选取会影响最终的分类准确率,本文选取了25、50、75、100和150这4种时间步,一个时间步的长度为1 s,模型的损失率和准确率随迭代次数的变化结果如图 5所示。由图可知,序列长度为150个时间步时最终的模型准确率更高且损失率函数值更低,因此本研究后续模拟的序列长度设为150个时间步。
图 5 不同序列长度的损失率和准确率
激活函数是神经网络中的关键组件,位于隐藏层和输出层之间,负责将神经元的输入转化为输出。主要作用是引入非线性变换,提高神经网络模型对非线性数据的处理能力,提升模型的稳健性。常见的激活函数有Sigmoid函数、Tanh函数和ReLU函数,用这3个函数对训练集进行计算,得出的模型准确率分别为99.52%、99.43%、99.58%,表明ReLU函数最优,这是由于ReLU函数在输入为负数时输出为0,使得网络中的许多神经元在训练过程中处于关闭状态,提高了神经网络的稀疏性,有助于提取数据中的关键特征并降低过拟合的风险。
随机失活(dropout)是一种用于防止模型过拟合的重要技术,其基本思想是在模型训练过程中,以一定的概率随机地丢弃网络中的部分神经元单元,从而减少神经网络的复杂性,提高模型的泛化能力和鲁棒性。在本文提出的模型的网络训练过程中,随机失活通过随机地将一部分神经元输出设置为0来实现。这种随机的“丢弃”行为迫使网络在每个训练步骤中都不依赖于特定的神经元,从而使得网络更加鲁棒,不会过度依赖于局部特征。这种技术可以有效地减少模型对训练数据的过拟合,提高模型在未见过数据上的泛化表现。本研究设置了0.1~0.9的随机失活率,使用不同的随机失活率训练出的模型准确率如图 6所示。由图可知,随着随机失活率的升高,模型的准确率逐渐变低,当随机失活率由0.1变为0.2时模型的准确率开始出现较为明显的下降趋势,当随机失活率为0.1时模型的准确率为0.997,在设定变化区间表现为最高。
图 6 不同失活率的准确率对比
图 7 优化器效果对比
优化器通过管理并更新模型中可学习参数的值,使得模型输出更接近真实标签。不同优化器产生的损失函数值不同,损失函数值越大,表明模型预测的误差更大,反映出模型在当前参数下的拟合能力不足。本研究选取Adam、SGD、Adadelta和RMSprop这4种优化器进行对比,相应的损失函数曲线如图 8所示。由图可知,Adadelta优化器的优化效果较差,其他3种优化器的效果差异较小。因此,本文选择了优化效果相对较优的Adam优化器,以期在模型训练中获得更小的损失函数值。此外,Adam优化器通过计算梯度的一阶矩估计和二阶矩估计,可为不同的参数自适应地调整学习率,这有利于对Transformer模型中变化范围广泛的参数进行更有效的优化。
图 8 优化后的模型准确率和损失率曲线
为了优化模型性能,本文通过实验对比选择了如下参数配置:序列长度为150个时间步、激活函数为ReLU、随机失活率设置为0.1,优化器选择Adam。
根据上述参数改进结果,对改进后的Transformer模型进行训练和测试,得出模型的损失率和准确率随着迭代次数的变化如图 8所示。由图可知,在600次迭代过程中,模型准确率先稳步上升后趋于定值(0.996);与此同时,损失函数先稳步下降后趋于定值(0.002)。表明该模型具有良好的分类效果。

2.3 模型对比分析

为了验证本文所提方法的分类能力及有效性,选取了较为常见的机器学习方法(如循环神经网络、卷积神经网络等)与本模型进行对比,在对方法进行评估时,使用交叉验证的方式将数据集多次划分为训练集和验证集,通过在多个不同的数据子集上进行验证,减少过拟合的风险,提供更稳定的评估结果。各模型关于模型准确率、F1值和召回率的对比结果见图 9。其中由图可知,各模型对火灾状态数据的分类均体现出较好的分类效果,但本文提出的改进型Transformer模型比其他模型具有更高的准确率、F1值和召回率,召回率比普通的Transformer模型更高。此外,与需要逐步迭代计算的RNN和LSTM模型相比,其并行计算的能力使其可同时拥有更少的参数量和更简洁的架构。由此可见,改进型Transformer模型对于火灾传感器信息的处理能力更优。
图 9 不同模型的评价指标对比

3 结论

本研究针对飞机货舱火灾探测的多参数监测需求,提出了一种基于改进型自注意力机制的火灾探测方法。本研究使用温度、CO质量分数、湿度和烟雾参数数据作为模型的输入,提高了火灾探测的准确性,确保对多种类型火灾场景的全面覆盖。
通过引入Transformer模型,集成局部注意力机制和多尺度特征提取技术,成功建立了一种高效准确的火灾探测方法,在模型中融入的局部注意力机制减少了长序列分析中的计算开销,并有效提高了模型处理大规模数据的能力。多尺度特征提取模块通过不同时间尺度的并行特征融合,提高了对火灾全过程的全面感知能力。
本文提出的火灾探测方法具有良好的泛化能力,适用于飞机货舱复杂多变的环境。该方法的低计算开销和高精度预测为未来在航空安全系统中的应用奠定了基础。尽管本文模型在性能上表现优异,但仍存在可优化的空间。未来研究可以探索更高效的注意力机制、引入更多传感器类型(如图像传感器)以及进一步优化模型的部署效率,以适应更复杂的实时监控任务。此外,模型在面对极端环境(如剧烈气流扰动或货舱密封性变化)时的鲁棒性也需要进一步验证。
1
KRVLL W , SCHULTZE T , WILLMS I , et al. Developments in non-fire sensitivity testing of optical smoke detectors-proposal for a new test method[J]. Fire Safety Science, 2011, 10, 543- 544.

DOI

2
何永勃, 董玉珊, 雷建, 等. 飞机货舱火灾多传感器探测方法研究[J]. 中国安全科学学报, 2018, 28 (5): 74- 79.

HE Y B , DONG Y S , LEI J , et al. Research on multi-sensor method for detecting aircraft cargo fire[J]. China Safety Science Journal, 2018, 28 (5): 74- 79.

3
ADITYANAND G. Aircraft cargo compartment multi-sensor smoke detection algorithm development: DOT/FAA/AR-07/58 [R]. Virginia: U.S. Department of Transportation Federal Aviation Administration, 2008.

4
周志刚. 智能家居防火系统的算法研究[D]. 北京: 中国地质大学(北京), 2014.

ZHOU Z G. The algorithm research on fire protection system of smart home [D]. Beijing: China University of Geosciences (Beijing), 2014. (in Chinese)

5
LIU M H, ZENG A L, LAI Q X, et al. T-WaveNet: Tree-structured wavelet neural network for sensor-based time series analysis [EB/OL]. (2020-12-10)[2024-06-10]. https://doi.org/10.48550/arXiv.2012.05456.

6
XIAO Z W, XU X, XING H L, et al. RNTS: Robust neural temporal search for time series classification [C]//2021 International Joint Conference on Neural Networks (IJCNN). Shenzhen, China: IEEE, 2021: 1-8.

7
YANG J B, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition [C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3995-4001.

8
KARIM F , MAJUMDAR S , DARABI H , et al. Multivariate LSTM-FCNs for time series classification[J]. Neural Networks, 2019, 116, 237- 245.

DOI

9
ZHANG X C, GAO Y F, LIN J, et al. TapNet: Multivariate time series classification with attentional prototypical network [C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI Press, 2020: 6845-6852.

10
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, USA: Curran Associates Inc., 2017: 6000-6010.

11
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: Association for Computational Linguistics, 2019: 4171-4186.

12
KOSTAS D , AROCA-OUELLETTE S , RUDZICZ F . BENDR: Using transformers and a contrastive self-supervised learning task to learn from massive amounts of EEG data[J]. Frontiers in Human Neuroscience, 2021, 15, 653659.

DOI

13
YUAN Y, XUN G X, MA F L, et al. A novel channel-aware attention framework for multi-channel EEG seizure detection via multi-view deep learning [C]//2018 IEEE EMBS International Conference on Biomedical & Health Informatics (BHI). Las Vegas, USA: IEEE, 2018: 206-209.

14
LIANG Y X, KE S Y, ZHANG J B, et al. GeoMAN: Multi-level attention networks for geo-sensory time series prediction [C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm, Sweden: AAAI Press, 2018: 3428-3434.

15
ZHOU H Y, ZHANG S H, PENG J Q, et al. Informer: Beyond efficient transformer for long sequence time-series forecasting [J/OL]. (2021-03-28)[2024-06-10]. https://doi.org/10.48550/arXiv.2012.07436.

16
WEN Q S, ZHOU T, ZHANG C L, et al. Transformers in time series: A survey [C]//Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence. Macao, China: Curran Associates, Inc., 2022: 6778-6786.

17
WANG Z G, YAN W Z, OATES T. Time series classification from scratch with deep neural networks: A strong baseline [C]//2017 International Joint Conference on Neural Networks (IJCNN). Anchorage, USA: IEEE, 2017: 1578-1585.

18
HAO Y F, CAO H P. A new attention mechanism to classify multivariate time series [C]//Proceedings of the 29th International Joint Conferences on Artificial Intelligence. Yokohama, Japan: International Joint Conferences on Artificial Intelligence, 2020: 1999-2005.

Outlines

/