基于联邦学习与云边协同的剩余寿命预测
于振军1,2, 雷宁博3, 莫语1,2, 李秀2, 黄必清1    
1. 清华大学 自动化系, 北京 100084;
2. 清华大学 深圳国际研究生院, 数据与信息研究院, 深圳 518055;
3. 中国核电工程有限公司, 北京 100840
摘要:剩余使用寿命(RUL)预测对于确保工业设备的安全运行和减少定期预防性维护的成本具有重大意义。然而, 对于典型的边缘设备, 其计算能力和数据存储能力有限, 较难实现设备的RUL预测, 且云和边缘之间的数据传输速率有限, 传输所有训练数据会带来较高的延迟。此外, 由于可能的利益冲突, 通常情况下很难实现所有边缘设备之间的数据共享。为此, 该文提出了一种基于联邦学习的云边协同框架。多个边缘设备和云服务器被用来训练一个基于变分自编码器(VAE)的特征提取模块和一个RUL预测模块, 无需数据共享。在每个训练周期中, 首先在所有边缘设备上使用各自的本地训练数据集训练VAE, 再将所有本地VAE上传到云端, 并根据本地训练数据的规模为所有边缘分配权重, 聚合成一个全局特征提取模块, 再发送回所有边缘设备, 以从它们的数据集中提取隐藏特征, 并将这些特征上传到云端以训练全局RUL预测器。实验结果表明:该方法可以在资源受限的条件下执行边缘设备RUL预测, 减少了数据传输延迟并能够保护数据隐私。
关键词剩余寿命预测    联邦学习    云边协同    预测性健康管理(PHM)    
Remaining useful life prediction based on federated learning and cloud-edge collaboration
YU Zhenjun1,2, LEI Ningbo3, MO Yu1,2, LI Xiu2, HUANG Biqing1    
1. Department of Automation, Tsinghua University, Beijing 100084, China;
2. Institute of Data and Information, Tsinghua Shenzhen International Graduate School, Shenzhen 518055, China;
3. China Nuclear Power Engineering Co., Ltd., Beijing 100840, China
Abstract: [Objective] Predicting the remaining useful life (RUL) of industrial equipment is critical for maintaining safe operations and minimizing maintenance costs. However, RUL prediction for edge devices faces several challenges. First, edge devices often lack the computational power and storage capacity required for complex RUL prediction algorithms, making such predictions difficult. Many RUL prediction algorithms require substantial resources, which are scarce on edge devices. Second, the limited data transmission rate between the cloud and edge devices causes high latency when transmitting large data sets to the cloud, affecting real-time predictions and increasing network bandwidth usage. Additionally, data sharing among all edge devices is often impractical owing to privacy, security issues, and potential conflicts of interest, limiting models to local data and reducing their accuracy. [Methods] To address these challenges, this paper proposes a cloud-edge collaboration framework for RUL prediction based on federated learning. The framework comprises two main processes. In the first process, each training device trains a variational autoencoder (VAE) using its local data set. The trained encoders are then uploaded to the cloud and aggregated using a weighted average method (FedAVG), with the number of training samples as weights. The aggregated global encoder is then downloaded to all edge devices. In the second process, the aggregated encoder extracts hidden features from the local data sets on each edge device. These features are uploaded sequentially to the cloud to train the RUL predictor. Once trained, the predictor is sent back to the edge devices, completing one training cycle. This iterative process continues until a well-trained RUL prediction model, consisting of the global encoder and predictor, is achieved. During the testing stage, the global encoder is used to extract hidden features, while the RUL predictor performs deeper feature extraction and RUL prediction. In this framework, only local encoders and hidden features are uploaded to the server, significantly reducing communication overhead. Most of the training occurs on the server, with clients only performing the basic training of the shallow VAE, thereby effectively utilizing the server's powerful computational capabilities. Data privacy is maintained since the server receives hidden features and encoders, not the original data, preventing data reconstruction. [Results] To validate the proposed method's efficiency and practicality, different network structures were tested for RUL prediction on the commercial modular aero-propulsion system simulation (C-MAPSS). Although there was a slight decline in prediction performance compared to the baseline, the difference was within acceptable limits. This minor trade-off in accuracy enabled RUL prediction under resource constraints. The proposed algorithm significantly reduced data transmission time after feature extraction across various data scales consistently. In industrial scenarios with large data volumes, this reduction was even more pronounced. Further validation using nuclear power unit fault data sets showed a slight decrease in root mean square error (RMSE) on the test set without a significant drop in prediction accuracy. These results demonstrate that the proposed cloud-edge collaboration framework is promising for fault diagnosis in nuclear power units, effectively addressing edge resource limitations. [Conclusions] The proposed cloud-edge collaboration framework leverages federated learning to achieve RUL prediction on resource-constrained edge devices, thereby alleviating issues related to resource constraints and data privacy. By employing VAE-based feature extraction and federated learning for model training, the framework achieves efficient model training while significantly reducing communication overhead with minimal impact on accuracy. Experimental validation on industrial simulation data sets and nuclear power unit fault data sets demonstrates the framework's practicality and effectiveness. This framework represents a useful approach to addressing challenges in fault diagnosis and URL prediction within resource-constrained settings.
Key words: remaining useful life prediction    federated learning    cloud-edge collaborations    prognostics and health management (PHM)    

工程维护和预测在各行各业的机械设备中发挥着至关重要的作用。传统的维护策略,如故障修复维护和预防性维护[1],已经无法满足人们对可靠性和效率日益增长的需求,预测性健康管理(prognostics and health management, PHM)技术已成为工程维护的关键技术。通用的PHM技术广泛地涵盖了设备状态监测、故障诊断和健康评估等方面,通常侧重于识别和分类故障模式,并提供整体的健康状态评估。剩余使用寿命(remaining useful life, RUL)预测作为PHM的一项关键任务,侧重于设备寿命的精确估计。对机械设备进行准确的RUL预测可以有效地实施预测性维护,减少机械设备费用高昂的非计划维护。近年来,RUL预测受到了广泛关注[2]

一般来说,现有的RUL预测方法可以分为两类:基于模型的方法(也称为故障物理预测)和数据驱动的方法[3]。基于模型的方法使用数学或物理模型来预测机械设备的RUL。然而,现代工业设备的日益复杂化导致其工作条件和故障类型越来越复杂,建立精确物理模型所需的参数数量也急剧增加,使得这些模型的构建变得更加困难。

数据驱动的预测方法不需要精确的模型或对系统退化背后的机制有先验知识;该方法专注于将传感器提供的数据转换为设备退化行为的相关模型。基于经典机器学习的数据驱动预测方法包括支持向量机(support vector machine, SVM)[4]、随机森林(random forest, RF)[5]、隐Markov模型(hidden Markov model, HMM)[6]、自回归移动平均(autoregressive moving average, ARAM)[7]等。这些方法可以有效地利用输入数据获得故障诊断和预测结果,且计算速度较快,但是拟合能力有限,针对复杂的退化过程仍存在诊断和预测精度较差的问题。

随着算力的不断提高,基于深度学习的数据驱动预测方法在RUL预测领域越来越受欢迎。Li等[8]使用一维卷积神经网络(convolutional neural network, CNN)预测商用模块化航空推进系统仿真(commercial modular aero-propulsion system simulation, C-MAPSS) [9]数据集中涡轮风扇引擎的RUL。Xu等[10]、Ren等[11]和Huang等[12]应用二维CNN进行RUL预测,并取得了较好的结果。

循环神经网络(recurrent neural network, RNN)在解决时间序列预测问题上具有较好的性能;相比于CNN,RNN能够更有效地捕获长时依赖信息。Jin等[13]提出了一个基于双向长短时记忆网络(bidirectional long short-term memory, Bi-LSTM)的双流网络。Zheng等[14]提出了一种基于一维CNN和注意力增强Bi-LSTM的多模态深度学习方法。这些方法证明了RNN和LSTM在时间序列数据中的有效性。

自从基于自注意力的Transformer网络[15]被提出以来,它已经展示了出色的学习能力。Transformer在时序相关问题上能够有效、并行地捕获长期依赖关系,大大提高了运算速度和特征提取能力。Zhang等[16]提出了基于Transformer的双面自注意模型(dual-aspect self-attention based on transformer, DAST)。Mu等[17]提出了一种基于RF-Transformer-LSTM集成多源信号的RUL预测方法。

上述基于模型的方法和数据驱动的方法各有优势和局限性。然而,当前工业设备所处的环境复杂,故障种类多样,零部件众多,因此研究人员开始探索将不同方法进行整合,以期在利用各种方法的独特优势的基础上实现更准确的预测。

Qian等[18]提出了一种结合增强相空间扭曲(phase space warping, PSW)和改进的Paris裂纹扩展模型的多时间尺度方法,用于轴承缺陷跟踪和RUL预测。Yang等[19]提出了一种将物理模型与数据驱动方法相结合的混合模型,包括一个反映轴箱热行为的物理模型,以及两个分别基于BP网络与LSTM且采用相同输入的数据驱动模型。

然而,在典型的边缘设备上实现RUL预测面临着巨大的挑战,因为其计算能力和数据存储容量有限。传统上,设备生成的大量数据是通过集中式云计算模型进行处理的。然而,这种模型已无法满足大规模和地理分布广泛的设备在执行高性能、低延迟和低能耗任务方面的计算需求,因此边缘计算作为云计算的补充应运而生[20]。此外,在引入云资源的情况下,将所有训练数据发送到云进行处理可能会导致较大的数据传输时延和数据隐私问题。

针对数据传输时延,可以通过减小数据传输量进行改善。变分自编码器(variational autoencoder, VAE)作为一种自监督的生成模型,被广泛应用于特征提取与数据压缩。Liu等[21]将CNN与VAE和受限Boltzmann机结合以压缩和重建传感数据。Duan等[22]基于VAE提出了一类强大且高效的有损图像编码器,该编码器在自然图像有损压缩方面优于以前的方法。

针对数据隐私,联邦学习(federated learning, FL)[23]是一个较好的解决方案。它将原始数据保留在本地,通过各边缘端与云端进行协作来训练一个共有模型,其间不会发生原始数据的传递和交换[24]。联邦学习最初在手机输入法中应用,此后在物联网(Internet of things, IoT)和其他边缘端设备中展现出重要的价值。例如,Gao等[25]提出了一种用于异构IoT应用的跨技术通信FL框架,Ficco等[26]结合联邦学习和迁移学习,在不平衡数据集下提升了IoT设备上的深度模型训练性能。在工业领域,Han等[27]提出的FL框架解决了视觉检测的数据短缺和安全性问题,Luan等[28]提出了一种基于FL的隐私保护型绝缘子检测方法,证明了FL在确保检测准确性的同时,具有有效保护数据隐私的能力。

基于以上考虑,本文提出了一种基于联邦学习的云边协同框架用于RUL预测。这种方法利用多个边缘设备和一个云服务器训练一个基于VAE的特征提取模块和一个RUL预测模块,并且无需数据共享。VAE最初在所有边缘设备上使用各自的本地训练数据集进行训练,随后将所有本地VAE上传到云端,并根据边缘设备本地训练数据集的规模分配权重,聚合成一个全局特征提取模块。此后,将全局特征提取模块重新分发到所有边缘设备,从边缘设备的数据集中提取隐藏特征。这些特征随后传输到云端,用于在云端训练全局RUL预测器,训练完成后将预测器发送到边缘端,每个边缘端即可独立完成RUL预测。

1 云边协同框架 1.1 联邦学习

在工业应用中,训练具有众多参数的深度学习模型既耗时又昂贵,不适合边缘客户端。通常,这些客户端将其数据上传到云服务器,但仅基于单个边缘客户端的数据不足以构建一个强大的模型。此外,由于潜在的利益冲突以及保密要求,通常不同的边缘客户端不愿意共享数据。

2016年,谷歌引入了FL作为一种范式,用于在保护数据隐私的同时,使参与者可以训练机器学习模型[23]。在FL的背景下,客户端代表边缘客户端,服务器代表云服务器。客户端不共享数据,只上传其本地模型到服务器,服务器负责将接收到的所有客户端的信息聚合成一个全局模型。FL能够在不共享原始数据的情况下完成模型的协同训练,解决了大规模分布式训练网络中的数据交互和隐私问题。

在联邦学习框架中,参与者使用各自的本地数据独立训练模型,而无须共享原始数据。具体步骤包括:本地模型训练、模型参数上传、全局模型聚合、全局模型下发、迭代优化模型。经过多轮迭代后,每个参与方都获得一个优于仅使用本地数据训练的模型,这个模型在整体性能上更加强大,同时保护了数据隐私。

在整个过程中,任何一方都无法访问其他方的原始数据。通过这种方式,联邦学习允许多个参与方协作训练出一个共享的机器学习模型,而无须直接交换数据,从而在保护隐私的同时提高了模型的性能和泛化能力。

1.2 总体框架

基于联邦学习的云边协同框架主要包含2个过程,分别对应图 1的特征提取模块训练过程和图 2的RUL预测器模块训练过程。在第1个过程中,所有边缘设备上的VAE分别使用各自的本地训练数据集进行训练。训练完成后,所有编码器被上传到云端,并使用加权平均法进行聚合。然后,将聚合后的全局编码器下发到所有边缘设备上。在第2个过程中,聚合的编码器从每个边缘设备上的本地训练数据集中提取隐藏特征。随后,这些特征逐一上传到云端以训练RUL预测器。最后,云端将预测器发送到所有边缘设备,从而完成了一个训练周期。这些过程重复进行,直到得到一个性能良好的RUL预测模型,包括全局编码器和预测器。初始步骤中,在每个客户端上使用本地数据集训练VAE。随后,将训练好的编码器传输到云端,在云端以训练样本的数量作为权重进行聚合,参数聚合方法使用FedAVG算法,

$ \theta^{t+1}=\sum\limits_{e=1}^{E} \alpha_{e} \theta_{e}^{t}. $
图 1 特征提取模块训练过程

图 2 RUL预测器模块训练过程

其中:$\theta^{t+1}$表示经过$t$次更新后获得的全局参数,$E$是所有边缘端的集合。$\theta_{e}^{t}$表示边缘端$e$上更新了$t$次后的参数,而$\alpha_{e}$则表示相应的权重。

聚合过程完成后,一个全局编码器随即下发到所有客户端,以便提取隐藏特征。这些特征及其对应的标签被发送回云端进行高级特征提取和RUL预测,标志着一个训练周期的完成。

在测试阶段,全局编码器被用来提取隐藏特征,而RUL预测器进行更深层次的特征提取和RUL预测。在这个框架内,只有本地编码器和隐藏特征被多次上传到服务器,显著减少了通信开销。此外,训练过程在服务器上执行,所有客户端只执行浅层VAE的基础训练,有效利用了服务器的强大计算能力。尽管服务器可以访问来自不同客户端的隐藏特征,数据隐私仍然得到保护,因为本地客户端只上传了隐藏特征和编码器,服务器无法直接得到原始数据且不能通过隐藏特征还原原始数据,从而保护了数据隐私。

1.3 特征提取模块

本文使用VAE的编码器作为特征提取模块。VAE标准模型由编码器、采样器和解码器组成。VAE的编码器和解码器结构通常设计得几乎对称,层数相同。编码器接收输入并产生隐藏变量的概率分布,由分布的均值$m$和方差$v$表示。经过采样器后,可以得到潜在变量$z$,其中输入数据$x_{i}$的压缩信息存储在潜在变量中,它反映了数据在各种工作条件和故障模式下的分布特征。本文使用深度卷积网络作为编码器,使用解卷积网络[29]作为解码器。

RUL预测中故障数据主要为时序数据。为了保留时序信息,本文使用深度卷积网络中的时间卷积网络(temporal convolutional network, TCN)实现了编码器。TCN又称为因果卷积网络,以3层卷积网络为例,其结构如图 3所示。

图 3 3层时间卷积网络结构

TCN中每一层的元素都是由前一层对应时刻的输入与前一层上一时刻的输入进行卷积操作得到的。通过堆叠多层卷积网络,输出层元素的感受野得到增加,但仍满足参与t时刻输出ot卷积仅包含输入数据x1xt。因此,影响对t时刻RUL预测的输入数据只包含t时刻之前的输入,即从x1xtt时刻之后的数据受因果关系限制,并不影响对ot的预测。

VAE的结构如图 4所示。左侧部分为编码器,输入尺寸为Nt×Nf,其中Nt代表时间序列的长度,Nf是选取的特征数量。编码器由3个卷积层C1C2C3组成。另外2个独立的卷积层分别用于生成潜在变量正态分布的均值m与方差v。编码器卷积层C1有1个输入通道和c1个输出通道,卷积层C2c1个输入通道和c2个输出通道,而卷积层C3c2个输入通道和c1个输出通道。3个卷积层使用的核大小为kt×kf,其中ktkf分别为时间维度和特征维度的卷积核大小。每个卷积层都使用ReLU函数作为激活函数。

图 4 VAE的结构

图 4的右侧部分展示了解码器的结构。解码器包含2个反卷积层dC1和dC2。反卷积可以被理解为卷积操作的逆操作。另外1个独立的反卷积层输出维度为c1×Nt×Nf。解码器第1个反卷积层dC1的输入通道数为c1,输出通道数为c1,激活函数为ReLU函数。第2个反卷积层dC2的输入通道数为c1,输出通道数为1,激活函数为Sigmoid。dC2的输出是输入数据的重建结果。

1.4 RUL预测器

在所有客户端的VAE参数更新完成后,各自的编码器被传输到中央服务器进行聚合。聚合得到的全局编码器随后被分发回所有客户端。这个全局编码器用于从每个客户端的本地训练数据集中提取隐藏特征。为了便于在服务器内训练RUL预测器,提取的隐藏特征及其相关标签被上传到服务器。然后,利用这些数据更新RUL预测器。

为了验证所提出方法的效率和实用性,本文选择了不同的网络结构作为RUL预测器来预测RUL。

2 数据集 2.1 C-MAPSS数据集

C-MAPSS[9]作为涡轮风扇发动机仿真数据集,是被广泛应用的基准数据集,包含不同数量的运行工况和故障工况的传感器数据。该数据集由4个子集组成,分别是FD001、FD002、FD003和FD004,每个子集包含不同的工作条件和故障模式。

每一个子数据集中又分为训练集、测试集和标签集。训练集包括了来自不同航空发动机的多维传感器数据,这些发动机在初始磨损程度和制造设置上各不相同,训练集包含从发动机正常运行到停机(当RUL为0时)整个生命周期所有传感器记录的数据。测试集则由同样的多维传感器数据组成,但所提供的数据仅限于发动机发生故障前的一个时间点,而非完整生命周期。训练集和测试集中的数据都是在相同的工况下收集的,即其故障模式和工作条件是一致的。与测试集相对应的标签集提供了测试集中每个发动机实例的剩余使用寿命标签。

C-MAPSS数据集各个子集的详细信息如表 1[9]所示。每个子集包含21个特征,分别由21个传感器收集。

表 1 C-MAPSS数据集的详细信息[9]
数据集 C-MAPSS
FD001 FD002 FD003 FD004
故障模式 1 1 2 2
工作条件 1 6 1 6
训练集 100 260 100 249
测试集 100 259 100 248