基于联邦学习与云边协同的剩余寿命预测

引用本文

于振军, 雷宁博, 莫语, 李秀, 黄必清. 基于联邦学习与云边协同的剩余寿命预测[J]. 清华大学学报(自然科学版), 2025, 65(5): 901-911.

YU Zhenjun, LEI Ningbo, MO Yu, LI Xiu, HUANG Biqing. Remaining useful life prediction based on federated learning and cloud-edge collaboration[J]. Journal of Tsinghua University (Science and Technology), 2025, 65(5): 901-911.

基于联邦学习与云边协同的剩余寿命预测

于振军^1,2, 雷宁博³, 莫语^1,2, 李秀², 黄必清¹

1. 清华大学自动化系, 北京 100084;
2. 清华大学深圳国际研究生院, 数据与信息研究院, 深圳 518055;
3. 中国核电工程有限公司, 北京 100840

收稿日期：2024-04-09

基金项目：国家重点研发计划(2021YFF0901304)

作者简介：于振军(1999—), 男, 硕士研究生

通讯作者：黄必清, 教授, E-mail: hbq@tsinghua.edu.cn

摘要：剩余使用寿命(RUL)预测对于确保工业设备的安全运行和减少定期预防性维护的成本具有重大意义。然而, 对于典型的边缘设备, 其计算能力和数据存储能力有限, 较难实现设备的RUL预测, 且云和边缘之间的数据传输速率有限, 传输所有训练数据会带来较高的延迟。此外, 由于可能的利益冲突, 通常情况下很难实现所有边缘设备之间的数据共享。为此, 该文提出了一种基于联邦学习的云边协同框架。多个边缘设备和云服务器被用来训练一个基于变分自编码器(VAE)的特征提取模块和一个RUL预测模块, 无需数据共享。在每个训练周期中, 首先在所有边缘设备上使用各自的本地训练数据集训练VAE, 再将所有本地VAE上传到云端, 并根据本地训练数据的规模为所有边缘分配权重, 聚合成一个全局特征提取模块, 再发送回所有边缘设备, 以从它们的数据集中提取隐藏特征, 并将这些特征上传到云端以训练全局RUL预测器。实验结果表明：该方法可以在资源受限的条件下执行边缘设备RUL预测, 减少了数据传输延迟并能够保护数据隐私。

关键词：剩余寿命预测联邦学习云边协同预测性健康管理(PHM)

Remaining useful life prediction based on federated learning and cloud-edge collaboration

YU Zhenjun^1,2, LEI Ningbo³, MO Yu^1,2, LI Xiu², HUANG Biqing¹

1. Department of Automation, Tsinghua University, Beijing 100084, China;
2. Institute of Data and Information, Tsinghua Shenzhen International Graduate School, Shenzhen 518055, China;
3. China Nuclear Power Engineering Co., Ltd., Beijing 100840, China

Abstract: [Objective] Predicting the remaining useful life (RUL) of industrial equipment is critical for maintaining safe operations and minimizing maintenance costs. However, RUL prediction for edge devices faces several challenges. First, edge devices often lack the computational power and storage capacity required for complex RUL prediction algorithms, making such predictions difficult. Many RUL prediction algorithms require substantial resources, which are scarce on edge devices. Second, the limited data transmission rate between the cloud and edge devices causes high latency when transmitting large data sets to the cloud, affecting real-time predictions and increasing network bandwidth usage. Additionally, data sharing among all edge devices is often impractical owing to privacy, security issues, and potential conflicts of interest, limiting models to local data and reducing their accuracy. [Methods] To address these challenges, this paper proposes a cloud-edge collaboration framework for RUL prediction based on federated learning. The framework comprises two main processes. In the first process, each training device trains a variational autoencoder (VAE) using its local data set. The trained encoders are then uploaded to the cloud and aggregated using a weighted average method (FedAVG), with the number of training samples as weights. The aggregated global encoder is then downloaded to all edge devices. In the second process, the aggregated encoder extracts hidden features from the local data sets on each edge device. These features are uploaded sequentially to the cloud to train the RUL predictor. Once trained, the predictor is sent back to the edge devices, completing one training cycle. This iterative process continues until a well-trained RUL prediction model, consisting of the global encoder and predictor, is achieved. During the testing stage, the global encoder is used to extract hidden features, while the RUL predictor performs deeper feature extraction and RUL prediction. In this framework, only local encoders and hidden features are uploaded to the server, significantly reducing communication overhead. Most of the training occurs on the server, with clients only performing the basic training of the shallow VAE, thereby effectively utilizing the server's powerful computational capabilities. Data privacy is maintained since the server receives hidden features and encoders, not the original data, preventing data reconstruction. [Results] To validate the proposed method's efficiency and practicality, different network structures were tested for RUL prediction on the commercial modular aero-propulsion system simulation (C-MAPSS). Although there was a slight decline in prediction performance compared to the baseline, the difference was within acceptable limits. This minor trade-off in accuracy enabled RUL prediction under resource constraints. The proposed algorithm significantly reduced data transmission time after feature extraction across various data scales consistently. In industrial scenarios with large data volumes, this reduction was even more pronounced. Further validation using nuclear power unit fault data sets showed a slight decrease in root mean square error (RMSE) on the test set without a significant drop in prediction accuracy. These results demonstrate that the proposed cloud-edge collaboration framework is promising for fault diagnosis in nuclear power units, effectively addressing edge resource limitations. [Conclusions] The proposed cloud-edge collaboration framework leverages federated learning to achieve RUL prediction on resource-constrained edge devices, thereby alleviating issues related to resource constraints and data privacy. By employing VAE-based feature extraction and federated learning for model training, the framework achieves efficient model training while significantly reducing communication overhead with minimal impact on accuracy. Experimental validation on industrial simulation data sets and nuclear power unit fault data sets demonstrates the framework's practicality and effectiveness. This framework represents a useful approach to addressing challenges in fault diagnosis and URL prediction within resource-constrained settings.

Key words: remaining useful life prediction federated learning cloud-edge collaborations prognostics and health management (PHM)

工程维护和预测在各行各业的机械设备中发挥着至关重要的作用。传统的维护策略，如故障修复维护和预防性维护^[1]，已经无法满足人们对可靠性和效率日益增长的需求，预测性健康管理(prognostics and health management, PHM)技术已成为工程维护的关键技术。通用的PHM技术广泛地涵盖了设备状态监测、故障诊断和健康评估等方面，通常侧重于识别和分类故障模式，并提供整体的健康状态评估。剩余使用寿命(remaining useful life, RUL)预测作为PHM的一项关键任务，侧重于设备寿命的精确估计。对机械设备进行准确的RUL预测可以有效地实施预测性维护，减少机械设备费用高昂的非计划维护。近年来，RUL预测受到了广泛关注^[2]。

一般来说，现有的RUL预测方法可以分为两类：基于模型的方法(也称为故障物理预测)和数据驱动的方法^[3]。基于模型的方法使用数学或物理模型来预测机械设备的RUL。然而，现代工业设备的日益复杂化导致其工作条件和故障类型越来越复杂，建立精确物理模型所需的参数数量也急剧增加，使得这些模型的构建变得更加困难。

数据驱动的预测方法不需要精确的模型或对系统退化背后的机制有先验知识；该方法专注于将传感器提供的数据转换为设备退化行为的相关模型。基于经典机器学习的数据驱动预测方法包括支持向量机(support vector machine, SVM)^[4]、随机森林(random forest, RF)^[5]、隐Markov模型(hidden Markov model, HMM)^[6]、自回归移动平均(autoregressive moving average, ARAM)^[7]等。这些方法可以有效地利用输入数据获得故障诊断和预测结果，且计算速度较快，但是拟合能力有限，针对复杂的退化过程仍存在诊断和预测精度较差的问题。

随着算力的不断提高，基于深度学习的数据驱动预测方法在RUL预测领域越来越受欢迎。Li等^[8]使用一维卷积神经网络(convolutional neural network, CNN)预测商用模块化航空推进系统仿真(commercial modular aero-propulsion system simulation, C-MAPSS) ^[9]数据集中涡轮风扇引擎的RUL。Xu等^[10]、Ren等^[11]和Huang等^[12]应用二维CNN进行RUL预测，并取得了较好的结果。

循环神经网络(recurrent neural network, RNN)在解决时间序列预测问题上具有较好的性能；相比于CNN，RNN能够更有效地捕获长时依赖信息。Jin等^[13]提出了一个基于双向长短时记忆网络(bidirectional long short-term memory, Bi-LSTM)的双流网络。Zheng等^[14]提出了一种基于一维CNN和注意力增强Bi-LSTM的多模态深度学习方法。这些方法证明了RNN和LSTM在时间序列数据中的有效性。

自从基于自注意力的Transformer网络^[15]被提出以来，它已经展示了出色的学习能力。Transformer在时序相关问题上能够有效、并行地捕获长期依赖关系，大大提高了运算速度和特征提取能力。Zhang等^[16]提出了基于Transformer的双面自注意模型(dual-aspect self-attention based on transformer, DAST)。Mu等^[17]提出了一种基于RF-Transformer-LSTM集成多源信号的RUL预测方法。

上述基于模型的方法和数据驱动的方法各有优势和局限性。然而，当前工业设备所处的环境复杂，故障种类多样，零部件众多，因此研究人员开始探索将不同方法进行整合，以期在利用各种方法的独特优势的基础上实现更准确的预测。

Qian等^[18]提出了一种结合增强相空间扭曲(phase space warping, PSW)和改进的Paris裂纹扩展模型的多时间尺度方法，用于轴承缺陷跟踪和RUL预测。Yang等^[19]提出了一种将物理模型与数据驱动方法相结合的混合模型，包括一个反映轴箱热行为的物理模型，以及两个分别基于BP网络与LSTM且采用相同输入的数据驱动模型。

然而，在典型的边缘设备上实现RUL预测面临着巨大的挑战，因为其计算能力和数据存储容量有限。传统上，设备生成的大量数据是通过集中式云计算模型进行处理的。然而，这种模型已无法满足大规模和地理分布广泛的设备在执行高性能、低延迟和低能耗任务方面的计算需求，因此边缘计算作为云计算的补充应运而生^[20]。此外，在引入云资源的情况下，将所有训练数据发送到云进行处理可能会导致较大的数据传输时延和数据隐私问题。

针对数据传输时延，可以通过减小数据传输量进行改善。变分自编码器(variational autoencoder, VAE)作为一种自监督的生成模型，被广泛应用于特征提取与数据压缩。Liu等^[21]将CNN与VAE和受限Boltzmann机结合以压缩和重建传感数据。Duan等^[22]基于VAE提出了一类强大且高效的有损图像编码器，该编码器在自然图像有损压缩方面优于以前的方法。

针对数据隐私，联邦学习(federated learning, FL)^[23]是一个较好的解决方案。它将原始数据保留在本地，通过各边缘端与云端进行协作来训练一个共有模型，其间不会发生原始数据的传递和交换^[24]。联邦学习最初在手机输入法中应用，此后在物联网(Internet of things, IoT)和其他边缘端设备中展现出重要的价值。例如，Gao等^[25]提出了一种用于异构IoT应用的跨技术通信FL框架，Ficco等^[26]结合联邦学习和迁移学习，在不平衡数据集下提升了IoT设备上的深度模型训练性能。在工业领域，Han等^[27]提出的FL框架解决了视觉检测的数据短缺和安全性问题，Luan等^[28]提出了一种基于FL的隐私保护型绝缘子检测方法，证明了FL在确保检测准确性的同时，具有有效保护数据隐私的能力。

基于以上考虑，本文提出了一种基于联邦学习的云边协同框架用于RUL预测。这种方法利用多个边缘设备和一个云服务器训练一个基于VAE的特征提取模块和一个RUL预测模块，并且无需数据共享。VAE最初在所有边缘设备上使用各自的本地训练数据集进行训练，随后将所有本地VAE上传到云端，并根据边缘设备本地训练数据集的规模分配权重，聚合成一个全局特征提取模块。此后，将全局特征提取模块重新分发到所有边缘设备，从边缘设备的数据集中提取隐藏特征。这些特征随后传输到云端，用于在云端训练全局RUL预测器，训练完成后将预测器发送到边缘端，每个边缘端即可独立完成RUL预测。

1 云边协同框架 1.1 联邦学习

在工业应用中，训练具有众多参数的深度学习模型既耗时又昂贵，不适合边缘客户端。通常，这些客户端将其数据上传到云服务器，但仅基于单个边缘客户端的数据不足以构建一个强大的模型。此外，由于潜在的利益冲突以及保密要求，通常不同的边缘客户端不愿意共享数据。

2016年，谷歌引入了FL作为一种范式，用于在保护数据隐私的同时，使参与者可以训练机器学习模型^[23]。在FL的背景下，客户端代表边缘客户端，服务器代表云服务器。客户端不共享数据，只上传其本地模型到服务器，服务器负责将接收到的所有客户端的信息聚合成一个全局模型。FL能够在不共享原始数据的情况下完成模型的协同训练，解决了大规模分布式训练网络中的数据交互和隐私问题。

在联邦学习框架中，参与者使用各自的本地数据独立训练模型，而无须共享原始数据。具体步骤包括：本地模型训练、模型参数上传、全局模型聚合、全局模型下发、迭代优化模型。经过多轮迭代后，每个参与方都获得一个优于仅使用本地数据训练的模型，这个模型在整体性能上更加强大，同时保护了数据隐私。

在整个过程中，任何一方都无法访问其他方的原始数据。通过这种方式，联邦学习允许多个参与方协作训练出一个共享的机器学习模型，而无须直接交换数据，从而在保护隐私的同时提高了模型的性能和泛化能力。

1.2 总体框架

基于联邦学习的云边协同框架主要包含2个过程，分别对应图 1的特征提取模块训练过程和图 2的RUL预测器模块训练过程。在第1个过程中，所有边缘设备上的VAE分别使用各自的本地训练数据集进行训练。训练完成后，所有编码器被上传到云端，并使用加权平均法进行聚合。然后，将聚合后的全局编码器下发到所有边缘设备上。在第2个过程中，聚合的编码器从每个边缘设备上的本地训练数据集中提取隐藏特征。随后，这些特征逐一上传到云端以训练RUL预测器。最后，云端将预测器发送到所有边缘设备，从而完成了一个训练周期。这些过程重复进行，直到得到一个性能良好的RUL预测模型，包括全局编码器和预测器。初始步骤中，在每个客户端上使用本地数据集训练VAE。随后，将训练好的编码器传输到云端，在云端以训练样本的数量作为权重进行聚合，参数聚合方法使用FedAVG算法，

$ \theta^{t+1}=\sum\limits_{e=1}^{E} \alpha_{e} \theta_{e}^{t}. $

图 1 特征提取模块训练过程

图选项

图 2 RUL预测器模块训练过程

图选项

其中：$\theta^{t+1}$表示经过$t$次更新后获得的全局参数，$E$是所有边缘端的集合。$\theta_{e}^{t}$表示边缘端$e$上更新了$t$次后的参数，而$\alpha_{e}$则表示相应的权重。

聚合过程完成后，一个全局编码器随即下发到所有客户端，以便提取隐藏特征。这些特征及其对应的标签被发送回云端进行高级特征提取和RUL预测，标志着一个训练周期的完成。

在测试阶段，全局编码器被用来提取隐藏特征，而RUL预测器进行更深层次的特征提取和RUL预测。在这个框架内，只有本地编码器和隐藏特征被多次上传到服务器，显著减少了通信开销。此外，训练过程在服务器上执行，所有客户端只执行浅层VAE的基础训练，有效利用了服务器的强大计算能力。尽管服务器可以访问来自不同客户端的隐藏特征，数据隐私仍然得到保护，因为本地客户端只上传了隐藏特征和编码器，服务器无法直接得到原始数据且不能通过隐藏特征还原原始数据，从而保护了数据隐私。

1.3 特征提取模块

本文使用VAE的编码器作为特征提取模块。VAE标准模型由编码器、采样器和解码器组成。VAE的编码器和解码器结构通常设计得几乎对称，层数相同。编码器接收输入并产生隐藏变量的概率分布，由分布的均值$m$和方差$v$表示。经过采样器后，可以得到潜在变量$z$，其中输入数据$x_{i}$的压缩信息存储在潜在变量中，它反映了数据在各种工作条件和故障模式下的分布特征。本文使用深度卷积网络作为编码器，使用解卷积网络^[29]作为解码器。

RUL预测中故障数据主要为时序数据。为了保留时序信息，本文使用深度卷积网络中的时间卷积网络(temporal convolutional network, TCN)实现了编码器。TCN又称为因果卷积网络，以3层卷积网络为例，其结构如图 3所示。

图 3 3层时间卷积网络结构

图选项

TCN中每一层的元素都是由前一层对应时刻的输入与前一层上一时刻的输入进行卷积操作得到的。通过堆叠多层卷积网络，输出层元素的感受野得到增加，但仍满足参与t时刻输出o_t卷积仅包含输入数据x₁到x_t。因此，影响对t时刻RUL预测的输入数据只包含t时刻之前的输入，即从x₁到x_t，t时刻之后的数据受因果关系限制，并不影响对o_t的预测。

VAE的结构如图 4所示。左侧部分为编码器，输入尺寸为N_t×N_f，其中N_t代表时间序列的长度，N_f是选取的特征数量。编码器由3个卷积层C₁、C₂和C₃组成。另外2个独立的卷积层分别用于生成潜在变量正态分布的均值m与方差v。编码器卷积层C₁有1个输入通道和c₁个输出通道，卷积层C₂有c₁个输入通道和c₂个输出通道，而卷积层C₃有c₂个输入通道和c₁个输出通道。3个卷积层使用的核大小为k_t×k_f，其中k_t和k_f分别为时间维度和特征维度的卷积核大小。每个卷积层都使用ReLU函数作为激活函数。

图 4 VAE的结构

图选项

图 4的右侧部分展示了解码器的结构。解码器包含2个反卷积层dC₁和dC₂。反卷积可以被理解为卷积操作的逆操作。另外1个独立的反卷积层输出维度为c₁×N_t×N_f。解码器第1个反卷积层dC₁的输入通道数为c₁，输出通道数为c₁，激活函数为ReLU函数。第2个反卷积层dC₂的输入通道数为c₁，输出通道数为1，激活函数为Sigmoid。dC₂的输出是输入数据的重建结果。

1.4 RUL预测器

在所有客户端的VAE参数更新完成后，各自的编码器被传输到中央服务器进行聚合。聚合得到的全局编码器随后被分发回所有客户端。这个全局编码器用于从每个客户端的本地训练数据集中提取隐藏特征。为了便于在服务器内训练RUL预测器，提取的隐藏特征及其相关标签被上传到服务器。然后，利用这些数据更新RUL预测器。

为了验证所提出方法的效率和实用性，本文选择了不同的网络结构作为RUL预测器来预测RUL。

2 数据集 2.1 C-MAPSS数据集

C-MAPSS^[9]作为涡轮风扇发动机仿真数据集，是被广泛应用的基准数据集，包含不同数量的运行工况和故障工况的传感器数据。该数据集由4个子集组成，分别是FD001、FD002、FD003和FD004，每个子集包含不同的工作条件和故障模式。

每一个子数据集中又分为训练集、测试集和标签集。训练集包括了来自不同航空发动机的多维传感器数据，这些发动机在初始磨损程度和制造设置上各不相同，训练集包含从发动机正常运行到停机(当RUL为0时)整个生命周期所有传感器记录的数据。测试集则由同样的多维传感器数据组成，但所提供的数据仅限于发动机发生故障前的一个时间点，而非完整生命周期。训练集和测试集中的数据都是在相同的工况下收集的，即其故障模式和工作条件是一致的。与测试集相对应的标签集提供了测试集中每个发动机实例的剩余使用寿命标签。

C-MAPSS数据集各个子集的详细信息如表 1^[9]所示。每个子集包含21个特征，分别由21个传感器收集。

表 1 C-MAPSS数据集的详细信息^[9]

数据集	C-MAPSS
数据集	FD001	FD002	FD003	FD004
故障模式	1	1	2	2
工作条件	1	6	1	6
训练集	100	260	100	249
测试集	100	259	100	248

表选项

2.2 核电机组故障数据

由于核电机组的故障详细诊断与剩余寿命预测具有相似性，因此在某核电厂提供的核电机组故障数据上进一步验证了本文算法的可行性。

核电机组故障数据为该核电厂或其模拟机采集到的发生故障后机组状态数据，经初步诊断得到故障类别后，通过详细诊断得到故障具体起因、故障大小(例如破口面积大小)。每一个数据包含上千维特征，如温度、压力、流量等。图 5展示了部分特征归一化后随时间变化的趋势。

图 5 部分特征归一化后变化趋势

图选项

本文主要使用了核电机组故障数据中破口类故障的破口面积进行了预测实验，破口面积在0.01~0.13 cm²，步长为0.01 cm²。每一个数据包含上千维特征，其中部分特征与设备退化相关性不大。故障数据包括从设备发生故障开始到温度达到一定阈值期间所有传感器记录的数据，故障详细诊断则是根据这些故障数据诊断出故障的破口大小，即破口面积。

3 实验设置 3.1 传感器特征选择

工业设备的故障诊断和预测任务通常使用传感器数据作为训练数据。然而，并不是所有数据都与故障诊断和预测任务相关，一些无关的传感器数据甚至增加了模型的复杂性和训练难度，浪费计算资源的同时也会导致模型难以收敛。Wu等^[30]提出使用相关性和单调性来选择最具信息量的传感器特征。相关性度量的计算可以表示为

$ \text { Corr }=\frac{\left|\sum\limits_{t=1}^{T}\left(f_{t}^{(i)}-\bar{f}^{(i)}\right)(t-\bar{t})\right|}{\sqrt{\sum\limits_{t=1}^{T}\left(f_{t}^{(i)}-\bar{f}^{(i)}\right)^{2} \sum\limits_{t=1}^{T}(t-\bar{t})^{2}}} $

其中：$f^{(i)}$表示第$i$个特征序列，$T$表示$f^{(i)}$的长度，$f_{t}^{(i)}$是第$t$个时间步的第$i$个特征值，$\bar{f}^{(i)}$和$\bar{t}$分别表示$f^{(i)}$和$t$的平均值。

单调性度量的计算可以表示为

$ \text { Mon }=\left|\frac{\sum\limits_{t=2}^{T} I\left(\mathrm{~d} f_{t}^{(i)}>0\right)}{T-1}-\frac{\sum\limits_{t=2}^{T} I\left(\mathrm{~d} f_{t}^{(i)}<0\right)}{T-1}\right| $

其中：$\mathrm{d} f_{t}^{(i)}$为$f_{t}^{(i)}$为的差分，即$\mathrm{d} f_{t}^{(i)}=f_{t}^{(i)}-$ $f_{t-1}^{(i)} ; ~ I\left(\mathrm{~d} f_{t}^{(i)}>0\right)$是指示函数，当$\mathrm{d} f_{t}^{(i)}>0$时取值为1，否则为0。

相关性度量描述了特征与运行时间的线性相关性，单调性度量描述了特征的增减趋势。将Corr和Mon进行线性组合，得到传感器特征选择标准，

$ \text { Cri }=\alpha \cdot \operatorname{Corr}+(1-\alpha) \cdot \text { Mon }-\gamma $

其中：α作为平衡因子为单调性与相关性度量分配不同的权重，γ是调节因子。

最后，根据该传感器特征选择标准，从C-MAPSS数据集的21维传感器数据中选择了14个特征，对应的维度序号分别是2、3、4、7、8、9、11、12、13、14、15、17、20和21；从核电机组状态数据的上千维传感器数据中选择了22个特征。

3.2 数据预处理

数据集中的数据由不同类型的传感器监测而来，不同的传感器工作在不同的环境中，且测得的数值对应不同的单位。为了消除不同传感器输入数据的范围差异，所有选定特征的值都通过最小-最大方法归一化到[0, 1]范围内，

$ \bar{x}_{i}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} $

其中：$x_{i}$表示选定特征第$i$个序列的原始数据，$x_{\text {max }}$和$x_{\text {min }}$表示选定特征的最大和最小值，$\bar{x}_{i}$表示选定特征第$i$个序列的归一化结果。

VAE的输入尺寸为N_t×N_f，因此需要对原始数据进行时间窗口处理以将输入数据处理成上述维度。对于每个数据样本，选择前N_t-1个数据点和数据样本来形成一个输入数据矩阵。如果前面的数据不足则补0。对于C-MAPSS数据，相应的标签RUL是数据样本从开始到结束的总时间周期数；对于核电机组故障数据，相应的标签为该故障的破口面积大小。通过应用时间窗口处理，可以保持输入样本的尺寸一致，并且每个时间步的数据均能形成一个输入样本，从而增加输入数据的样本量。

针对C-MAPSS数据集的RUL预测任务，在设备运行的初始阶段，并没有退化特征。假设设备的实际RUL超过某个阈值RUL_max，而理论上，超过RUL_max的RUL并不稳健，且设备尚未表现出任何退化特征。为了解决这个问题，Heimes^[31]提出了一个适用于C-MAPSS数据集的分段线性退化模型，这个模型已被证明对RUL预测有效。在网络训练过程中，所有超过阈值RUL_max的设备RUL都被设置为RUL_max，如图 6所示。这一步骤确保了RUL预测保持在可靠的范围内，模型不会作出超出阈值的不切实际的预测^[32]。

图 6 C-MAPSS数据集的分段剩余使用寿命(RUL_max为125个时间周期)

图选项

4 实验结果 4.1 C-MAPSS数据集RUL预测

本研究提出的方法使用的模型包括所有边缘端的VAE和云端的一个RUL预测器。在本研究的实验中，RUL_max设置为125个时间周期。VAE和RUL预测模型中使用的优化器是Adam算法。本文使用随机网格搜索和手动调整来优化模型的超参数。

本研究使用均方根误差(root mean square error, RMSE)作为损失函数和评估RUL预测模型性能的指标。

$ \mathrm{RMSE}=\sqrt{\frac{1}{n} \sum\limits_{i=1}^{n}\left(\frac{\left|\bar{y}_{i}-y_{i}\right|}{y_{i}}\right)^{2}}. $

其中: $\bar{y}_{i}$和$y_{i}$分别表示预测的和真实的RUL。

本研究模拟了在边缘端训练VAE模型，并在云端集成参数进行全局参数更新的过程。实验共设置了4个边缘端，在4个边缘端中数据量相等。云端和边缘端使用位于相同互联网环境中的不同服务器进行模拟。考虑到实际的工业传输因素，传输速度应明显低于公司内网未拥塞的传输速度。因此，本研究采用了10 Mb/s作为边缘端和云端之间传输速度。云端的实验环境主要包括8个RTX3090，而每个边缘端则部署了1个RTX1080-Ti。

在4个子数据集下VAE的训练结果如表 2所示。表 2中的轮次表示第几次进行模型的聚合与更新。考虑到边缘端可用的计算资源有限，边缘端的训练轮次保持在最少。然而，在实验中发现，本模型在少数几个轮次内即可快速收敛。从表 2可以看出，随着训练轮次的增加，云端聚合的全局模型训练效果不断提高。

表 2 不同轮次下VAE的训练效果

轮次	RMSE
轮次	FD001	FD002	FD003	FD004
第1轮	0.513	0.870	1.142	0.682
第2轮	0.385	0.403	0.368	0.361
第3轮	0.355	0.364	0.351	0.359

表选项

本节使用压缩率表示特征提取得到的隐向量与原始数据之间的比率，较小的压缩率意味着数据传输效率更高。在C-MAPSS的子数据集上的数据压缩实验结果如表 3所示。子数据集FD002和FD004上压缩率达到了约0.19，即隐向量大小仅为原始数据的19%。RMSE值在训练集和测试集上均较低，分别在0.346到0.364之间。这表明隐向量与原始数据之间的信息损失程度相对较小，特征提取在保留数据关键信息方面表现良好，对于后续的数据分析和应用具有重要意义。

表 3 不同数据集上训练数据与测试数据的压缩结果

子数据集	数据	原始尺寸	隐向量尺寸	压缩率	RMSE
FD001	训练集	40×14	20×8	0.29	0.355
FD001	测试集	40×14	20×8	0.29	0.341
FD002	训练集	60×14	20×8	0.19	0.364
FD002	测试集	60×14	20×8	0.19	0.353
FD003	训练集	40×14	20×8	0.29	0.351
FD003	测试集	40×14	20×8	0.29	0.352
FD004	训练集	60×14	20×8	0.19	0.359
FD004	测试集	60×14	20×8	0.19	0.346

表选项

为了验证本文所提方法的效率和实用性，根据Babu等^[33]、Xu等^[10]、Zheng等^[34]和Mo等^[32]的工作，为RUL预测选择了不同的网络结构。这些结构包括CNN1d(一维CNN模型)、CNN2d(二维CNN模型)、LSTM和Transformer。

表 4展示了使用不同方法在4个不同测试子数据集FD001—FD004上的预测性能。Baseline列表示直接使用所有数据进行模型训练时的模型预测性能，一般表示算法能达到的最高准确率，FL列表示引入本文算法后模型预测性能。实验结果表明，在对FD002和FD004数据集进行测试时，模型的表现相对于FD001和FD003较差。这主要是因为FD004和FD002的工作条件与故障模式复杂性更高，使得与退化相关的特征提取更加困难。

表 4 不同网络结构的RUL预测性能

子数据集	模型类型	RMSE
子数据集	模型类型	Baseline	FL
FD001	CNN1d	19.14	20.54
	CNN2d	12.37	12.86
	LSTM	14.36	14.37
	Transformer	11.76	12.16
FD002	CNN1d	31.43	32.20
	CNN2d	26.21	26.51
	LSTM	25.51	25.37
	Transformer	23.41	24.14
FD003	CNN1d	19.85	21.72
	CNN2d	12.93	13.41
	LSTM	14.42	14.82
	Transformer	11.85	12.57
FD004	CNN1d	33.52	36.32
	CNN2d	27.43	28.71
	LSTM	26.17	26.57
	Transformer	25.37	25.64

表选项

从表 4的实验结果可以看出，Baseline列在不同网络结构都表现出最好的性能，这与预期相符。使用本文提出的算法后模型预测性能与Baseline相比略有下降，但下降的幅度较小，在可接受的范围内。可见，本文方法通过略微牺牲预测精度就可以实现资源受限下的设备剩余寿命预测。

本文所提出的框架能够在不同网络结构以及资源限制条件下实现RUL预测。CNN1d模型显示出相对较低的预测精度，这可能是由于其提取时间特征的能力有限。使用循环神经网络架构作为时间预测模型，能更有效地从序列集中提取相关特征，LSTM模型增强了长期预测的分析性能，与CNN和其他模型相比，其RMSE更低，即预测效果更好。然而，使用LSTM模型进行训练与预测的计算时间相对较长，在FD004子数据集规模较大的条件下，这种情况更加显著。Transformer更好地保留了关键信息，从而提高了预测精度，其并行训练缩短了训练和测试时间。在精度方面，LSTM和Transformer的表现优于其他模型。

图 7展示了子数据集FD004特征提取前后数据传输时间的变化。可以清晰地看出，使用本文算法进行特征提取后的压缩数据可以显著降低数据的传输时间，并且这种降低的效果在不同数据规模下基本一致。特别地，对于工业场景中数据量较大的情况，当训练数据较多时，传输时间的降低更加明显。这一结果意味着本文提出的算法在实际应用中具有广泛的适用性，并且能够有效应对工业环境中大量数据传输所带来的挑战。

图 7 FD004特征提取前后数据传输时间的变化

图选项

除了降低传输时间外，特征提取还能提高隐私保护。通过减少传输的数据量，特征提取能够减少敏感信息的传输，从而降低数据泄露的风险。在工业环境中，数据安全和隐私保护至关重要，尤其是涉及敏感的生产数据和商业机密信息。因此，通过特征提取和联邦学习进行剩余寿命的云边协同预测，不仅可以提高数据传输的效率，还能有效保护数据的隐私和安全。

4.2 核电机组故障详细诊断

本文进一步使用核电机组数据对提出的算法进行了验证。诊断模型的预测输出值为破口面积大小，范围在0.01~0.13 cm²。为了评估模型的性能，采用RMSE和准确率作为评估指标。具体来说，如果预测值与真实值之间的相对误差不超过10%，则视为预测准确。

核电机组故障诊断中通常使用的模型为LSTM，因此本节选择LSTM进行实验。按照4∶1的比例划分训练集与测试集，在训练集上进行模型训练后，在测试集上评估模型性能。实验共设置了3个边缘端。训练集按照1∶2∶3的比例被分配到3个不同的边缘端，使用FedAVG算法进行参数聚合。

图 8展示了仅使用LSTM进行故障详细诊断的结果，图 9展示了LSTM结合本文框架得到的结果。从图 8和9可以看出，在破口较小时模型预测结果较为准确，破口较大时误差相对较大。

图 8 仅使用LSTM网络的诊断结果

图选项

图 9 LSTM网络结合本文算法的诊断结果

图选项

表 5展示了详细诊断的模型性能。Baseline行表示直接使用所有数据进行模型训练时的模型性能，即模型性能的上限。

表 5 核电机组故障详细诊断的模型评价

算法	评价指标
算法	RMSE	准确率/%
Baseline	0.073 8	95
本文	0.079 1	95

表选项

表 5的实验结果表明，引入本文算法后测试集上得到的RMSE略有下降，而模型的预测准确率基本没有变化。由这些实验结果可以看出，本文提出的云边协同框架在核电机组故障诊断中具有良好的应用前景，能够有效地解决边缘端资源有限的问题。

5 结论

本文提出了一种基于联邦学习的云边协作框架，用于设备剩余使用寿命预测，主要解决工业场景中实现剩余使用寿命预测时遇到的数据传输延迟、隐私保护和资源限制问题。利用所提出的框架，本文对C-MAPSS数据集在多种网络结构上进行了实验，验证了所提出的框架在面对这些工业场景问题的可行性。

本文提出的框架将联邦学习用于剩余使用寿命的预测，有效地解决了数据共享问题，增强了数据安全性和隐私保护；采用VAE作为特征提取模块，并使用时间卷积网格以保留时序特征。该框架根据本地训练数据的体量为所有客户端分配权重，确保了更准确的特征提取；框架只需要传输特征提取模块提取的隐藏特征，因此数据通信量和传输延迟大大降低，这对于具有高实时性要求的应用场景具有重要价值。

为了验证该框架在实际场景下的有效性，本文采用核电机组故障数据，对破口类故障进行详细诊断。实验结果表明，本方法能够实现资源受限条件下的核电机组故障详细诊断。

在未来的工作中，将研究更适合和有效的算法来提取包含更多退化信息的故障特征，并尝试在更多实际工业场景验证本文所提算法的性能。

参考文献

[1]	AZADEH A, ASADZADEH S M, SALEHI N, et al. Condition-based maintenance effectiveness for series-parallel power generation system: A combined Markovian simulation model[J]. Reliability Engineering&System Safety, 2015, 142: 357-368.
[2]	ZHAO Z Q, LIANG B, WANG X Q, et al. Remaining useful life prediction of aircraft engine based on degradation pattern learning[J]. Reliability Engineering&System Safety, 2017, 164: 74-83.
[3]	MEDJAHER K, TOBON-MEJIA D A, ZERHOUNI N. Remaining useful life estimation of critical components with application to bearings[J]. IEEE Transactions on Reliability, 2012, 61(2): 292-302. DOI:10.1109/TR.2012.2194175
[4]	NIETO P J G, GARCÍA-GONZALO E, LASHERAS F S, et al. Hybrid PSO-SVM-based method for forecasting of the remaining useful life for aircraft engines and evaluation of its reliability[J]. Reliability Engineering&System Safety, 2015, 138: 219-231.
[5]	WU D Z, JENNINGS C, TERPENNY J, et al. A comparative study on machine learning algorithms for smart manufacturing: Tool wear prediction using random forests[J]. Journal of Manufacturing Science and Engineering, 2017, 139(7): 071018. DOI:10.1115/1.4036350
[6]	TOBON-MEJIA D A, MEDJAHER K, ZERHOUNI N, et al. A data-driven failure prognostics method based on mixture of Gaussians hidden Markov models[J]. IEEE Transactions on Reliability, 2012, 61(2): 491-503. DOI:10.1109/TR.2012.2194177
[7]	GUCLU A, YILBOGA H, EKERÖ F, et al. Prognostics with autoregressive moving average for railway turnouts[C]//Annual Conference of the Prognostics and Health Management Society. Portland, USA, 2010.
[8]	LI X, DING Q, SUN J Q. Remaining useful life estimation in prognostics using deep convolution neural networks[J]. Reliability Engineering&System Safety, 2018, 172: 1-11.
[9]	SAXENA A, GOEBEL K, SIMON D, et al. Damage propagation modeling for aircraft engine run-to-failure simulation[C]//2008 International Conference on Prognostics and Health Management. Denver, USA: IEEE, 2008: 1-9.
[10]	XU X, WU Q H, LI X, et al. Dilated convolution neural network for remaining useful life prediction[J]. Journal of Computing and Information Science in Engineering, 2020, 20(2): 021004. DOI:10.1115/1.4045293
[11]	REN L, SUN Y Q, WANG H, et al. Prediction of bearing remaining useful life with deep convolution neural network[J]. IEEE Access, 2018, 6: 13041-13049. DOI:10.1109/ACCESS.2018.2804930
[12]	HUANG C G, HUANG H Z, LI Y F, et al. A novel deep convolutional neural network-bootstrap integrated method for RUL prediction of rolling bearing[J]. Journal of Manufacturing Systems, 2021, 61: 757-772. DOI:10.1016/j.jmsy.2021.03.012
[13]	JIN R B, CHEN Z H, WU K Y, et al. Bi-LSTM-based two-stream network for machine remaining useful life prediction[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 3511110.
[14]	ZHENG Y, BAO X Y, ZHAO F, et al. Prediction of remaining useful life using fused deep learning models: A case study of turbofan engines[J]. Journal of Computing and Information Science in Engineering, 2022, 22(5): 054501.
[15]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates, 2017: 6000-6010.
[16]	ZHANG Z Z, SONG W, LI Q Q. Dual-aspect self-attention based on transformer for remaining useful life prediction[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 2505711.
[17]	MU H S, ZHAI X D, YIN D B, et al. A method of remaining useful life prediction of multi-source signals aero-engine based on RF-transformer-LSTM[C]//2022 IEEE International Conference on Systems, Man, and Cybernetics. Prague, Czech: IEEE, 2022: 2502-2507.
[18]	QIAN Y N, YAN R Q, GAO R X. A multi-time scale approach to remaining useful life prediction in rolling bearing[J]. Mechanical Systems and Signal Processing, 2017, 83: 549-567.
[19]	YANG Z C, WU B, SHAO J J, et al. Fault detection of high-speed train axle bearings based on a hybridized physical and data-driven temperature model[J]. Mechanical Systems and Signal Processing, 2024, 208: 111037.
[20]	CHEN H M, QIN W, WANG L. Task partitioning and offloading in IoT cloud-edge collaborative computing framework: A survey[J]. Journal of Cloud Computing, 2022, 11(1): 86.
[21]	LIU J L, CHEN F X, YAN J, et al. CBN-VAE: A data compression model with efficient convolutional structure for wireless sensor networks[J]. Sensors, 2019, 19(16): 3445.
[22]	DUAN Z H, LU M, MA Z, et al. Lossy image compression with quantized hierarchical VAEs[C]//2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, USA: IEEE, 2023: 198-207.
[23]	MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proceedings of the 20th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: PMLR, 2017: 1273-1282.
[24]	WANG X D, GARG S, LIN H, et al. Toward accurate anomaly detection in industrial Internet of things using hierarchical federated learning[J]. IEEE Internet of Things Journal, 2022, 9(10): 7110-7119.
[25]	GAO D M, WANG H Y, GUO X Z, et al. Federated learning based on CTC for heterogeneous Internet of things[J]. IEEE Internet of Things Journal, 2023, 10(24): 22673-22685.
[26]	FICCO M, GUERRIERO A, MILITE E, et al. Federated learning for IoT devices: Enhancing TinyML with on-board training[J]. Information Fusion, 2024, 104: 102189.
[27]	HAN X, YU H R, GU H S. Visual inspection with federated learning[C]//16th International Conference on Image Analysis and Recognition. Waterloo, Canada: Springer, 2019: 52-64.
[28]	LUAN Z R, LAI Y J, XU Z C, et al. Federated learning-based insulator fault detection for data privacy preserving[J]. Sensors, 2023, 23(12): 5624.
[29]	ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2528-2535.
[30]	WU Q H, DING K Q, HUANG B Q. Approach for fault prognosis using recurrent neural network[J]. Journal of Intelligent Manufacturing, 2020, 31(7): 1621-1633.
[31]	HEIMES F O. Recurrent neural networks for remaining useful life estimation[C]//2008 International Conference on Prognostics and Health Management. Denver, USA: IEEE, 2008: 1-6.
[32]	MO Y, WU Q H, LI X, et al. Remaining useful life estimation via transformer encoder enhanced by a gated convolutional unit[J]. Journal of Intelligent Manufacturing, 2021, 32(7): 1997-2006.
[33]	BABU G S, ZHAO P L, LI X L. Deep convolutional neural network based regression approach for estimation of remaining useful life[C]//21st International Conference on Database Systems for Advanced Applications. Dallas, USA: Springer, 2016: 214-228.
[34]	ZHENG S, RISTOVSKI K, FARAHAT A, et al. Long short-term memory network for remaining useful life estimation[C]//2017 IEEE International Conference on Prognostics and Health Management. Dallas, USA: IEEE, 2017: 88-95.

文章信息

工作空间