2. 清华大学无锡应用技术研究院, 无锡 214072
2. Wuxi Research Institute of Applied Technologies, Tsinghua University, Wuxi 214072, China
在化工生产过程中,关键产品的质量直接关系着企业的经济效益,因此在实际生产中,往往希望能及时获知产品质量变量信息,以此来对生产进行指导和优化。但是产品的组成信息往往需要通过成本高昂的在线色谱分析或者滞后的线下化验分析来获取,不能及时反映生产装置的运行状态。随着分散式控制系统(DCS)在化工过程中的应用及智能化工厂的建设,大量的过程数据被储存下来用于数据分析,基于数据驱动的软测量技术就是该类数据分析手段之一,通过对易于测量的过程变量的分析建模,实现对难以实时测量的关键变量的实时测量[1]。
要建立数据驱动的软测量模型,需要大量的过程数据,然而在现实化工过程中,因为采样困难、分析化验耗时长、在线色谱成本高昂等导致目标变量的标记数量少,而大量的辅助变量如流量、温度、压力等得益于DCS系统和先进的测量技术,测量频率高,存储方便。传统的软测量建模方法只利用有标签数据进行建模,导致大量无标签的过程变量数据中蕴含的信息被浪费,同时,因为化工过程数据的复杂性,用有限数量的有标签数据进行软测量可能会导致模型欠拟合,无法达到理想的预测效果。为解决这个问题,半监督学习被引入软测量当中。半监督模型能够提取无标签数据中的结构特征和信息,提高软测量模型的泛化能力。
根据利用无标签数据的方式不同,半监督方法可以大致分为概率生成模型、代理标签方法、基于图的方法和基于一致性正则化的方法[2]。概率生成模型通过建立数据生成的概率模型进行半监督学习,能够有效地利用无标签数据,然而训练生成模型往往需要大量的计算资源且生成的模型常常依赖于特定的概率假设[3]。代理标签方法的基本思想是通过使用有标签数据生成置信度高的伪标签数据来扩充有标签数据集,简单且高效,具有较好的灵活性,但是容易导致错误传播和累积[4]。基于图的方法通过构建数据的图结构,利用图结构信息辅助进行软测量任务,可以有效利用数据的结构信息,但是对图结构很敏感,限制了该方法的应用[4]。基于一致性正则化的方法基于平滑性假设,对最终的损失函数应用一致性约束,能够提高模型的泛化能力[5]。
上述所提的半监督方法在深度学习技术发展以前,很难直接应用于高维度、非线性且含有较多噪声的化工数据中,随着深度神经网络在监督学习中的普及,促进了半监督学习的新方法的发展,这是由于将无监督损失项合并到神经网络的成本函数中很简单[6],在综合的损失函数中,有监督软测量任务要求编码器提取与目标变量相关的特征表示,而在无监督重构任务中,自编码器倾向于学习保留输入数据的所有信息的特征表示,这种冲突在有标签数据较少时会严重影响有监督任务的性能[7],因此,人们越来越关注不降低有监督任务性能的鲁棒的半监督学习方法。
本文提出了一种基于梯形网络的半监督建模及化工产品组分软测量方法。引入了基于一致性正则化的半监督学习梯形网络模型[5],在这个模型中,编码器和解码器之间的跳跃连接可以减轻模型的较高层表示细节的压力,通过跳跃连接,解码器可以恢复编码器丢弃的细节,因此编码器的顶层可以更专注于有监督任务[7]。对甲醇制烯烃(DMTO)过程中乙烯产品的组成进行软测量,将筛选过后的辅助变量输入模型进行训练。4种有监督模型与4种半监督模型的对比结果表明,无标签数据的引入整体上能够提升软测量效果。4种半监督方法的对比结果表明,本文方法通过在自编码器层加入噪声和实现编码器和解码器之间的跳跃链接有利于提高预测精度。
1 基于梯形网络的软测量模型构建软测量模型的构建一般可以分为下面几个步骤:首先是对辅助变量进行选择;其次进行归一化、特征提取等预处理步骤;然后对处理后的数据建立数学模型,也是最核心的步骤;最后对模型进行在线校正[8]。
1.1 辅助变量筛选本文的变量筛选方法分为2步,首先是用最大互信息系数(MIC)对变量进行初筛,之后再用最小冗余最大相关(mRMR)方法进行筛选。MIC方法是Reshef等在2011年提出的一种基于信息熵的变量筛选方法[9]。相比传统的互信息(MI),MIC能用于衡量2个变量之间任意的相关性,具体的计算步骤参见文[9]。
假设数据集N={x1, x2, …, xn, y},x1, x2, …, xn为辅助变量,y为目标变量。MIC方法逐个计算xi与y的相关性,首先在二维平面上沿X轴和Y轴划分出若干个网格;然后将(xi, y)随机划分到网格中;最后计算MI:
| $ I\left(x_{i} ; y\right)=\sum\limits_{x_{i} \in A} \sum\limits_{y \in B} P\left(x_{i}, y\right) \mathrm{lb} \frac{P\left(x_{i}, y\right)}{P\left(x_{i}\right) P(y)} . $ | (1) |
其中,A和B是由xi和y所有可能取值分别组成的集合,P(xi, y)是在任意一个网格中xi和y同时出现的概率,P(xi)和P(y)分别是xi和yi出现的边缘概率。
对于网格划分,可以有不同的方式,但网格数量一般不高于样本点数的0.6次幂倍。为了便于比较,将所有网格划分情况下计算的MI进行归一化处理,然后取归一化之后的最大MI值作为xi和y的MIC。然而MIC方法只考虑了辅助变量和目标变量之间的相关性,没有考虑到辅助变量之间的冗余。化工过程中采集变量多,变量之间可能存在多重共线性,带来大量冗余的信息,冗余变量不仅无益于模型训练,反而会增加输入的维度,导致模型参数过多,增加计算成本,还可能导致模型过于关注与目标变量相关性较低的非主导变量,从而降低预测效果[10]。
mRMR方法是由Peng等于2005年提出的一种变量筛选方法[11]。该方法与常规的变量筛选方法的不同之处在于不仅考虑了变量与目标变量之间的相关性,还考虑了变量之间存在的冗余。假设现有总辅助变量集T={x1, x2, …, xn}, 该方法提出寻找一个最优的变量子集S={x1, x2, …, xm},S⊆T。S中的变量在与y拥有最大依赖关系的同时,变量之间的冗余达到了最小。这种依赖关系可以用MI来衡量,当m=1时,就是寻找使得I(x, y)最大的特征;当m>1时,尽管存在通过MI计算最大依赖的理论公式,但实际上往往因为计算复杂度高、组合优化求解难和组合爆炸等因素而难以精确求解,因此一种替代方法是基于S中的变量与y平均MI的方法来计算:
| $ \begin{gathered} \max D(S, y), \\ \text{s.t.}\quad D=\frac{1}{|S|} \sum\limits_{x_{i} \in S} I\left(x_{i} ; y\right), \quad S \subseteq T . \end{gathered} $ | (2) |
如果仅根据式(2)筛选变量,将会产生大量冗余,如果2个变量本身相关性很高,去掉其中1个之后并不会对软测量任务有太大的影响,反而简化了模型,因此可以遵循最小冗余准则来选择冗余的特征,冗余信息可以使用S中变量之间的MI来衡量,最小冗余准则要求特征之间的MI最小化,保证所选特征相互之间的独立性:
| $ \begin{gathered} \min R(S),\\ \text{s.t.}\quad R=\frac{1}{|S|^{2}} \sum\limits_{x_{i}, x_{j} \in S} I\left(x_{i} ; x_{j}\right), \quad S \subseteq T. \end{gathered} $ | (3) |
最大化(D-R)就实现了mRMR方法。在实践计算中,可以用增量搜索方法来寻找最优子集,假设现在已找到子集Sm-k={x1, x2, …, xm-k},下一步是在T中找到xm-k+1:
| $ \begin{gathered} x_{m-k+1}=\\ \underset{x_{j} \in T-S_{m-k}}{\operatorname{argmax}}\left[I\left(x_{j} ; y\right)-\frac{1}{m-k} \sum\limits_{x_{i} \in S_{m-k}} I\left(x_{j} ; x_{i}\right)\right]. \end{gathered} $ | (4) |
通过上述过程,最终能够确定S。
1.2 梯形网络梯形网络(ladder network)是Harri在2015年提出的一种半监督深度学习模型[7]。该模型的第1个特点是可以在有标签数据较少的情况下同时利用大量的无标签数据进行训练,Rasmus等在只有100个有标签样本的情况下对MNIST数据集进行分类任务的训练,也能取得较好的效果[7]。在化工过程中,产品质量标记成本高,因此有标签数据较少,有大量的无标签数据有待利用,所以化工数据类型符合梯形网络的数据特点。梯形网络的第2个特点是拥有独特的去噪机制,去噪能力更强。通过在训练阶段向自编码器层层注入噪声,再由解码器逐层重构,模型的一致性正则化原则和损失函数的重构误差项使模型具备了去噪能力。因此模型对于化工数据中的噪声处理能力也比较强。梯形网络的第3个特点是在每层编码器和解码器之间加入了跳跃连接。在梯形网络中,模型的损失函数是有监督任务的损失和无监督重构误差的加权和,有监督任务在自编码器的末层,训练时随着自编码器逐层压缩,此时提取到的深层特征多是与有监督任务相关的,因此会丢弃掉一些对于有监督任务不重要的特征,但是这些特征可能对数据重构起到重要作用。跳跃连接层起到的作用是将自编码器层压缩前的特征直接传递给相应的解码器层用以重构,因此模型可以在专注于有监督任务的同时,最大化地提取无标签数据的特征表示,这是梯形网络与一般自编码器的根本区别。
本文的软测量模型是基于简化的梯形网络建立的,称为Γ-模型[7],其结构如图 1a所示。与一般的梯形网络相比,简化模型损失函数中的重构误差项(RC)只考虑了输入层的重构误差,这样虽然损失了一部分去噪性能,但是可以提高计算的速度。训练时将训练集中的有标签数据和无标签数据投入到自编码器中进行训练,其中Γ-模型的层结构如图 1b所示。
|
| 图 1 Γ-模型图 |
噪声编码器的结构可以表示为:
| $ \boldsymbol{z}^{(l)}=\text { Batchnorm }\left(\boldsymbol{W}^{(l)} \boldsymbol{h}^{(l-1)}\right) , $ | (5) |
| $ \tilde{\boldsymbol{z}}^{(l)}=\boldsymbol{z}^{(l)}+\boldsymbol{N}\left(0, \sigma^{2}\right), $ | (6) |
| $ \boldsymbol{h}^{(l)}=\text { Activation }\left(\boldsymbol{\gamma}^{(l)}\left(\tilde{\boldsymbol{z}}^{(l)}+\boldsymbol{\beta}^{(l)}\right)\right) . $ | (7) |
其中:h(l-1)是编码器(l-1)层的输出,W(l)是线性变换的权重矩阵,N(0, σ2)是均值为0、方差为σ2的随机噪声,γ(l)和β(l)分别是应用非线性激活函数前的移位和缩放,Activation是非线性激活函数。
噪声解码器的结构可以表示为:
| $ \boldsymbol{u}^{(l)}=\text { Batchnorm }\left(\boldsymbol{V}^{(l)} \hat{\boldsymbol{z}}^{(l+1)}\right), $ | (8) |
| $ \hat{\boldsymbol{z}}^{(l)}=g\left(\boldsymbol{u}^{(l)}, \tilde{\boldsymbol{z}}^{(l)}\right) . $ | (9) |
其中:V(l)是解码器(l+1)层到l层的权重矩阵,g(·, ·)是用来处理跳跃连接的算子,本文采用直接拼接u(l)和
模型的损失函数为编码器末端回归任务的均方误差和无标签数据的重构误差的加权和,通过反向传播优化模型参数,最后将测试集数据放入训练好的模型中进行软测量,此时的编码器不需要加入噪声。
2 案例分析与结果讨论本节将所提出的方法用于甲醇制烯烃(DMTO)流程,以验证其有效性。
2.1 DMTO流程DMTO流程由反应再生工段、急冷汽提工段和烯烃分离工段组成。反应再生工段是整个流程的核心,主要由流化床反应器和催化剂再生器组成,甲醇原料在流化床反应器中转化成低碳烯烃,同时伴随有少量的副反应发生。甲醇制烯烃反应有很高的绝热温升,催化剂可能会由于积碳而快速失活,因此反应器中的催化剂需要不断流向再生器以清除催化剂表面的积碳,保证反应器的正常运行。急冷汽提工段的主要设备有急冷塔、汽提塔、水洗塔和碱洗塔。其中本文的辅助变量的数据来源于DMTO流程的前2个工段,如图 2所示。产品乙烯的数据来源于急冷汽提工段水洗塔顶的出口气相色谱分析。
在DMTO流程中,决定目标主产物收率的最关键部分是反应器,其目标产物是低碳烯烃,产物中乙烯收率的大小直接反映了生产效率的高低, 有必要对反应器出口处的乙烯收率进行实时监测和预测。
2.2 软测量建模本文选用图 2的DMTO流程的100 000条历史数据进行软测量离线建模,去除数据中的异常值后得到有标签数据1 686条,无标签数据97 864条。采集的辅助变量多达203个。然而,在化工软测量建模过程中,并不是辅助变量的数量越多,建立的软测量模型的精度就越高,软测量模型的精度随着辅助变量的增加先上升后下降[10],这是因为初期随着辅助变量的增加,能够为目标的预测提供更多的信息,有益于模型的训练,但随着辅助变量的持续增多,会引入噪声或冗余信息,这会使得模型过于复杂,且存在过拟合的风险,反而降低预测精度,因此需要对辅助变量进行筛选。本文采用两步变量筛选的方法,先用MIC方法对DMTO流程中的辅助变量进行初步筛选,去除和乙烯产品变量相关性低的变量,再用mRMR方法对初筛后的辅助变量进行二次筛选,去除辅助变量之间的冗余,最终得到最优的变量集合。
本文提出的基于梯形网络的软测量方法框架如图 3所示,包括离线建模和在线测试2个阶段。
|
| 图 3 基于梯形网络的乙烯产品软测量模型框架 |
在离线建模阶段,先将采集到的历史数据分成有标签数据和无标签数据,再按照9∶1的比例将有标签数据划分成训练集和测试集,然后使用基于MIC和mRMR的两步变量筛选方法对有标签数据的辅助变量进行筛选,无标签数据则按照有标签数据的筛选结果进行变量筛选。最后将筛选划分后的有标签数据和无标签数据进行标准化处理,并使用训练集的均值和方差对无标签数据进行标准化,将经过以上处理的无标签数据和有标签数据放入1.2节的Γ-模型中进行训练,得到最终的软测量模型。
在线测试阶段,首先根据离线阶段筛选出的变量集进行相应辅助变量的数据采集,然后根据有标签数据训练集的均值和方差对在线数据进行标准化,然后将标准化后的数据输入到先前建立的软测量模型当中,得到的预测值即为当前时刻对应的水洗塔塔顶出口气中乙烯的质量分数。
2.3 结果分析与讨论将2.2节所提到的历史数据和变量筛选方法用于建立基于梯形网络的半监督软测量模型。同时,为了验证结合了无标签数据的半监督软测量方法的优越性,将本文方法与支持向量回归(SVR)、偏最小二乘回归(PLS)、人工神经网络(ANN)、长短时记忆网络(LSTM)等4种有监督学习方法进行对比,此外,还与半监督自编码器(SSAE)、半监督降噪自编码器(SSDAE)、长短时记忆神经网络(LSTM-AE)3种经典的半监督方法进行对比。
将历史数据中的1 686条有标签数据用于监督学习,其中90%作为训练集,10%作为测试集,分别使用SVR、PLS、ANN、LSTM进行软测量,预测结果如图 4所示,可以看出,4种方法均能大致预测出水洗塔出口气中乙烯质量分数的上升趋势,但是整体预测精度不高。根据表 1中前4种有监督方法的软测量结果可以看出,整体上神经网络方法好于基于多元统计的方法,原因可能是因为化工数据维度高,具有高度非线性等特点,而神经网络相比多元统计方法拥有更好的非线性建模能力和拟合能力。其中LSTM的预测效果最好,这表明LSTM考虑到了数据中的时序信息,对于预测效果有所提升。
|
| 图 4 乙烯产品软测量结果 |
| 方法 | R2 | MSE | RMSE | MAE | MAPE | SMAPE |
| SVR | 0.678 | 0.040 | 0.199 | 0.156 | 0.003 2 | 0.003 2 |
| PLS | 0.771 | 0.028 | 0.168 | 0.133 | 0.002 7 | 0.002 7 |
| ANN | 0.813 | 0.023 | 0.152 | 0.123 | 0.002 5 | 0.002 5 |
| LSTM | 0.840 | 0.020 | 0.141 | 0.116 | 0.002 4 | 0.002 4 |
| SSAE | 0.819 | 0.022 | 0.15 | 0.121 | 0.002 5 | 0.002 5 |
| SSDAE | 0.863 | 0.017 | 0.13 | 0.105 | 0.002 1 | 0.002 1 |
| LSTM-AE | 0.859 | 0.018 | 0.132 | 0.103 | 0.002 1 | 0.002 1 |
| 本文方法 | 0.899 | 0.012 | 0.112 | 0.086 | 0.001 7 | 0.001 7 |
与只用有标签样本进行学习不同,半监督方法通过引入大量的无标签样本来辅助训练,本文的4种半监督的方法都是基于自编码器的结构,即编码器部分做监督学习,解码器部分重构无标签数据以辅助训练。有标签样本共1 686条,其中90%作为训练集和验证集,10%作为测试集;无标签数据共97 864条,取前90%用于训练。预测结果如图 5所示,具体评价指标如表 1所示,可以看出,相比有监督方法,半监督的方法预测精度普遍较好,值得注意的是半监督方法在第100~125个样本和150~168个样本的预测效果更好,说明无标签数据的引入提供了额外的有益信息,有利于模型学习数据的整体分布和结构信息,帮助模型更好地捕捉输入变量和目标变量之间的关系。对比图 4中的LSTM方法和图 5中的LSTM-AE方法结果,结合表 1中的评价指标R2、均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、对称平均百分比误差(SMAPE)可知,无标签数据的引入确实有利于软测量模型精度的提高。
|
| 图 5 乙烯产品组分半监督软测量结果 |
对比图 5中的4种半监督软测量方法的误差分布图并结合表 1中评价指标,可以看出本文方法的整体残差更小,说明该方法的整体预测误差较小,预测精度更高。为了更直观地对比4种半监督方法的预测残差,对半监督方法的预测残差进行分析,残差分布如图 6所示。当模型能够准确描述变量间的关系时,预测残差应该符合正态分布,表明模型产生的误差是随机误差而不是因为模型预测能力不足而产生的系统误差[13],图 6中本文方法的残差分布更符合正态性假设,表明该方法比另外3种半监督方法的预测效果更好。
|
| 图 6 不同半监督方法乙烯产品软测量残差分布 |
3 结论
本文提出了基于梯形网络的半监督建模及化工产品组分软测量方法。首先通过MIC结合mRMR的两步变量筛选方法对辅助变量进行筛选,然后进行数据预处理,建立基于梯形网络的半监督软测量模型。将该方法用于DMTO过程水洗塔顶出口气中乙烯质量分数的软测量,取得了较好的效果。相比有监督学习方法和其他半监督学习方法,该方法表现出更好的预测精度和泛化能力,具有良好的应用前景和效果,为化工生产过程中产品质量的实时监测和控制提供了参考。
| [1] |
JI C, SUN W. A review on data-driven process monitoring methods: Characterization and mining of industrial data[J]. Processes, 2022, 10(2): 335. DOI:10.3390/pr10020335 |
| [2] |
OUALI Y, HUDELOT C, TAMI M. An overview of deep semi-supervised learning[EB/OL]. (2020-07-06)[2024-09-13]. https://doi.org/10.48550/arXiv.2006.05278.
|
| [3] |
LI Z, JIN H P, DONG S L, et al. Semi-supervised ensemble support vector regression based soft sensor for key quality variable estimation of nonlinear industrial processes with limited labeled data[J]. Chemical Engineering Research and Design, 2022, 179: 510-526. DOI:10.1016/j.cherd.2022.01.026 |
| [4] |
KINGMA D P, REZENDE D J, MOHAMED S, et al. Semi-supervised learning with deep generative models[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2014: 3581-3589.
|
| [5] |
YANG X L, SONG Z X, KING I, et al. A survey on deep semi-supervised learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(9): 8934-8954. DOI:10.1109/TKDE.2022.3220219 |
| [6] |
VAN ENGELEN J E, HOOS H H. A survey on semi-supervised learning[J]. Machine Learning, 2020, 109(2): 373-440. DOI:10.1007/s10994-019-05855-6 |
| [7] |
RASMUS A, VALPOLA H, HONKALA M, et al. Semi-supervised learning with ladder networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2015: 3546-3554.
|
| [8] |
武昊. 基于深度学习的化工过程软测量建模方法研究[D]. 北京: 北京化工大学, 2023. WU H. Research on soft sensor modeling of chemical process based on deep learning[D]. Beijing: Beijing University of Chemical Technology, 2023. (in Chinese) |
| [9] |
RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel associations in large data sets[J]. Science, 2011, 334(6062): 1518-1524. DOI:10.1126/science.1205438 |
| [10] |
LUO L, HE G, CHEN C, et al. Adaptive data dimensionality reduction for chemical process modeling based on the information criterion related to data association and redundancy[J]. Industrial & Engineering Chemistry Research, 2022, 61(2): 1148-1166. |
| [11] |
PENG H C, LONG F H, DING C. Feature selection based on mutual information: Criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238. DOI:10.1109/TPAMI.2005.159 |
| [12] |
孙慧峰, 刘桂莲. DMTO与SMTO甲醇制烯烃工艺的能耗分析及优化节能[J]. 石化技术与应用, 2021, 39(4): 234-241. SUN H F, LIU G L. Energy consumption analysis and optimization of energy saving of DMTO and SMTO methanol to olefin process[J]. Petrochemical Technology & Application, 2021, 39(4): 234-241. (in Chinese) |
| [13] |
MA F Y, JI C, WANG J D, et al. Soft sensor modeling method considering higher-order moments of prediction residuals[J]. Processes, 2024, 12(4): 676. DOI:10.3390/pr12040676 |



