形状解耦伽马分布参数油品分子重构
邱冬1, 赵祺铭1, 胡益炯2, 邱彤1    
1. 清华大学 化学工程系, 北京 100084;
2. 中国石油规划总院, 北京 100083
摘要:在石油化工智能化发展过程中, 精确的分子重构技术是理解和优化复杂油品组成至关重要的基础性方法。该技术基于油品宏观物性, 通过优化模型计算油品分子或结构组成。通常认为, 天然油品组成在碳数、结构特征等维度服从伽马分布。传统分子重构方法采用伽马分布的形状和尺度参数作为优化变量, 优化过程中2个参数对分布形状的耦合影响效应, 降低了优化过程可解释性, 影响了优化效率和精度。本文提出了形状解耦伽马分布参数油品分子重构方法, 提出将伽马分布的峰值位置和分布宽度作为优化参数, 提升优化过程中伽马分布形状变化的可解释性; 同时基于历史数据, 利用多元线性回归模型预测优化参数初值, 有效提高分子重构的精确度。实验结果表明, 该方法在分子重构的精确度和优化效率方面均优于传统分子重构方法, 在处理分布规律较极端的分子组成时, 表现出更高的鲁棒性和稳定性。
关键词分子重构    伽马分布    形状解耦参数    多元线性回归    分子类型同源序列矩阵    
Molecular reconstruction of petroleum products based on shape-decoupled gamma distribution parameters
QIU Dong1, ZHAO Qiming1, HU Yijiong2, QIU Tong1    
1. Department of Chemical Engineering, Tsinghua University, Beijing 100084, China;
2. China Petroleum Planning and Engineering Institute, Beijing 100083, China
Abstract: [Objective] In the petrochemical industry, molecular reconstruction is crucial for understanding and optimizing the compositions of complex crude oil and petroleum products. As the first step of process simulation, quality control, and economic evaluation, precise molecular reconstruction approaches usually employ mathematical models to calculate the molecular compositions of petroleum products that align with their macroscopic properties. Traditional molecular reconstruction methods employ the gamma distribution to represent the carbon number distributions of homologs, but the coupling effects between the parameters "shape (α)" and "scale (β)" pose notable challenges in achieving desired interpretability and optimization efficiency. This study addresses these challenges by introducing a novel shape-decoupled parameter method that enhances the model's interpretability and simplifies the optimization process. [Methods] The proposed shape-decoupled parameter method modifies a traditional gamma distribution by replacing the parameter's shape and scale with two new independent variables called peak position (m) and variance (σ2). Notably, m provides direct control over the zenith of the distribution, whereas σ2 independently determines the spread or width of the distribution, effectively reducing the coupling issue between parameters that exists in conventional gamma distribution models. Aiming at enhancing the stability and convergence speed during optimization, a multivariate linear regression (MLR) model was employed to estimate the initial parameter values. This regression model was trained on historical data of molecular compositions to provide reasonable initial values and decrease the probability of being trapped in local minima. The molecule-type homologous series (MTHS) matrix is used to represent the molecular composition of hydrocarbons, namely paraffins, isoparaffins, olefins, naphthenes, and aromatics (PIONA), with a comprehensive depiction of their multiple homologs. Moreover, an optimization problem was developed to minimize the prediction errors of the macroscopic properties, including molecular weight, density, PIONA group composition, and true boiling point curves. Upon a comparative analysis of multiple deterministic and heuristic optimization techniques, the differential evolution (DE) algorithm was determined as a favorable optimization tool by virtue of its superior accuracy and robustness. [Results] Experimental evaluations showed that the shape-decoupled parameter method outperformed traditional methods in accuracy and optimization efficiency. Specifically, the density error decreased from 0.012 to 0.0059 g/cm3, and the average percentage relative error for the PIONA group composition also exhibits notable reductions. Moreover, the decoupled approach achieves faster convergence, requiring fewer iterations—reducing from 1 000 to as few as 20—without compromising accuracy. This reduction highlights the computational efficiency of the proposed method, which is a notable advantage in industrial applications with limited computational resources and time. Moreover, the proposed method exhibits enhanced robustness in addressing extreme molecular composition distributions, maintaining low errors in peak position and molecular composition predictions. This robustness becomes particularly evident when managing scenarios considered challenging by conventional methods, such as distributions with narrow ranges or hydrocarbons with approximately zero components at the boundary. Furthermore, the decoupled method provides better interpretability via independent control strategies for peak position and distribution width. The overall optimization performance was enhanced by the appropriate integration of the DE algorithm and effective initial parameter estimation by the MLR model. [Conclusions] Compared with traditional methods, the proposed shape-decoupled parameter method provides a more interpretable, efficient, and accurate approach to the molecular reconstruction of petroleum products. By reducing the coupling effect between the parameters controlling the peak position and distribution width, this method simplifies the optimization process and achieves superior prediction accuracy and faster convergence. The results indicate the feasibility of its application for complex or extreme homolog distributions of hydrocarbons, revealing its higher reliability and robustness compared with traditional approaches. Future work is expected to focus on incorporating advanced machine learning techniques to further increase the accuracy and applicability of the model across a wider range of petroleum compositions, potentially enabling real-time molecular reconstruction for dynamic process optimization.
Key words: molecular reconstruction    gamma distribution    shape-decoupled parameters    multiple linear regression    molecule-type homologous series (MTHS) matrix    

在石油化工智能化发展进程中,精确的分子重构技术对于理解和优化原油及石油产品的组成具有重要意义。石油产品是复杂的烃类混合物,包含直链烷烃、支链烷烃、烯烃、环烷烃和芳香烃等大量分子组分。这些混合物的详细分子组成信息对于工艺模拟、产品质量控制以及经济效益评估至关重要。但是,通过仪器分析技术获取详细分子组成既耗时又昂贵,尤其对于重质馏分,现有分析技术难以全面检测和定量分析所有组分[1-4]

为解决这一问题,研究者们提出了基于常见宏观物性的分子重构方法。这些方法试图通过平均分子量、蒸馏曲线、密度和PIONA(paraffin,iso-paraffin,olefin,naphthene,aromatics)族组成等易获得的性质,推断可能的分子组成。现有的分子重构方法主要包括随机重构(stochastic reconstruction,SR)[5-8]、预定义确定性分子方法[9-10]、熵最大化重构(reconstruction by entropy maximization, REM)方法[11-12]、基于不同分子表达方式如结构导向集总(structure-oriented lumping,SOL)[13-18]、分子类型同源序列(molecule type homologous series,MTHS)矩阵[19-25]和状态空间[26]的衍生方法,以及基于多元线性回归(multiple linear regression,MLR)模型[27]和人工神经网络(artificial neural network,ANN)[27-28]等黑箱模型的数据驱动方法。

Neurock等[8]提出SR方法,通过Monte Carlo抽样,基于特征结构片段的概率分布来预测分子组成。该概率分布包括离散的直方分布和连续的伽马分布。将这2种分布的参数视为优化变量,动态生成分子库,预测原料组成。SR方法适用于复杂的油品,但计算量巨大,难以在实际应用中同时保持高效计算。为避免过高的计算负荷,同时保证一定的精度,Albahri[9]采用了预定义分子库,利用气相色谱或液相色谱测得的详细组成,选择68种代表性分子的摩尔组成作为优化变量。这种方法相比SR方法降低了计算量,但优化变量的数量较高,且没有考虑到油品分子组成的天然分布规律。为减少优化变量数量,Mei等[26]将油品混合物中的每个组分定义为状态变量,构建一个多维线性状态空间,通过非负矩阵分解(non-negative matrix factorization,NMF)计算基馏分,降低状态空间维度,同时消除预先确定的石油馏分样品中的冗余信息和测量误差。

一些学者注意到了油品分子组成的分布规律,并尝试基于此优化分子重构算法。Chen等[14]尝试将SOL与SR方法相结合,基于分子结构片段数量符合伽马概率分布的假设,采用信息熵作为目标函数,将伽马分布的参数作为优化变量,以确保优化结果的合理性。然而,使用Monte Carlo抽样得到的分子库不稳定,且对计算性能要求较高。为此,Zhang等[15]同样基于概率分布假设,在分子各结构片段独立同分布的假设下,使用概率直接相乘而非抽样的方式计算分子组成,减少了计算时间,提高了结果合理性。此外,Peng等[24]提出MTHS方法,以碳数和同源序列为坐标,采用矩阵形式描述原料分子库,并基于预先选定的基础样品组成,采用插值法估算未知原油组成,其优化变量是所有基础样品组成向量的权重。然而,插值方法的泛用性较低,无法保证结果符合油品分子特征结构的分布规律。Wu等[22]将碳数的伽马分布引入MTHS,使用伽马分布参数作为优化变量计算原料组成,从而结合了油品分布规律与MTHS方法的优势。

常见的机器学习方法同样被用于分子重构领域,Pyl等[27]对比了REM、MLR和ANN,发现MLR和ANN同样可以较精确地预测石脑油分子组成。但MLR通常用于处理复杂的非线性关系,对复杂数据模式的适应性较差;而ANN可以在数据具有复杂非线性关系下表现良好,但需要大量数据和计算资源。

以上方法在一定程度上提高了分子重构的效率和准确性,但仍存在一些局限性。例如,伽马分布参数作为优化变量对分布形状的可解释性较差,难以通过先验知识和经验缩小搜索范围;优化过程的初始值选择往往依赖于经验或随机选择,可能导致优化过程收敛缓慢或陷入局部最优解;ANN等黑箱模型同样存在可解释性差、对大数据集依赖性强的问题。

本文提出形状解耦伽马分布参数油品分子重构方法,以描述伽马分布形状的参数作为优化变量,提高模型的可解释性,并利用先验知识缩小形状解耦参数的搜索范围,采用线性回归模型估计优化初值,提升优化效率和稳定性。

1 理论与方法

本节通过分析伽马分布参数的形状耦合问题,提出形状解耦参数,并结合回归模型初值估计方法,提升分子重构模型的优化效率和准确性,同时降低计算复杂度。

1.1 优化模型的构建

MTHS方法以矩阵形式表示油品的分子组成,矩阵的列代表不同的同系物系列,行则表示对应每个同系物系列中具有不同碳数的集总分子。由于油品的某些属性(如碳数、直链碳数、环数等)常服从伽马分布,采用伽马分布的参数作为优化变量相比直接使用摩尔分数或质量分数更为合理,且计算量更小。

分子重构模型的优化目标是最小化所有物性实验值与计算值之间的误差,即使两者的加权平方差之和最小。优化过程中所考虑的物性包括平均分子量、密度、PIONA族质量分数及实沸点(true boiling point,TBP)蒸馏温度。目标函数与优化问题的具体数学表达式如下:

$ \begin{aligned} & \min _{\text {para }}\left\{e_{\mathrm{Mw}}\left(\frac{\mathrm{Mw}^{\mathrm{exp}}}{\mathrm{~g} \cdot \mathrm{~mol}^{-1}}-\frac{\mathrm{Mw}^{\mathrm{cal}}}{\mathrm{~g} \cdot \mathrm{~mol}^{-1}}\right)^{2}+\right. \\ &\quad e_{\rho}\left(\frac{\rho^{\exp }}{\mathrm{g} \cdot \mathrm{~cm}^{-3}}-\frac{\rho^{\mathrm{cal}}}{\mathrm{~g} \cdot \mathrm{~cm}^{-3}}\right)^{2}+ \\ &\quad \sum\limits_{k_{1}=1}^{K_{1}} e_{k_{1}}\left(\mathrm{wt}_{k_{1}}^{\exp }-\mathrm{wt}_{k_{1}}^{\text {cal }}\right)^{2}+ \\ &\quad \left.\sum\limits_{k_{2}=1}^{K_{2}} e_{k_{2}}\left(\frac{\mathrm{BP}_{k_{2}}^{\exp }}{{ }^{\circ} \mathrm{C}}-\frac{\mathrm{BP}_{k_{2}}^{\mathrm{cal}}}{{ }^{\circ} \mathrm{C}}\right)^{2}\right\}, \\ \text{s.t.}\quad\quad\quad\quad& \mathrm{Mw}^{\mathrm{cal}}=\frac{1}{\sum\limits_{i=1}^{n_{k_{1}}} \sum\limits_{k_{1}=1}^{K_{1}} \frac{\omega_{i, k_{1}}}{\mathrm{Mw}_{i, k_{1}}}}, \\ &\quad \rho^{\mathrm{cal}}=\frac{1}{\sum\limits_{i=1}^{n_{k_{1}}} \sum\limits_{k_{1}}^{K_{1}} \frac{\omega_{i, k_{1}}}{\rho_{i, k_{1}}}}, \\ & \quad\mathrm{wt}_{k_{1}}^{\mathrm{cal}}=\sum\limits_{i \in S_{k_{1}}, s_{k_{1}} \in\left\{S_{\mathrm{P}}, S_{\mathrm{I}}, S_{\mathrm{O}}, S_{\mathrm{N}}, S_{\mathrm{A}}\right\}} \omega_{i, k_{1}}, \\ & \mathrm{BP}_{j}^{\text {cal }}=\text { interpolate }(j, \mathbf { wts, } \mathbf{B P s}), \\ & \omega_{i, k_{1}}=\frac{\mathrm{wt}_{k_{1}}^{\exp } G\left(i ; \alpha_{k_{1}}, \beta_{k_{1}}\right)}{\sum\limits_{k_{1}}^{K_{1}} \sum\limits_{i=1}^{n_{k_{1}}}\left[\mathrm{wt}_{k_{1}}^{\exp } G\left(i ; \alpha_{k_{1}}, \beta_{k_{1}}\right)\right]}, \\ & f\left(i ; \alpha_{k_{1}}, \beta_{k_{1}}\right)=\frac{i^{{ }^{\alpha_{k_{1}}-1}} \exp \left(-\frac{i}{\beta_{k_{1}}}\right)}{\beta_{k_{1}}^{\alpha_{k_{1}}} \varGamma\left(\alpha_{k_{1}}\right)} \text {. } \end{aligned} $

其中:eMweρek1(k1=1, 2, …, K1)和ek2(k2=1, 2, …, K2)为每种物性在目标函数中的权重系数;K1K2分别为PIONA族数量和TBP蒸馏温度数量;Mw、ρ、wt和BP分别为分子量、密度、PIONA族质量分数和TBP蒸馏温度,上标cal和exp分别表示计算值和测量值;ωi, k1、Mwi, k1ρi, k1分别为PIONA中第k1族的第i个分子的质量分数,分子量和密度;nk1为第k1个PIONA族下的集总分子数量;SPSISOSNSA分别为直链烷烃、支链烷烃、烯烃、环烷烃和芳香烃的分子编号的集合;对于TBP蒸馏温度,假设TBP曲线符合三次函数形式,通过已知组分的质量分数向量wts和纯组分沸点向量BPs拟合得到函数参数,然后在对应的体积分数处插值得到TBP蒸馏温度;αk1βk1分别为k1族的伽马分布的形状参数和尺度参数;Γ(·)为伽马函数,用于对概率密度进行归一化。

图 1展示了方法的整体流程图。首先,输入油品的宏观物性,并基于经验设定优化算法的搜索范围。通过回归模型预测优化参数的初始值,然后根据初值调整搜索范围,并利用初始值计算油品的分子组成,结合MTHS矩阵计算其宏观物性。如果达到最大迭代次数,则输出最终分子组成;否则,通过优化算法调整变量,重新计算分子组成及其物性,继续下一轮迭代。通过减少优化变量的数量并利用具有物理意义的形状解耦参数,可以有效提升计算效率与结果的可靠性。

图 1 方法流程图

1.2 分子重构中伽马分布参数的局限性 1.2.1 伽马分布参数及其统计学意义

伽马分布是一种连续概率分布,广泛应用于统计学和工程领域,用于描述某些类型事件的等待时间,特别是在这些事件以恒定的平均速率连续且独立地发生时。伽马分布是指数分布的推广,也是卡方分布的一种特殊情况,其概率密度函数f(x; α, β)包含形状参数α和尺度参数β

$ f(x ; \alpha, \beta)=\frac{x^{\alpha-1} \exp \left(-\frac{x}{\beta}\right)}{\beta^{\alpha} \varGamma(\alpha)}. $

α主要控制分布的形状。当α=1时,伽马分布简化为指数分布;当α为整数时,伽马分布描述了α个独立指数分布随机变量之和。随着α增大,分布逐渐趋于对称,且在α足够大时逼近正态分布。β则影响分布的尺度和扩散程度,表示每个事件发生所需的平均时间。较小的β意味着事件发生的间隔时间较短,数据的集中趋势更明显,分布的峰值更窄。

1.2.2 伽马分布参数的局限性分析

在油品分子重构中,通常假设油品的某些属性(如碳数、直链碳数、环数等)服从伽马分布[29]。以碳数分布为例,伽马分布的αβ作为优化变量,通过优化使该分布逼近实际组成随碳数变化的趋势。尽管αβ的统计学意义明确,但在描述组成随碳数的变化时,却存在一定的局限性。这是由于αβ对分布形状的影响相互耦合,对组成先验知识或预测偏差,不能直接转化为对αβ两参数的优化改进方向的解释。

从统计学角度来看,α主要控制分布的形状,但β同样会影响分布峰值位置和分布宽度。图 2a中,曲线S1、S2、S3表明在α不变的情况下,随着β增大,分布曲线的峰值位置右移,分布变得更平缓,方差增大;曲线S4、S5、S6表明,在β不变的情况下,随着α增大,分布曲线的峰值同样右移,且方差增大;曲线S1、S4、S7表明,为维持峰值位置固定,需要耦合调整参数αβ,即减小α而增大β

图 2 不同参数下的伽马分布概率密度

由此可见,αβ对分布形状的影响是相互耦合的,特别是在需要限定峰值位置的情况下,αβ需要朝相反的方向变化才能满足要求。针对油品分子重构问题,对于油品的碳数分布,其峰值位置、峰的分布宽度,可以直接从实验数据中得到近似的预估值和范围。为了提高优化过程的合理性和效率,可以将峰值位置信息纳入算法中,一种方法是将其作为优化问题的约束条件之一[25]。然而,这并未降低问题的复杂度。

1.2.3 峰值位置和方差

在优化油品分子重构模型时,利用先验知识确定分布的峰值位置和分布宽度具有重要意义。伽马分布的αβ无法独立地控制峰值位置和分布宽度。因此,需要寻找能够分别控制伽马分布峰值位置和分布宽度的独立变量,类似于Gauss分布中期望μ和方差σ2的角色。在Gauss分布中,μ控制分布的峰值位置,σ2控制分布的宽度,这2个参数分别只影响一个属性。然而,在伽马分布中,μ=αβ, σ2=αβ2,直接使用μσ2作为优化变量无法达到这种独立性。从图 2b可以看出,尽管μ固定,σ2的变化仍然会影响分布的峰值位置(见曲线S1、S2、S3);同样地,μ的变化也会影响分布宽度(见曲线S3、S4、S5)。因此,μσ2并非理想的独立优化参数。

鉴于峰值位置具有明确的数学定义,即概率密度函数的一阶导数为零的点,可以通过对伽马分布的概率密度函数求导,求解出当导数为0时的方程,得出峰值位置mαβ之间的关系:

$ m=β(α-1). $

该解的表达式简洁,可以使用m代替μ,将mσ2组成一对新的优化变量。

图 2c中,曲线S1、S2、S3表明,σ2独立于峰值位置m,仅影响分布宽度;同时,曲线S3、S4、S5表明,m对分布宽度的影响较小,在优化过程中是可以接受的。因此,将mσ2作为独立的优化变量可以分别控制分布峰值位置和分布宽度,而无需担心两者的耦合效应。这种解耦设计的主要优势在于,mσ2对分布形状的影响相对独立。调整峰值位置时不会影响分布宽度,反之亦然。这种独立性大大简化了优化过程,使算法能够更高效地收敛到全局最优解。此外,已知的碳数分布信息可以为mσ2提供合理的初值和搜索范围,进一步提升算法效率。最后,这种形状解耦方法的直观性不仅有助于理解和监控优化过程,还便于在实际应用中对模型进行调整和优化,以适应动态需求。

为简化讨论,以下将αβ统称为伽马参数;将mσ2统称为形状解耦参数(shape-decoupled parameters),使用形状解耦参数作为优化变量的方法称为解耦方法(decoupled method)。

1.3 参数初值的回归模型

在分子重构优化过程中,合适的初始参数不仅能够加快算法的收敛速度,还能有效避免陷入局部最优,从而提升最终解的全局性和准确性。为此,本文基于油品的宏观物性历史数据,采用回归模型预测参数初值。借助回归模型,缩小优化搜索空间,降低后续优化计算成本。

1.3.1 特征工程与数据预处理

在建立预测参数初值的回归模型时,特征工程是消除输入的宏观物性数据中的多重共线性,增强模型的泛化能力,提高表征预测参数的非线性关系的捕捉效果。

首先,在原始物性特征基础上,进行了二次项、交叉项和指数项的扩展,通过特征组合与扩展丰富特征集,从而有利于捕捉潜在的非线性关系,提高模型对复杂数据模式的拟合能力。

然后,采用逐步回归法进行特征选择,确保最终特征集的统计显著性和低多重共线性。第1步,计算各扩展特征与目标变量之间的相关性,选择P值最小的特征纳入模型。第2步,计算剩余特征的P值,并选择那些P值小于0.05且方差膨胀因子(variance inflation factor,VIF)小于10的特征纳入模型, 并循环迭代。第3步,若不再有特征满足上述标准,则停止迭代,得到一个具有较高预测力和稳定性的特征集合。通过该特征选择过程,模型能够捕捉到输入与输出之间的非线性关系,同时避免因多重共线性引发的不稳定性。

1.3.2 模型选择与构建

由于复杂的非线性关系已经被嵌入到特征集合中,本文选择MLR作为初值参数预测工具。相比复杂的非线性模型(如神经网络或支持向量机),线性回归模型具有计算效率高、可解释性强等优势。

训练模型时,采用最小二乘法(ordinary least squares, OLS)估计回归系数,最小化预测值与实际值之间的平方误差。同时,为保证模型的泛化能力,本文采用k-折交叉验证方法对模型进行评估。

2 案例研究

本节采用MTHS矩阵描述烃类分布、利用回归模型估计初始参数、选择差分进化算法作为优化工具,并结合回归预测与经验设定策略,详细阐述优化算法选择与变量范围调整。

2.1 分子库的构建与数据集准备

本文采用包含29组石脑油数据的数据集,涵盖原料多项物性参数,包括分子量、密度、PIONA族质量分数和TBP。每组物性数据对应一组二维PIONA质量分数。基于测量数据,MTHS矩阵的设置如表 1所示。表中列出的分子是每个族下相同碳数同分异构体集合的代表性分子,其纯物质物性将在后续计算中使用。为训练回归模型,数据集按70%和30%分别划分训练集和测试集。

表 1 MTHS矩阵
碳数 直链烷烃 支链烷烃 烯烃 环烷烃 芳香烃
4 正丁烷 异丁烷
5 正戊烷 异戊烷 1-戊烯 环戊烷
6 正己烷 2-甲基戊烷 1-己烯 环己烷
7 正庚烷 2-甲基己烷 1-庚烯 甲基环己烷 甲苯
8 正辛烷 2-甲基庚烷 1-辛烯 乙基环己烷 乙苯
9 正壬烷 2-甲基辛烷 正丙基环己烷 丙苯
10 正癸烷 2-甲基壬烷 正丁基环己烷
11 正十一烷 2-甲基癸烷

2.2 优化算法的分析与选择

鉴于分子重构问题难以显式计算导数且问题空间复杂,本文选择了不依赖导数信息的启发式算法。同时,为全面评估不同优化策略的性能,本文将确定性算法带边界约束的有限内存BFGS(limited-memory Broyden-Flethcer-Goldfarb-Shanno bounds,L-BFGS-B)方法和序贯最小二乘规划(sequential least squares programming,SLSQP)与启发式算法进行了对比。所比较的启发式算法包括遗传算法(genetic algorithm,GA)、模拟退火法(simulated annealing,SA)、粒子群算法(particle swarm optimization,PSO)、人工蜂群算法(artificial bee colony,ABC)和差分进化算法(differential evolution,DE)。不同优化方法在分子重构模型中的计算结果如图 3所示。确定性算法在计算时间上具有优势,但优化能力有限,平均最优目标函数值较大。启发式算法中,GA耗时较短,但平均最优目标函数值较高;PSO在平均质量分数误差方面表现最差;ABC在平均最优目标函数值和平均计算时间上表现中等;DE算法虽平均计算时间较长,但实现了最小的平均最优目标函数值。为研究分子重构算法最佳性能,采用DE为最终的优化算法。其参数设定为:种群数16,最大迭代次数100。此外,为评估不同迭代次数对模型性能的影响,还设置了迭代次数为20、50和1 000的对照组。

图 3 不同优化算法结果对比

需要注意的是,尽管优化算法的搜索方向是基于物性差值进行调整,但平均质量分数误差与平均最优目标函数值并不完全正相关,这是由于输入物性不能完全反映油品质量分数,产生误差波动。

所有优化计算均在一台配备Intel CoreTM i7-9700F @ 3.00GHz CPU的计算机上完成。

2.3 优化变量范围的调整策略

优化变量的初值和搜索范围对优化结果的准确性和效率至关重要。本文基于回归模型估计初值,并结合经验设定的搜索范围,通过取回归模型估计值±50%的范围并与按经验设定的范围取交集,得到合理的搜索空间。其中,按经验设定的范围的规则如下:碳数分布的峰值位置一般位于碳数范围的中间,故直链烷烃和支链烷烃的m范围为7~10,环烷烃的为8~9,芳香烃的为7~8;烯烃因含量较少,其分布规律不明显,因此m的范围设为其碳数范围,烯烃和芳香烃组成总含量低,分布较平缓,σ2设置为50~150。由于传统方法中αβ的形状耦合效应,无法通过先验信息调整其搜索范围,α取1~15,β取0~15。2种参数的按经验设定的范围如表 2所示。

表 2 优化变量mσ2αβ的搜索范围
同源序列 m σ2 α β
下界 上界 下界 上界 下界 上界 下界 上界
直链烷烃 7.0 10.0 2.0 20.0 1.0 15.0 0.0 15.0
支链烷烃 7.0 10.0 2.0 20.0 1.0 15.0 0.0 15.0
烯烃 6.0 7.0 50.0 150.0 1.0 15.0 0.0 15.0
环烷烃 8.0 9.0 2.0 20.0 1.0 15.0 0.0 15.0
芳香烃 7.0 8.0 50.0 150.0 1.0 15.0 0.0 15.0

这样的方法可以有效缩小搜索空间,同时避免了无效参数如负值参数的引入,从而提升优化效率,并确保模型求解的稳定性和准确度。

3 结果与讨论

由于本文开展的分子重构是基于MTHS数据结构与分子水平预测,因此,本文提出的形状解耦伽马分布参数油品分子重构方法,简称为形状解构的MTHS法,并与基于伽马参数的MTHS法[25](以下简称MTHS法)进行比较,分析其预测精度、物性误差、组成误差及迭代次数对结果的影响,证明了解耦方法在提升模型精度和优化效率方面的优势。

3.1 形状解耦MTHS法结果分析 3.1.1 宏观物性误差

表 3对比了MTHS法与形状解耦MTHS法在测试集上计算的物性平均误差与平均相对误差。平均误差与平均相对误差计算式如下:

$ \begin{aligned} \text { 平均误差 } & =\frac{\sum\left|P^{\text {cal }}-P^{\exp }\right|}{M}, \\ \text { 平均相对误差 }= & \frac{\sum \frac{\left|P^{\text {cal }}-P^{\exp }\right|}{P^{\exp }}}{M} \times 100 \% . \end{aligned} $
表 3 测试集物性平均误差和平均相对误差
物性 平均误差 平均相对误差/%
MTHS法 形状解耦MTHS法 MTHS法 形状解耦MTHS法
平均分子量 0.42 g/mol 0.83 g/mol 0.44 0.87
平均密度 0.012 g/cm3 0.005 9 g/cm3 1.8 0.84
直链烷烃质量分数 3.3×10-17% 2.7×10-7% 1.0×10-14 8.5×10-5
支链烷烃质量分数 8.5×10-6% 2.0×10-7% 2.6×10-3 6.3×10-5
烯烃质量分数 6.1×10-7% 2.0×10-6% 4.1×10-2 4.8×10-5
环烷烃质量分数 9.5×10-5% 2.4×10-7% 3.4×10-2 8.6×10-5
芳香烃质量分数 4.1×10-5% 4.6×10-8% 5.9×10-2 5.7×10-5
馏出5%体积的TBP蒸馏温度 1.0 ℃ 0.66 ℃ 0.38 0.24
馏出10%体积的TBP蒸馏温度 0.69 ℃ 0.32 ℃ 0.23 0.11
馏出20%体积的TBP蒸馏温度 0.064 ℃ 0.15 ℃ 0.02 0.047
馏出30%体积的TBP蒸馏温度 0.50 ℃ 0.36 ℃ 0.15 0.10
馏出40%体积的TBP蒸馏温度 0.86 ℃ 0.40 ℃ 0.24 0.11
馏出50%体积的TBP蒸馏温度 0.96 ℃ 0.39 ℃ 0.26 0.11
馏出60%体积的TBP蒸馏温度 0.72 ℃ 0.32 ℃ 0.19 0.084
馏出70%体积的TBP蒸馏温度 0.19 ℃ 0.32 ℃ 0.049 0.083
馏出80%体积的TBP蒸馏温度 1.1 ℃ 1.1 ℃ 0.27 0.27
馏出90%体积的TBP蒸馏温度 2.8 ℃ 2.8 ℃ 0.66 0.64
馏出95%体积的TBP蒸馏温度 3.9 ℃ 3.9 ℃ 0.89 0.88
馏出98%体积的TBP蒸馏温度 4.7 ℃ 4.6 ℃ 1.0 1.0

其中:PcalPexp分别为物性计算值和实验值;M为输入物性的数量。

形状解耦MTHS法在平均密度、PIONA族质量分数和TBP蒸馏温度等多个物性上的误差均显著低于MTHS法。例如,平均密度的平均误差从0.012 g/cm3降至0.0059 g/cm3,平均相对误差从1.8%降至0.84%。特别是在TBP蒸馏温度预测中,形状解耦MTHS法在大部分馏出体积范围内表现优于MTHS法。这些结果表明,该方法不仅提升了物性预测的准确性,也提高了优化结果的可靠性。

3.1.2 组成误差与迭代过程曲线

分子重构的目的是利用优化方法,确定分子组成。表 4对比了形状解耦MTHS法与MTHS法在测试集上30个分子的平均误差。平均质量分数误差计算如下:

$ 平均质量分数误差 =\frac{\sum\left|\omega^{\mathrm{cal}}-\omega^{\exp }\right|}{n} \times 100 \% . $
表 4 测试集组成平均误差 
%
组分 平均质量分数误差 组分 平均质量分数误差
MTHS法 形状解耦MTHS法 MTHS法 形状解耦MTHS法
正丁烷 0.57 1.3 1-戊烯 0.020 0.013
正戊烷 0.61 0.33 1-己烯 0.04 0.033
正己烷 0.30 0.35 1-庚烯 0.027 0.030
正庚烷 0.66 0.46 1-辛烯 0.036 0.042
正辛烷 0.39 0.19 环戊烷 0.91 0.37
正壬烷 0.46 0.48 环己烷 3.6 0.86
正癸烷 0.41 0.20 甲基环己烷 0.77 0.22
正十一烷 0.98 0.76 乙基环己烷 1.9 0.32
异丁烷 0.27 0.44 正丙基环己烷 2.3 0.93
异戊烷 0.64 1.1 正丁基环己烷 0.31 0.52
2-甲基戊烷 1.1 0.89 0.67 0.35
2-甲基己烷 0.34 0.30 甲苯 0.68 0.45
2-甲基庚烷 0.60 0.66 乙苯 0.46 0.33
2-甲基辛烷 0.35 0.62 丙苯 1.4 0.24
2-甲基壬烷 0.38 0.60 平均值 0.74 0.47
2-甲基癸烷 0.87 0.70

其中:ωcalωexp分别为分子质量分数的计算值和实验值;n为总分子数。

除少数例外,形状解耦MTHS法在绝大多数分子上的平均误差都小于MTHS法,总体误差从0.74%降低至0.47%。

形状解耦MTHS法与MTHS法计算的最优组成如图 4所示。图 4a图 4b分别显示了形状解耦MTHS法和MTHS法在测试集上的质量分数散点图。通过直观对比可以看出,形状解耦MTHS法的散点图更为集中,表明该方法在优化后的组成与实际组成更为接近。而MTHS法的组成,尤其是异构烷烃和环烷烃部分,计算误差相对更大。

图 4 组成质量分数散点图和柱状图

图 4c4f展示了样本1和2的质量分数柱状图。对于样本1,2种方法的表现接近;但在样本2中,形状解耦MTHS法在异构烷烃和芳香烃的组成预测上明显优于MTHS法,组成更接近真实值。这表明,形状解耦MTHS法在处理组成分布较为极端的情况下更具稳定性。这种稳定性归因于形状解耦MTHS法在分布较窄或分子较少、且有零值边缘分子的情况下对峰值位置的精确定位。相比之下,MTHS法由于伽马参数对形状的影响存在耦合效应,因此在分布过窄时对峰值位置的误差增大,进一步影响了组成计算的准确性。此外,当分子组成较少或某些边缘分子应为零时,MTHS法可能出现不合理的非零预测值,进而导致更大的误差。这些结果表明,形状解耦MTHS法不仅具有更好的泛化能力,且在面对复杂的组成分布时,表现出更强的鲁棒性和更高的精确度。

图 5展示了样本1在2种方法的迭代过程中目标函数值和质量分数均方根误差(root-mean-square error,RMSE)的变化趋势。从图 5a图 5b可以看出,尽管存在一定的波动,形状解耦MTHS法的目标函数值和质量分数误差的下降速度明显更快,且其组成的质量分数均方根误差的波动更小。最终,形状解耦MTHS法的目标函数值和质量分数误差均优于MTHS法。这表明,形状解耦MHTS法不仅能够更快速地收敛,还能在优化过程中维持较低的误差水平,使其在提高效率的同时保障结果的准确性。

图 5 样本1的目标函数值与质量分数均方根误差变化曲线

3.2 迭代次数对优化结果的影响

表 5对比了不同迭代次数下MTHS法与形状解耦MTHS法的平均最优目标函数值和平均质量分数误差。可以看出,形状解耦MTHS法在所有迭代次数下的表现均优于MTHS法。无论是在迭代第20次还是1 000次时,形状解耦MTHS法的平均最优目标函数值和平均质量分数误差都明显小于MTHS法。特别是在迭代次数较少时,形状解耦MTHS法的平均质量分数误差已接近最优,而MTHS法需要更多的迭代次数才能达到相似的精度。这表明,形状解耦MTHS法能够在较少的迭代次数下找到接近全局最优的解,从而提高了优化效率。

表 5 不同迭代次数下的模型平均最优目标函数和平均质量分数误差
迭代次数 平均最优目标函数值 平均质量分数误差/%
MTHS法 形状解耦MTHS法 MTHS法 形状解耦MTHS法
20 2.01 1.62 0.89 0.51
50 1.85 1.63 0.91 0.47
100 1.80 1.57 0.83 0.50
1 000 1.69 1.52 0.76 0.50

同时,尽管增加迭代次数能够继续降低平均最优目标函数值和误差,但形状解耦MTHS法在较少的迭代次数下已能保证较低的误差值,进一步增加迭代次数的效果较为有限。这也说明形状解耦MTHS法在搜索最优解时表现出了更强的能力。

4 结论

本文提出了一种形状解耦伽马分布参数油品分子重构方法。通过引入独立控制峰值位置和分布宽度的形状解耦参数,并结合多元线性回归模型预测初始参数,降低了伽马分布形状参数和尺度参数对分布形状的耦合效应,提高了可解释性,并有效缩小了优化搜索空间,提高了优化效率和重构准确性。

实验结果表明,形状解耦MTHS法在预测精度和优化效率上优于MHTS法,尤其在处理分布极端的分子组成时展现出更高的鲁棒性和稳定性。此外,形状解耦MTHS法在较少迭代次数下即可达到较优的优化结果,进一步显示了其全局寻优能力。

形状解耦MTHS法在分子重构准确性和效率上的显著优势,使其具备在复杂油品分子重构研究中的推广应用。下一步将结合更先进的机器学习技术,提升方法性能和适用范围。

参考文献
[1]
MEI H, WANG Z L, HUANG B. Molecular-based Bayesian regression model of petroleum fractions[J]. Industrial & Engineering Chemistry Research, 2017, 56(50): 14865-14872.
[2]
REN Y, LIAO Z W, SUN J Y, et al. Molecular reconstruction: Recent progress toward composition modeling of petroleum fractions[J]. Chemical Engineering Journal, 2019, 357: 761-775. DOI:10.1016/j.cej.2018.09.083
[3]
WHITSON C H. Characterizing hydrocarbon plus fractions[J]. Society of Petroleum Engineers Journal, 1983, 23(4): 683-694. DOI:10.2118/12233-PA
[4]
STRATIEV D, SHISHKOVA I, TANKOV I, et al. Challenges in characterization of residual oils. A review[J]. Journal of Petroleum Science and Engineering, 2019, 178: 227-250. DOI:10.1016/j.petrol.2019.03.026
[5]
彭辉, 张磊, 邱彤, 等. 乙烯裂解原料等效分子组成的预测方法[J]. 化工学报, 2011, 62(12): 3447-3451.
PENG H, ZHANG L, QIU T, et al. Method of predicting equimolecular mixture of ethylene cracking feedstock[J]. CIESC Journal, 2011, 62(12): 3447-3451. (in Chinese)
[6]
VERSTRAETE J J, SCHNONGS P, DULOT H, et al. Molecular reconstruction of heavy petroleum residue fractions[J]. Chemical Engineering Science, 2010, 65(1): 304-312. DOI:10.1016/j.ces.2009.08.033
[7]
HUDEBINE D, VERSTRAETE J J. Molecular reconstruction of LCO gasoils from overall petroleum analyses[J]. Chemical Engineering Science, 2004, 59(22-23): 4755-4763. DOI:10.1016/j.ces.2004.09.019
[8]
NEUROCK M, LIBANATI C, NIGAM A, et al. Monte Carlo simulation of complex reaction systems: Molecular structure and reactivity in modelling heavy oils[J]. Chemical Engineering Science, 1990, 45(8): 2083-2088. DOI:10.1016/0009-2509(90)80080-X
[9]
ALBAHRI T A. Molecularly explicit characterization model (MECM) for light petroleum fractions[J]. Industrial & Engineering Chemistry Research, 2005, 44(24): 9286-9298.
[10]
ASTARITA G, SANDLER S I. Kinetic and thermodynamic lumping of multicomponent mixtures[M]. Amsterdam: Elsevier, 2012.
[11]
XUE X D, JIANG H B, OUYANG F S, et al. Molecular reconstruction of naphtha by maximum information entropy method[J]. Petroleum Science and Technology, 2019, 37(5): 535-542. DOI:10.1080/10916466.2018.1550496
[12]
HUDEBINE D, VERSTRAETE J J. Reconstruction of petroleum feedstocks by entropy maximization. Application to FCC gasolines[J]. Oil & Gas Science and Technology —Revue d'IFP Energies nouvelles, 2011, 66(3): 437-460.
[13]
JAFFE S B, FREUND H, OLMSTEAD W N. Extension of structure-sriented lumping to vacuum residua[J]. Industrial & Engineering Chemistry Research, 2005, 44(26): 9840-9852.
[14]
CHEN J C, FANG Z, QIU T. Molecular reconstruction model based on structure oriented lumping and group contribution methods[J]. Chinese Journal of Chemical Engineering, 2018, 26(8): 1677-1683. DOI:10.1016/j.cjche.2017.09.013
[15]
ZHANG C, BI K X, QIU T. Molecular reconstruction of crude oil: Novel structure-oriented homologous series lumping with a cloud model[J]. Industrial & Engineering Chemistry Research, 2022, 61(51): 18810-18820.
[16]
YANG B L, ZHOU X W, CHEN C, et al. Molecule simulation for the secondary reactions of fluid catalytic cracking gasoline by the method of structure oriented lumping combined with Monte Carlo[J]. Industrial & Engineering Chemistry Research, 2008, 47(14): 4648-4657.
[17]
QUANN R J, JAFFE S B. Structure-oriented lumping: Describing the chemistry of complex hydrocarbon mixtures[J]. Industrial & Engineering Chemistry Research, 1992, 31(11): 2483-2497.
[18]
邱彤, 陈金财, 方舟. 基于结构导向集总的石油馏分分子重构模型[J]. 清华大学学报(自然科学版), 2016, 56(4): 424-429.
QIU T, CHEN J C, FANG Z. Molecular reconstruction model for petroleum fractions based on structure oriented lumping[J]. Journal of Tsinghua University (Science and Technology), 2016, 56(4): 424-429. DOI:10.16511/j.cnki.qhdxxb.2016.24.014 (in Chinese)
[19]
ZHANG Y. A molecular approach for characterization and property predictions of petroleum mixtures with applications to refinery modeling[D]. Manchester: The University of Manchester, 1999.
[20]
AYE M M S, ZHANG N. A novel methodology in transforming bulk properties of refining streams into molecular information[J]. Chemical Engineering Science, 2005, 60(23): 6702-6717. DOI:10.1016/j.ces.2005.05.033
[21]
PYL S P, HOU Z, VAN GEEM K M, et al. Modeling the composition of crude oil fractions using constrained homologous series[J]. Industrial & Engineering Chemistry Research, 2011, 50(18): 10850-10858.
[22]
WU Y W, ZHANG N. Molecular characterization of gasoline and diesel streams[J]. Industrial & Engineering Chemistry Research, 2010, 49(24): 12773-12782.
[23]
AHMAD M I, ZHANG N, JOBSON M. Molecular components-based representation of petroleum fractions[J]. Chemical Engineering Research and Design, 2011, 89(4): 410-420. DOI:10.1016/j.cherd.2010.07.016
[24]
PENG B. Molecular modelling of petroleum processes[D]. Manchester: University of Manchester, 1999.
[25]
REN Y, LIAO Z W, SUN J Y, et al. Molecular reconstruction of naphtha via limited bulk properties: Methods and comparisons[J]. Industrial & Engineering Chemistry Research, 2019, 58(40): 18742-18755.
[26]
MEI H, CHENG H, WANG Z L, et al. Molecular characterization of petroleum fractions using state space representation and its application for predicting naphtha pyrolysis product distributions[J]. Chemical Engineering Science, 2017, 164: 81-89. DOI:10.1016/j.ces.2017.02.005
[27]
PYL S P, VAN GEEM K M, REYNIERS M F, et al. Molecular reconstruction of complex hydrocarbon mixtures: An application of principal component analysis[J]. AIChE Journal, 2010, 56(12): 3174-3188. DOI:10.1002/aic.12224
[28]
MA F Y, ZHENG X, HAN C Y, et al. Molecular reconstruction of naphtha based on physical information neural network[J/OL]. IFAC-PapersOnLine, 2022, 55(7): 186-191. (2022-01-01)[2024-10-12]. https://www.sciencedirect.com/science/article/pii/S2405896322008436. DOI: 10.1016/j.ifacol.2022.07.442.
[29]
KLEIN M T, HOU G, BERTOLACINI R, et al. Molecular modeling in heavy hydrocarbon conversions[M]. Boca Raton: CRC Press, 2005.