2. 工业大数据系统与应用北京市重点实验室, 北京 100084;
3. 四川大学 化学工程学院, 成都 610065
2. Beijing Key Laboratory of Industrial Big Data System and Application, Beijing 100084, China;
3. School of Chemical Engineering, Sichuan University, Chengdu 610065, China
乙烯工业是石油化工的核心,乙烯的产量代表了国家石油化工的发展水平。管式炉蒸汽裂解工艺提供了全球97%的乙烯产能[1]。乙烯产能的持续增长给乙烯行业带来更大的竞争压力。
为更深入地了解原料、操作条件对乙烯裂解产品组成的影响,当前普遍采用建立裂解过程机理模型的方法,来进行工业裂解炉的控制和优化研究。随着企业数字化、智能化转型发展,更多、更全面的过程数据不断积累,为建立代理模型提供了良好的数据条件。种类繁多的机器学习算法均可用于乙烯裂解过程建模,但其适用条件和优缺点各异。开展机器学习算法在乙烯裂解过程建模中的比较与集成研究,将有利于建立一个计算准确、泛化能力较好的模型,更好地满足科学研究和工业应用的需求。
Plehiers等[2]采用深度学习方法构建蒸汽裂解产物详细组成模型,通过原料族组成和馏程数据预测产物的详细分子组成。但是,深度神经网络模型不仅对数据量要求高,而且其复杂性会带来过拟合问题。轻量级机器学习方法有助于快速构建与应用模型,值得深入研究与比较。
轻量级机器学习模型可分为参数化模型和非参数化模型。参数化模型对输入数据的分布作出了假设并由一些参数确定,参数规模与训练集大小无关,这类模型包括感知机、逻辑回归等,一般适用于解决简单问题,在复杂数据上容易欠拟合。非参数化模型对目标函数基本不作假设,参数个数随训练数据量增加而增大,拟合能力较强,更适用于解决复杂现实问题,但对样本量的要求高,同时容易发生过拟合,这类模型包括支持向量回归(support vector regression, SVR)、k-近邻(k-nearest neighbors, k-NN)算法、决策树(decision tree,DT)等。由于工业数据的变量相关性复杂,非参数化模型往往更加有效[3]。
朱哲熹[4]使用SVR提出了石脑油裂解制乙烯过程的软测量建模方法,所建立的模型比线性最小二乘回归和多层感知机模型具有更好的学习和泛化能力。SVR基于结构风险最小化策略,控制了模型在样本集上的期望风险,因此不易发生过拟合,其不足是在大数据量下的训练时间长、训练参数难以选择。Mahdiani等[5]用基因编程、k-近邻回归、线性判别分析3种方法构建了原油的黏度模型,发现k-近邻回归的效果最好(平均绝对误差8.54%)。该方法原理简单,不需要显式训练,局部性能好,但预测过程依赖近邻点的实例值,精确度受数据影响大,适用于分布紧凑的样本集。
针对模型过拟合、对数据集分布敏感等现象,可建立集成模型来提高性能,即使用元算法将多个子模型组合成一个效果更好的模型,其中子模型常采用决策树等弱模型。Serfidan等[6]选用多种机器学习方法预测石脑油分馏塔的塔顶、塔底产品中的C7和C6含量等关键指标,其中极限梯度提升(extreme gradient boosting, XGBoost)建立的回归模型效果最好,预测精度提高了30%。该算法在Kaggle等竞赛平台上多次获奖,也广泛应用于现实中的分类与回归问题。Gómez-Ríos等[7]在21组不同数据集上比较了自适应增强、梯度提升机和XGBoost 3种集成方法,XGBoost在二分类和多分类任务中,受噪声影响均最小,展现出较强的鲁棒性。
针对乙烯蒸汽裂解过程进行建模,人们最关注的是利用裂解原料和操作条件预测裂解反应进行的程度。当乙烯裂解炉常规运行在中等裂解深度模式下,丙烯和乙烯的收率比(简称丙乙比)随裂解深度单调下降。对于同种原料,丙乙比可以作为表征裂解深度的灵敏参数,因此构建裂解产物丙乙比的预测模型最具推广应用价值[1]。
本文比较研究了3种用于乙烯裂解建模的机器学习算法,提出以集成建模方法构建乙烯裂解深度预测模型,具体流程如图 1所示。工业数据经过清洗和样本筛选后,首先对原料特征进行筛选和聚类,然后选取支持向量回归、k-近邻回归和XGBoost 3种典型的机器学习算法进行过程建模,并对模型进行比较和集成研究。该建模流程的目的是提高模型的稳定性和预测效果,提升模型在研究和生产中的应用价值。
![]() |
图 1 集成模型的建模框架 |
1 数据准备 1.1 数据采集与处理
本文采用的工业数据集来自某大型炼化企业,按小时平均值采样。数据主要包括:1) 石脑油在线分析:族组成、馏程(ASTM标准)和相对密度。2) 裂解产物组成在线分析,模型中只考虑乙烯、丙烯含量。3) 装置操作参数:总进料量、蒸汽流量、炉管出口温度(coil outlet temperature, COT)、横跨段温度及压力。
原始工业数据一般具有维度高、噪声大、共线性严重等特点,需要进行预处理,步骤包括数据清洗、数据转换和特征选择等。必要时,需对数据进行标准化,以消除数量级和单位的影响。
基于变量符合正态分布的假设,参照统计学中的法则,对工况动态变化等原因导致的离群值以及原始数据中存在的缺失值进行删除。为了在高维数据集上进行异常值检测,采用无监督的局部异常因子(local outlier factor, LOF)检测算法[8]。LOF基于局部密度计算结果,若某个数据点和周围k个点的局部偏离程度很大,即判定为异常点;LOF显著大于1的点,说明该点比周围点的局部密度更低,很可能是离群点。本文中,k的取值为20。通过一系列数据预处理,共计删除约9%的样本数据,以减小数据噪声,提升建模的准确性和一致性。
1.2 变量筛选与数据聚类由于装置操作参数的变量数较少,且相互之间基本独立,因此不作筛选处理。然而,表征石脑油原料参数的变量数多、共线性严重,因此采用互信息方法去除冗余[9]。两随机变量的互信息(mutual information, MI)是一个非负值,定量描述了观察一个变量所得到的关于另一变量的“信息量”,其定义为
$ I(X ; Y)=D_{\mathrm{KL}}\left(P_{(X, Y)} \| P_{X} \otimes P_{Y}\right). $ |
其中: (X, Y)是随机变量对,P(X, Y)是联合分布,PX和PY为边缘分布,DKL为Kullback-Leibler散度。互信息值越高,表明两变量依赖关系越明显,故该指标可用于单变量特征选择。
计算12个原料变量和目标变量(丙乙比)的互信息,选取相关性最大的6个变量:正构烷烃质量分数wP、异构烷烃质量分数wI、环烷烃质量分数wN、芳香烃质量分数wA、石脑油10%馏出温度TD10、石脑油70%馏出温度TD70。由于wP+wI+wN+wA=100%,为使输入变量线性独立,因此删去wA、保留其余5个变量。模型的变量说明见表 1。
变量类型 | 变量名 | 含义 | 单位 |
原料变量 | wP | 石脑油中的正构烷烃质量分数 | % |
wI | 石脑油中的异构烷烃质量分数 | % | |
wN | 石脑油中的环烷烃质量分数 | % | |
TD10 | 石脑油10%馏出温度 | ℃ | |
TD70 | 石脑油70%馏出温度 | ℃ | |
操作与状态变量 | FFR | 总进料流量 | kg·h-1 |
DS | 稀释蒸汽流量 | kg·h-1 | |
CIP | 横跨段压力 | kPa | |
CIT | 横跨段温度 | ℃ | |
COT | 裂解温度(炉管出口温度) | ℃ | |
产品分析数据(目标变量) | P/E | 裂解气丙乙比 |
在裂解装置长周期运行时,原料和操作工况都需要随生产计划而不断调整,因此采用聚类方法对原料或工况进行划分[10-11],在小样本上建立预测模型,以适应进料波动,保证预测精度。具有噪声的基于密度的聚类算法(density-based spatial clustering of applications with noise,DBSCAN)是一种典型的基于密度的聚类算法,将全部点分为核心点、非核心点和噪声点。一个聚类(密集区域)包括核心点及其ε-邻域中的点,而ε-邻域内没有足够相邻点的点为噪声点[12]。
相比k-平均(k-means)等传统聚类算法,DBSCAN不需要预先确定聚类数量,且能识别离群值,对过程数据的划分尤为适宜。参数minPts和ε的选择有赖于经验。本文参考Rahmah等[13]的方法,借助k-距离图(k-distance plot),选择的参数组合为ε=0.325,minPts=10。
2 模型构建 2.1 支持向量回归支持向量回归的目标是使数据点尽可能在决策边界内部。为解决非线性问题,给定核函数,可以将输入数据隐式地映射到一个高维空间中,在新空间中学习线性超平面。根据Lagrange乘子法和Karush-Kuhn-Tucker(KKT)条件,导出以下决策函数[2]:
$ f(\boldsymbol{x})=\sum\limits_{i=1}^{N_{\mathrm{SV}}}\left(\alpha_{i}^{*}-\alpha_{i}\right) K\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right)+b. $ |
$ b=y_{i}+\varepsilon-\sum\limits_{i=1}^{n}\left(\alpha_{i}^{*}-\alpha_{i}\right) K\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right). $ |
其中: αi和αi*是Lagrange乘子,b为函数的截距,NSV为支持向量的个数,ε为间隔宽度。K(x1, x2)为核函数,一般为Guass核K(x1, x2)=exp(-γ·‖x1, x2‖2)。γ是映射的超参数。加入惩罚系数C,在算法实现中,往往对所有满足0<αi<C的样本求得b,并取平均值。
SVR是基于距离的算法,将训练集进行标准化后输入。采用网格搜索法[14]得到最佳参数为ε=0.001,C=10,γ=0.1。
2.2 k-近邻回归k-近邻回归将各相邻点的数值乘以其权重,得到的局部插值作为预测结果。预测结果中样本的权重有多种规则,可以是均匀(uniform)的,也可以与样本距离成反比(inverse)等。选择inverse权重时,预测结果为
$ f(x)=\sum\limits_{x_{i} \in N_{k}} \frac{y_{i}}{d\left(x, x_{i}\right)} / \sum\limits_{x_{i} \in N_{k}} \frac{1}{d\left(x, x_{i}\right)}. $ |
选出与x最邻近的k个样本,Nk为包含这些点的集合。d(x, xi)表示输入x与样本xi的距离。通常采用交叉验证选取k的最优值。过小的k会使结果对近邻点高度敏感,导致结果不稳定,易受噪声影响;过大的k则会引入不相似样本,增大拟合误差[2]。
k-NN是基于距离的算法,同样采用标准化的训练集输入。各近邻实例的权重为inverse,最佳参数取k=4。
2.3 XGBoostXGBoost的底层原理是损失函数的梯度下降。算法采用增量训练:每次加入一棵新树,算法通过学习得到树的参数以最小化损失函数L(θ)[15]。设第t次迭代加入弱学习器ft(xi),得到强学习器Ft(xi),则有
$ F_{t}\left(x_{i}\right)=F_{t-1}\left(x_{i}\right)+f_{t}\left(x_{i}\right) . $ |
不同于传统的梯度提升树,XGBoost利用了损失函数的二阶Taylor展开。学习器ft(xi)的拟合目标一般为残差(预测值与观测值的差)。为了减小过拟合,损失函数的正则化项为树的复杂度,用学习率η控制梯度下降每一步的步长[15]。
XGBoost模型采用Python的XGBoost软件库构建。此算法与距离无关,可直接输入原始训练集。由于树的深度越大拟合效果越好,将树高限制在8。训练效果连续10次无明显下降时停止训练,迭代次数即为树的数量。最佳参数为η=0.2。
XGBoost模型中的典型树结构如图 2所示。树的叶节点是对结果残差的拟合,内部节点为判断条件,每个样本对应唯一的路径,但变量可以在节点中重复出现(例如图 2中的蒸汽流量DS)。
![]() |
图 2 XGBoost模型中的决策树示例 |
2.4 集成学习方法
除了结合多个简单模型(Boosting算法),还可组合多个复杂模型(强模型),以进一步提高模型效果。即使是总体表现相似的模型,预测误差也可能发生在不同的区域。因此,对于几个表现相似的强学习器,简单平均(simple averaging)方法往往就能起到一定提升效果。集成模型拓宽了假设空间,在函数表示上比任一原始模型更加灵活,因此一般可以取得更好的预测性能[16]。本文采用简单平均方法将支持向量回归、k-近邻回归和XGBoost模型组合成集成模型。
2.5 评价指标单变量输出模型的评价指标一般有决定系数R2、均方根误差(root-mean-square error, RMSE)、平均百分误差(mean absolute percentage error, MAPE)等,其中R2最为直观。
$ R^{2}(y, \hat{y})=1-\frac{\sum\limits_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}{\sum\limits_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}. $ |
其中: yi为实际预测值,
$ \operatorname{RMSE}(y, \hat{y})=\sqrt{\sum\limits_{i=1}^{n} \frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{n}}. $ |
RMSE是对应二次损失函数的评价标准,值越小表明拟合效果越好。
$ \operatorname{MAPE}=\frac{1}{n} \sum\limits_{i=1}^{n} \frac{\left|y_{i}-\hat{y}_{i}\right|}{\max \left(\varepsilon, \left|y_{i}\right|\right)}. $ |
其中ε>0是任意一个小的正数,从而避免yi=0的问题。MAPE对相对误差敏感,值越小表明拟合效果越好。
在调整模型的参数时,常用的方法是交叉验证(cross-validation, CV)。例如,典型的k-折交叉验证将数据集随机均分为k份,每次取其中一个子集用于验证,其余部分用于训练,k可取5或10。数据的交叉使用,使模型更好地反映训练集的特征,减轻选择偏差和过拟合。交叉验证的平均结果也能更好地反映模型的实际表现[18]。
3 结果与讨论在Intel(R) Core(TM) i7-10700F CPU上,基于Python 3.9.4完成建模,主要采用的算法包为Scikit-learn[17] 0.24.2和XGBoost[15] 1.4.2。
对数据进行聚类分析,聚类结果数据沿时序展示如图 3所示。在本数据集上,共得到14个聚类、34个噪声点。将聚类点数少于1 000的类合并成一个大类(第0类)。工业原料的性质主要随批次变化,从时序图可以看到,DBSCAN算法较好地捕捉了这种时间上的连续性,从侧面验证了聚类的有效性。舍去上述第0类中的样本,取更为典型的2、3、11这3类的数据用于建模,共选取5 097个样本。
![]() |
图 3 DBSCAN聚类结果的时序分析图 |
采用支持向量回归、k-近邻回归、XGBoost,以及集成模型进行丙乙比预测建模,表 2为各模型在5折交叉验证下的预测结果。同时,考察了采用LOF算法去除样本异常点带来的预测效果提升。将原料参数和操作参数均输入LOF算法,剔除274个异常样本点。虽然剔除的样本比例仅为5.4%,但减小噪声后,建模效果有显著提升,在所有模型的测试集上,R2都提高了0.03及以上。
模型 | 降噪前后 | R2 | RMSE×102 | MAPE/% | 拟合时间/s | |||||
训练 | 测试 | 训练 | 测试 | 训练 | 测试 | |||||
支持向量回归 | 降噪前 | 0.951 | 0.861 | 0.128 | 0.215 | 0.250 | 0.319 | 35.91 | ||
降噪后 | 0.964 | 0.937 | 0.106 | 0.140 | 0.234 | 0.279 | 28.42 | |||
k-近邻回归 | 降噪前 | 1.000 | 0.911 | 0.000 | 0.173 | 0.000 | 0.265 | 0.02 | ||
降噪后 | 1.000 | 0.949 | 0.000 | 0.125 | 0.000 | 0.225 | 0.02 | |||
XGBoost | 降噪前 | 0.979 | 0.901 | 0.085 | 0.182 | 0.174 | 0.328 | 2.87 | ||
降噪后 | 0.981 | 0.934 | 0.077 | 0.143 | 0.163 | 0.291 | 2.63 | |||
集成模型 | 降噪前 | 0.987 | 0.925 | 0.065 | 0.158 | 0.129 | 0.265 | 39.11 | ||
降噪后 | 0.990 | 0.955 | 0.056 | 0.118 | 0.121 | 0.231 | 31.38 |
在减小噪声的数据拟合中,3个模型的表现相似,都有较强的拟合性能。其中:SVR的拟合能力稍弱、耗时最长,但测试集R2非常接近训练集R2,未发生明显的过拟合、欠拟合;k-近邻回归在预测效果和训练时间上均优于SVR和XGBoost;XGBoost存在一定的过拟合,预测效果和训练时间均为中等。集成模型的拟合效果最佳。噪声点既增大了模型的偏差,也使测试集的代表性减弱,因此虽然对子模型的拟合准确度影响不大,但导致其泛化性能明显下降。其中:SVR对噪声尤为敏感,拟合时间变长、预测效果降低;对于有噪声数据,集成模型的效果仍明显优于子模型。
为考察模型拟合性能随数据集规模的变化,分别取10%、32.5%、55%、77.5%、100%的数据,进行5折交叉验证,得到图 4中显示的4种模型的学习曲线。图 4中:红色圆点表示训练集的平均R2,绿色三角表示验证集的平均R2,线两侧区域显示方差大小。
![]() |
图 4 机器学习模型在5折交叉验证下的学习曲线 |
1) SVR方法在过小数据集(10%)上存在明显的过拟合,泛化性能较差,且在验证集上表现不稳定,表明模型对数据集选取非常敏感。SVR方法训练与验证的学习曲线收敛性在所有模型中最好,模型在验证集上的R2稳定在0.9以上。由此可见,SVR不适用于过小的复杂数据集。
2) k-近邻回归、XGBoost方法的表现相似,在小数据量下的预测效果比SVR稳定,在大数据量下训练集、验证集R2的差异略大,出现过拟合现象。
3) 在各个数据量下,集成模型的验证集表现均优于子模型。这表明集成模型吸取了各个子模型的优势,既增强了小数据量下的稳定性,又减轻了过拟合。
图 5为4个模型的预测值-实际值分析图,每个子图中直线为拟合结果,顶部和右侧分别为实测值和预测值的直方图与核密度估计(kernel density estimation,KDE)曲线。
![]() |
图 5 机器学习模型的实际值-预测值分析 |
4个模型的误差数量级相近,拟合直线基本与y=x重合,正负误差分布比较均匀。数据点分布稀疏(如边界)区域内,模型预测均有偏差,表明机器学习建模普遍存在较强的局部性,泛化性能有限,模型适用于相对稳定的操作条件。
在P/E较小的区域,k-近邻回归预测值均偏高,体现了算法对邻近点的强依赖性。因此,k-近邻模型虽然准确,但局部性更强,主要适用于训练样本充足时的数据点内插。
直观地看,集成模型对应的散点图最为集中、紧凑。这表明集成模型不仅预测效果最佳,也不易出现大误差,预测结果具有较强的一致性和可靠性。
如图 6所示,在固定其他变量的情况下,绘出集成模型的双变量响应曲面,颜色的深浅代表丙乙比大小。当原料石脑油的正构/异构烷烃比(正异比P/I)较小、原料10%馏出温度(TD10)较大时,丙乙比较大;在裂解温度(COT)与水油比(S/O)适中的情况下,丙乙比取得最大值。经优化计算发现,在COT=822.0℃、S/O=0.524时,丙乙比取得最大值0.364。
![]() |
图 6 集成模型的双变量响应曲面 |
4 结论
本文利用工业数据,针对乙烯裂解深度建立机器学习代理模型,比较了SVR、k-近邻回归和XGBoost 3种算法,并采用简单平均法进行了模型集成。集成模型结合了三者的优势,预测效果和稳定性优于任一子模型。研究发现,预测结果受数据集影响较大,采用DBSCAN聚类算法选取典型原料,根据局部异常因子LOF去除异常值,加强了模型的泛化性能,明显提高了预测结果的一致性。
该建模流程涵盖了工业数据清洗与筛选、原料特征的聚类分析、机器学习模型的比较与集成,逻辑完整,步骤清晰。在实际工业数据上的测试结果表明,本文提出的流程可以便捷有效地建立裂解深度预测模型,并可迁移到类似的工业过程中;对模型输出进行分析与可视化,能够使研究者对过程机理有更深的理解,同时配合控制与优化算法,可以提升企业自动化和智能化水平,提高生产效率。
[1] |
胡杰, 王松汉, 中国石油天然气股份有限公司石油化工研究院. 乙烯工艺与原料[M]. 北京: 化学工业出版社, 2018. HU J, WANG S H, CNPC Research Institute of Petrochemical Technology. Ethylene production process and raw materials[M]. Beijing: Chemical Industry Press, 2018. (in Chinese) |
[2] |
PLEHIERS P P, SYMOENS S H, AMGHIZAR I, et al. Artificial intelligence in steam cracking modeling: A deep learning algorithm for detailed effluent prediction[J]. Engineering, 2019, 5(6): 1027-1040. DOI:10.1016/j.eng.2019.02.013 |
[3] |
李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012. LI H. Statistical learning methods[M]. Beijing: Tsinghua University Press, 2012. (in Chinese) |
[4] |
朱哲熹. 基于支持向量机的石脑油裂解制乙烯过程软测量建模研究[D]. 北京: 北京化工大学, 2019. ZHU Z X. Research on soft sensor modelling method using support vector regression (SVR) in naphtha cracking processes[D]. Beijing: Beijing University of Chemical Technology, 2019. (in Chinese) |
[5] |
MAHDIANI M R, KHAMEHCHI E, HAJIREZAIE S, et al. Modeling viscosity of crude oil using k-nearest neighbor algorithm[J]. Advances in Geo-Energy Research, 2020, 4(4): 435-447. DOI:10.46690/ager.2020.04.08 |
[6] |
SERFIDAN A C, TÜRKAY M. Explanatory and predictive analysis of naphtha splitter products[J]. Computer Aided Chemical Engineering, 2021, 50: 1-6. |
[7] |
GÓMEZ-RÍOS A, LUENGO J, HERRERA F. A study on the noise label influence in boosting algorithms: AdaBoost, GBM and XGBoost[C]//12th International Conference on Hybrid Artificial Intelligent Systems. La Rioja, Spain, 2017: 268-280.
|
[8] |
BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: Identifying density-based local outliers[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Dallas, USA, 2000: 93-104.
|
[9] |
PENG H C, LONG F H, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238. DOI:10.1109/TPAMI.2005.159 |
[10] |
陈贵华, 王昕, 王振雷, 等. 基于模糊核聚类的乙烯裂解深度DE-LSSVM多模型建模[J]. 化工学报, 2012, 63(6): 1790-1796. CHEN G H, WANG X, WANG Z L, et al. Multiple DE-LSSVM modeling of ethylene cracking severity based on fuzzy kernel clustering[J]. CIESC Journal, 2012, 63(6): 1790-1796. DOI:10.3969/j.issn.0438-1157.2012.06.019 (in Chinese) |
[11] |
MOGHADASI M, OZGOLI H A, FARHANI F. A machine learning-based operational control framework for reducing energy consumption of an amine-based gas sweetening process[J]. International Journal of Energy Research, 2021, 45(1): 1055-1068. DOI:10.1002/er.6159 |
[12] |
SCHUBERT E, SANDER J, ESTER M, et al. DBSCAN revisited, revisited: Why and how you should (still) use DBSCAN[J]. ACM Transactions on Database Systems, 2017, 42(3): 19. |
[13] |
RAHMAH N, SITANGGANG I S. Determination of optimal epsilon (Eps) value on DBSCAN algorithm to clustering data on peatland hotspots in Sumatra[J]. IOP Conference Series: Earth and Environmental Science, 2016, 31(1): 012012. |
[14] |
LAMESKI P, ZDRAVEVSKI E, MINGOV R, et al. SVM parameter tuning with grid search and its impact on reduction of model over-fitting[M]//YAO Y J, HU Q H, YU H, et al. Rough sets, fuzzy sets, data mining, and granular computing. Cham, Switzerland: Springer, 2015: 464-474.
|
[15] |
CHEN T Q, GUESTRIN C. XGBoost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2016: 785-794.
|
[16] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. ZHOU Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016. (in Chinese) |
[17] |
PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: Machine learning in Python[J]. The Journal of Machine Learning Research, 2011, 12: 2825-2830. |
[18] |
ARLOT S, CELISSE A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4: 40-79. |