基于机器学习的城市暴雨内涝时空快速预测模型
代鑫, 黄弘, 汲欣愉, 王巍    
清华大学 工程物理系, 公共安全研究院, 北京 100084
摘要:暴雨内涝的快速预测对于提升灾害应急处置能力具有重要意义。针对传统数值模拟复杂耗时导致难以满足暴雨内涝预测时限要求的问题,该文基于机器学习方法构建城市暴雨内涝时空快速预测模型。利用城市综合流域排水模型(InfoWorks ICM)模拟的高精度网格结果作为数据驱动,综合考虑降雨因素、地理数据以及排水管网的分布情况,分别基于随机森林、极限梯度提升(XGBoost)、K最近邻以及长短期记忆(LSTM)神经网络建立城市暴雨内涝快速预测模型。以北京市某区域为例,开展算例研究,结果表明:随机森林模型的空间预测效果最佳,淹没范围预测准确率可达99.51%,积水深度平均预测误差3.55%;LSTM神经网络模型能准确预测内涝点积涝过程的水深时序变化。在该算例场景下,所构建的机器学习模型可实现s级的暴雨内涝时空快速预测。
关键词暴雨内涝    时空快速预测    机器学习    随机森林    长短期记忆(LSTM)神经网络    
Spatiotemporal rapid prediction model of urban rainstorm waterlogging based on machine learning
DAI Xin, HUANG Hong, JI Xinyu, WANG Wei    
Institute of Public Safety Research, Department of Engineering Physics, Tsinghua University, Beijing 100084, China
Abstract: Objectiv Rapid prediction of rainstorm waterlogging is crucial for disaster prevention and reduction. However, the traditional numerical models for simulating and predicting large-scale and complex subsurface conditions are complicated and time-consuming; moreover, the time-efficiency requirement of rainstorm waterlogging prediction is difficult to meet. To address these shortages of the numerical models, this study constructs a spatiotemporal prediction model of urban rainstorm waterlogging based on machine learning methods to rapidly predict waterlogging extent and water depth changes. Methods This study constructs a rapid prediction model of urban rainstorm waterlogging based on a hydrodynamics model and machine learning algorithms. First, a hydrodynamic model is constructed based on InfoWorks integrated catchment management (InfoWorks ICM) for rainstorm waterlogging in the study area with the parameter rate determination and model validation to realize the high-precision simulation of urban rainstorm waterlogging. On this basis, a rainfall scenario-driven hydraulics model is designed to further obtain rainstorm waterlogging simulation results. These results are used as the base dataset for machine learning. Second, the spatial characteristics data of rainstorm waterlogging are obtained from three aspects: rainfall situation, subsurface information, and the drainage capacity of the pipe network, which, together with the grid simulation results, comprise the dataset. The spatial prediction models are based on random forest, extreme gradient boosting (XGBoost), and K-nearest neighbor algorithms. Finally, the simulation results of waterlogging points are used to generate rainstorm waterlogging time series data. The rainfall, cumulative rainfall, and water depth of the first four moments (every 5 min) are used as the input for a long short-term memory (LSTM) neural network to predict the present water depth of the flooding point. The two models collaborate to achieve rapid spatial and temporal predictions of urban rainstorm waterlogging. Results For spatial predictions, the random forest model has the best fitting performance regarding evaluation indexes such as the mean square error, the mean absolute error, and the coefficient of determination (R2). When a rainstorm scenario with an 80-year event and a 2.5 h rainfall calendar prediction set is used, the prediction results concur with the risk map of urban waterlogging in Beijing. Compared with the simulation results of InfoWorks ICM, the prediction accuracy of the predicted inundation extent reaches 99.51%, and the average prediction error of waterlogging depth does not exceed 5.00% by the random forest model. For temporal predictions, the trend of the water depth change of the LSTM neural network model is more consistent with the simulation results of InfoWorks ICM, the R2 of four typical inundation points are above 0.900, the average absolute error of water depth prediction at the peak moment is 1.9 cm, and the average relative error is 4.0%. Conclusions When addressing sudden rainstorms, the rapid prediction model based on machine learning algorithms built in this study can generate accurate prediction results of flooding extent and water depth in seconds by simply updating the forecast rainfall data in the model input. The model computational speed is greatly improved compared to the hydrodynamics-based numerical model, which can help plan waterlogging mitigation and relief measures.
Key words: rainstorm waterlogging    rapid spatiotemporal prediction    machine learning    random forest    long short-term memory (LSTM) neural network    

在全球极端天气频发、城市化进程加速发展的双重背景下,极端降水增多趋强[1],由降雨引发的积水内涝逐渐成为“常态化”风险。近年来,国内出现多起暴雨引发的重大灾害。2012年7月21日,北京特大暴雨造成房屋倒塌1.06万间,190万人受灾[2];2019年4月11日,短时极端强降水导致深圳部分区域被淹,11人淹溺死亡[3];2021年7月21日,郑州特大暴雨导致全省1 478.6万人受灾,398人死亡或失踪[4]。对暴雨引发的城市内涝进行快速预测预警,是提高政府部门灾害应对处置能力的有效途径。

国内外学者对暴雨内涝预测工作进行了大量研究,预测方法主要包括基于统计方法的经验模型[5]、基于水动力学的物理模型[6]以及基于地理信息的空间模型等[7]。目前国内外常用水动力模型预测城市内涝,主要包括暴雨洪水管理模型(storm water management model, SWMM)、城市综合流域排水模型(InfoWorks integrated catchment management, InfoWorks ICM)、Mike Urban等,这些模型通过求解水动力学方程计算水流状态,物理机制明确,易于获得高精度的数值模拟结果。然而,数值模型在大尺度、复杂下垫面情况下的运行求解较为复杂耗时,难以满足暴雨内涝积水预测的时效要求。近年来,为弥补数值模型的不足,学者们逐渐将机器学习方法应用到暴雨内涝灾害预测中。机器学习方法包括套索回归[8]、支持向量机[9]、决策树[10]、随机森林[11-12]、极限梯度提升(extreme gradient boosting, XGBoost)[13]、朴素Bayes[11, 14]和基于人工神经网络的深度学习[15-17]等,学习特征因子包括暴雨强度、降雨历时、不透水率、高程、坡度、地形湿度指数、距道路距离和排水管网密度等。Khatri等[12]使用了多种机器学习方法预测强降雨条件下的洪涝情况,发现K最近邻与随机森林算法表现较优;侯天宇等[17]考虑了气象、地理、社会等因素,利用神经网络模型实现了单点积水深度的短时预测计算;李海宏等[13]构建了暴雨内涝灾情预测模型,发现XGBoost模型比反向传播神经网络表现更优。

以上研究表明,机器学习方法在城市暴雨内涝快速预测方面具有广阔应用前景。然而,目前关于暴雨内涝积水深度的预测主要针对单一易涝点,缺乏大尺度的城市暴雨内涝时空预测模型,其原因在于数据量大、特征因子众多、映射关系复杂。本文以数值模拟得到的高精度数据作为数据集,分别基于随机森林、XGBoost、K最近邻、长短期记忆(long short-term memory, LSTM)神经网络等机器学习方法构建城市暴雨内涝时空快速预测模型,对比分析不同模型预测效果,实现对积水范围、水深变化的快速预测,有助于城市提升极端灾害天气应对能力。

1 模型与计算方法

本文基于水动力模型和机器学习算法构建城市暴雨内涝快速预测模型,技术路线如图 1所示。首先,构建研究区域暴雨内涝一二维水力学模型并完成参数率定与模型验证,实现城市暴雨内涝的高精度模拟,并设计降雨方案驱动水力学模型;其次,获取网格暴雨内涝空间特征数据,与网格模拟结果共同构成数据集,基于随机森林等算法建立暴雨内涝空间预测模型;同时,利用网格内涝点的模拟结果生成暴雨内涝时序数据集,基于LSTM神经网络实现内涝点的水深时序预测。

图 1 技术路线图

1.1 水动力学模型

InfoWorks ICM采用一二维水动力学方法模拟地表积水,在城市暴雨内涝模拟中得到了广泛应用。本研究基于InfoWorks ICM完成研究区域暴雨内涝水力学模型的构建,包括排水管网概化、子集水区划分、二维建模、设计降雨和运行求解等步骤。模型耦合了一维管渠模型与二维淹没模型:管渠模型基于一维Saint-Venant方程组描述雨水在管网中的流动状态;二维淹没模型通过有限体积法求解浅水方程组,描述地表漫流并形成积水的过程[6]

1.2 空间预测模型

本文对目前主流的人工神经网络、支持向量机、随机森林、XGBoost、K最近邻等算法进行了初步试算。由于研究使用的数据规模大、样本分布不均衡,人工神经网络、支持向量机算法的试算结果并不理想。因此,初步选定随机森林、XGBoost、K最近邻3种算法进行暴雨内涝空间预测模型构建。

随机森林是一种集成学习算法,利用随机抽样从训练集抽取多个训练子集,对每个训练子集使用决策树方法训练基学习器,通过对基学习器的预测结果进行平均或多数表决构成集成评估器[18]

XGBoost是基于梯度提升决策树的改进算法[19],每一次生成决策树时拟合上一步的残差。XGBoost为多棵决策树组成的加法模型,

$ \hat{y}_i^t=\sum\limits_{k=1}^t f_k\left(x_i\right)=\hat{y}_i^{t-1}+f_t\left(x_i\right) . $ (1)

其中:$\hat{y}_i^t$i样本在模型第t步的预测值;ft(xi)为样本i在第t步对应决策树的取值。

K最近邻方法较为简单高效,适用于多元分类与回归问题,其基本思想是利用距离公式(2)表征两两样本间的距离[20],提取样本中距离最小的K个点作为预测参考值。

$ D\left(x_a, x_b\right)=\left(\sum\limits_{l=1}^L\left|x_a^l-x_b^l\right|^p\right)^{\frac{1}{p}} . $ (2)

其中:D(xa, xb)为xaxb两样本间距离;xalxbl为样本xaxb的第l个特征;p为常数,且p≥1。

1.3 时序预测模型

针对暴雨内涝时序数据,反馈式网络具有时序记忆性,更易于产生较好的预测结果。LSTM神经网络是一种反馈式网络,其输入不仅包括当前所见的输入样例,还包括网络在上一个时刻所感知到的信息,具有持续性和记忆性。同时,LSTM神经网络对隐藏层的设计作了改进,能够克服传统反馈式网络随着递归产生梯度爆炸或消失的问题[21]。因此,本文基于LSTM神经网络构建数据驱动的城市暴雨内涝模型,实现内涝点的水深时序预测。

1.4 模型训练与评估

本文运用网格搜索方法进行模型训练和参数优化,将最优参数下的模型运用于测试数据集。以均方误差(mean-square error, MSE)、平均绝对误差(mean absolute error, MAE)、拟合优度R2作为模型评价指标,进行各模型性能的比较。

$ \mathrm{MSE}=\frac{1}{n} \sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)^2 . $ (3)
$ \mathrm{MAE}=\frac{1}{n} \sum\limits_{i=1}^n\left|y_i-\hat{y}_i\right|. $ (4)
$ R^2=1-\frac{\sum\limits_{i=1}^n\left(y_i-\hat{y}_i\right)^2}{\sum\limits_{i=1}^n\left(y_i-\bar{y}_i\right)^2} . $ (5)

其中:n为样本数量, $\hat{y}_i$i样本在模型中的预测值, yi为其实际值, yi为样本实际值的均值。

2 研究区域与数据

本文选取北京市城区某区域为例进行研究。该区域建设用地约8.4 km2,无河流、水库等地表水系。全年降雨主要集中在7~9月,降雨量占全年的75%,降雨致涝风险集中。

2.1 数据来源

获取研究区域地表高程数据、排水管网数据、道路和建筑物数据如图 2所示;6种设计降雨方案[19]表 1所示。地表高程数据空间分辨率约10 m。研究区域东北地势高、西南地势低,区域中间主干路高程低于两侧区域,为主要泄洪通道。雨水管网的节点和管渠沿道路铺设,集中分布在研究区域西南部。

图 2 研究区域地表高程、排水管网以及道路和建筑物

表 1 设计降雨方案
序号 降雨重现期/a 降雨历时/h
1 2 2
2 5 3
3 10 3
4 20 3
5 50 2
6 100 2

在InfoWorks ICM中构建一二维水动力学模型:将下垫面概化为道路、建筑物、绿地3种产汇流表面;区域边界设为开放边界允许出流;使用Thiessen多边形法创建非结构化网格,网格面积为50~200 m2,并对道路进行了局部网格加密,道路网格面积为10~50 m2。研究区域的网格划分以InfoWorks ICM导出的shp文件为基础,共65 516个网格。网格结果中包含每个网格的平均高程和最大积水深度数据。使用模拟的暴雨内涝高精度网格结果作为机器学习的训练数据。

2.2 暴雨内涝空间特征数据

根据空中降雨—地面产汇流—地下管网排水的暴雨内涝成因3层空间模型[22],本文从降雨情况、下垫面信息、管网排水能力3方面选取暴雨内涝特征因子。

1) 降雨特征因子。参考DB11/T 969—2016《城镇雨水系统规划设计暴雨径流计算标准》[23],设计暴雨强度由降雨重现期、降雨历时决定,故降雨特征因子选取为降雨重现期、降雨历时。

2) 下垫面特征因子。基于数字高程模型在ArcGIS中进行3D分析与水文分析,得到高程、坡度、流向、流量的栅格数据作为下垫面特征因子。利用ArcGIS中的提取工具将栅格数据提取至网格点,得到每个网格对应的下垫面特征因子。

3) 排水管网特征因子。在ArcGIS中计算检查井核密度、排水管道核密度作为排水管网特征因子。其中,排水管道核密度以管道尺寸字段为计算依据。

2.3 暴雨内涝时序数据

内涝点积水数据是典型的时间序列数据,即前几个时刻的降雨条件、积水深度等对后几个时刻的内涝点水深有较大的影响[24],因而可以转换为有监督学习问题。

本文以研究区域中某一易涝点为例。基于InfoWorks ICM的模拟结果,提取降雨量、积水深度以及时间标签等信息进行数据融合,并通过数据归一化、重构为有监督数据等方法生成城市暴雨内涝时序数据,作为后续水深预测模型的输入。使用前m个时刻(每隔5 min)的降雨量、累积降雨量、积水深度数据预测当前时刻内涝点的积水深度。

2.4 数据预处理

空间数据集共包含65 516×6条样本,数据格式为(X, Y)。其中:X为特征因子,Y为拟合目标。本文以降雨重现期、降雨历时、高程、坡度、流向、流量、检查井核密度、排水管道核密度为暴雨内涝特征因子,以最大积水深度为拟合目标。由于可获取的暴雨内涝特征因子数量较少,且相互之间基本独立,因此不作特征筛选处理。模型训练前,需要进行数据预处理。

1) 对输入变量进行min-max标准化。把数据映射到0~1范围之内,减少数据表征方式对模型结果的影响。

2) 打乱数据集顺序。通过打乱顺序,防止出现过分有规律的数据,导致过拟合或者不收敛。

3) 划分训练集、验证集。本研究所用数据集规模较大,可以用较大比例的数据进行训练,划分训练集与验证集的比例为8∶2。

时间序列数据集中包含6场设计降雨方案的多元时间序列数据,使用其中5场降雨方案数据作为训练集;另1场降雨方案数据作为验证集。模型训练前,同样对数据进行标准化处理。

本研究使用Python 3.6编程语言完成建模。

3 结果与分析 3.1 水动力模型验证

北京市水务局发布的“北京城市积水内涝风险地图”[25](简称风险图)是较为全面的官方正式发布的北京市积水内涝分布参考资料,因此本文利用风险图来进行模型验证。

基于InfoWorks ICM建立的水动力模型的模拟结果如图 3所示,图中积水深度划分依据风险图。研究区域内涝积水集中在东南方向(点位2、8)以及中间主干路(点位3、5、7)附近,并在局部区域(点位1、4、6)出现积水。风险图中给出了不同点位的积水深度范围,将模拟结果与其进行比对,如表 2所示。总体来说,InfoWorks ICM模拟的城市内涝积水情况与风险图相符,8个典型内涝点的积水深度模拟值均在风险图给出的水深范围内。可见,本文构建的模型能够较好地预测淹没范围与水深。

图 3 InfoWorks ICM模拟结果

表 2 内涝点积水深度验证结果
内涝点位 InfoWorks ICM模拟积水深度/m 风险图对应的水深范围/m
1 0.30 0.27~0.39
2 0.87 ≥0.60
3 0.49 0.40~0.59
4 0.37 0.27~0.39
5 0.43 0.40~0.59
6 0.48 0.40~0.59
7 0.26 0.15~0.26
8 0.33 0.27~0.39

3.2 空间预测模型性能评估

表 3为各模型分别在训练集和验证集上的评估结果。随机森林、XGBoost模型的表现相似,拟合优度R2明显优于K最近邻模型。随机森林模型的验证集R2更接近训练集R2,模型未发生明显的过拟合、欠拟合。XGBoost模型验证集的MAE值较大且R2偏小,存在一定的过拟合。从模型评估结果来看,随机森林模型的拟合性能最优。

表 3 各模型在训练集和验证集上的评估结果
模型 MSE MAE R2
训练集 验证集 训练集 验证集 训练集 验证集
随机森林 0.000 0.000 0.001 0.002 0.979 0.936
XGBoost 0.000 0.000 0.003 0.005 0.974 0.917
K最近邻 0.000 0.001 0.002 0.004 0.839 0.765

以80 a一遇、2.5 h降雨历时的暴雨场景作为预测集,使用训练好的模型得到暴雨内涝预测结果,并与InfoWorks ICM的高精度暴雨内涝模拟结果进行对比,如图 4所示。随机森林、XGBoost、K最近邻模型计算出的积水位置与InfoWorks ICM模拟的内涝位置基本吻合,3种模型均能够较好地从空间上预测暴雨内涝的发生。

图 4 不同方法预测效果比较

进一步地,从淹没范围、内涝点淹没深度两方面探讨模型的预测准确率。在易涝区域中,随机选取8个内涝网格点,通过计算模型预测水深与InfoWorks ICM模拟水深之间的误差,来验证机器学习暴雨内涝预测模型的准确性。如表 4所示,K最近邻模型的预测水深值明显偏小,预测误差比其他两种模型大;随机森林和XGBoost模型计算的内涝点最大积水深度与模拟数据接近,平均预测误差不超过5.00%。从单个内涝点来看,随机森林模型的预测精度更为稳定,8个内涝点的预测误差均未超过8.00%。

表 4 内涝点积水深度预测误差
涝点 InfoWorks ICM模拟积水深度/m 预测误差/%
随机森林 XGBoost K最近邻
1 0.244 -5.74 -9.43 +11.48
2 0.632 +1.27 -2.53 -9.81
3 0.437 -1.60 +4.81 -13.04
4 0.548 -6.93 -0.73 -30.11
5 0.414 +1.45 +11.11 -14.49
6 0.634 -2.21 +2.52 -7.89
7 0.651 -7.83 -2.46 -10.91
8 0.513 +1.36 +2.34 +17.15
平均绝对误差 3.55 4.49 14.36

参考北京城市积水内涝风险地图,本文将内涝点的积水深度风险等级由低到高划分为0~4级,并计算不同内涝等级下的淹没范围预测准确率,结果如表 5所示。总体来看,观测数据包含65 516个网格,3个模型的预测准确率均达到96.00%以上。对于2 784个发生内涝积水(积水深度风险等级1~4)的网格,随机森林模型正确识别了2 503个积水位置、XGBoost模型正确识别了2 449个位置,而K最近邻模型正确识别了1 342个位置。细化到积水网格时,K最近邻模型预测准确率较低,预测准确率仅在50%左右,而随机森林和XGBoost模型在不同内涝等级下的预测准确率均在85%以上。使用XGBoost模型预测水深时出现负值,这与模型本身使用的梯度提升树算法有关[26]

表 5 淹没范围预测准确率
风险等级(积水深度) 网格数量/个 预测准确率/%
随机森林 XGBoost K最近邻
0 (< 0.15 m) 62 732 99.94 99.92 98.83
1 (0.15~0.26 m) 1 627 88.75 85.00 46.83
2 (0.27~0.39 m) 701 89.44 90.15 47.22
3 (0.40~0.59 m) 377 96.02 95.76 60.74
4 (≥0.60 m) 79 88.61 92.40 35.31
总体 65 516 99.51 99.41 96.67
是否异常值(< 0)

从数据角度分析特征选择和样本分布对模型计算精度的影响。不同水深等级的网格在训练样本量上存在较大差异,这是引起预测误差的一个重要原因。3种模型对于样本量较大的积水深度风险等级0 (积水深度 < 0.15 m)的预测准确率均达到98%以上,而对于样本量较少的积水深度风险等级1~4 (积水深度≥0.15 m) 预测准确率有所下降。相对而言,随机森林、XGBoost模型受样本分布不均衡的影响较小,K最近邻模型的精度容易受样本不均衡的影响,体现了算法对近邻点的强依赖性,因此K最近邻模型无法很好地描述水深等级,预测误差比其他两种模型大。随机森林模型的预测准确率和稳定性均较好,在3种模型中表现最佳。

3.3 时序预测模型性能评估

对8个内涝点的水深时间变化曲线进行分析发现,受地形与排水能力影响,各内涝点的水深序列可大致归类为4种情况:水深急剧升高后较快下降到0、水深急剧升高后保持峰值、水深存在波峰并稳定在较低值、水深急剧升高后缓慢下降。因此,根据4类典型的水深曲线选取内涝点,预测内涝点水深时序结果如图 5所示。对各点分别使用前3、4、5个时刻的时序数据建立LSTM神经网络模型,模型性能评估结果如表 6所示。对不同时刻的结果进行比较,当输入的时序长度为4时,模型在训练集、验证集上的误差更小,且R2较为相似,均在0.900以上,未发生明显的过拟合、欠拟合,拟合性能较好。因此,选择前4个时刻的变量作为输入数据建立LSTM神经网络模型。

图 5 内涝点水深时序预测效果

表 6 LSTM神经网络模型性能评价指标
内涝点 m MSE MAE R2
训练集 验证集 训练集 验证集 训练集 验证集
1 3 0.000 0.001 0.015 0.021 0.930 0.928
4 0.000 0.001 0.012 0.018 0.949 0.937
5 0.001 0.002 0.017 0.023 0.900 0.820
2 3 0.001 0.002 0.016 0.011 0.938 0.922
4 0.000 0.001 0.010 0.012 0.965 0.946
5 0.002 0.003 0.022 0.026 0.906 0.869
3 3 0.002 0.003 0.030 0.042 0.900 0.882
4 0.001 0.002 0.024 0.029 0.925 0.910
5 0.003 0.004 0.046 0.052 0.875 0.764
4 3 0.001 0.001 0.024 0.027 0.912 0.845
4 0.000 0.001 0.012 0.014 0.949 0.931
5 0.001 0.000 0.019 0.011 0.909 0.919

以80 a一遇、2.5 h降雨历时的暴雨场景作为预测集,得到内涝点的水深时序预测结果。如图 5所示,LSTM神经网络模型能准确地预测出水深升高的时刻与积水深度。各内涝点积水深度在70 min左右出现急剧升高,峰值水深预测平均绝对误差为1.9 cm,平均相对误差为4.0%。对于积水深度下降时段,模型对内涝点1、内涝点3的预测水深在130 min左右出现了较大偏差,这是由于预测过程中误差不断累积,使预测精度随着预测时长的增加而降低。整体来看,LSTM神经网络模型预测的水深变化趋势与InfoWorks ICM的模拟结果较为一致,R2均在0.900以上,模型整体预测精度良好。

3.4 计算速度比较

在AMD Ryzen 7 5800H中央处理器(central processing unit, CPU)上(16 GB内存),基于相同的网格划分方式和降雨场景进行模型计算速度的比较,结果如表 7所示。空间预测模型中,随机森林模型计算单场降雨方案下65 516个网格的内涝水深数据仅需0.57 s,耗时最短;而InfoWorks ICM模型计算需耗时数十min,且随着降雨强度的增大,水动力模型的模拟计算需要更长的运行时间。

表 7 模型计算速度比较
模型 CPU执行时间
InfoWorks ICM 32.6 min
空间预测模型(65 516个网格) 随机森林 0.570 s
XGBoost 3.890 s
K最近邻 15.700 s
时序预测模型(单内涝点) LSTM神经网络 0.045 s

基于LSTM神经网络的水深时序预测模型进行单点预测仅耗时0.045 s,计算速度比传统的水动力模型大幅提高,可有效满足应急防汛工作的需要。

3.5 特征因子重要性分析

在水深预测中不同因子的特征重要性(importance of feature, IF)表示每个因子在预测中具有不同的强度,其范围为0.02~0.27。如图 6所示,高程(IF=0.27)具有较高的特征重要性;其次为检查井核密度(IF=0.22);在降雨因素中,降雨重现期(IF=0.07)对内涝的影响程度更大,而降雨历时的特征重要性值较低(IF=0.02)。进一步增加或改变模型的维度和数据量,研究不同的特征因子组合对模型精度的影响,是后续研究的重要方向。

图 6 特征因子重要度排序

4 结论

本文利用InfoWorks ICM模拟的高精度网格数据作为驱动,基于机器学习方法构建了城市暴雨内涝时空快速预测模型,主要研究结论如下:

1) 对随机森林、XGBoost以及K最近邻3种空间预测模型进行了性能比较。随机森林模型在模型性能评估、预测准确率、运行时间等方面均表现最优。内涝预测结果与北京城市积水内涝风险地图相符,与基于InfoWorks ICM的模拟结果相比,其淹没范围预测准确率达到99.51%,最大积水深度平均预测误差不超过5.00%,能够提供较为可靠的内涝淹没范围、积水深度预测结果。

2) 基于LSTM神经网络的水深时序预测模型能准确预测出积涝时刻与水深变化,峰值时刻的水深预测平均绝对误差1.9 cm,平均相对误差4.0%,整体预测精度良好。

3) 遇到突发暴雨时,本文所构建的基于机器学习算法的暴雨内涝快速预测模型仅需更新模型输入中的预报降雨数据,可在s级时间生成空间淹没情况与内涝点水深变化,计算速度相较于基于水动力学的数值模型大幅提高,有助于提前规划缓解内涝和救灾措施。

基于机器学习的灾害预测方法因具有较高的计算效率和较好的非线性表达能力,逐渐使暴雨内涝灾害模拟步入大数据时代。随着气象与地理数据的不断丰富,还需在输入指标的选择和敏感性上进一步开展研究。本文以数值模拟结果作为机器学习训练集,存在误差叠加问题。随着机器视觉等智能感知技术的发展,未来还可利用摄像头、水深探测设备等输入实时水深数据,结合数据同化算法驱动暴雨内涝水深预测模型,来提高预测的实时性与精确度。

参考文献
[1]
舒章康, 李文鑫, 张建云, 等. 中国极端降水和高温历史变化及未来趋势[J]. 中国工程科学, 2022, 24(5): 116-125.
SHU Z K, LI W X, ZHANG J Y, et al. Historical changes and future trends of extreme precipitation and high temperature in China[J]. Strategic Study of CAE, 2022, 24(5): 116-125. (in Chinese)
[2]
孔锋. 2012年北京"7·21"特大暴雨洪涝灾害应对及启示[J]. 中国减灾, 2022(9): 42-45.
KONG F. Response to the "7·21" heavy rain and flood disaster in Beijing in 2012 and its implications[J]. Disaster Reduction in China, 2022(9): 42-45. (in Chinese)
[3]
黄晶, 李梦晗, 康晋乐, 等. 基于社交媒体的暴雨灾情信息实时挖掘与分析: 以2019年"4·11深圳暴雨"为例[J]. 水利经济, 2021, 39(2): 86-94, 98.
HUANG J, LI M H, KANG J L, et al. Mining and analysis of rainstorm disaster information based on social media: Case study of Shenzhen rainstorm on April 11, 2019[J]. Journal of Economics of Water Resources, 2021, 39(2): 86-94, 98. (in Chinese)
[4]
国务院灾害调查组. 河南郑州"7·20"特大暴雨灾害调查报告[R]. 北京: 国务院灾害调查组, 2022.
Disaster Investigation Team of the State Council. Investigation report of "7·20" heavy rain disaster in Zhengzhou, Henan Province[R]. Beijing: Disaster Investigation Team of the State Council, 2022. (in Chinese)
[5]
夏军, 王惠筠, 甘瑶瑶, 等. 中国暴雨洪涝预报方法的研究进展[J]. 暴雨灾害, 2019, 38(5): 416-421.
XIA J, WANG H J, GAN Y Y, et al. Research progress in forecasting methods of rainstorm and flood disaster in China[J]. Torrential Rain and Disasters, 2019, 38(5): 416-421. (in Chinese)
[6]
黄国如, 王欣, 黄维. 基于InfoWorks ICM模型的城市暴雨内涝模拟[J]. 水电能源科学, 2017, 35(2): 66-70, 60.
HUANG G R, WANG X, HUANG W. Simulation of rainstorm water logging in urban area based on InfoWorks ICM model[J]. Water Resources and Power, 2017, 35(2): 66-70, 60. (in Chinese)
[7]
金潮森, 邸苏闯, 于磊, 等. 北京中心城区内涝风险区快速识别技术研究[J]. 北京规划建设, 2022(4): 9-13.
JIN C S, DI S C, YU L, et al. Research on rapid identification technology of waterlogging risk area in central urban area of Beijing[J]. Beijing Planning Review, 2022(4): 9-13. (in Chinese)
[8]
曾鹏. 机器学习技术在城市洪涝快速预报中的应用研究[D]. 北京: 中国水利水电科学研究院, 2020.
ZENG P. Application research of machine learning technology in rapid forecast of urban flood[D]. Beijing: China Institute of Water Resources and Hydropower Research, 2020. (in Chinese)
[9]
YAN J, JIN J M, CHEN F R, et al. Urban flash flood forecast using support vector machine and numerical simulation[J]. Journal of Hydroinformatics, 2018, 20(1): 221-231. DOI:10.2166/hydro.2017.175
[10]
周易宏. 基于深度学习的城市洪涝积水点淹没过程预报预警研究[D]. 郑州: 郑州大学, 2021.
ZHOU Y H. Study on prediction and early warning of urban flood waterlogging process based on deep learning[D]. Zhengzhou: Zhengzhou University, 2021. (in Chinese)
[11]
WANG H F, ZHAO Y J, ZHOU Y H, et al. Prediction of urban water accumulation points and water accumulation process based on machine learning[J]. Earth Science Informatics, 2021, 14(4): 2317-2328. DOI:10.1007/s12145-021-00700-8
[12]
KHATRI S, KOKANE P, KUMAR V, et al. Prediction of waterlogged zones under heavy rainfall conditions using machine learning and GIS tools: A case study of Mumbai[J]. GeoJournal, 2022, 87(4): 1-15.
[13]
李海宏, 吴吉东, 王强, 等. 基于机器学习方法的上海市暴雨内涝灾情预测模型研究[J]. 自然灾害学报, 2021, 30(1): 191-200.
LI H H, WU J D, WANG Q, et al. A study on rainstorm waterlogging disaster prediction models in Shanghai based on machine learning[J]. Journal of Natural Disasters, 2021, 30(1): 191-200. (in Chinese)
[14]
TANG X Z, SHU Y Q, LIAN Y Q, et al. A spatial assessment of urban waterlogging risk based on a weighted naïve Bayes classifier[J]. Science of the Total Environment, 2018, 630: 264-274. DOI:10.1016/j.scitotenv.2018.02.172
[15]
BERKHAHN S, FUCHS L, NEUWEILER I. An ensemble neural network model for real-time prediction of urban floods[J]. Journal of Hydrology, 2019, 575: 743-754. DOI:10.1016/j.jhydrol.2019.05.066
[16]
LE X H, HO H V, LEE G, et al. Application of long short-term memory (LSTM) neural network for flood forecasting[J]. Water, 2019, 11(7): 1387.
[17]
侯天宇, 梁好, 霍凯, 等. 基于智能物联网技术的天津城市积水监测预警系统[J]. 气象研究与应用, 2021, 42(1): 85-89.
HOU T Y, LIANG H, HUO K, et al. Tianjin urban water logging monitoring and early warning system based on intelligent Internet of things technology[J]. Journal of Meteorological Research and Application, 2021, 42(1): 85-89. (in Chinese)
[18]
吕红燕, 冯倩. 随机森林算法研究综述[J]. 河北省科学院学报, 2019, 36(3): 37-41.
LV H Y, FENG Q. A review of random forests algorithm[J]. Journal of the Hebei Academy of Sciences, 2019, 36(3): 37-41. (in Chinese)
[19]
彭岩, 马铃, 张文静, 等. 基于集成学习的风险预测模型研究与应用[J]. 计算机工程与设计, 2022, 43(4): 956-961.
PENG Y, MA L, ZHANG W J, et al. Research and application of risk forecast model based on ensemble learning[J]. Computer Engineering and Design, 2022, 43(4): 956-961. (in Chinese)
[20]
潘鑫鑫, 侯精明, 陈光照, 等. 基于K近邻和水动力模型的城市内涝快速预报[J/OL]. (2022-08-26)[2022-11-24]. 水资源保护, 2022. http://kns.cnki.net/kcms/detail/32.1356.TV.20220825.1710.002.html.
PAN X X, HOU J M, CHEN G Z, et al. Rapid prediction of urban inundation based on the K-nearest neighbor method and the hydrodynamic model[J/OL]. (2022-08-26)[2022-11-24]. Water Resources Conservation, 2022. http://kns.cnki.net/kcms/detail/32.1356.TV.20220825.1710.002.html. (in Chinese)
[21]
杨丽, 吴雨茜, 王俊丽, 等. 循环神经网络研究综述[J]. 计算机应用, 2018, 38(S2): 1-6, 26.
YANG L, WU Y Q, WANG J L, et al. Research on recurrent neural network[J]. Journal of Computer Applications, 2018, 38(S2): 1-6, 26. (in Chinese)
[22]
陈鹏, 张继权, 孙滢悦, 等. 暴雨内涝灾害模拟研究[J]. 科技导报, 2017, 35(21): 89-94.
CHEN P, ZHANG J Q, SUN Y Y, et al. Simulation study of rainstorm water logging disaster[J]. Science & Technology Review, 2017, 35(21): 89-94. (in Chinese)
[23]
北京市规划和国土资源管理委员会, 北京市质量技术监督局. 城镇雨水系统规划设计暴雨径流计算标准: DB11/T 969—2016[S]. 北京: 中国标准出版社, 2016.
Beijing Municipal Commission of Planning and Land Resources Administration, Beijing Municipal Bureau of Quality and Technical Supervision. Standard of rainstorm runoff calculation for urban storm drainage system planning and design: DB11/T 969—2016[S]. Beijing: Standards Press of China, 2016. (in Chinese)
[24]
刘媛媛, 刘业森, 郑敬伟, 等. BP神经网络和数值模型相结合的城市内涝预测方法研究[J]. 水利学报, 2022, 53(3): 284-295.
LIU Y Y, LIU Y S, ZHENG J W, et al. Intelligent rapid prediction method of urban flooding based on BP neural network and numerical simulation model[J]. Journal of Hydraulic Engineering, 2022, 53(3): 284-295. (in Chinese)
[25]
北京市水科学技术研究院. 北京发布首份城市积水内涝风险地图[J]. 北京水务, 2022(5): I0010.
Beijing Institute of Water Science and Technology. Beijing releases the first urban waterlogging risk map[J]. Beijing Water, 2022(5): I0010. (in Chinese)
[26]
吕佳. 梯度提升回归树算法研究及改进: 一种混合建模方法与应用[D]. 上海: 上海交通大学, 2017.
LÜ J. Study on gradient boosting decision tree and its improvement: An hybrid model and its application[D]. Shanghai: Shanghai Jiao Tong University, 2017. (in Chinese)