横山亮次奖  |  百年刊庆  |  中文  |  English

审稿意见

送审稿

专家1:

文章对洪灾救援中人口转移需求进行预测,这一问题在防灾减灾领域具有应用意义。针对这一需求,作者提出了一种基于机器学习和数据增强的方法,首先收集了106条洪灾事件中人口转移的历史需求数据,然后利用数据增强技术扩充训练样本,最后采用机器学习模型(XGBoost)对扩充后的数据进行训练与预测。作者所使用的算法模型和数据增强策略并非创新,因此,本研究在应用层面有所创新,但在技术层面创新程度有限。请作者对以下问题做出回答或修改:
1.作者在公式(1)中采用Box-Cox变换对转移人数进行正态化处理。Box-Cox变换要求数据为严格正值(x>0),否则变换无定义。请在文中交代是否数据全部为正值,若非正值,请说明如何处理的非正值数据。
2. 作者提出Box-Cox 变换提高了模型的性能。在Box-Cox变换中,样本量不足(仅仅106个数据)可能导致λ估计不稳,所选参数可能过度拟合当前数据的分布特征,从而在新数据上效果下降。XGBoost作为树模型,对输入特征分布是否敏感(是否需要满足正态性)?请作者对此处做正态化处理的必要性进行讨论。建议作者设计将Box-Cox变换前后的模型性能进行对比:保持其他设置相同(例如相同的特征集和数据增强方式),比较使用原始偏态目标变量和Box-Cox转换后变量的模型在训练/测试集上的R²和RMSE等指标。
3. 作者提出的W-KNN-GN方法首先对样本归一化,然后选取k个最近邻,计算加权主方向并加入Gaussian噪声。当k的选取值不同时,主方向会发生变化。文章并未说明对K的确定方法和噪声大小的选择依据。请作者对所训练模型对这些参数的敏感性进行讨论。
4. 作者提出W-KNN-GN方法在数据增强方面显著优于简单噪声注入,然而作者并未对“使用传统加高斯噪声的数据增强(如式(7))” 和 “文中提出的W-KNN-GN方法”进行比对。请作者对这两种方式进行数据加强所训练的模型性能差异进行分析。如果W-KNN-GN显著优于简单噪声注入,则说明考虑局部结构信息确实有效;若效果相近,应进一步分析是否因过度拟合。
5. 在测试模型性能时,作者仅对训练集和测试集进行了一次划分。然后,模型的性能可能会随着数据划分不同有较大的不同。请作者对数据集进行多次随机划分或者交叉验证,然后对模型的平均性能(RMSE、MAE、R²等)进行报告。
6. 文中采用SHAP方法确定重要特征集合。需要指出的是,在小样本条件下,SHAP值(基于训练的XGBoost模型)可能对数据扰动敏感,特征的重要性排序容易受训练集划分影响。因此,单次得到的特征排名可能不具有普适性。请作者通过多次重复抽样或bootstrap方法,对SHAP特征排序进行稳定性检验:如果多次评估得到的特征重要性序列波动较大,则当前的特征选取结果可信度不足。
7. 作者是否公开106个数据点?
8. 作者在3.3 案例分析中再抓取了若干 “降雨≥50 mm” 的省域网格点,记作 D1–D12,然后让模型输出预测值,与这些网格点的实际转移人数进行对比,得出 “即便地点不明确,模型仍较准确” 这一结论。然而在训练模型时,作者并未按行政区或流域分组的交叉验证 来检验模型在区域外的泛化能力。另外,这些 D1–D12 是否完全不在原 106 条训练样本所在省份?请作者对原106条数据的地区和新数据的地区进行比对说明,可画图解释。
9. 鉴于本研究仅仅有106个数据点,选择了12个变量,请作者解释为什么不采用传统的统计模型,像是OLS来进行变量分析和预测?本文目前的模型XGBoost参数多,存在n<<模型自由度的问题,只有在数据增强后才有可能保证n>模型自由度。请作者明确在数据增强后的数据量到底是多少。同时,OLS等传统统计模型在少数据量的情况下,过度拟合可能性低且可解释性强,建议作者对传统统计模型解决本问题做出探索,并对传统统计模型和本文提出的数据增强+XGBoost的模型进行对比。


专家2:

近年来全球范围内洪涝灾害频发,造成了严重的财产损失和人员伤亡。但是,目前针对洪涝灾害发生时人口转移避难需求的研究较少,难以满足灾后应急响应的需求。
作者回顾了国内外相关研究,收集了全国的洪涝灾害数据,提出了一种结合特征选择与数据增强的疏散人数预测框架,展现出更强的预测精度和更低的误差。所用数据涵盖历史洪涝灾害的气象信息、地理要素等多维特征,模型能有效捕捉灾害发生时的关键规律。
论文选题具有重要的意义,整体逻辑清晰,论述充分,工作量饱满,结论可信,是一篇优秀的稿件,建议接收发表。

意见和建议:
1, 表3的最左侧一列删除;
2, 公式(2)下“表示特征i的SHAP值,,”多了一个逗号。


专家3:

洪涝灾害应急管理中,准确预测转移安置人口数量对提升灾后响应效率至关重要。论文基于2014—2018年全国范围内暴雨洪涝灾害数据,构建了一种结合特征选择与数据增强的XGBoost疏散人数预测框架。通过引入SHAP递归特征添加法与加权K近邻的高斯噪声注入方法,显著提升了模型的泛化能力与鲁棒性。论文工作量饱满,有一定的理论与实践价值,但存在以下一些问题:
1.本文的研究内容是灾害需求预测,但是文献综述聚焦在灾害预测上,两个不匹配。
2.模型的因素集构建缺乏依据。另外,因为后面是基于这个因素集选择影响最大的因素,那么如何证明这15个因素具有普遍性和全面性?
3.除了转移安置人数数据以外,其他数据如何预处理的?
4.图3上下有部分文字重复,“尽管该方法能够在一定程度上模拟数据的局部扰动,但其生成的新样本往往缺乏针对性,容易偏离真实的数据分布,尤其在样本稀疏的类别中,其增强效果有限。”

访问次数:25