基于机器学习的新冠肺炎疫情趋势预测方法
任建强1,2, 崔亚鹏1,2, 倪顺江1,2    
1. 清华大学 工程物理系, 公共安全研究院, 北京 100084;
2. 城市综合应急科学北京市重点实验室, 北京 100084
摘要:防控措施对传染病的传播过程有重要作用, 因此在预测新型冠状病毒肺炎疫情未来发展趋势时必须要考虑防控措施的影响。该文提出了基于机器学习的新冠肺炎疫情三步预测模型, 将神经网络、随机森林、长短期记忆网络和序列到序列等机器学习算法引入到新冠肺炎传染病疫情预测中。与前人的预测模型相比, 所提出的模型考虑了新冠肺炎疫情发展过程中防控措施的变化情况, 可以使用检测数据预测未来的确诊人数和实际感染规模。研究结果表明:预测结果与实际数据基本一致, 模型具有较高的可靠性。该预测方法可以使政府管理部门更准确地了解新冠肺炎疫情的实际发展态势, 帮助管理者更有效地分配医疗资源, 为新冠肺炎疫情防控提供决策参考。
关键词机器学习    防控措施    疫情趋势预测    突发公共卫生事件    
Prediction method of the pandemic trend of COVID-19 based on machine learning
REN Jianqiang1,2, CUI Yapeng1,2, NI Shunjiang1,2    
1. Institute of Public Safety Research, Department of Engineering Physics, Tsinghua University, Beijing 100084, China;
2. Beijing Key Laboratory of City Integrated Emergency Response Science, Beijing 100084, China
Abstract: Objective To estimate and predict the actual infection scale of COVID-19 in a population, a COVID-19 pandemic trend prediction method based on machine learning is proposed. This method uses detection data to predict the development trend of the pandemic and can implicitly consider the impact of prevention and control measures. Additionally, this method can predict the number of confirmed cases in the future and estimate the actual infection scale of COVID-19. Methods In this paper, a three-step prediction model based on machine learning (TSPM-ML) is proposed. Machine learning algorithms, such as neural networks, random forest, long short-term memory (LSTM), and sequence to sequence (seq2seq), are introduced into the prediction of the COVID-19 development situation, and the detection data are used to predict the number of people diagnosed and the actual scale of the infection in the future. The TSPM-ML includes three steps: (1) predicting the actual infection scale of COVID-19 based on the detection data, (2) predicting the future development trend of the actual infection scale based on the predicted results of the first step, and (3) predicting the number of people diagnosed in the future based on the actual infection scale obtained in the second step. The TSPM-ML is used to predict the actual pandemic situation in Germany, France, South Korea, the United States, Russia, and Finland. Results The largest prediction error is in the United States, with a forecast error of 23.71 per million people, while South Korea has the smallest prediction error of 0.63 per million people. Overall, the prediction results of the TSPM-ML are consistent with the simulation and actual data, and the reliability of the model is verified. Conclusions The predicted results are consistent with the actual data, and the TSPM-ML is highly reliable. The prediction results can enable government management departments to more accurately understand the actual development trend of COVID-19 and allocate medical resources more effectively, and provide decision support for COVID-19 prevention and control.
Key words: machine learning    prevention and control measures    epidemic trend prediction    public health emergencies    

关于传染病疫情发展趋势的预测研究大多是研究者基于确诊病例数据,采用时间序列模型预测确诊病例未来的变化趋势。Thompson等[1]利用整合移动平均自回归(autoregressive integrated moving average, ARIMA)模型预测了美国流感的死亡病例数。Luz等[2]的研究发现,ARIMA模型在预测巴西里约热内卢登革热的发病率时效果很好。易燕飞[3]发现ARIMA模型对存在季节性和自相关性的传染病(如乙肝和结核病)的发病率预测效果较好。田德红[4]将ARIMA模型与反向传播(back-propagation,BP)神经网络模型相结合预测了布鲁氏杆菌病的流行趋势。胡跃华等[5]基于2009年1月到2012年12月手足口病的发病率建立了ARIMA模型,预测2013年1月到6月中国手足口病的发病率。除此之外,还有很多研究者利用ARIMA模型预测传染病疫情的发展趋势[6-11]。由于机器学习在预测领域表现优异,一些学者将机器学习也引入到了传染病疫情趋势预测中。Chekol等[12]建立了支持向量机模型,使用温度、湿度、海拔和过去的确诊病例数等预测埃塞俄比亚疟疾的发病率。Lee等[13]使用长短期记忆人工神经网络模型预测了韩国甲型肝炎的爆发。Pandey等[14]使用机器学习模型预测了埃博拉的死亡人数,预测准确率达到85.99%。柴国荣等[15]基于兰州市流感发病率的历史数据及气象数据,采用机器学习的方法预测了流感的爆发。

目前的传染病疫情趋势预测研究所依据的输入数据是报告确诊病例数,主要关注点是对未来确诊病例数的预测。但在重大新发传染病发生时,确诊病例数并不能准确地反映疫情实际的发展趋势,这是因为确诊病例都是通过检测或者医生临床诊断发现的患者,在人群中依然存在很多未被发现的感染病例,确诊病例数虽然在一定程度上能够反映疫情的严重程度,但是与实际的感染规模还存在一定的差距。有研究者通过血清调查[16]的方法估计人群中的实际感染规模,但是这种方法需要投入大量的人力物力进行抽样调查,还需要花费很长的时间分析采样结果,不能保证结果的及时性。

此外,现有研究虽然可以不同程度地预测疫情发展趋势,但由于没有考虑防控措施的变化情况,预测模型在实际应用时存在局限性。在现实生活中,除了确诊病例数据,还可以获得检测数据。检测是一种典型的疫情防控措施,每天的检测数据在一定程度上可以代表整体防控措施的变化。获得检测数据后,防控措施的信息已经隐含在数据中。

基于以上考虑,本文提出了一种基于机器学习的新冠肺炎疫情趋势预测方法。该方法利用检测数据预测疫情的发展趋势,能够隐式考虑防控措施的影响;该方法还可以预测未来的确诊病例数,同时估计疫情的实际感染规模。

1 基于机器学习的新冠肺炎疫情三步预测模型

为了能够同时预测疫情的确诊人数和实际感染规模,本文提出了基于机器学习的三步预测模型(three-step prediction model based on machine learning, TSPM-ML),如图 1所示。

图 1 基于机器学习的新冠肺炎疫情三步预测模型示意图

TSPM-ML包含3个步骤:第1步,基于新冠肺炎检测数据,采用神经网络和随机森林模型,预测当天的实际感染规模。第2步,将实际感染规模看作一个时间序列,在第1步预测的基础上,采用时间序列预测方法预测实际感染规模未来的发展趋势。第3步,基于第2步得到的未来实际感染规模以及检测量,利用神经网络和随机森林模型预测未来的确诊人数。

在TSPM-ML构建完成之后,首先要训练机器学习模型。由图 1可知,为了训练模型,除了需要新冠肺炎检测数据和确诊病例数之外,还需要新冠肺炎实际感染规模。为了得到实际感染规模用来训练机器学习模型,利用考虑检测隔离机制的传染病传播模型[17]生成一系列模拟数据,这些数据能较好地刻画现实生活中防控措施干预下的传染病传播过程。假设检测阳性人员都会转为确诊病例。基于考虑检测隔离机制的传染病传播模型,可以得到新冠肺炎检测数据、确诊病例数据和实际感染规模。将模型产生的模拟数据分成训练集和测试集,然后利用训练集的数据对TSPM-ML进行训练,并在测试集上验证模型的预测效果。TSPM-ML的输入和输出分别是检测数据和确诊病例数,这两部分可以从现实中获取实际数据,最后使用实际数据对训练之后的TSPM-ML进行验证。

2 第1步:实际感染规模预测 2.1 数据获取

TSPM-ML的第1步是预测新冠肺炎传染病的实际感染规模,所依据的数据是检测数据,包括每天的检测量、检测方式和检测结果为阳性的人数。其中:检测量是指每天检测的人数,检测方式是指是否对密切接触者优先检测。检测过程可以看作对人群的一个抽样过程,虽然不是简单随机抽样,但是检测数据在一定程度上可以反映人群中疫情的实际态势。图 2是一次传染病传播模拟中实际感染规模、每天检测阳性率和确诊规模的比较,其中检测阳性率是指每天检测的所有人中检测结果为阳性的人所占的比例。由图 2可以看出,确诊规模大大低于实际感染规模,但是每天检测阳性率的分布与实际感染规模比较接近。基于以上考虑,在预测实际感染规模时,使用的数据主要是每天检测阳性率。

图 2 传染病模拟中实际感染规模、确诊规模与检测阳性率的比较

在第1步预测实际感染规模的模型中,输入数据和输出数据如表 1所示。

表 1 预测实际感染规模的输入和输出数据
参数名称 参数含义 参数类别
preference 检测方式(对密切接触者优先检测的偏好) 输入数据
pos 当天的检测阳性率 输入数据
pos1—pos7 前1~7天的检测阳性率 输入数据
real 当天的实际感染规模 输出数据

训练模型时,为了消除不同种类数据的大小范围产生的不同影响,需要对数据进行预处理。本文使用的数据预处理方法是最大最小值归一化算法。数据预处理的过程如式(1)所示,处理后的数据介于0~1之间。

$ X_{\text {scaled }}=\frac{X-X_{\min }}{X_{\max }-X_{\min }}(\max -\min )+\min . $ (1)

其中:Xscaled表示数据归一化之后的值;XmaxXmin分别表示数据的最大值和最小值;max和min分别表示数据归一化之后的最大值和最小值,一般取max=1、min=0,即将数据归一化到0~1。

2.2 模型构建

在预测传染病的实际感染规模时,采用了两种经典的机器学习模型:神经网络模型和随机森林模型。

神经网络模型[18]模拟了人脑神经元处理信息的过程,包含输入层、隐藏层和输出层,每层网络中包含若干神经元。神经网络模型中,输入层神经元的数量与模型输入数据的维度相等,输出层神经元的数量与模型输出数据的维度相等,可以通过改变隐藏层的数量以及隐藏层神经元的数量,拟合输入数据与输出数据之间复杂的非线性关系。

随机森林模型[19]是由一系列决策树组成,每棵决策树可以看作某个领域的专家。使用随机森林模型预测时,一系列决策树的预测结果会被汇总之后输出,体现了群体智慧。

本文在比较了不同结构的神经网络模型的训练结果后,同时考虑模型运行速度及预测准确性,确定了神经网络模型的结构。使用深度学习Keras库构建了神经网络模型,包含2个隐藏层,分别有128个和64个神经元。本文在构建随机森林模型时,考虑到运行速度和预测效果,选取50棵决策树,并基于Scikit-learn机器学习库构建了最终的随机森林模型。

2.3 预测结果

使用模拟产生的数据,对2.2节构建的神经网络模型和随机森林模型进行训练,并在测试集上验证模型的预测效果。不同模型预测实际感染规模的误差如表 2所示。神经网络模型相对误差为3.91%,R2为0.996 8,随机森林模型相对误差为3.32%,R2为0.997 4。

表 2 不同模型预测实际感染规模的误差
预测模型 绝对值误差 相对误差/% R2
神经网络模型 0.000 277 3.91 0.996 8
随机森林模型 0.000 236 3.32 0.997 4

图 3为使用神经网络模型和随机森林模型预测某次传染病传播过程中实际感染规模的结果。可以看出,两个模型的预测结果都略微偏大,整体预测误差较小。与神经网络模型相比,随机森林模型的误差更小。比较两种模型的预测结果发现,在预测疫情的实际感染规模时,随机森林模型的预测效果更好。

图 3 不同模型预测实际感染规模的结果

随机森林模型预测实际感染规模时,还可以计算每个输入数据在预测过程中的权重,如表 3所示。在预测实际感染规模时,每天的检测阳性率(pos)起到了决定性作用,当天的检测阳性率在预测中的权重接近40%,最近3天的检测阳性率在预测中的权重接近80%,即检测阳性率能在很大程度上衡量疫情的实际感染规模。

表 3 随机森林模型中每个输入数据的预测权重
变量名称 变量含义 预测权重/%
pos 当天的检测阳性率 39.86
pos1 前1天的检测阳性率 20.93
pos2 前2天的检测阳性率 18.30
pos3 前3天的检测阳性率 9.79
pos4 前4天的检测阳性率 7.46
preference 检测方式 1.66
pos7 前7天的检测阳性率 0.83
pos6 前6天的检测阳性率 0.60
pos5 前5天的检测阳性率 0.55

3 第2步:实际感染规模未来发展趋势预测 3.1 数据获取

时间序列预测针对的是随时间变化的物理量,这个物理量的未来发展趋势和自身过去的取值有关。时间序列预测模型可以根据该物理量过去的历史数据预测其未来的发展趋势。考虑到新冠肺炎疫情的实际感染规模会随着疫情的发展过程不断变化,而且由于传染病传播的内在规律,实际感染规模的未来发展趋势和其过去的取值密切相关,因此可以将实际感染规模看作一个时间序列。本文利用第1步中预测的每日实际感染规模数据,构成一个时间序列,如果可以获得过去一段时间的实际感染规模,再利用该时间序列就可以预测实际感染规模未来的发展趋势。

本文使用模拟产生的数据训练时间序列预测模型。输入数据为当天的实际感染规模以及过去两周每天的实际感染规模,输出数据为未来1天的实际感染规模,如表 4所示。本文只考虑预测未来1天的实际感染规模,需要预测未来多天的发展趋势时将该模型多次迭代即可。同样,采用最大最小值归一化算法对数据进行预处理,用归一化后的数据对时间序列预测模型进行训练。

表 4 预测实际感染规模未来发展趋势的输入和输出数据
参数名称 参数含义 参数类别
real 当天的实际感染规模 输入数据
real1—real14 前1~14天的实际感染规模 输入数据
real_1 未来1天的实际感染规模 输出数据

3.2 模型构建

本节采用两种在时间序列预测领域广泛应用的机器学习模型:长短期记忆(long short-term memory, LSTM)人工神经网络模型[20-21]和序列到序列(sequence to sequence, seq2seq)模型[22-23]

LSTM模型是一种包含反馈机制的特殊神经网络,该模型在某一时刻的输出能够反馈到下一时刻的输入,对于时间序列的预测有较好的效果。

2014年谷歌团队提出了seq2seq模型[23],其结构包含两部分:编码器和解码器。编码器会将输入数据编码为一个中间向量C,该向量包含了输入序列的所有信息,解码器接收中间向量C,并将其解码为输出序列。由于中间向量C包含了时间维度的信息,因此在对时间序列进行预测时,seq2seq模型有较好的效果。

本节基于深度学习的Keras库构建了LSTM模型,模型中每层网络的参数如表 5所示。在输入和输出层之间有两个LSTM层,其输出维度分别为128和64。两个LSTM层之间添加了Dropout层,可以在训练模型时丢弃一部分数据,防止模型过拟合。在构建seq2seq模型时,使用Keras库中的门控循环单元(gate recurrent unit, GRU)作为编码器和解码器的结构,其中GRU的输出维度为64。

表 5 LSTM模型中每层网络的参数
模型包含的层 每层网络的参数
输入层 输入数据的维度(15,1)
LSTM层 该层的输出维度为128
Dropout层 丢弃率为0.2
LSTM层 该层的输出维度为64
输出层 输出数据的维度为1

3.3 预测结果

使用模型生成的模拟数据训练LSTM和seq2seq模型,并在测试集上评估模型的预测效果。不同模型预测实际感染规模未来发展趋势的误差如表 6所示。LSTM模型在测试集上的预测误差为4.09%,R2为0.997 1;seq2seq模型在测试集上的预测效果非常好,预测误差只有0.74%,R2为0.999 9。

表 6 不同模型预测实际感染规模未来发展趋势的误差
预测模型 绝对值误差 相对误差/% R2
LSTM模型 0.000 290 4.09 0.997 1
seq2seq模型 0.000 053 0.74 0.999 9

比较两个模型预测某次传染病传播过程中实际感染规模未来发展趋势的结果,如图 4所示。可以看出,在整个传染病传播过程中,使用seq2seq模型的预测结果与实际值几乎完全一致,而LSTM模型在感染峰值附近的预测结果偏低,其他位置的预测误差较小。整体来看,与LSTM模型相比,在预测实际感染规模的未来发展趋势时,seq2seq模型的预测效果更好。

图 4 不同模型预测实际感染规模未来发展趋势的结果

4 第3步:未来确诊人数预测 4.1 数据获取

由于确诊人数与检测过程密切相关,而现实生活中的确诊病例都是通过检测发现的,因此在预测未来确诊人数时,除了需要新冠肺炎疫情的实际感染规模还需要每天的检测量。新冠肺炎疫情的实际感染规模对未来确诊人数有很大影响,实际感染规模越大,相同检测条件下确诊人数越多。在实际感染规模一定时,每天的检测量越大,确诊人数越多。因此,在预测未来确诊人数时,考虑的数据包括未来的实际感染规模、未来的检测量和检测方式。

表 7展示了预测未来确诊人数时模型的输入数据和输出数据。在实际应用过程中,可能无法预知未来1天的检测量,考虑到短时间内检测量并不会大幅度增加,可以认为未来1天的检测量和当天的检测量相当或有略微的增加,实际感染规模可以通过第1步和第2步的预测得到。采用最大最小值归一化算法对数据进行预处理,然后使用归一化之后的数据训练模型。

表 7 预测未来确诊人数的输入和输出数据
参数名称 参数含义 参数类别
preference 检测方式(对密切接触者优先检测的偏好) 输入数据
volume_1 未来1天的检测量 输入数据
real_1 未来1天的实际感染规模 输入数据
real 当天的实际感染规模 输入数据
real1—real7 前1~7天的实际感染规模 输入数据
new_1 未来1天的确诊人数 输出数据

4.2 模型构建

在预测未来确诊人数时,采用了神经网络模型和随机森林模型,模型的整体架构和参数设置与第2章相同。

4.3 预测结果

使用模拟数据对神经网络模型和随机森林模型进行训练,并在测试集上评估模型的预测效果。不同模型预测未来确诊人数的误差如表 8所示。神经网络模型在测试集上预测未来确诊人数的相对误差为3.39%,R2为0.998 8,随机森林模型在测试集上预测未来确诊人数的相对误差为3.45%,比神经网络模型的预测误差略大。

表 8 不同模型预测未来确诊人数的误差
预测模型 绝对值误差 相对误差/% R2
神经网络模型 0.027 3.39 0.998 8
随机森林模型 0.028 3.45 0.995 8

图 5展示了使用上述两个模型预测某次传染病传播过程中未来确诊人数的结果。可以看出,在确诊人数的峰值附近,随机森林模型的预测结果误差较大。整体来看,在预测未来确诊人数时,神经网络模型的预测效果更好。

图 5 不同模型预测未来确诊人数的结果

5 疫情三步预测模型的整合及验证

前文中第2—4章使用机器学习模型分别预测了新冠肺炎疫情实际感染规模、实际感染规模的发展趋势和未来确诊人数,所用的3个模型是分开单独训练的,模型的验证也只使用了模拟数据。在本章中,将按照TSPM-ML的整体思路,将上述3个单独的预测模型整合在一起,然后用模拟数据和实际数据分别验证整合模型的可靠性。

根据第2—4章的研究结果,在预测实际感染规模时,随机森林模型的误差更小;在预测实际感染规模的未来发展趋势时,seq2seq模型的预测效果更好;在预测未来确诊人数时,神经网络模型的表现更好。因此,在整合疫情的三步预测模型时,依次选择随机森林模型、seq2seq模型和神经网络模型分别完成第1—3步的预测任务。

在最终的TSPM-ML中,基于检测数据,首先使用第2章训练好的随机森林模型预测实际感染规模。然后,将预测得到的实际感染规模输入到第3章训练好的seq2seq模型中,预测实际感染规模的未来发展趋势。最后,基于预测得到的未来实际感染规模以及检测量,利用第4章得到的神经网络模型预测未来的确诊人数。至此,得到了整合的TSPM-ML。该模型输入检测数据,最终可以预测未来确诊人数,而且还可以得到疫情的实际感染规模。

本章中的TSPM-ML与2—4章中模型的不同之处在于:2—4章中,模型的训练和验证是分开进行的,模型之间的输入与输出没有联系;而本章的TSPM-ML中各模型之间的输入输出是关联的,上一步模型的输出是下一步模型的输入。

接下来在测试集上评估TSPM-ML的整体预测效果,考虑到TSPM-ML中,第1步预测的模型输入和第2章中完全相同,本章则主要关注第2步和第3步的预测结果。

在测试集上评估了整合后的TSPM-ML的预测效果。在TSPM-ML中第2步预测时,模型的输入由单步预测时过去两周的实际感染规模,变为了第1步的预测结果。因此,与单步预测结果相比,预测误差较大。这是因为,在TSPM-ML的第2步预测中输入数据是第1步预测的结果,因此第1步预测的误差会在第2步预测中被进一步放大。TSPM-ML每步预测的误差如表 9所示。可以看出,虽然第2步预测中误差被进一步放大,但是相对误差为3.55%,R2为0.997 0。在TSPM-ML的第3步预测时,模型的输入由未来1天的实际感染规模,变为第2步预测的结果。因此,TSPM-ML的第3步的预测误差也比单步预测模型大,但是模型整体的预测误差仍然较小,为3.65%。

表 9 TSPM-ML中每步预测的误差
预测模型 误差/% R2
TSPM-ML 单步预测 TSPM-ML 单步预测
第1步:随机森林模型 3.32 3.32 0.997 4 0.997 4
第2步:seq2seq模型 3.55 0.74 0.997 0 0.999 9
第3步:神经网络模型 3.65 3.39 0.997 5 0.998 8

表 9可知,最终对未来确诊人数的预测误差为3.65%,对实际感染规模的预测误差为3.32%,整体来看TSPM-ML在测试集上的预测误差较小。

接下来将使用实际数据验证整合得到的TSPM-ML的可靠性。整合后的TSPM-ML的输入为检测数据,包括每天的检测量、检测阳性率和检测方式,输出为未来1天的确诊人数。通过收集新冠肺炎疫情中每个国家的报告获得相关数据。考虑到数据的可获取性和准确性,利用本文建立的TSPM-ML对德国、法国、韩国、美国、俄罗斯和芬兰6个国家的实际疫情进行预测,结果如图 6所示。每个国家的检测数据来自Our World in Data网站[24],包括每天的检测量和检测阳性率,检测方式均为密切接触者优先检测。未来确诊人数即每天新增病例数,来自世界卫生组织的报告[25]

图 6 TSPM-ML对不同国家未来确诊人数的预测结果

图 6可以看出,TSPM-ML对上述6个国家的预测结果与实际数据基本一致,预测值和实际值的变化趋势比较吻合,在个别位置预测值和实际值之间存在误差。

分别计算了TSPM-ML对德国、法国、韩国、美国、俄罗斯和芬兰6个国家的预测误差,如表 10所示。在对上述6个国家的预测中,预测绝对误差最大的是美国,每百万人口中未来确诊人数的预测误差为23.71,对韩国预测的绝对误差最小,每百万人口中未来确诊人数的误差为0.63。从相对误差来看,对韩国预测的相对误差最大,为14.24%,对俄罗斯预测的相对误差最小,只有7.76%,这是因为韩国平均感染规模较小导致相对误差较大。预测误差主要有两个方面的原因:一方面现实生活中的检测过程需要一定的时间,当天采集的检测样本可能经过几天之后才能得到结果,因此会造成报告的确诊人数滞后;另一方面,在训练预测模型时使用了模型生成的模拟数据,导致模型应用到现实生活中会产生一定的误差。如果能够获取更为准确的实际数据并用于模型训练,理论上会使预测效果更好。

表 10 TSPM-ML预测不同国家未来确诊人数的误差
国家 绝对误差/每百万人口新增病例数 相对误差/% R2
德国 7.46 9.67 0.987 7
法国 19.11 10.62 0.975 8
韩国 0.63 14.24 0.974 5
美国 23.71 11.55 0.972 3
俄罗斯 6.01 7.76 0.978 3
芬兰 1.98 8.50 0.981 3

6 结论

本文建立的基于机器学习的疫情三步预测模型TSPM-ML包含3个步骤:第1步基于检测数据预测疫情的实际感染规模;第2步在第1步预测结果的基础上,预测实际感染规模的未来发展趋势;第3步基于第2步得到的未来实际感染规模,预测未来确诊人数。本文提出的TSPM-ML输入检测数据,最终可以预测未来确诊人数和实际感染规模,且预测结果与实际数据基本一致,模型的可靠性得到了验证。

然而,检测的精度对传染病的预测也会产生较大的影响。本文为了抓住研究的主要矛盾,在研究检测隔离措施对传染病传播过程的影响时,假定检测结果是完全准确的,感染者通过检测都能够被准确识别。但现实中,有的感染者可能要经过多次检测才会被发现。检测过程中出现的“假阳性”和“假阴性”如何影响传染病的传播过程,还需要进一步研究。

参考文献
[1]
THOMPSON W W, WEINTRAUB E, DHANKHAR P, et al. Estimates of US influenza-associated deaths made using four different methods[J]. Influenza and Other Respiratory Viruses, 2009, 3(1): 37-49. DOI:10.1111/j.1750-2659.2009.00073.x
[2]
LUZ P M, MENDES B V M, CODECO C T, et al. Time series analysis of Dengue incidence in Rio de Janeiro, Brazil[J]. The American Journal of Tropical Medicine and Hygiene, 2008, 79(6): 933-939. DOI:10.4269/ajtmh.2008.79.933
[3]
易燕飞. 基于时间序列模型的传染病流行趋势及预测研究[D]. 长春: 长春工业大学, 2016.
YI Y F. Epidemic prediction of infectious diseases based on time series mode[D]. Changchun: Changchun University of Technology, 2016. (in Chinese)
[4]
田德红. 中国布鲁氏杆菌病流行趋势及时间序列模型预测研究[D]. 兰州: 兰州大学, 2016.
TIAN D H. Study on epidemic trend and time series model of prediction for human Brucellosis in China[D]. Lanzhou: Lanzhou University, 2016. (in Chinese)
[5]
胡跃华, 廖家强, 冯国双, 等. 自回归移动平均模型在全国手足口病疫情预测中的应用[J]. 疾病监测, 2014, 29(10): 827-832.
HU Y H, LIAO J Q, FENG G S, et al. Application of multiple seasonal autoregressive integrated moving average model in prediction of incidence of hand foot and mouth disease in China[J]. Disease Surveillance, 2014, 29(10): 827-832. DOI:10.3784/j.issn.1003-9961.2014.10.018 (in Chinese)
[6]
金如锋, 邱宏, 周霞, 等. ARIMA模型和GM(1, 1)模型预测全国3种肠道传染病发病率[J]. 复旦学报(医学版), 2008, 35(5): 675-680.
JIN R F, QIU H, ZHOU X, et al. Forecasting incidence of intestinal infectious diseases in mainland China with ARIMA model and GM(1, 1) model[J]. Fudan University Journal of Medical Sciences, 2008, 35(5): 675-680. DOI:10.3969/j.issn.1672-8467.2008.05.009 (in Chinese)
[7]
范引光, 吕金伟, 戴色莺, 等. ARIMA模型与灰色预测模型GM(1, 1) 在HIV感染人数预测中的应用[J]. 中华疾病控制杂志, 2012, 16(12): 1100-1103.
FAN Y G, LV J W, DAI S Y, et al. Prediction on the number of HIV with models of ARIMA and GM(1, 1)[J]. Chinese Journal of Disease Control & Prevention, 2012, 16(12): 1100-1103. (in Chinese)
[8]
时照华, 苏虹, 秦凤云, 等. ARIMA模型在常见呼吸道传染病疫情预测中的应用[J]. 安徽医科大学学报, 2013, 48(7): 783-786.
SHI Z H, SU H, QIN F Y, et al. Application of ARIMA model in prediction of respiratory infectious diseases[J]. Acta Universitatis Medicinalis Anhui, 2013, 48(7): 783-786. (in Chinese)
[9]
吴家兵, 叶临湘, 尤尔科. ARIMA模型在传染病发病率预测中的应用[J]. 数理医药学杂志, 2007, 20(1): 90-92.
WU J B, YE L X, YOU E K. Prediction of incidence of notifiable contagious diseases by application of time series model[J]. Journal of Mathematical Medicine, 2007, 20(1): 90-92. (in Chinese)
[10]
郑慧敏, 薛允莲, 黄燕飞, 等. ARIMA模型在深圳市法定传染病发病趋势预测的应用[J]. 实用预防医学, 2016, 23(2): 240-243.
ZHENG H M, XUE Y L, HUANG Y F, et al. Application of ARIMA model to predicting the incidence tendency of notifiable communicable diseases in Shenzhen City[J]. Practical Preventive Medicine, 2016, 23(2): 240-243. DOI:10.3969/j.issn.1006-3110.2016.02.038 (in Chinese)
[11]
董选军, 贾伟娜. ARIMA时间序列和BP神经网络在传染病预测中的比较[J]. 现代实用医学, 2010, 22(2): 142-143, 147.
DONG X J, JIA W N. Predictive efficiency comparison of ARIMA-time-series and BP neural net model on infectious diseases[J]. Modern Practical Medicine, 2010, 22(2): 142-143, 147. (in Chinese)
[12]
CHEKOL B E, HAGRAS H. Employing machine learning techniques for the malaria epidemic prediction in Ethiopia[C]//Proceedings of the 10th Computer Science and Electronic Engineering. Colchester, UK, 2018: 89-94.
[13]
LEE M K, PAIK J H, NA I S. Outbreak prediction of hepatitis A in Korea based on statistical analysis and LSTM network[C]//Proceedings of 2020 International Conference on Artificial Intelligence in Information and Communication. Fukuoka, Japan, 2020: 379-381.
[14]
PANDEY M K, SUBBIAH K. Performance analysis of time series forecasting using machine learning algorithms for prediction of Ebola casualties[C]//Proceedings of the 1st International Conference on Applications of Computing and Communication Technologies. Delhi, India, 2018: 320-334.
[15]
柴国荣, 王斌, 沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究: 以兰州市流感预测为例[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
CHAI G R, WANG B, SHA Y Z. Public health risk forecasting with multiple machine learning methods combined: Case study of influenza forecasting in Lanzhou, China[J]. Data Analysis and Knowledge Discovery, 2021, 5(1): 90-98. (in Chinese)
[16]
KAUFMAN H W, CHEN Z, MEYER W A, et al. Insights from patterns of SARS-CoV-2 immunoglobulin G serology test results from a national clinical laboratory, United States, March-July 2020[J]. Population Health Management, 2021, 24(S1): S-35-S-42.. DOI:10.1089/pop.2020.0256
[17]
CUI Y P, NI S J, SHEN S F. A network-based model to explore the role of testing in the epidemiological control of the COVID-19 pandemic[J]. BMC Infectious Diseases, 2021, 21(1): 58.
[18]
RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[19]
BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[20]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[21]
OLAH C. Understanding LSTM networks[EB/OL]. [2021- 02-10]. http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
[22]
CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar, 2014: 1724-1734.
[23]
SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 3104-3112.
[24]
MATHIEU E, RITCHIE H, RODÉS-GUIRAO L, et al. Coronavirus pandemic (COVID-19)[EB/OL]. [2021-02-10]. https://ourworldindata.org/coronavirus.
[25]
WHO. WHO coronavirus (COVID-19) dashboard[EB/OL]. [2021-03-17]. https://covid19.who.int/.