分布式数据中心信息能量协同优化策略
刘迪1, 曹军威2, 刘明爽3    
1. 清华大学 自动化系, 北京 100084;
2. 清华大学 北京信息科学与技术国家研究中心, 北京 100084;
3. 深圳市腾讯计算机系统有限公司, 深圳 518057
摘要:随着数据中心规模的不断扩大, 其能耗巨大的问题也日益突出。分布式数据中心既可以通过计算任务在多个数据中心间的分配实现功率的转移, 也可以通过单个数据中心的功率控制实现功耗和计算时延的均衡。这2种优化手段相互耦合, 且面临着来自于信息层和能量层的多元不确定性的影响, 需要快速可靠的控制手段实现数据中心信息层和能量层的协同优化。该文首先构建了分布式数据中心协同优化调节架构, 并分析了多数据中心计算任务分配与单数据中心功率优化的动态特性。其次, 构建了基于动态微分方程的信息层和能量层耦合优化问题的统一调节模型。最后, 综合考虑系统运营成本及计算时延构建目标函数, 引入最优控制理论对该问题求解, 实现数据中心信息能量的秒级协同优化控制。仿真结果表明, 相比分钟级的控制, 基于该策略的快速控制能够较好的追踪可再生能源出力以及计算任务的波动, 从而有效提升系统的经济效益及可再生能源就地消纳率。
关键词分布式数据中心    微分方程    协同优化    可再生能源    最优控制    
Collaborative optimization strategy of information and energy for distributed data centers
LIU Di1, CAO Junwei2, LIU Mingshuang3    
1. Department of Automation, Tsinghua University, Beijing 100084, China;
2. Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing 100084, China;
3. Shenzhen Tencent Computer System Co., Ltd., Shenzhen 518057, China
Abstract: With the continuous expansion of data centers, the problem of large energy consumption has become increasingly prominent. Distributed data centers can enable power transfer through the distribution of computing tasks among multiple data centers and realize the balance between power consumption and computing delay through the power control of a single data center. Scheduling of computing tasks and power control of data center interact with each other, and their control effects are affected by multiple uncertainties. Therefore, a fast and reliable control method is required for realizing the collaborative optimization of the information and energy layers of the data center. First, a distributed data center collaborative optimization architecture is constructed. Then, the dynamic characteristics of multiple data center computing task allocation and single data center power optimization are analyzed based on the dynamic differential equation, and a unified adjustment model of the coupling optimization problem is constructed. Given the system operating cost and computing delay in constructing the objective function, the optimal control theory is introduced to solve the problem and realize the second-level collaborative optimal control of the information energy of the data center. Simulation results show that the high-frequency control based on the proposed algorithm can better track the fluctuation of renewable energy output and calculation tasks than the minute-level control and effectively improve the economic benefits of the system and the local consumption rate of renewable energy.
Key words: distributed data center    differential equation    collaborative optimization    renewable energy    optimal control    

随着数字化社会的发展,数据中心的规模在不断扩大,其能耗问题也日益凸显。在最近的几年间,中国数据中心的用电量每年的增幅超过10%,2020年突破2 000亿kW·h,占全社会总用电量的2.7%。据预测,到2030年,全国数据中心的总用电量会在2020年的基础上翻倍,占全社会用电量的比重也将上升至3.7%[1]

与此同时,中国提出“碳中和、碳达峰”的目标,促使电力系统向着以清洁能源为主的结构转变。但可再生能源出力的波动性和不可调节[2]的特性使高比例可再生能源电网的供给侧灵活性大大降低,需要充分利用储能[3]、可调节负荷等需求侧可调节资源提升电网灵活性,消纳可再生能源。数据中心作为高能耗负荷之一,目前的能量来源还是以传统化石能源为主,2018年,可再生能源仅仅供应了23%的数据中心能耗,低于可再生能源在中国全社会电力消费量的占比26.5%[4]。因此,高能耗和能源供给中可再生能源占比低成为数据中心运营中面临的两大问题。

目前的研究中,主要从数据中心本身的能效提升[5]以及数据中心与电网协同优化[6]两方面展开。针对高能耗问题,除了从数据中心建设本身提升数据中心能源利用率外,在满足时延要求的前提下适当降低数据中心的服务率,能够在一定程度上降低数据中心的能耗[7-8]。针对能源供给中可再生能源占比低的问题,可以通过计算任务在不同数据中心之间的灵活分配实现负荷的迁移[9],以更多地消纳可再生能源。具体而言,可以通过直接负荷控制、电价信号等手段[10],引导数据中心参与电网需求响应,以平抑新能源波动、缓解电网阻塞,提升系统运行效率[11]

文[12]针对混合供电的数据中心的能耗优化问题,分别从数据中心本身能效的提升以及多个数据中心负载均衡等角度出发,综述了目前的最新研究成果,并对数据中心能耗与可再生能源出力的联合调节提出了研究展望,但并未深入地研究。文[13]提出了一种多数据中心流量分配的实时算法,通过计算任务的优化分配,提升数据中心的长期效益。文[14]在此基础上,进一步考虑了时延等因素,提出了分布式的多数据中心流量分配实时算法,以最小化多个数据中心的长期运营成本。文[15]建立了数据网络与电力网络混合运行模型,将数据中心任务分配纳入电网经济运行的优化调度中。

在上述研究中,通过不同数据中心之间的计算任务调度,实现数据中心功耗的再分配,提升系统的总体效益。但其前提假设是在特定的计算任务下数据中心的功耗是确定的。事实上,根据计算任务时延的需求,可以通过服务器的开关以及CPU频率的调整动态调整数据中心的使用率,进一步提升系统总体效率。数据中心的能耗优化问题,就转化为2个子问题:1) 考虑能源层经济成本的信息层计算任务分配;2) 考虑信息层计算时延的能源层数据中心能耗的确定。

上述2个子问题对于系统总体效益的影响是相互耦合的[6]。针对上述优化问题,文[16]构建了双层优化模型,在日前根据预测的计算任务量及时延需求,计算出数据中心可调节功率范围并参与电力市场出清,日内根据出清结果调节数据中心的任务量及功率。文[17]也构建了电网和和信息双层优化架构,通过两层间的交互优化,保证计算效率的同时,降低电网阻塞率,同样需要在日前向电网提供数据中心可调度的功率范围。文[18]则是在计算任务预测的基础上,通过两层之间的多次迭代,逐渐逼近最优决策。文[19]综合考虑数据中心和电动汽车的调度,将求解问题转化为随机规划问题并基于交替方向乘子法(alternating direction method of multiplies, ADMM)求解该问题。文[20]提出时空双维度任务迁移机制,通过延时容忍型任务时间上的优化和多数据中心间计算任务空间上的迁移,实现计算负荷与清洁能源出力的匹配。

上述研究中,均构建了能量和信息的双层优化调节架构,通过数据预测或信息交互迭代实现数据中心和电网的联合优化,实现了小时级或分钟级的优化调节。但数据中心计算任务存在较大的波动性[21],且常常会面临难以预测的流量突发现象[9]。同时,可再生能源的出力也具有很大的波动性,信息层和能量层的双重不确定性对于控制的反馈速度提出了更高的要求。相比迭代的求解算法,最优控制能够实现毫秒级的反馈,并且已经在火箭运行姿态调整[22]、电力系统稳定控制[23]、燃料电池的能量管理[24]等领域取得了较好的应用效果。

因此,为了提升分布式数据中心控制的速度以更好地应对突发计算任务以及可再生能源出力带来的波动,本文引入最优控制理论,针对目前研究中多数据中心计算任务的分配与单数据中心功率控制协同优化的问题,基于动态微分方程,构建多数据中心计算任务分配及数据中心功率优化动态控制统一模型,实现任务分配与功率控制的同步优化。进而,采用最优控制的极小值原理求解对控制问题求解,有效提升了系统控制的速度,保证系统能够及时随外界环境变化做出调整,使系统能够根据外界环境的波动修正最优控制决策,并对系统控制速度与效益的关系进行了分析。此外,考虑到数据处理的服务质量(quality of service,QoS)与经济成本是相互矛盾的,本文在调节目标中兼顾了延迟成本与经济效益,并探讨了QoS与经济效益之间的关系。

1 分布式数据中心架构及信息能量模型 1.1 分布式数据中心总体架构

分布式数据中心分布在电网的不同节点,可以依托电网供电,也可以依托附近可再生能源供电[25]。在信息层,各个数据中心互联互通,来自于前端的计算任务可以自由分配,分布式数据中心的信息和能源架构如图 1所示。

图 1 分布式数据中心信息能量交互架构

在每个时刻,有K个前端申请计算任务,每个前端申请的计算任务量为lk(t),所有计算任务可以分配给n个分布式数据中心协同完成,第i个数据中心承担的计算任务为LDC,i(t)。各个数据中心之间在信息层相互连通,但由于地理上的分布特性,其通过不同的主网节点接入电网,而每一个数据中心的实时节点电价各不相同[26]。数据中心除了能从电网购电外,还可以依托本地可再生能源功能,充分利用可再生能源“剩余”电量,以减少“弃风弃光”现象的发生。由于各地资源禀赋及负荷特性不同,能够给数据中心供能的可再生能源的容量及时域特性也各不相同。

1.2 分布式数据中心信息能量模型 1.2.1 数据中心能耗控制模型

数据中心的能耗与承担的计算任务量相关,通过数据中心服务器的启停[16]以及CPU频率的调节[18],可以控制数据中心的服务率,使数据中心不总运行在满功率的状态下,以提升数据中心的能效。

数据中心的能耗主要包括服务器能耗以及支持服务器正常运行的散热设备能耗[27]。其中,服务器功率主要为CPU的功率,可以用如下模型表示[5, 28]

$ P_{\text {server }, i, j}(t)=c_{i, j, 0}+A_{i, j} E_{i, j} V_{i, j}^2(t) f_{i, j}(t) . $ (1)

式(1)中数据中心的服务器功率主要包括静态功率和动态功率。ci,j,0为第i个数据中心第j个服务器CPU的静态功率,如果硬件环境不变,则其为固定常量。服务器的动态功率则由电容Ei,j、时钟频率fi,j(t)、CPU电压Vi,j(t)共同构成,其能耗与每个时钟周期内的开关次数Ai,j正相关。其中Ai,jEi,j在相同的硬件环境下也为固定常量。上述固定常量均可以查阅设备参数信息或通过简单的测量获得。

根据数据中心的典型电能利用效率(power usage effectiveness,PUE)[29],可以得到数据中心服务器功率与总功率的关系:

$ P_{\mathrm{DC}, i}(t)=\sum\limits_{j=1}^{M_i} P_{\text {server }, i, j}(t) U_i. $ (2)

其中:Ui为第i个数据中心的PUE值。如前文所述,可以通过控制开启服务器的数量[16]或调节CPU频率[18]实现数据中心的功率控制,同时,相对于整个数据中心而言,功率可调节的颗粒度很小,因此认为数据中心的功率是连续可调的,可以定义数据中心使用率控制信号为uP,i(t)∈[0, 1],以控制数据中心功率的变化。

对于一个数据中心而言,如果没有新到计算任务,随着数据中心存量任务的处理,数据中心所需处理的计算负载在逐渐下降,则维持同样计算时延所需的功率也在逐渐下降。假设数据中心的功率能够追踪计算负载的变化,则在固定计算时延下,数据中心功率与负载之间存在正相关的关系:

$ P_{\mathrm{DC}, i}(t)=k_i L_{\mathrm{DC}, i}(t)+P_{\mathrm{base}, i}(t) . $ (3)

其中:γi是默认情况下,数据中心功率PDC,i(t)与计算任务LDC,i(t)间的比例系数,使数据中心的功率能随计算任务量的下降而降低;Pbase,i(t)是无计算任务时数据中心的基础功率。

同时,数据中心对任务的处理速度也与功率相关,则剩余计算任务的变化量为

$ \Delta L_{\mathrm{DC}, i}(t)=-v_i P_{\mathrm{DC}, i}(t). $ (4)

其中vi是计算任务变化量与数据中心功率的比例系数。PDC,i(t)越大,数据处理速度越快,则单位时间被处理完成的计算任务ΔLDC,i(t)越多。

结合式(3)和(4),在特定控制信号下,每个数据中心的功率随时间的动态变化可以表示为

$ \Delta P_{\mathrm{DC}, i}(t)=-k_i v_i P_{\mathrm{DC}, i}(t)+\beta_{\mathrm{P}, i} u_{\mathrm{P}, i}(t). $ (5)

其中:αP,i为时间常数,βP,i为最大可到达计算任务数量,βP,iuP,i(t)表示t时隙中第i个数据中心新增的计算任务数量。

数据中心功率的变化会影响数据中心能量层的能源成本。每个数据中心的能量来源一方面来自本地的分布式可再生能源,一方面来自于电网,且当本地可再生能源过多时,可以出售给电网,获得一定的售电收益,因此,由n个数据中心组成的数据中心系统在t时刻的能源成本为

$ \begin{aligned} C(t)=& \sum\limits_{i=1}^n\left(P_{\mathrm{B}, i}(t) R_{\mathrm{B}, i}(t) \Delta t-P_{\mathrm{S}, i}(t) R_{\mathrm{S}, i}(t) \Delta t\right), \\ \text { s. t. } & P_{\mathrm{PV}, i}(t)+P_{\mathrm{B}, i}(t)-P_{\mathrm{S}, i}(t)=P_{\mathrm{DC}, i}(t) . \end{aligned} $ (6)

t时隙数据中心i的本地可再生能源发电量不能满足数据中心能耗时,其会向电网购买电量PB,t(t),其接入的主网处的购电电价为RB,i(t)。当t时隙数据中心i的本地可再生能源发电量超过数据中心能耗需求时,剩余部分电量会出售给电网,出售电量用PS,i(t)表示,上网价格为RS,i(t)。同时,每个数据中心可再生能源出力、数据中心功率以及与电网之间的交互功率应实时平衡,即满足功率平衡约束。

1.2.2 多数据中心间计算任务分配模型

图 1中,在每个时隙t,数据中心系统根据k个前端的计算请求分配每个数据中心计算的任务量,因此定义数据中心计算任务的分配控制信号为uL,i(t)∈[0, 1],每个数据中心每个时隙承担的计算任务量的动态变化为

$ \Delta L_{\mathrm{DC}, i}(t)=-k_i v_i L_{\mathrm{DC}, i}(t)+\beta_{\mathrm{L}, i} u_{\mathrm{L}, i}(t). $ (7)

其中:uL,i(t)为分配给第i个数据中心的任务的控制量,βL,i为可以分配给第i个数据中心的最大的任务量,βL,iuL,i(t)为t时隙中分配给第i个数据中的计算任务量。为了保证在前端的计算请求均能够被数据中心处理,设置约束如下:

$ \int_0^T \sum\limits_{i=1}^n L_{\mathrm{DC}, i}(t) \mathrm{d} t \geqslant \int_0^T \sum\limits_{j=1}^k l_j(t) \mathrm{d} t . $ (8)

式(8)保证了所考虑的时间段T内,每个数据中心承担的计算任务量LDC,i(t)的总和始终大于或等于来自于前端计算请求lj(t)的总和。

1.2.3 考虑延迟的信息能量耦合模型

就信息层而言,数据处理的延迟是数据中心服务质量的重要指标,数据中心计算任务的平均延迟又与数据中心承担的计算任务量和功率有关。在目前的研究中,常用M/M/n排队模型计算数据中心的平均时延情况[16-17, 30]

$ D_i^{\mathrm{P}}=\frac{1}{\sum\limits_{j=1}^{M_i} \mu_{i, j}(t)-\sum\limits_{j=1}^{M_i} L_{\mathrm{DC}, i, j}(t)} . $ (9)

其中:DiP为第i个数据中心的平均时延;μi,j(t)为数据中心服务器的服务率,服务率越高,数据中心的延迟越低;Mi为第i个数据中心服务器的数量。数据中心功率的调节手段有开关服务器[16]以及调节服务器的CPU频率[18]。关闭服务器会增加每个服务器分担的网络负载,在计算延迟时,可以认为开启的服务器数量不变,每台服务器的服务率μi,j(t)下降,从而在计算时总有Mi台虚拟服务器开启,以方便延迟的计算以及后续的优化。

此外,由于网络阻塞的原因,计算任务从前端分配至每个数据中心也会带来时延,同样可以根据M/M/1排队模型,假设计算任务的数据大小呈指数分布,考虑了网络阻塞后的数据中心平均时延为[31]

$ {D_i} = \frac{{\widetilde \omega }}{{\sum\limits_{j = 1}^{{M_i}} {{\mu _{i, j}}} (t) - \widetilde \omega \sum\limits_{j = 1}^{{M_i}} {{L_{{\rm{DC}}, i, j}}} (t)}}. $ (10)

其中$\widetilde \omega $是网络时延参数,取决于网络没有阻塞时的网络传输时延。

在能量层面,μi,j(t)与CPU频率正相关[32],即μi,j(t)∝fi,j(t),又由式(1)可知,CPU频率与功率是近似线性关系,因此数据中心服务率与功率之间的关系可近似表示为

$ \sum\limits_{j=1}^{M_i} \mu_{i, j}(t)=\varphi_i \sum\limits_{j=1}^{M_i} P_{\text {server }, i, j}(t). $ (11)

其中φi为数据中心服务器功率与服务率的转换系数。联立式(2)、(10)、(11),可得数据中心功耗与计算延迟之间的关系:

$ D_i=\frac{\tilde{\omega}}{\frac{\varphi_i}{U_i} P_{\mathrm{DC}, i}(t)-\tilde{\omega} \sum_{j=1}^{M_i} L_{\mathrm{DC}, i, j}(t)} . $ (12)

综上,本文构建了能量层的数据中心的能耗模型、信息层的计算任务分配模型以及数据中心功耗与平均计算延迟的能量信息耦合模型。

2 问题构建及求解 2.1 问题构建

从1节的模型中可以看出,在每个时隙,数据中心需要决策的变量为分配的计算任务量以及数据中心的功率。对于t∈[0, T],数据中心任务量分配以及功率调节的控制系统可以定义为

$ \left\{\begin{array}{l} \dot{\boldsymbol{x}}(t)=\boldsymbol{A} \boldsymbol{x}(t)+\boldsymbol{B} \boldsymbol{u}(t), \\ \boldsymbol{x}(0)=\boldsymbol{x}_0. \end{array}\right. $ (13)

其中,AB均为对称系数矩阵,x0为0时隙的系统初始状态,x(t)是n个数据中心的状态变量。

$ \begin{gathered} \boldsymbol{x}(t)=\left[L_{\mathrm{DC}, 1}(t), P_{\mathrm{DC}, 1}(t), L_{\mathrm{DC}, 2}(t), \right. \\ \left.P_{\mathrm{DC}, 2}(t), \cdots, L_{\mathrm{DC}, n}(t), P_{\mathrm{DC}, n}(t)\right]^{\mathrm{T}} . \end{gathered} $ (14)

u(t)是n个数据中心的控制输入:

$ \begin{gathered} \boldsymbol{u}(t)=\left[u_{\mathrm{L}, 1}(t), u_{\mathrm{P}, 1}(t), u_{\mathrm{L}, 2}(t)\right., \\ \left.u_{\mathrm{P}, 2}(t), \cdots, u_{\mathrm{L}, n}(t), u_{\mathrm{P}, n}(t)\right]^{\mathrm{T}}. \end{gathered} $ (15)

根据式(5)和(7)可得对角系数矩阵AB分别为:

$ \begin{gathered} \boldsymbol{A}=\operatorname{diag}\left[-k_1 v_1, -k_1 v_1, -k_2 v_2, -k_2 v_2, \cdots, \right. \\ \left.-k_n v_n, -k_n v_n\right], \end{gathered} $ (16)
$ \boldsymbol{B}=\operatorname{diag}\left[\beta_{L, 1}, \beta_{P, 1}, \beta_{L, 2}, \beta_{P, 2}, \cdots, \beta_{L, n}, \beta_{P, n}\right] . $ (17)

数据中心的能耗成本及功率平衡约束如式(6)所示,除此之外,数据中心t时隙的购电电量应大于等于0,即PB,i(t)≥0,数据中心t时隙出售给电网的电量应介于可再生能源出力与0之间,即PPV,i(t)≥PS,i(t)≥0。为了促进可再生能源的就地消纳,可再生能源的上网价格会低于购电价格[33],因此,数据中心会优先使用可再生能源发电为数据中心供电,则:

$ \begin{gathered} P_{\mathrm{S}, i}(t)= \\ \left\{\begin{array}{cl} P_{\mathrm{PV}, i}(t)-P_{\mathrm{DC}, i}(t), & P_{\mathrm{PV}, i}(t) \geqslant P_{\mathrm{DC}, i}(t) ; \\ 0, & P_{\mathrm{PV}, i}(t) <P_{\mathrm{DC}, i}(t) ; \end{array}\right. \end{gathered} $ (18)
$ \begin{gathered} P_{\mathrm{B}, i}(t)= \\ \left\{\begin{array}{cl} P_{\mathrm{DC}, i}(t)-P_{\mathrm{PV}, i}(t), & P_{\mathrm{PV}, i}(t)<P_{\mathrm{DC}, i}(t) ; \\ 0, & P_{\mathrm{PV}, i}(t) \geqslant P_{\mathrm{DC}, i}(t) . \end{array}\right. \end{gathered} $ (19)

从而,式(6)中的数据中心在t时隙的单位成本可以改写为

$ C(t)=\sum\limits_{i=1}^n\left(P_{\mathrm{DC}, i}(t)-P_{\mathrm{PV}, i}(t)\right) R_i(t) \Delta t. $ (20)

其中:

$ R_i(t)= \begin{cases}R_{\mathrm{B}, i}(t), & P_{\mathrm{PV}, i}(t) <P_{\mathrm{DC}, i}(t) ; \\ R_{\mathrm{S}, i}(t), & P_{\mathrm{PV}, i}(t) \geqslant P_{\mathrm{DC}, i}(t).\end{cases} $ (21)

除了经济成本之外,服务质量也是数据中心能耗优化需要考虑的重要因素之一。因此,结合式(12),定义目标函数如下:

$ \begin{gathered} L[x(t)]= \\ \sum\limits_{i=1}^n\left(\gamma D_i+\left(P_{\mathrm{DC}, i}(t)-P_{\mathrm{PV}, i}(t)\right) R_i(t)\right). \end{gathered} $ (22)

其中γ≥0,为权重因子,γ越大表示目标对延迟的要求越高。对于延迟而言,一方面希望实现其与经济成本之间的均衡,另一方面其也应满足最大延迟约束,结合式(12)可定义延迟约束:

$ D_i \leqslant t_{\text {delay }, i}, \quad i=1, 2, \cdots, n. $ (23)

其中tdelay,i即为第i个数据中心的延迟上限。将式(12)代入式(23)可得

$ \frac{\varphi_i}{U_i} P_{\mathrm{DC}, i}(t)-\widetilde{\omega} L_{\mathrm{DC}, i}(t) \geqslant \frac{\widetilde{\omega}}{t_{\mathrm{delay}, i}}, \quad i=1, 2, \cdots, n. $ (24)

为了在控制中满足延迟约束,结合式(24)定义:

$ \begin{gathered} \boldsymbol{L}_1(\boldsymbol{x}(t))=\boldsymbol{S} \boldsymbol{x}(t)+\boldsymbol{D} .\\ \boldsymbol{S}=\operatorname{diag}\left[\widetilde{\omega}, -\frac{\varphi_1}{U_1}, \widetilde{\omega}, -\frac{\varphi_2}{U_2}, \cdots, \widetilde{\omega}, -\frac{\varphi_n}{U_n}\right], \end{gathered} $ (25)
$ \boldsymbol{D}=\left[\frac{\tilde{\omega}}{t_{\text {delay }, 1}}, \frac{\tilde{\omega}}{t_{\text {delay }, 2}}, \cdots, \frac{\tilde{\omega}}{t_{\text {delay }, n}}\right]^{\mathrm{T}} . $ (26)

则不等式约束可以表示为

$ \boldsymbol{L}_1[\boldsymbol{x}(t)] \prec 0. $ (27)

其中符号“$\prec$”表示矩阵L1[x(t)]中的每一个元素均小于或等于0。此外,式(13)所表示的系统应在考虑的时间内,处理完所有用户的任务请求,即满足式(8)所表示的约束,对其移项变形可得

$ \int_0^T\left(\sum\limits_{i=1}^n L_{\mathrm{DC}, i}(t)-\frac{1}{T} \sum\limits_{j=1}^k l_j(t)\right) \mathrm{d} t \geqslant 0 . $ (28)

为了在控制中满足任务处理量的约束,根据式(28)定义L2

$ L_2(\boldsymbol{x}(t))=\frac{1}{T} \sum\limits_{j=1}^k l_j(t)-a^{\mathrm{T}} x(t) . $ (29)

其中a =[1, 0, 1, 0, …, 1, 0]T,为一个2n维向量,则式(28)可以表示为

$ \int_0^T L_2(\boldsymbol{x}(t)) \leqslant 0. $ (30)

每个数据中心的任务分配量以及功率可以在0到最大值之间被调节。因此,定义每个数据中心任务分配量和功率的控制集u(t)应满足如下约束:

$ 0 \prec \mathit{\boldsymbol{u}}(t) \prec 1. $ (31)

最终构建数据中心任务分配及功率确定的最优控制问题如下:

$ \min\limits _{u(t)} J(0, \boldsymbol{x}(0), \boldsymbol{u}(\cdot))=\int_0^T \boldsymbol{L}[\boldsymbol{x}(t)] \mathrm{d} t, \\\begin{array}{ll} \text { s.t. } & \boldsymbol{L}_1[\boldsymbol{x}(t)]\prec 0, t \in[0, T] \text {; } \\ & \int_0^T L_2[x(t)] \mathrm{d} t \leqslant 0 . \end{array} $ (32)

经过上述推导与转换后,数据中心计算任务分配以及最佳功率的选择就被转化为一个最优控制问题,而后就需要对该系统求解,以获得数据中心每一时隙最优的控制策略。

2.2 问题求解

针对式(13)的系统,式(32)的最优控制问题既有不等式过程约束,也有不等式积分约束。为了在最优控制的过程中满足约束,引入Lagrange乘子:λ(t)、η (t)、ζ。首先考虑不等式积分约束,定义Hamilton函数H:

$ \begin{gathered} H[\boldsymbol{x}(t), \boldsymbol{u}(t), \boldsymbol{\lambda}(t), \zeta, t]=\boldsymbol{L}[\boldsymbol{x}(t)]+ \\ \boldsymbol{\lambda}^{\mathrm{T}}(t)[\boldsymbol{A} \boldsymbol{x}(t)+\boldsymbol{B} \boldsymbol{u}(t)]+\zeta L_2[\boldsymbol{x}(t)] . \end{gathered} $ (33)

其中:λ(t)为系统约束的参数,ζ为不等式积分约束项的参数。进而考虑不等式过程约束,定义Lagrange函数$\hat{L}$

$ \begin{gathered} \hat{L}[\boldsymbol{x}(t), \boldsymbol{u}(t), \boldsymbol{\lambda}(t), \boldsymbol{\eta}(t), \zeta, t]= \\ H[\boldsymbol{x}(t), \boldsymbol{u}(t), \boldsymbol{\lambda}(t), t]+\boldsymbol{\eta}^{\mathrm{T}}(t) \boldsymbol{L}_1[\boldsymbol{x}(t)]. \end{gathered} $ (34)

其中η(t)为不等式过程约束项的参数。

由最优控制理论的极小值原理[34],式(32)中问题的最优控制信号u*(t)和最优轨线,即每个数据中心的负荷分配量与功率随时间的最佳状态变化曲线x*(t)应满足最优控制原理中所需的方程、等式和不等式。将数据中心计算任务分配以及功率控制的相关变量代入,并转化为最优控制中可以求解的形式,可以获得系统求解时应满足的约束条件:

$ \left\{\begin{array}{l} \boldsymbol{\zeta} \geqslant 0, \\ \int_0^T L_2[\boldsymbol{x}(t)] \mathrm{d} t \leqslant 0, \\ \zeta \int_0^T L_2[\boldsymbol{x}(t)] \mathrm{d} t=0, \\ \boldsymbol{\eta}(t) \succ 0, \\ \boldsymbol{L}_1[\boldsymbol{x}(t)] <0, \\ \boldsymbol{\eta}^{\mathrm{T}}(t) \boldsymbol{L}_1[\boldsymbol{x}(t)]=0 . \end{array}\right. $ (35)

通过GEKKO工具包[35]求解该方程组,可得到u*(t)和对应的负荷分配量以及x*(t)。

3 仿真实验 3.1 仿真环境设置

本文以3个数据中心为例进行仿真,数据中心的参数如表 1所示。

表 1 数据中心仿真参数
数据中心 DC1 DC2 DC3
服务器台数 2×105 2×105 2×105
服务器最大功率/W 300 300 300
服务器每秒最大处理任务个数 30 30 30
φ 0.1 0.1 0.1
PUE 1.2 1.3 1.4
kivi 1 1 1
β 1 1 1
$\widetilde \omega $ 1 1 1

为了验证本文方法的适用性,针对可再生能源过剩与可再生能源不足2种情况分别设置场景1和2。

每个数据中心处于不同的电网节点,即每个数据中心有不同的节点边际电价。目前美国PJM电力市场和ERCOT电力市场的结算周期为5 min[36],而随着可再生能源的渗透,未来的结算周期可能会进一步降低。因此,本文模拟5 min内价格信号波动2次。

同时,每个数据中心的所获得的可再生能源电量也不同,由于受外界环境影响,可再生能源的出力具有波动性,从前端传输的数据中心的计算任务同样存在较大的波动。基于文[20]中真实的负载数据,结合文[37]中随机场景的生成方法,本文设置了3个数据中心的可再生能源出力及计算任务数据,并在±30%的范围内按照均匀分布,增加随机扰动ε,以模拟可再生能源出力及计算任务的不确定性。为了提升可再生能源的就地消纳率,可再生能源的出售给电网的价格常常低于购电价格[33],各项参数具体取值如表 2所示。

表 2 仿真环境参数
数据中心 DC1 DC2 DC3
可再生能源/MW 场景1 20+ ε1, 1 40+ ε1, 2 50+ ε1, 3
场景2 30+ ε2, 1 8+ ε2, 2 4+ ε2, 3
购电价格/(元·(kW·h)-1) 0~100 s 0.8 0.6 0.7
101~200 s 0.5 0.7 0.6
201~300 s 0.8 0.9 0.6
售电价格/(元·(kW·h)-1) 0~100 s 0.3 0.4 0.2
101~200 s 0.4 0.2 0.2
201~300 s 0.2 0.3 0.5
每秒需处理总任务个数 3×106+ εL
延迟性能的权重γ 1×104

增加扰动后可再生能源出力如图 2所示。

图 2 两种场景下各个数据中心可再生能源出力

现有研究已经证明,相比于仅考虑数据中心间的计算负载分配[12],或仅考虑单个数据中心的功率优化[13-15],综合考虑二者的协同优化能够降低数据中心运行成本[16-19]。但目前的研究仅实现了最小分钟级的优化,如文[15-17, 19]为小时级优化,文[14, 18, 20]为分钟级优化,未发现有研究实现秒级优化。因此,本文基于文[14, 18, 20]的研究,设置每次控制间隔60 s为对比算法,进而进一步分析不同控制间隔对系统效益带来的影响。

3.2 控制间隔影响分析

由于可再生能源出力以及计算任务均存在较大的波动性,且难以被十分准确地预测,减小控制间隔有助于降低不确定性带来的影响,本文首先对比了控制间隔对经济性的影响。基于最优控制,每次优化可以在100 ms之内完成求解,但考虑到调节过程中的还存在任务分解、通信等会耗时,本文取每次控制间隔最小为5 s。

2种场景不同控制间隔下,3个数据中心任务分配和功率情况分别如图 34所示。

图 3 场景1数据中心的功率变化

图 4 场景2数据中心的功率变化

2种场景不同控制间隔下,3个数据中心在300 s内的总效益如表 3所示。

表 3 不同控制间隔下的总效益 
场景 5 s 15 s 30 s 60 s
1 10 659.16 9 996.86 7 254.43 6 689.15
2 -18 897.58 -20 310.85 -20 002.74 -20 621.53

图 3可以看出,在场景1下,3个数据中心周边可再生能源的发电总量大于数据中心的能源需求,因此除数据中心自身的能量消耗外,还可以将多余光伏出售给电网。在0~100 s时,DC3的售电价格最低,因此尽可能将计算任务调度至DC3处,以提升可再生能源的售电效益。在101~200 s时,DC1处的售电价格最高,但其可再生能源的容量较小,因此其功率依然维持在较小的水平。在201~300 s时,DC3处的售电价格变为最高,从而分配给其的任务被相应减少,以提升3个数据中心总的售电收益。由于外部价格有变化,同时可再生能源出力以及计算任务有波动,因此高频控制能够更快地追踪不确定性带来的波动,从而提升系统总体效益。从表 3也可以看出,在场景1中,控制间隔为5 s时,收益为10 659.16元,比控制间隔为60 s时提升了59.35%。

图 4是场景2可再生能源出力不足场景下3个数据中心的功率分配。由于可再生能源出力较小,数据中心所需电量主要来自于外电网购电。由于外部电网的购电价格总是高于对外售电的价格,因此数据中心的任务分配优先使用本地的可再生能源,不足的部分再从外电网购买。在0~100 s时,系统尽可能的从DC2处购电以满足功率需求,在101~200 s时,DC2承担了较多的计算任务,同时由于其本身的可再生能源出力就较高,其接近于满载运行。在201~300 s时,则尽可能将功率分配至购电价格较低的DC3处。由于高频控制的灵活性,场景2下的总成本也能被有效地降低。

本文统计了2种场景下可再生能源就地消纳的情况,如表 4所示。

表 4 不同控制间隔下的可再生能源就地消纳率 
%
场景 5 s 15 s 30 s 60 s
场景1 12.17 4.34 9.19 5.93
场景2 97.84 97.48 97.91 97.66

表 4可以看出,场景由于高频控制能够更好地追踪可再生能源出力的波动,有效地提升了可再生能源就地消纳率,相比60 s的控制间隔,5 s的控制间隔下可再生能源的就地消纳率提升了6.24%。而在场景2中,由于可再生能源出力较小,因此不同控制间隔下的就地消纳率差别不大,均在97% 以上。

场景2中,控制间隔为30 s时可再生能源的就地消纳率最高,这是由于场景2下各个控制间隔对可再生能源消纳的影响很小,而对于实时电价和计算任务不确定性的追踪对总体效益的影响更大,因此高频控制下,虽然可再生能源就地消纳率稍有降低,但成本、计算时延等指标结果更优,从而实现了更好的总体效益。因此,本文继续就不同控制间隔下,经济性和延迟指标的优化结果进行分析。

3.3 经济性与延迟优化分析

3.2节仿真实验验证了本文算法中计算任务调度所带来的效益提升,在前文的理论分析中,在相同的计算任务下,数据中心的功率与延迟存在一定的关系,从而适当提升数据中心的计算时延,能够提升系统总体的运营效益。本文基于场景2,又对数据中心计算时延与系统的运行成本之间的关系进行了仿真实验,验证不同γ下算法控制的效果,实验结果如图 56所示。

图 5 不同γ下的延迟

图 6 不同γ下的总效益

本文算法在设计目标函数时,考虑了信息层面服务质量这一因素,通过对目标函数中γ的调节能够很方便地变动经济成本和计算延时之间的权重关系。从图 56可以看出,计算延时的约束上限为200 ms,在γ较小时,系统优化时主要考虑经济成本,因此3个数据中心的计算时延普遍较高,此时经济成本较低。而随着γ的增加,系统在进行优化调节时,更多的考虑了信息层面的服务质量,系统的计算时延有了明显的下降,但经济成本也有了明显的上升。同时,对比γ为1×105和1×106的仿真结果可以看出,当计算时延较低时,继续降低计算时延,需要增加较多的经济成本。因此,在实际环境中,可以根据需求动态的调整γ,以实现经济成本与计算时延之间的均衡。

4 结论

本文基于最优控制理论,实现多个数据中心的任务分配以及每个数据中心功率与计算时延的统一优化。同时,采用动态微分方程对所求问题建模,实现数据中心任务的快速控制。理论分析与仿真结果表明:

1) 通过多个数据中心计算任务的调度,能够有效降低系统总体运行成本,且能够有效提升可再生能源的就地消纳率;

2) 采用动态微分方程对所求问题建模,能够实现数据中心的秒级的优化控制,从而更好地追踪由于可再生能源出力以及计算任务不确定性带来的波动,以提升系统总体的经济效益;

3) 在满足计算延迟约束的前提下,提高目标函数中延迟项的权重,能够有效降低计算延迟,但也会大幅提升系统运行总成本,在实际运行中可以根据需求灵活调节权重。

综上,本文所提基于最优控制的能量信息协同优化策略能够综合考虑能源层的能量成本以及信息层的计算时延,实现计算任务分配及数据中心功率控制的快速联合优化控制,降低系统运营成本,提升可再生能源就地消纳率,并能够根据需求调整计算时延。未来可以进一步细化信息层和能量层的研究。在能量层面,可以细化数据中心的能耗组成,考虑冷热电等多种形式综合能源供给系统的调节;在信息层面,可以细化计算任务,包括不同任务之间不同的复杂程度及不同的时延需求等。

参考文献
[1]
张素芳, 王鹏. 数据中心行业在能源转型中将发挥重要作用[N/OL]. (2020-07-24)[2022-03-10]. https://baijiahao.baidu.com/s?id=1673076860372734884&wfr=spider&for=pc.
ZHANG S F, WANG P. Data center industry will play an important role in energy transformation[N/OL]. (2020-07-24)[2022-03-10]. https://baijiahao.baidu.com/s?id=1673076860372734884&wfr=spider&for=pc. (in Chinese)
[2]
李洋, 肖泽青, 聂松松, 等. 生成对抗网络及其在新能源数据质量中的应用研究综述[J]. 南方电网技术, 2020, 14(2): 25-33.
LI Y, XIAO Z Q, NIE S S, et al. Review of research on generative adversarial network and its application in new energy data quality[J]. Southern Power System Technology, 2020, 14(2): 25-33. DOI:10.13648/j.cnki.issn1674-0629.2020.02.003 (in Chinese)
[3]
HUA H C, QIN Y C, CAO J W. Stochastic optimal control for energy internet: A bottom-up energy management approach[J]. IEEE Transactions on Industrial Informatics, 2019, 5(3): 1788-1797.
[4]
绿色和平组织, 华北电力大学. 点亮绿色云端: 中国数据中心能耗与可再生能源使用潜力研究[R]. 北京: 绿色和平组织, 2019.
Greenpeace, North China Electric Power University. Lighting up the green cloud: Research on energy consumption and renewable energy use potential of China's data center[R]. Beijing: Greenpeace, 2019. (in Chinese)
[5]
王继业, 周碧玉, 刘万涛, 等. 数据中心跨层能效优化研究进展和发展趋势[J]. 中国科学: 信息科学, 2020, 50(1): 1-24.
WANG J Y, ZHOU B Y, LIU W T, et al. Research progress and development trend of cross-layer energy efficiency optimization in data centers[J]. Scientia Sinica Informationis, 2020, 50(1): 1-24. DOI:10.3969/j.issn.0253-2778.2020.01.001 (in Chinese)
[6]
冯成, 王毅, 陈启鑫, 等. 能源互联网下的数据中心能量管理综述[J]. 电力自动化设备, 2020, 40(7): 1-9.
FENG C, WANG Y, CHEN Q X, et al. Review of energy management for data centers in energy internet[J]. Electric Power Automation Equipment, 2020, 40(7): 1-9. DOI:10.16081/j.epae.202007003 (in Chinese)
[7]
YAO F, DEMERS A, SHENKER S. A scheduling model for reduced CPU energy[C]//Proceedings of the IEEE 36th Annual Foundations of Computer Science. Milwaukee, USA: IEEE, 1995: 374-382.
[8]
ALBERS S. Energy-efficient algorithms[J]. Communications of the ACM, 2010, 53(5): 86-96. DOI:10.1145/1735223.1735245
[9]
李文信, 齐恒, 徐仁海, 等. 数据中心网络流量调度的研究进展与趋势[J]. 计算机学报, 2020, 43(4): 600-617.
LI W X, QI H, XU R H, et al. Data center network flow scheduling progress and trends[J]. Chinese Journal of Computers, 2020, 43(4): 600-617. (in Chinese)
[10]
吴刚, 高赐威, 陈宋宋, 等. 考虑需求响应的数据中心用电负荷优化研究综述[J]. 电网技术, 2018, 42(11): 3782-3788.
WU G, GAO C W, CHEN S S, et al. A survey on data center power load optimization considering demand response[J]. Power System Technology, 2018, 42(11): 3782-3788. DOI:10.13335/j.1000-3673.pst.2018.0263 (in Chinese)
[11]
高赐威, 曹晓峻, 闫华光, 等. 数据中心电能管理及参与需求侧资源调度的展望[J]. 电力系统自动化, 2017, 41(23): 1-7.
GAO C W, CAO X J, YAN H G, et al. Energy management of data center and prospect for participation in demand side resource scheduling[J]. Automation of Electric Power Systems, 2017, 41(23): 1-7. DOI:10.7500/AEPS20170401005 (in Chinese)
[12]
宋杰, 孙宗哲, 刘慧, 等. 混合供电数据中心能耗优化研究进展[J]. 计算机学报, 2018, 41(12): 2670-2688.
SONG J, SUN Z Z, LIU H, et al. Research advance on energy consumption optimization of hyper-powered data center[J]. Chinese Journal of Computers, 2018, 41(12): 2670-2688. DOI:10.11897/SP.J.1016.2018.02670 (in Chinese)
[13]
YU L, JIANG T, ZOU Y L. Real-time energy management for cloud data centers in smart microgrids[J]. IEEE Access, 2016, 4: 941-950. DOI:10.1109/ACCESS.2016.2539369
[14]
YU L, JIANG T, ZOU Y L. Distributed real-time energy management in data center microgrids[J]. IEEE Transactions on Smart Grid, 2018, 9(4): 3748-3762. DOI:10.1109/TSG.2016.2640453
[15]
曹晓峻, 高赐威, 李德智, 等. 数据网络与电力网络混合运行建模及其参与系统经济运行[J]. 中国电机工程学报, 2018, 38(5): 1448-1456.
CAO X J, GAO C W, LI D Z, et al. Mixed operation model of data network and power network and its participation in the economic operation of power system[J]. Proceedings of the CSEE, 2018, 38(5): 1448-1456. (in Chinese)
[16]
陈敏, 高赐威, 陈宋宋, 等. 考虑数据中心用电负荷调节潜力的双层经济调度模型[J]. 中国电机工程学报, 2019, 39(5): 1301-1313.
CHEN M, GAO C W, CHEN S S, et al. Bi-level economic dispatch modeling considering the load regulation potential of internet data centers[J]. Proceedings of the CSEE, 2019, 39(5): 1301-1313. (in Chinese)
[17]
王晴, 刘友波, 黄杨, 等. 考虑数据中心需求响应的城市电网阻塞管理[J]. 电网技术, 2020, 44(8): 3129-3138.
WANG Q, LIU Y B, HUANG Y, et al. Congestion management of urban power grid considering demand response of data center[J]. Power System Technology, 2020, 44(8): 3129-3138. (in Chinese)
[18]
高赐威, 吴刚, 陈宋宋. 考虑地理分散的数据中心服务器频率调节的电网降损模型[J]. 中国电机工程学报, 2019, 39(6): 1673-1681.
GAO C W, WU G, CHEN S S. A model aimed at reducing power net loss considering frequency scaling of servers in geo-distributed data centers[J]. Proceedings of the CSEE, 2019, 39(6): 1673-1681. (in Chinese)
[19]
YU L, JIANG T, ZOU Y L. Distributed online energy management for data centers and electric vehicles in smart grid[J]. IEEE Internet of Things Journal, 2016, 3(6): 1373-1384. DOI:10.1109/JIOT.2016.2602846
[20]
杨挺, 姜含, 侯昱丞, 等. 基于计算负荷时-空双维迁移的互联多数据中心碳中和调控方法研究[J]. 中国电机工程学报, 2022, 42(1): 164-177.
YANG T, JIANG H, HOU Y C, et al. Study on carbon neutrality regulation method of interconnected multi-datacenter based on spatio-temporal dual-dimensional computing load migration[J]. Proceedings of the CSEE, 2022, 42(1): 164-177. (in Chinese)
[21]
赵剑, 黄悦琛, 李海阳, 等. 垂直起降运载火箭返回轨迹不确定性优化[J]. 航空学报, 2021, 42(11): 524829.
ZHAO J, HUANG Y C, LI H Y, et al. Uncertainty optimization for return trajectory of vertical takeoff and vertical landing launch vehicle[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(11): 524829. (in Chinese)
[22]
黄少锋, 李慧, 李轶凡, 等. 换相序技术应用于稳定控制的条件及最优控制策略[J]. 电工技术学报, 2021, 36(11): 2245-2254.
HUANG S F, LI H, LI Y F, et al. The condition of phase sequence exchange technology applied to stability control and optimal control strateg[J]. Transactions of China Electrotechnical Society, 2021, 36(11): 2245-2254. (in Chinese)
[23]
李奇, 王晓锋, 孟翔, 等. 基于在线辨识和极小值原理的PEMFC混合动力系统综合能量管理方法[J]. 中国电机工程学报, 2020, 40(21): 6991-7001.
LI Q, WANG X F, MENG X, et al. Comprehensive energy management method of PEMFC hybrid power system based on online identification and minimal principle[J]. Proceedings of the CSEE, 2020, 40(21): 6991-7001. (in Chinese)
[24]
GOOGLE. Borg cluster workload traces[Z/OL]. (2021-10-22)[2022-03-11]. https://github.com/google/cluster-data.
[25]
ASMUS P. Data centers and advanced microgrids[R]. Boulder: Navigant Consulting, 2017.
[26]
LU X J, KONG F X, LIU X, et al. Bulk savings for bulk transfers: Minimizing the energy-cost for geo-distributed data centers[J]. IEEE Transactions on Cloud Computing, 2020, 8(1): 73-85.
[27]
CHEUNG H, WANG S W, ZHUANG C Q, et al. A simplified power consumption model of information technology (IT) equipment in data centers for energy system real-time dynamic simulation[J]. Applied Energy, 2018, 222: 329-342.
[28]
DAYARATHNA M, WEN Y G, FAN R. Data center energy consumption modeling: A survey[J]. IEEE Communications Surveys & Tutorials, 2016, 118(1): 732-794.
[29]
KHOSRAVI A, ANDREW L L H, BUYYA R. Dynamic VM placement method for minimizing energy and carbon cost in geographically distributed cloud data centers[J]. IEEE Transactions on Sustainable Computing, 2017, 2(2): 183-196.
[30]
LIU Z H, LIN M H, WIERMAN A, et al. Greening geographical load balancing[J]. IEEE/ACM Transactions on Networking, 2015, 23(2): 657-671.
[31]
CHEN L X, ZHOU S, XU J. Computation peer offloading for energy-constrained mobile edge computing in small-cell networks[J]. IEEE/ACM Transactions on Networking, 2018, 26(4): 1619-1632.
[32]
AHMAD F, VIJAYKUMAR T N. Joint optimization of idle and cooling power in data centers while maintaining response time[J]. ACM SIGPLAN Notices, 2010, 45(3): 243-256.
[33]
LIU N, YU X H, WANG C, et al. Energy-sharing model with price-based demand response for microgrids of peer-to-peer prosumers[J]. IEEE Transactions on Power Systems, 2017, 32(5): 3569-3583.
[34]
LEWIS F L, VRABIE D L, SYRMOS V L. Optimal control[M]. 3rd ed. Hoboken: John Wiley & Sons, 2012.
[35]
BEAL L D R, HILL D C, MARTIN R A, et al. GEKKO optimization suite[J]. Processes, 2018, 6(8): 106.
[36]
武昭原, 周明, 王剑晓, 等. 双碳目标下提升电力系统灵活性的市场机制综述[J/OL]. 中国电机工程学报. [2022-03-11]. https://doi.org/10.13334/j.0258-8013.pcsee.212117.
WU Z Y, ZHOU M, WANG J X, et al. Review on market mechanism to enhance the flexibility of power system under the dual-carbon target[J/OL]. Proceedings of the CSEE. [2022-03-11]. https://doi.org/10.13334/j.0258-8013.pcsee.212117. (in Chinese)
[37]
吴云芸, 方家琨, 艾小猛, 等. 计及多种储能协调运行的数据中心实时能量管理[J]. 电力自动化设备, 2021, 41(10): 82-89.
WU Y Y, FANG J K, AI X M, et al. Real-time energy management of data center considering coordinated operation of multiple types of energy storage[J]. Electric Power Automation Equipment, 2021, 41(10): 82-89. (in Chinese)