基于无监督学习的智能数据中心电力拓扑系统
贾鹏1, 王平辉1,2, 陈品安3, 陈奕超4, 何诚5, 刘炯宙3, 管晓宏1,2,6    
1. 西安交通大学 智能网络与网络安全教育部重点实验室, 西安 710049;
2. 西安交通大学 深圳研究院, 深圳 518057;
3. 阿里巴巴(中国)有限公司, 杭州 311100;
4. 上海交通大学 计算机科学与工程系, 上海 200240;
5. 上海鼎茂信息技术有限公司, 上海 200333;
6. 清华大学 自动化系, 智能与网络化系统研究中心, 北京 100084
摘要:在任务关键型云计算服务中,构建准确的数据中心电力拓扑结构对于实现快速准确的故障处理,减轻故障事件对云计算服务质量的损害十分重要。但目前数据中心电力拓扑结构的生成过程具有劳动密集型的特点,其准确性难以得到有效评估和保障。该文设计了一种基于无监督学习的智能数据中心电力拓扑系统(intelligent data center power topology system,IPTS),不仅可为电力系统的运行部分自动生成实时变化的电力拓扑结构,而且可利用电力系统的监控数据对人工构建的数据中心电力拓扑结构进行验证。实验结果表明,IPTS可自动生成准确的数据中心电力拓扑结构,一致性比率(CR)可达到0.978,并可有效地定位人工构建的电力拓扑结构中的大多数错误。
关键词数据中心    电力拓扑结构    自动生成与验证    无监督学习    
Unsupervised learning-based intelligent data center power topology system
JIA Peng1, WANG Pinghui1,2, CHEN Pin-an3, CHEN Yichao4, HE Cheng5, LIU Jiongzhou3, GUAN Xiaohong1,2,6    
1. Ministry of Education Key Laboratory for Intelligent Networks and Network Security, Xi'an Jiaotong University, Xi'an 710049, China;
2. Shenzhen Research Institute of Xi'an Jiaotong University, Shenzhen 518057, China;
3. Alibaba Group, Hangzhou 311100, China;
4. Shanghai Jiao Tong University, Shanghai 200240, China;
5. Shanghai Dingmao Information Technology Inc., Shanghai 200333, China;
6. Center for Intelligent and Networked System, Department of Automation, Tsinghua University, Beijing 100084, China
Abstract: Objective In mission-critical cloud computing services, large-scale data center (DC) stability is a key metric that must be guaranteed.However, because of uncertain commercial power supplies and complex power equipment operation processes, DC failure events are inevitable and impactful, affecting related servers and network devices.To mitigate the impact, accurate DC power topology must be obtained to achieve fast and precise failure handling and root-cause localization for mitigating the damage to service quality.Nevertheless, the current process of generating DC power topology is labor intensive, and its correctness cannot be efficiently evaluated and guaranteed. Methods To solve these issues, instead of using the erroneous power topology provided by the operator, this paper designs an intelligent DC power topology system (IPTS).IPTS based on an unsupervised learning framework that automatically generates power topology for the working part of a power system or uses the power system monitoring data to verify manually constructed DC power topology, which may change over time.The intuition behind IPTS is that two physically connected pieces of power equipment should have not only a similar trend but also a close magnitude in specific monitoring data, e.g., current and active power, because their power loads produced by downstream servers are closed.By defining the structure abstraction of the DC power system according to the domain knowledge of DC power system architectures, the DC power system can be divided into several hierarchical functional blocks.Then, two unsupervised structure learning algorithms, namely, the one-to-one (O2O) and one-to-multiple (O2M) structure learning algorithms, are separately developed to automatically recover the O2O and O2M connection types between all pieces of power equipment in a divide-and-conquer manner.Moreover, no methods or metrics can currently be used to verify enterprise DC power topology unless manually checking with high complexity in terms of multiple data sources and numerous connections.To better indicate the consistency of connections within any two pieces of power equipment, this paper further designs an evaluation metric called the consistency ratio (CR).The CR derives from a systematic evaluation process that compares the original enterprise DC power topology information with learning-based enterprise DC power-topology information produced by IPTS automatically and iteratively. Results The experimental results of two large-scale DCs show that IPTS automatically generates accurate DC power topology with a 10% improvement on average over existing state-of-the-art methods and effectively reveals most errors (including errors in the local system for operations) in manually constructed DC power topology with 0.990 precision.After performing corrections according to the verification results, CR values between the learned structure and modified DC power topology can be improved to 0.978 on average, which is 18%~113% higher than that of the original topology.Additionally, for the inconsistent cases that occurred while generating and verifying power topology, this paper gives comprehensive investigations. Conclusion IPTS is the first system that uses data analytics for DC power topology generation and verification and has been successfully deployed for 19 enterprise DCs and applied in real large-scale industrial practice.
Key words: data center    power topology    automatic generation and verification    unsupervised learning    

随着云计算平台用户和数据规模的不断增长,构建可靠的数据中心显得尤为重要,其稳定性是保障云计算平台可靠运行的关键。根据2016年Ponemon研究所的调查结果[1],全球代表性数据中心平均每年要经历大约95 min的停机时间,造成约2 409 991美元的经济损失。其中,由于电力系统故障导致的停机事件占以上停机时间的31%。由于商用电源和电力设备运行的不确定性,数据中心会不可避免地受到故障事件的干扰,而准确的数据中心电力拓扑结构可便于企业做出快速准确的根因定位和故障处理,减缓相关故障的影响。然而,构建准确的数据中心电力拓扑结构并非易事。由于人力和时间成本的限制,数据中心的管理人员既无法准确定位电力设备监控数据中的错误[2-5],也无法有效排除电网领域所使用的电力拓扑结构模型的错误。

电力拓扑结构的验证是电力能源管理领域的关键研究问题[6-8],目标在于识别任意给定的电力拓扑结构的连接问题。一方面,对电力系统拓扑结构的验证可通过估计系统状态的方式实现[9-11];另一方面,也可以将该验证问题转化为分类问题进行研究[4-5, 12-15]。现有绝大部分算法是基于相关性分析预测电力设备之间的连接关系。Luan等[16]使用智能电表报告的电压相关性预测相邻智能电表的上下游关系。Tang等[17]分析三相电压形态相似性来识别变压器与馈线之间的连接关系。Bolognani等[18]提出利用被测电压振幅之间的相关性来估计电网拓扑结构。以上算法主要侧重于对局部范围内电力设备的连接关系进行验证,在处理类似于企业数据中心电力系统这样复杂的电力系统时会产生巨大的误差,难以应用于大规模工业实践。

基于对数据中心运营商的实地调查,本文发现存在物理连接的电力设备所产生的监控数据不仅具有相似的数据量级,而且具有相似的变化趋势。

本文提出了一种基于无监督学习的智能数据中心电力拓扑系统(IPTS),利用电力设备的实时监控数据和数据中心架构的领域知识自动化地构建企业数据中心的电力拓扑结构。为了保证电力拓扑结构学习算法的有效性,本文根据数据中心电力系统架构的领域知识对数据中心电力设备进行建模,将数据中心电力系统划分为若干功能模块,并按照分治法的解决思路执行学习过程。通过对数据中心电力系统架构的抽象化定义,本文将电力设备的连接方式划分为一对一连接和一对多连接2种方式,并分别设计了无监督的连接关系学习算法自动生成以上两种连接方式。基于将初始的数据中心电力拓扑结构与IPTS生成的数据中心电力拓扑结构进行迭代比较的系统化评价过程,本文提出了一种评价指标——一致性比率(consistency ratio,CR),实现了对数据中心电力拓扑结构的自动验证,显著降低了现有算法的人力和时间成本。在2个真实的大规模数据中心数据集上验证了IPTS的性能。

1 算法介绍 1.1 数据中心电力拓扑结构的构建流程分析

为了更好地了解目前数据中心电力拓扑结构的生成算法以及可能产生错误的位置,对世界最大的数据中心运营商之一——阿里云开展了实地调研,并对企业数据中心电力拓扑结构的构建流程以及存在的缺陷进行了总结,如图 1所示。

图 1 企业数据中心电力拓扑结构的构建流程及缺陷

首先,总控中心会参考数据中心运营商提供的竣工图,人工构建每个数据中心子系统的电力拓扑结构。在此过程中,由人力参与构建的电力拓扑结构可能会包含错误,形成缺陷1。其次,数据中心运营商会向企业提供2方面的电力设备状态信息,包括定期提供的监控数据(如电流、电压等)以及在添加或者移除电力设备时提供的元数据(如设备ID、型号等)。延迟或者错误提供的电力设备状态信息会导致企业和数据中心运营商之间的信息不同步,形成缺陷2。再次,由于各数据中心子系统独立管理,因此缺少关于各个子系统如何连接的参考信息,形成缺陷3。最后,在此基础上,为了构建完整的企业数据中心电力拓扑结构,需要人工检查各个子系统之间的连接关系。而人工检查的过程需要大量的劳动成本,且难免会产生不少的错误,形成缺陷4。

1.2 数据中心电力系统建模

根据数据中心的布局信息(如数据中心的空间设计、建筑结构等),可将数据中心电力拓扑结构划分为若干设备单元。其中,每个设备单元由若干电力设备及设备之间的连接关系组成。通过对企业数据中心的实地调研,共发现13种不同的设备单元(使用单元类型Ⅰ—XIII表示)。所有设备单元包含14种典型的电力设备类型,以及2种电力设备的连接关系,包括一对一连接关系(O2O)和一对多连接关系(O2M),如图 2所示。图 2中的专业术语定义如表 1所示。

图 2 企业数据中心电力拓扑结构的4大类别

表 1 图 2中专用术语定义
术语 定义
LV 包含低压电力设备的区域
HV 包含高压电力设备的区域
SW-cab (10 kV) 接受商业用电的开关柜
SW-cab 开关柜
BT-cab 母线联络柜
UPS 不间断电源系统
HVDC 高压直流输电
AC/DC RPP 交/直流电源列头柜
AC/DC PDU 交/直流配电单元
transformer 变压器
rack 机柜
rack column 机柜组

本文将设备单元分为4大类(使用Cat.1—4表示)。其中,Cat.1中不同设备之间是一对一连接关系。在该类别所包含的设备单元中,由于很多上游设备会为其他非供电设备提供电力,因此上游设备的数量会大于或等于下游设备的数量。Cat.2中开关柜之间是一对多连接关系。Cat.3中开关柜与母线联络柜之间是分层连接关系,由一对一和一对多连接关系组合构成。Cat.2和3中的下游设备数量通常大于上游设备数量。此外,Cat.4中配电列头柜(RPP)与配电单元(PDU)之间是一对多连接关系。

对于Cat.1和Cat.2—3,本文分别提出了针对一对一连接关系和一对多连接关系的学习算法,可自动构建电力设备之间的连接关系。然而,由于Cat.4中所有设备单元所包含的电力设备数量要远大于Cat.2和3,所以直接将一对多连接关系学习算法应用于恢复该类别中的设备连接关系会导致较高的计算消耗。为解决这一问题,本文利用了额外的机柜信息(如机柜和机柜组的有功功率和电力损耗信息)对Cat.4中的设备连接关系进行简化,并将一对多连接关系的学习问题转化为以下2种更为简单的一对一连接关系的学习问题:1) PDU与机柜间的连接关系;2) RPP与机柜组之间的连接关系。其中,一个机柜组包含了数十个机柜。由于机柜和机柜组之间的连接关系是已知的,因此基于以上2种一对一的连接关系,可以很容易得到RPP与PDU之间的一对多连接关系。

1.3 一对一连接关系学习

一对一连接关系学习算法的目标在于利用监控数据挖掘从M个下游设备到N(NM)个上游设备的连接关系。基于电力系统的物理特性,本文观察到上游设备输出的监控数据与其连接的下游设备输入的监控数据不仅具有相似的数据量级,而且具有相似的变化趋势。本文使用dit表示任意下游设备i(i=1, 2, …, M)在时刻t(t=1, 2, …, T)输入的监控数据,T表示所有离散时刻的数量。同样地,本文使用ukt表示任意上游设备(k=1, 2, …, N)在时刻t输出的监控数据。对于下游设备i和上游设备k,本文使用如下3种方式来定义其产生的监控数据序列Di=(di1, di2, …, diT)和Uk=(uk1, uk2, …, ukT)的相关性指标sik

1) Euclid距离(Euclidean distance):定义sik=-ϕ(Di, Uk)。其中,ϕ(Di, Uk)为监控数据序列DiUk之间的Euclid距离。

2) Pearson相关系数(Pearson's correlation coefficient):定义sik=ρ(Di, Uk)。其中,ρ(Di, Uk)为DiUk之间的Pearson相关系数。

3) 带惩罚项的Pearson相关系数(Pearson with penalty):Pearson相关系数并没有考虑不同DiUk的数据量级差异。为解决这一问题,本文定义了函数δ(Di, Uk)对数据量级差异进行评价:

$ \delta\left(D_i, U_k\right)=\frac{\sum\limits_{t=1}^T\left|d_{i t}-u_{k t}\right|}{\sum\limits_{t=1}^T u_{k t}}. $ (1)

δ(Di, Uk)小于给定阈值p时,可认为DiUk没有数据量级差异。定义1(μ)为指示函数,在满足条件μ时取值为1;否则取值为0。在此基础上,本文定义了sik

$ s_{i k}=\rho\left(D_i, U_k\right)-1\left(\delta\left(D_i, U_k\right)>p\right) . $ (2)

其中-1(δ(Di, Uk)>p)为针对监控数据序列的数据量级差异δ(Di, Uk)所设置的惩罚项。

基于sik,可产生相关性矩阵S=(sik), 1≤iM, 1≤kN。为了决定单个下游设备i所连接的上游设备ki,可采用以下3种方法:

1) 直接匹配(direct matching,DM):为每个下游设备i连接相关性最高的上游设备ki*

$ k_i^*=\underset{k \in\{1, 2, \cdots, N\}}{\operatorname{argmax}} s_{i k}, \quad i=1, 2, \cdots, M . $ (3)

该方法可能会存在不同下游设备ii′与同一个上游设备具有相同的相似性数值的情况。为避免这一情况的发生,可在计算过程中采用其他2种方法。

2) 贪婪搜索(greedy searching,GS):首先使用直接匹配法选择上游设备k1*,然后按照如下公式对k2*kM*进行迭代求解:

$ k_i^*=\underset{k \in\{1, 2, \ldots, N\} \backslash\left\{k_1^*, k_2^*, \cdots, k_{i-1}^*\right\}}{\operatorname{argmax}} s_{i k}, \quad i=2, 3, \cdots, M . $ (4)

3) 匈牙利算法(Hungarian method,HUN)[19]:将所要解决的问题转换为基于限制条件k1k2≠…≠kM, k1, k2, …, kM∈{1, 2, …, M}的优化问题:

$ \left(k_1^*, k_2^*, \cdots, k_M^*\right)=\underset{k_1, k_2, \cdots, k_M}{\operatorname{argmax}} \sum\limits_{i=1}^M s_{i k_i} . $ (5)

该优化问题为任务分配问题(assignment problem),可将上下游设备所有可能的连接关系抽象为二分图表示,通过迭代的方式寻找上下游设备之间的增广路径,构建连接关系,从而保证所有构建的连接关系可产生最大的相关性指标。

1.4 一对多连接关系学习

一对多连接关系学习算法的目标在于利用监控数据挖掘N个上游设备与M个下游设备间的连接关系。本文使用Sk表示任意上游设备k连接的下游设备编号集合,并将该集合内所有设备的监控数据聚合为同一个监控数据序列D(Sk)=(d1(Sk), d2(Sk), …, dT(Sk))。其中,dt(Sk)被定义为

$ d_t\left(S_k\right)=\sum\limits_{i \in S_k} d_{i t}, \quad t=1, 2, \cdots, T. $ (6)

类似地,本文将所有上游设备k与下游设备i之间一对多连接关系的学习问题转换为组合优化问题$\underset{S_1, S_2, \cdots, s_N}{\operatorname{argmax}} \sum\limits_{k=1}^N \rho\left(D\left(S_k\right), U_k\right) $, 其限制条件为:1) S1, S2, …, SN中的任意2个集合不包含相同的下游设备;2) 每个ρ(D(Sk), Uk)均满足条件ρ(D(Sk), Uk) < q,其中q为预先设定的阈值。

为了求解以上优化问题,最直接的方法就是遍历所有可能的集合S1, S2, …, $ S_N \subseteq${1, 2, …, M}。这种方法的时间复杂度为O(MN),但在MN取值都很大时会造成极高的计算消耗。为了解决这一问题,本文采用了元启发算法对以上组合优化问题进行求解,包括遗传算法(genetic algorithm,GA)[20-21]和粒子群优化算法(particle swarm optimization algorithm,PSOA)[22-23]。在计算资源十分有限时,元启发算法可作为一种通用算法对组合优化问题进行快速求解,所需要的时间复杂度明显低于对所有组合进行搜索所需的时间复杂度[24-25]

1.5 系统集成

基于以上介绍的数据中心电力系统建模和连接关系学习算法,本文设计了IPTS,其处理过程如图 3所示。IPTS可将所有正在运行的电力设备分配到多个设备单元。对于每个包含一对一连接关系或一对多连接关系的设备单元,IPTS会利用相对应的连接关系学习算法生成企业数据中心电力拓扑结构。同时,企业的数据中心可利用学习结果开放接口,以便于为各个运营商提供友好且智能的电力拓扑结构验证、校对和生成服务。此外,当电力拓扑结构校对操作结束后,本文所提出验证流程可被部署在监控阶段,用于监控由于数据质量问题引起的电力设备故障。IPTS可提供两种功能:

图 3 IPTS数据处理过程

1) 拓扑结构生成:IPTS可将电力拓扑结构划分为若干设备单元。其中,单元类型Ⅰ—Ⅶ、Ⅻ和XIII仅仅包含了一对一连接关系,因此只需要使用一对一连接关系学习算法恢复这些设备单元所包含的连接关系。同样地,IPTS利用一对多连接关系学习算法对属于单元类型Ⅷ与Ⅸ的设备单元所包含的连接关系进行恢复。对于具有分层连接关系的单元类型X与XI,IPTS可将一对一连接关系学习算法与一对多连接关系学习算法进行组合,构建相关设备单元所包含的连接关系。

2) 拓扑结构验证:给定任意电力拓扑结构,IPTS可预测电力设备之间的连接关系。当学习预测得到的电力拓扑结构与给定的电力拓扑结构存在不一致的情况时,IPTS会将不一致情况汇报给对应的工程师做进一步的验证检查。

2 实验分析 2.1 实验设置

1) 数据集。

本文所使用的实验数据集是在2个大规模企业数据中心收集得到,共包含了5 000个电力设备(可被划分为13个类型)在4周内产生的监控数据。此外,用于电力拓扑结构学习的监控数据包含了每2.5 s采样得到的输入、输出电流和有功功率。由于现实的数据中心并没有正确的电力拓扑结构参考标准,因此本文按照一种迭代的方法对所设计系统的计算结果进行评估。具体而言,基于数据中心运营商人工构建的原始电力拓扑结构,本文首先利用IPTS得到自动生成的电力拓扑结构。由于人工构建的电力拓扑结构会包含很多错误,本文会向数据中心运营商汇报以上2个电力拓扑结构的差异,并辅助运营商对相应的拓扑结构进行验证与调整。在运营商更新完拓扑结构之后,本文会将该拓扑结构与IPTS学习得到的拓扑结构进行再次比较、验证与调整。

2) 评价指标。

本文提出了CR,并与准确率指标precision组合作为本文所用的评价指标。CR表示通过迭代更新过的电力拓扑结构与IPTS学习得到的电力拓扑结构包含的每一对上下游电力设备之间的连接关系的一致性。迭代更新后的电力拓扑结构中的上下游电力设备间的连接关系集合可表示为

$ P=\left\{\left(e_i^{\text {down }}, e_{k_i}^{\text {up }}\right): 1 \leqslant i \leqslant M, 1 \leqslant k_i \leqslant N\right\} . $ (7)

其中:ekiupeidown分别表示电力拓扑结构中的上、下游电力设备。同时,本文使用P′表示IPTS学习得到的电力拓扑结构。

$ \mathrm{CR}=\frac{\left|P \cap P^{\prime}\right|}{|P|}, $ (8)
$ \text { precision }=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}. $ (9)

其中:|PP′|代表IPTS正确学习到的电力设备连接关系总数,|P|代表所有电力设备连接关系总数,TP代表IPTS正确捕获的错误总数,FP代表IPTS产生的错误报告总数。

3) 对比算法。

本文将IPTS与Origin和Rand-Link两种学习算法进行比较。其中,Origin为人工构建电力拓扑结构的算法,所产生的电力拓扑结构目前正在被企业数据中心使用。Rand-Link则在保证连接关系总数固定的前提下,随机对上下游设备进行连接。

4) 参数设置。

参考行业专家的建议以及电力设备的物理特性,本文设置带惩罚项的Pearson相关系数的p和一对多连接关系学习算法的q分别为0.05和0.01,用于衡量不同监控数据之间的数据量级差异。

2.2 电力拓扑结构生成结果评估

为了评价本文所设计的一对一连接关系学习算法的性能,本文共使用了Ⅴ、Ⅵ、Ⅶ、Ⅻ和XIII 5种设备单元。表 2给出了不同一对一连接关系优化算法的CR。可以看出,带惩罚项的Pearson相关系数与GS的组合在绝大多数设备单元下具有最大的CR,在所有5种设备单元类型中都明显高于其他组合算法,且至少可达到0.943。这表明带惩罚项的Pearson相关系数可有效反映电力设备之间连接关系的物理特性,即任意具有一对一连接的电力设备所产生的监控数据具有相似的数据量级和变化趋势。同时,基于Euclid距离的优化算法的CR较小,特别是对于设备类型XII与XIII,其CR明显小于其他算法.这是由于单元类型XII与XIII所包含的配电单元虽然在有功功率方面具有相似的数据量级,但对应的数据变化趋势完全不同。此外,GS的CR整体略大于HUN的。

表 2 不同一对一连接关系优化算法的CR
优化算法 设备单元类型
XIII
Origin 0.940 0.932 0.763 0.923 0.918
Rand-Link 0.024 0.016 0.018 0.094 0.093
基于Euclid距离的DM 0.956 0.898 0.780 0.092 0.089
基于Pearson相关系数的DM 0.978 0.964 0.928 0.846 0.917
基于带惩罚项的Pearson相关系数的DM 0.978 0.967 0.948 0.848 0.916
基于Euclid距离的HUN 0.956 0.956 0.847 0.123 0.110
基于Pearson相关系数的HUN 0.978 0.971 0.962 0.850 0.956
基于带惩罚项的Pearson相关系数的HUN 0.978 0.966 0.964 0.850 0.955
基于Euclid距离的GS 0.956 0.925 0.784 0.078 0.069
基于Pearson相关系数的GS 0.978 0.971 0.968 0.942 0.958
基于带惩罚项的Pearson相关系数的GS 0.978 0.972 0.970 0.943 0.958

为了评价本文所提出的一对多连接关系学习算法的性能,使用了Ⅸ和Ⅺ类型的设备单元。表 3给出了不同一对多连接关系优化算法的CR。因为IPTS所使用的Pearson相关系数和带有惩罚项的Pearson相关系数在解决一对多连接关系学习问题上会产生相同的CR,因此表 3仅仅展示基于Pearson相关系数的GA和基于Pearson相关系数的PSOA的CR。考虑到元启发算法具有的随机性,本文将本组实验重复10次,并使用这些实验的均值评价不同算法的性能。可观察到GA和Pearson相关系数的组合具有最大的CR,可至少达到0.934,且明显大于其他算法。同时,基于Pearson相关系数的算法所得的CR大于基于Euclid距离的算法。相比PSOA算法,GA精度更高且性能更为稳定,其CR可达到0.900以上。此外,在对单元类型XI的连接关系进行预测时,PSOA难以产生可接受的实验结果。

表 3 不同一对多连接关系优化算法的CR
优化算法 设备单元类型
Origin 0.812 0.814
Rand-Link 0.480 0.247
基于Euclid距离的GA 0.931 0.924
基于Euclid距离PSOA 0.833 0.021
基于Pearson相关系数的GA 0.961 0.934
基于Pearson相关系数PSOA 0.780 0.216

基于一对一连接关系学习算法和一对多连接关系学习算法的实验结果,本文可分别得到这2种算法的最优实验设置。在此基础上,本文在2个企业数据中心数据集上使用CR对IPTS在所有设备单元上的性能进行评价,如图 4所示。可观察到IPTS在所有12种设备单元下(除单元类型X外)都取得了理想的实验效果,其CR平均可达到0.972。特别地,IPTS更适用于对高压区域的电力设备的连接关系进行预测,其CR在Ⅰ、Ⅱ与Ⅷ类型的设备单元下为1.000。这是由于位于高压区域的电力设备产生的错误比处于低压区域的电力设备更少,因此相似性估计结果更为准确。对于图 4中的不一致情况即CR小于1.000的实验结果,本文将在3.4节进行进一步的分析。

图 4 IPTS在所有设备单元下的CR

2.3 电力拓扑结构验证结果评估

由于现实的数据中心难以得到正确的电力拓扑结构参考标准,因此本文按照迭代的方式对所学习得到的电力拓扑结构进行验证。在持续4周的实验中,IPTS在2个企业数据中心数据集上共反映197个电力拓扑结构错误,其precision达到0.990。在所有反映的错误中,共有67个错误是由图 1中的缺陷1、3和4引起的,其余130个错误是由缺陷2引起的。以上实验结果反映了本文所设计的系统的有效性。

图 5展示了数据中心中3种不同类型的电力设备(单元类型Ⅴ、Ⅵ和Ⅷ)在4次迭代过程中的CR变化情况,可帮助更好地理解IPTS是如何提升电力拓扑结构准确性的。可观察到IPTS在第2周即可将Ⅴ、Ⅵ和Ⅶ类型电力设备的CR从0.762、0.851和0.449分别快速提升到1.000、1.000和0.940。在接下来的2周时间,运营商团队根据验证结果对电力拓扑结构做进一步的调整优化,第4周CR提升到1.000、1.000和0.955,相比第0周增长率分别达到31%、18%和113%。

图 5 实际部署过程中的CR和增长率

2.4 不一致情况分析

为进一步提升本文所设计的IPTS的性能,本文对实际部署过程中IPTS所发现的错误和所报告的不一致情况做了深入的分析,发现这些不一致情况主要是由2方面问题引起的,包括数据质量问题和难以区分的数据模式。本文在图 6展示了这2方面问题的具体实例。图 6a6c6e给出了由于数据质量问题导致的不一致情况,可观察到下游设备DC RPP与上游设备HVDC的功率监控数据极不相似。数据质量问题通常由数据收集系统产生,但根据数据中心运营商的经验,问题并不会持续太长时间。当监控数据被更新之后,企业与数据运营商之间存在的信息不同步问题会在很短的时间内得到解决。同时,其他导致数据质量问题的原因如电表中断、电涌和电磁干扰等,不仅持续时间较短,而且运营商会很快解决这些故障。因此,解决数据质量问题的一种可行方案就是定期执行学习任务,并将时间一致性考虑在内。例如,利用多数投票机制保障学习得到的电力拓扑结构在一段时间内是保持一致的。

图 6 IPTS产生的不一致性情况

图 6b6d6f给出了由于监控数据包含的难以区分的数据模式导致的不一致情况。下游设备AC RPP和上游设备LV SW-cab为多电源供电设备,本文选取了3个电流数据进行监测,分别表示为电流a、电流b和电流c。当有2台电力设备作为多电源供电或者具有相同的服务属性时,所产生的电流监控数据具有相似的变化趋势。这些难以区分的数据模式导致IPTS难以找到正确的上游设备。因此,解决这一问题的一种可行方案就是选取多个候选设备(如具有top-k相关性的设备)做进一步的验证得到最为合适的设备。

3 结论

本文设计了一种基于无监督学习的智能电力拓扑结构学习系统IPTS,可用于自动生成与验证电力拓扑结构。基于对数据中心运营商的实地调查,本文发现存在物理连接的电力设备所产生的监控数据具有相似的数据量级和变化趋势。在此基础上,将数据中心电力系统划分为若干功能模块,并按照分治法的解决思路执行学习过程。在2个真实数据集上的实验结果表明,IPTS可准确生成电力拓扑结构,且可有效反映人工构建的电力拓扑结构中的错误。

参考文献
[1]
PONEMON Institute. Cost of data center outages[R/OL]. (2016-01-19)[2022-11-06]. https://www.ponemon.org/research/ponemon-library/security/2016-cost-of-data-center-outages.html.
[2]
CHOI D H, XIE L. Impact of power system network topology errors on real-time locational marginal price[J]. Journal of Modern Power Systems and Clean Energy, 2017, 5(5): 797-809. DOI:10.1007/s40565-017-0280-5
[3]
KEZUNOVIC M. Monitoring of power system topology in real-time[C]//Proceedings of the 39th Annual Hawaii International Conference on System Sciences. Kauai, USA: IEEE, 2006: 244b.
[4]
LUKOMSKI R, WILKOSZ K. Power system topology verification using artificial neural networks: Maximum utilization of measurement data[C]//Proceedings of 2003 IEEE Bologna Power Tech Conference Proceedings. Bologna, Italy: IEEE, 2003: 7.
[5]
LUKOMSKI R, WILKOSZ K. Modeling of multi-agent system for power system topology verification with use of petri nets[C]//Proceedings of 2010 Modern Electric Power Systems. Wroclaw, Poland: IEEE, 2010: 1-6.
[6]
BAGOZI A, BIANCHINI D, DE ANTONELLIS V. Context-based resilience in cyber-physical production system[J]. Data Science and Engineering, 2021, 6(4): 434-454. DOI:10.1007/s41019-021-00172-2
[7]
CLEMENTS K A, DAVIS P W. Detection and identification of topology errors in electric power systems[J]. IEEE Transactions on Power Systems, 1988, 3(4): 1748-1753. DOI:10.1109/59.192991
[8]
LUKOMSKI R, WILKOSZ K. Method for power system topology verification with use of radial basis function networks[C]//Proceedings of the 9th International Work-Conference on Artificial Neural Networks Computational and Ambient Intelligence. San Sebastián, Spain: Springer, 2007: 862-869.
[9]
ABUR A, KIM H, CELIK M K. Identifying the unknown circuit breaker statuses in power networks[J]. IEEE Transactions on Power Systems, 1995, 10(4): 2029-2037. DOI:10.1109/59.476072
[10]
CLEMENTS K A, COSTA A S. Topology error identification using normalized Lagrange multipliers[J]. IEEE Transactions on Power Systems, 1998, 13(2): 347-353. DOI:10.1109/59.667350
[11]
COSTA I S, LEAO J A. Identification of topology errors in power system state estimation[J]. IEEE Transactions on Power Systems, 1993, 8(4): 1531-1538. DOI:10.1109/59.260956
[12]
BONANOMI P, GRAMBERG G. Power system data validation and state calculation by network search techniques[J]. IEEE Transactions on Power Apparatus and Systems, 1983.
[13]
DELIMAR M, PAVIC I, HEBEL Z. Artificial neural networks in power system topology recognition[C]//The IEEE Region 8 EUROCON 2003. Computer as a Tool. Ljubljana, Slovenia: IEEE, 2003: 287-291.
[14]
GARCIA-LAGOS F, JOYA G, MARÍN F J, et al. Modular power system topology assessment using Gaussian potential functions[J]. IEE Proceedings-Generation, Transmission and Distribution, 2003, 150(5): 635-640. DOI:10.1049/ip-gtd:20030738
[15]
SINGH N, GLAVITSCH H. Detection and identification of topological errors in online power system analysis[J]. IEEE Transactions on Power Systems, 1991, 6(1): 324-331. DOI:10.1109/59.131079
[16]
LUAN W P, PENG J, MARAS M, et al. Smart meter data analytics for distribution network connectivity verification[J]. IEEE Transactions on Smart Grid, 2015, 6(4): 1964-1971. DOI:10.1109/TSG.2015.2421304
[17]
TANG Z Y, ZHOU K P, CAO K, et al. Comparison of correlation analysis and MSD used in distribution network topology verification[C]//Proceedings of 2018 China International Conference on Electricity Distribution. Tianjin, China: IEEE, 2018: 1691-1694.
[18]
BOLOGNANI S, BOF N, MICHELOTTI D, et al. Identification of power distribution network topology via voltage correlation analysis[C]//Proceedings of the 52nd IEEE Conference on Decision and Control. Firenze, Italy: IEEE, 2013: 1659-1664.
[19]
JONKER R, VOLGENANT T. Improving the Hungarian assignment algorithm[J]. Operations Research Letters, 1986, 5(4): 171-175. DOI:10.1016/0167-6377(86)90073-8
[20]
MITCHELL M. An introduction to genetic algorithms[M]. Cambridge: MIT Press, 1998.
[21]
MVHLENBEIN H, GORGES-SCHLEUTER M, KRÄMER O. Evolution algorithms in combinatorial optimization[J]. Parallel Computing, 1988, 7(1): 65-85. DOI:10.1016/0167-8191(88)90098-1
[22]
CLERC M. Discrete particle swarm optimization, illustrated by the traveling salesman problem[M]//ONWUBOLU G C, BABU B V. New Optimization Techniques in Engineering. Berlin: Springer, 2004: 219-239.
[23]
KENNEDY J, EBERHART R. Particle swarm optimization[C]//Proceedings of 1995 International Conference on Neural Networks. Perth, Australia: IEEE, 1995. 1942-1948.
[24]
BIANCHI L, DORIGO M, GAMBARDELLA L M, et al. A survey on metaheuristics for stochastic combinatorial optimization[J]. Natural Computing, 2009, 8(2): 239-287. DOI:10.1007/s11047-008-9098-4
[25]
BLUM C, ROLI A. Metaheuristics in combinatorial optimization: Overview and conceptual comparison[J]. ACM Computing Surveys, 2003, 35(3): 268-308. DOI:10.1145/937503.937505