Computer Science and Technology

Deployment mechanism for maximizing revenue from online service function chains in edge cloud environments

  • Guangyuan LIU , 1, 2, 3 ,
  • Shiying CHEN 1, 2, 3 ,
  • Ziyuan PANG 1, 2, 3
Expand
  • 1. School of Information Science and Technology, Shijiazhuang Tiedao University, Shijiazhuang, Hebei 050043, China
  • 2. Hebei Key Laboratory of Electromagnetic Environmental Effects and Information Processing, Shijiazhuang Tiedao University, Shijiazhuang 050043, China
  • 3. Shijiazhuang Tiedao University Shijiazhuang Key Laboratory of Artificial Intelligence, Shijiazhuang 050043, China

Received date: 2024-08-21

  Online published: 2025-07-24

Copyright

All rights reserved. Unauthorized reproduction is prohibited.

Abstract

Objective: The combination of service function chain (SFC) and edge cloud environments presents a promising technical architecture. Edge computing, being close to data sources, can quickly process data locally, while cloud computing provides robust computational power and storage capacity. Therefore, the integration of edge and cloud computing ensures the efficient execution of real-time tasks and sufficient computing support for large-scale data processing. This setup is applicable to a variety of complex scenarios. However, deploying SFC in the edge cloud environment presents several challenges. First, VNF instances in SFC requests from different users require computing and communication resources during deployment. Second, during SFC deployment, meeting the computing and communication requirements of the SFC requests is essential, along with ensuring that computing, communication and queuing delays—from arrival to processing—satisfy the SFC's end-to-end delay requirements. Finally, the resource capacity of edge devices is limited. Therefore, given capital expenditures and operating costs, it is crucial to balance resource capacity with latency requirements to ensure the revenue of network service providers. As SFC requests arrive dynamically, the edge cloud environment must make immediate, irreversible deployment decisions for these requests. Methods: We address the problem of maximizing revenue from the online deployment of SFCs in an edge cloud environment, subject to constraints on latency, computing resources, and communication resources (SDRM-EC). To solve this problem, an algorithm based on deep reinforcement learning, SDRM-EC-PRP, is designed. First, we comprehensively modeled the physical network, SFC request, and deployment cost. In particular, the deployment cost model incorporates market supply and demand principles, accurately assessing the costs of each request based on the real-time remaining computing power of devices and available communication resources of the links. This approach eliminates device heterogeneity and helps evaluate whether the request is worth accepting. Subsequently, we formulated a Markov decision process for these models and integrated them with the dueling double deep Q-network (D3QN) algorithm to manage large-scale and complex decision processes. To optimize learning efficiency and improve sample utilization, we introduced a priority experience replay mechanism based on D3QN. Additionally, to achieve faster convergence, better stability, and enhanced adaptability to complex environments, we incorporated the random network distillation technique. Results: Simulation experiments were conducted with varying combinations of device size and SFC request quantity. The results demonstrated that, compared with the optimal offline solution, two deep reinforcement learning algorithms and one heuristic algorithm, the SDRM-EC-DPR algorithm, achieved a total revenue increase of 8.82%-18.95% and a reduction in SFC end-to-end latency by 12.5%-38.8%. Furthermore, the SDRM-EC-DPR algorithm showed significant advantages in improving the request acceptance rate, optimizing runtime, and enhancing load balancing. Conclusions: The SDRM-EC-DPR algorithm is highly effective in addressing the SDRM-EC problem, and this study demonstrates its practical value in efficiently deploying SFCs in complex edge cloud environments. This algorithm offers a practical and feasible solution for deploying service function chains in the current edge cloud landscape.

Cite this article

Guangyuan LIU , Shiying CHEN , Ziyuan PANG . Deployment mechanism for maximizing revenue from online service function chains in edge cloud environments[J]. Journal of Tsinghua University(Science and Technology), 2025 , 65(8) : 1516 -1529 . DOI: 10.16511/j.cnki.qhdxxb.2025.27.015

边缘云环境是一种将计算、存储和网络资源从传统的云数据中心向网络边缘靠近的架构,旨在满足快速增长的数据流量和延迟敏感的应用需求,为用户提供更低延迟、更高带宽和更好的数据隐私保护。尽管云计算可以降低成本、提高性能且具有高资源容量,适用于大数据分析[1]、企业资源规划[2]和视频流媒体服务[3]等领域,但由于云服务器距离用户较远,存在延迟和可靠性等问题;另一方面,虽然边缘计算距离用户较近,可以提供较低的延迟,适用于智能家居[4]、智能安防[5]和分布式能源管理[6]等领域,但资源有限,无法满足大体量用户同时使用。边缘云环境通过统一的资源调度,整合了边缘计算和云计算的优势,可同时提供低延迟的计算服务和强大的计算能力,被应用于物联网[7]、智能互联汽车和智能交通系统[8]、医疗保健[9]等需要快速、实时、可靠的数据处理和决策的领域。
边缘云环境对边缘计算和云计算的集成不可避免地需要克服网络异构性,此外,也需要许多专用物理设备来实现硬件编排,而升级或扩展这些专用物理设备组成的中间盒,会给网络服务提供商带来极大的资本支出和运营支出。面对网络功能设备运维开销增大和管理难度提高的问题,网络功能虚拟化(network function virtualization,NFV)成为创新技术之一,NFV将网络功能与硬件设备分离[10],结合基于通用商业服务器的网络功能配置与管理,有效减轻了企业在网络设备管理和维护方面的负担,提供了一种灵活的网络服务配置方式。在NFV的架构下,不同的虚拟网络功能(virtual network functions,VNFs)按照特定的次序形成一条服务功能链(service function chain,SFC),每条SFC代表着一个源自终端用户的请求[11],这种链式连接使得网络能够以有序的方式处理和转发数据流,实现精准的网络功能服务。
SFC和边缘云环境的结合是一种发展前景优异的技术架构,尤其在智能交通系统(intelligent transportation systems,ITS)中,ITS包含大量的车辆、交通基础设施以及各类传感器,这些设备会产生海量的实时数据。边缘计算靠近数据源,可以在本地对这些数据进行快速处理,云计算可以提供强大的计算能力和存储能力,而边缘云环境整合了边缘计算和云计算,既能实现实时的交通监控、车辆路径规划等功能,也能对大量数据进行深度分析以提高整个交通系统的运行效率和安全性。
尽管在边缘云环境中部署SFC具备优势,但也面临一些挑战。首先,边缘云环境主要由边缘层和云层组成,边缘层和云层均由该层的设备以及设备之间的链路组成,边缘层和云层之间的设备通过链路进行连接以保证互通,边缘云环境中的设备具有计算资源,设备间的链路具有通信带宽,来自不同用户的SFC请求中的VNF实例在部署时需要计算资源和通信资源,进行SFC部署时,不仅要满足SFC请求的计算量与通信需求,还需确保部署过程中产生的计算延迟、通信延迟以及SFC请求从到达至处理前的排队延迟,满足SFC的端到端延迟要求。此外,边缘设备资源容量有限,因此在考虑资本支出和运营成本的前提下,应考虑权衡资源容量和延迟需求以保证网络服务提供商的收益。最后,ITS中的数据流和处理需求是高度动态的,交通状况的瞬息万变导致SFC请求以不可预测的方式到达,这要求边缘云环境具备高度的灵活性和智能决策能力,能够根据当前剩余的计算能力和带宽状况,对新到达的SFC请求做出即刻且不可逆的部署决策,以确保交通管理服务的连续性和高效性,同时避免资源过载或服务中断。已有研究中SFC部署于单层[12-37]或多层网络中[38-45],其中目标为收益最大化的研究大多基于云计算单层网络[32-37],没有考虑边缘云环境中的收益和成本问题,并且没有同时考虑SFC请求的排队延迟、计算延迟和通信延迟[35-37]
本文所研究的是边缘云环境中的在线SFC部署收益最大化问题(online SFC deployment revenue maximization in edge and cloud environment,SDRM-EC),通过考虑边缘云环境中不同层计算设备的特征,研究了在线SFC部署、资源分配、延迟满足和收益最大化问题,为了更好地权衡资源容量和延迟需求、提高解决问题的效率以及在有限资源下做出最佳的VNF实例部署决策,提出了基于深度强化学习(deep reinforcement learning,DRL)的SFC部署算法SDRM-EC-DPR。该算法能优化边缘云资源分配,减少资源浪费,降低企业因资源利用不合理产生的成本,同时精准把控延迟,加快数据处理、缩短响应时间,提升用户满意度。

1 相关工作

1.1 边缘云环境

边缘云环境融合了边缘计算和云计算,与单一的云计算相比,可以将对延迟要求更高的网络服务部署在边缘层,但边缘层的计算资源有限,所以边缘云环境中资源和延迟的权衡问题正逐渐被关注。Ren等[46]研究了云计算和边缘计算的协作,提出了一个联合通信和计算资源分配问题,以最小化所有移动设备的加权和延迟。Park等[47]考虑了无线电接入网络的问题,研究了边缘云网络的计算和通信资源的联合优化。对于低延迟物联网程序,Al-Azad等[48]通过将任务处理移动至更靠近网络边缘用户的位置以实现低延迟,同时在进行资源分配时,将关于边缘设备的信息暴露给边缘节点的主管。

1.2 单层网络中的SFC部署

随着NFV的兴起,SFC部署成为研究热点,早期研究多采用整数线性规划(integer linear programming, ILP)解决优化问题。例如,在云计算中,Harutyunyan等[12]针对5G环境的低延迟SFC部署提出ILP模型及启发式算法;Gao等[13]关注了公共云中成本效益型VNF部署与调度;Yue等[14]通过吞吐量与延迟保障的启发式策略提升资源利用率;Wu等[15]结合SRv6优化端到端性能。在聚焦于边缘的研究中, Wang等[16]最大限度地减少网络延迟和数据传输费用;Zhang等[17]提出一种控制器配置方案,在最小化网络成本的同时确保即使在最不利的传播延迟条件下也能满足可靠性;Wang等[18]在保证低延迟的同时考虑网络负载变化和服务共享特点,以实现最小化资源使用。
然而,传统启发式方法面临灵活性不足、局部最优等问题。DRL因能灵活应对动态大规模问题而受到青睐。在研究云计算的工作中,Li等[19]提出深度Q网络(deep Q-network,DQN)引导的自适应部署策略,但动作空间受限;Wang等[20]通过DRL定位SFC部署,侧重容错而忽略VNF的具体位置;Gu等[21]借助深度确定性策略梯度(deep deterministic policy gradient,DDPG)增强调度能力,但基于的理想化假设限制了实际应用;Pei等[22]利用双深度Q网络(double deep Q-network,DDQN)求解VNF部署,同样依赖于流量预测;邱航等[23]的DQN方法虽关注资源消耗与时延约束,但未有效约束动作空间,影响算法训练效率。在研究边缘计算的工作中,Khoshkholghi等[24]利用分布式DRL实现边缘环境负载均衡;Lü等[25]采用D3QN的联合调度策略,旨在增加服务商收益并优化边缘计算资源利用;Chai等[26]面对卫星通信资源紧缺,设计了联合多任务方案以提升卫星物联网的承载效率;Li等[27]通过并行服务加速在线服务计算,缩短SFC处理时间和延迟,增强资源利用率;Sun等[28]聚焦实时图任务调度,利用迭代算法减小有向无环图宽度并满足截止时间;Tang等[29]建立了双时间尺度框架模型,用于卫星边缘计算网络的服务部署和任务调度,确保计算性能与服务质量(quality of service,QoS);Yu等[30]综合优化了服务延迟、部署成本和请求接受率,以达到多样化的QoS需求;Guo等[31]通过SFC请求并行处理和VNF独立激活,减少SFC长度,实现计算加速。

1.3 多层网络中的SFC部署

以上研究是在单层网络中部署SFC,也有一些SFC被部署于多层网络中。Son[38]、Martín-Pérezd等[39]引入云资源到模型中进行补充,仅在边缘资源耗尽时使用远程云;Yang等[40]优化了跨边缘与公有云的VNF部署及流量路由,侧重降低链路负载和满足延迟需求,但未充分考虑资源成本;Ma等[41]针对未来请求,开发了在线算法以最大化移动边缘云网络吞吐量;Xu等[42]解决了多层云网络中物联网应用的部署问题,通过ILP模型与启发式算法追求吞吐量最大化;Li等[43]以SFC部署成本最小化为目标,提出资源感知部署算法;Mao等[44]的DCNF算法平衡了边缘与云资源及延迟,优化成本。此外,Siasi等[45]针对边缘-雾-云架构,设计了延迟敏感的SFC供应方案,采用贪婪启发式算法实现多种优化目标。

1.4 收益最大化的SFC部署

在目标为收益最大化的研究中,Zhai等[32]提出了收入成本比最大化的混合整数线性规划模型和次优启发式算法;Xie等[33]研究了在动态场景中部署SFC的问题,即一个具有时变服务流大小和VNF排序的问题,旨在提升电信服务商收入;Alghayadh F等[34]优化了5G云无线接入网络中的SFC部署,为各种SFC部署场景实施了差异化定价机制,以上使用的都是启发式算法,效率虽然较高,但在精度和满足动态需求上还需做进一步改进。在基于强化学习的算法中,Pan等[35]通过图卷积网络表示网络状态,并结合时间差分实现SFC的在线部署,但是并没有考虑延迟;Fan等[36]结合图卷积网络学习网络状态的综合表示,通过为SFC请求动态生成部署解决方案的时间差异来最大化长期平均收入,但未考虑SFC请求的延迟;Wang等[37]通过结合提取物理网络特征的图卷积网络和捕获SFC请求的有序信息以生成部署策略的序列模型以最大化长期平均收入,但是没有考虑链路上的延迟。
本研究考虑的是由边缘计算和云计算组成的新型计算网络边缘云环境中的收益最大化问题。不同于仅考虑单层网络中的收益[32-37],边缘云环境拥有不同层次和属性的计算设备,可以更精准地满足SFC的需求。此外,本研究为每一层计算设备设计了统一的成本模型以消除边缘云环境的异构性。在考虑SFC请求时,不同于仅考虑计算延迟或链路延迟[35-37],本研究综合考虑了排队延迟、计算延迟和通信延迟。最后,基于边缘云环境的动态性,本研究对模型构建了MDP,并基于大规模且复杂的环境状态提出了基于深度强化学习的算法SDRM-EC-DPR。

2 网络模型和问题定义

2.1 网络架构

边缘云环境的网络架构如图 1所示,由边缘设备层和云设备层组成。第一层为边缘设备,该层依靠边缘计算为用户提供近距离服务,边缘设备的特点是计算性能有限,带宽不足,但通信延迟最短。第二层为云设备,该层依赖云计算提供巨大的计算和通信资源,但由于与用户设备的距离和链路拥塞,难以提供令人满意的端到端延迟。

2.2 网络模型

定义无向图G={D, E}对边缘云网络架构进行建模,D={di}表示边缘云网络中可以部署VNF实例的计算设备集,大小为|D|。第i个设备di具备3个属性,由三元组{Ti, Ri, ri}表示,其中Ti∈{1, 2}表示第i个设备所在的层,Ti=1表示其在边缘设备层中,2表示在云设备层中;Ridi的总计算资源容量,ri为其剩余计算资源容量。E={ei, j}表示设备之间的链路集,ei, j表示第i个设备di和第j个设备dj之间的链路,ei, j的总链路带宽为Bi, j,剩余带宽容量为bi, j
假设存在来自用户的|R|个SFC请求,表示为R={rn},第n个请求rn由一个九元组{Fn, Ln, En, srcn, dstn, revn, γn, ki, ηn, k, li, j, ltn}构成。其中Fn={fn, 1, fn, 2, …, fn, k, …, fn, Ln}表示请求rn的SFC所需的VNFs序列,fn, k表示请求rn的第k个VNF。Ln表示请求的SFC的长度。En={en, k, l}表示请求rn的VNFs之间的链路集合,en, k, l表示相邻VNFs fn, kfn, l之间的链路。srcn和dstn分别表示rn的源和目的地处的用户设备。revn是服务提供商在成功部署rn时获得的收益,每个rn的收益都不同。γn, ki表示VNF fn, k在设备di上的计算延迟,与di所在层有关。ηn, k, li, j表示链路ei, j的通信延迟,与didj所在层有关。ltn表示rn的端到端延迟需求。VNFs fn, kfn, l之间所需的链路带宽为bn, k, lfn, k所需的计算资源为rn, k。请求自到达至处理前的排队延迟为waitn表 1为网络模型中的主要变量和对应含义。
表 1 主要变量和对应含义
变量 含义
di 计算设备,集合为D
rn SFC请求,集合为R
ei, j 设备之间的链路,集合为E
Fn 请求rn的VNFs的集合
En 请求rn的链路的集合,en, k, lEn
fn, k 请求rn中的第k个VNF,fn, kFn
Ln 请求rn中的VNFs的个数
srcn 请求rn的请求源
dstn 请求rn的目的地
ltn 请求rn的延迟要求
waitn 请求rn自到达至处理前的排队延迟
revn 服务提供商在成功部署rn时获得的收益
Ri 设备di的总计算资源容量
ri 设备di的剩余计算资源容量
rn, k VNF fn, k所需的计算资源
γn, ki VNF fn, k在设备di上的计算延迟
ηn, k, li, j 链路ei, j的通信延迟
Bi, j 链路ei, j的总链路带宽
bi, j 链路ei, j的剩余链路带宽
bn, k, l VNFs fn, kfn, l之间所需的链路带宽
ITS中一个由4个VNFs组成的SFC请求示例如图 2所示,4个VNFs分别为车联网、安全认证与加密、位置服务、交通信息处理与分发,该SFC请求需要部署在边缘云环境中,基于安全性和可靠性考虑,SFC中的VNFs不能部署在同一台设备上,而且,SFC中的第一个和最后一个VNF需要分别部署在离源用户设备和目的用户设备最近的一层。
图 2 SFC请求在边缘云网络中的部署实例

注:srcn为请求rn的请求源,dstn为请求rn的目的地,fn, 1rn的第1个VNF车联网,fn, 2rn的第2个VNF安全认证与加密,fn, 3rn的第3个VNF位置服务,fn, 4rn的第4个VNF交通信息处理与分发。

2.3 问题定义

本文的研究内容为边缘云环境中的在线SFC部署收益最大化问题(SDRM-EC)。给定一个边缘云环境G={D, E},计算设备集合D中的设备位于网络的每一层,相邻层或同一层的设备通过集合E中的链路连接起来,设备di和链路ei, j分别存在自己的容量。SFC请求的集合R需要被部署在边缘云环境中,请求为在线到达。每个请求为一个由多个VNFs组成的SFC,每个VNF有计算容量需求,相邻VNFs之间有带宽需求。每个SFC请求的应用响应延迟由该SFC请求的排队延迟、该SFC请求中所有VNFs部署在物理设备上的计算延迟和VNFs之间的链路在物理链路上传输的通信延迟组成,SFC请求的应用响应延迟不高于端到端延迟需求时才可以被部署。一旦SFC请求被接受,无论后续请求如何,该请求的部署都不能被撤销。综上,SDRM-EC问题是在满足SFC的延迟、计算能力和带宽容量需求的约束下,通过允许尽可能多的请求被接受来最大化网络G中的累积收益。

3 边缘云环境中收益最大化的在线服务功能链部署算法

3.1 问题建模

设备的计算能力和通信链路的带宽通常被视为SFC在提供服务时所消耗的资源。随着处理的请求越来越多,剩余的资源越来越少,较晚到达的高收入请求因为无法满足其资源需求而被丢弃,从而导致服务提供商的总收益减少。因此,本研究设计了一种决定是否接受请求的方法,而不是接受所有请求。SFC请求部署成本是很好的度量机制,但由于边缘云环境的异构性,实际成本难以标准化。因此,对于每个请求,根据市场机制的供需规律动态变化的虚拟成本消除设备异构性,并评估请求是否值得被接受。
根据市场供求规律[49],在供大于求的情况下,商品价格会下降,而在需求超过供给的情况下,商品总量有限,商品价格会上涨。受供求规律的启发,将请求视为需求端,计算和通信资源作为供给端,以此来设定计算和通信资源的成本。在实际网络环境中,计算资源和通信资源是有限的,如同商品受供求影响价格变化一样,计算和通信资源成本随供需变化,符合经济原理,与实际资源供需紧密相关;随着剩余资源减少、成本增加,服务提供商可依据成本函数评估请求,放弃消耗过多但收益有限的请求,合理分配资源,提高整体收益;此外,边缘云环境设备异构,成本函数依据实时供需动态调整,不以设备固定属性确定成本,能公平评估不同设备上请求部署成本,消除异构性。因此,引入了部署成本的概念,并设计了相应的成本函数,从而使部署成本随着网络环境剩余资源量的减少而逐渐增加,由此服务提供商可以放弃一些消耗资源过多但收益有限的请求。
在请求rn到达之前分别定义设备和链路上的相对负载如下:
$\lambda_n^p(i)=\frac{\sum\limits_{r_n \in R_n} y_n\left(\sum\limits_{f_{n, k} \in F_n} x_{n, k}^i r_{n, k}\right)}{R_i}, $
$\lambda_n^q(i, j)=\frac{\sum\limits_{r_n \in R_n} y_n\left(\sum\limits_{e_{n, k, l} \in E_n} z_{n, k, l}^{i, j} b_{n, k, l}\right)}{B_{i, j}}.$
其中: $X=\left\{x_{n, k}^i\right\}_{f_{n, k} \in F_n, d i \in D}, Y=\left\{y_n\right\}_{r_n \in R}、Z=$$\left\{z_{n, k, l}^{i, j}\right\}_{e_{n, k, l} \in E_n, e_{i, j} \in E}$为3个二元决策变量,yn=1表示请求rn被接受,否则被丢弃,同理,xn, kizn, k, li, j分别表示设备di是否部署fn, k和链路ei, j是否部署在链路en, k, l上。负荷越重,剩余资源越少,λnp(i)和λnq(i, j)值越大,根据供求规律,资源稀缺时,单位成本函数会增大。因此,将计算资源和通信资源的单位成本函数分别设置为
$\cos t_n^p(i)=R_i\left(\alpha^{\lambda^p{ }_n(i)}-1\right), $
$\cos t_n^q(i, j)=B_{i, j}\left(\beta^{\lambda^{q^n}{ }_n^{(i, j)}}-1\right).$
其中: αβ是调节因子,costnp(i)和costnq(i, j)分别表示在请求rn到达之前,设备di和链路ei, j上每单位的计算和通信部署成本。单位成本函数能够根据资源的实时剩余量动态地调整成本,此外,单位成本函数通过以剩余资源量为基础计算成本,公平评估不同设备和链路的成本,消除了设备间的异构性。
将在边缘云环境中部署SFC的收益定义为被部署请求的收益减去设备的计算部署成本和链路的通信部署成本,于是目标函数为
$\left\{\begin{array}{l}\max\limits _{X, Y, Z} \sum\limits_{r_n \in R} \operatorname{rev}_n y_n-\sum\limits_{r_n \in R}\sum\limits_{ f_{n, k} \in F_n}\sum\limits_{ d_i \in D} x_{n, k}^i \omega_{n, k}^p(i)- \\\quad \sum\limits_{r_n \in R e} \sum\limits_{_{i, j} \in E_e}\sum\limits_{_{n, k, l} \in E_n} {z_{n, k, l}^{i, j} \omega_{n, k, l}^q(i, j), } \\\omega_{n, k}^p(i)=r_{n, k} \cos t_n^p(i), \\\omega_{n, k, l}^q(i, j)=b_{n, k, l} \cos t_n^q(i, j) .\end{array}\right.$

3.2 约束条件

式(6)表示VNF fn, k最多可以部署在一个设备上。
$\sum\limits_{d_i \in D} x_{n, k}^i \leqslant 1, \forall f_{n, k} \in F_n .$
式(7)表示SFC中的VNFs不能部署在同一台设备上。
$\sum\limits_{f_{n, k} \in F_n} x_{n, k}^i \leqslant 1, \quad \forall d_i \in D .$
式(8)表示一旦请求rn被接受,该请求rn的SFC上的所有VNFs必须部署。
$\sum\limits_{f_{n, k} \in F_n} \sum\limits_{d_i \in D} x_{n, k}^i=L_n .$
式(9)表示VNF fn, k占用的计算资源在其部署的设备上不能超过其剩余容量。
$x_{n, k}^i r_{n, k} \leqslant r_i, \forall d_i \in D, f_{n, k} \in F_n .$
式(10)表示相邻VNFs fn, kfn, l之间占用的链路带宽不得超过已部署链路的剩余带宽。
$z_{n, k, l}^{i, j} b_{n, k, l} \leqslant b_{i, j}, \forall e_{i, j} \in E, \forall e_{n, k, l} \in E_n .$
式(11)和(12)分别表示决策变量XnZn的值只能为0或1。
$x_{n, k}^i \in\{0, 1\}, \forall d_i \in D, f_{n, k} \in F_n, $
$z_{n, k, l}^{i, j}=\{0, 1\}, \forall e_{i, j} \in E, \forall e_{n, k, l} \in E_n .$
式(13)表示请求rn的排队延迟、计算延迟和通信延迟的总和不能超过其延迟约束。
$\begin{gathered}\sum\limits_{f_{n, k} \in F_n}\sum\limits_{ d_i \in D} x_{n, k}^i \gamma_{n, k}^i+\sum\limits_{e_{i, j} \in E_e} \sum\limits_{_{n, k, l} \in E_n}z_{n, k, l}^{i, j} \eta_{n, k, l}^{i, j}+ \\\mathrm{wait}_n \leqslant \mathrm{lt}_n .\end{gathered}$

3.3 Markov决策过程建模

在边缘云环境中,SFC部署的状态通常由当前的资源分配情况、服务请求队列、已部署的SFC列表等组成,这些因素都是随时间动态变化且具有不确定性,而MDP通过定义状态集合来描述系统在任一时刻的所有可能状态,可以满足边缘云环境动态变化的特性。此外,在线部署SFC是一个持续进行的过程,智能体需要在每个决策时刻根据当前状态选择最佳的部署动作,MDP能够依据当前状态做出最优决策。于是将SDRM-EC问题转化为MDP模型,在MDP模型中每一条SFC相当于一个智能体,MDP模型的3个关键要素为状态、动作和奖励,在第t个时隙,智能体根据环境的当前状态st进行动作at,然后将该动作返回给环境以获得下一状态st+1和奖励rt,以获得该动作对环境的影响。
S表示状态集合,$s_t=\left\{C_t^E, C_t^C, B_t^E, B_t^C\right., N_t, S_t\}, s_t\in {S}$,边缘层和云层分别剩余的计算资源分别用$C_t^E=\left\{C_t^1, C_t^2, \cdots, C_t^{|E|}\right\}$和$C_t^C=\left\{C_t^1, C_t^2, \cdots, C_t^{|C|}\right\}$表示,$B_t^E=\left\{B_t^1, B_t^2, \cdots, B_t^{|E|}\right\}$和$B_t^C=\left\{B_t^1, B_t^2, \cdots, B_t^{|C|}\right\}$分别表示边缘层和云层剩余的带宽资源,Nt表示所有已到达但未被服务的服务功能链请求列表,St表示已经被服务的服务功能链请求列表。
A表示动作集合,$a_t=\left\{f_t, v_t, l_t\right\}, a_t \in A$,其中包括将要部署的服务功能链的标识符ft,在选定的SFC中将要部署的VNF的标识符vt,选择的服务功能链部署的位置$l_t, l_t \in\{0, 1\}, l_t=0$表示该VNF部署在边缘设备层,lt=1表示该VNF部署在云设备层。
R表示奖励函数,即执行动作会得到一定的奖励或惩罚。由于目标函数定义为最大化收益,因此奖励函数定义为式(14),若在状态st下执行动作at可以成功部署SFC,奖励会获得该SFC对应的收益,若不满足约束(见式(6)—(13)),即部署失败,无法获得该SFC对应的收益。
$\begin{aligned}R= & \sum\limits_{r_n \in R} \operatorname{rev}_n y_n-\sum\limits_{r_n \in R}\sum\limits_{f_{n, k} \in F_n} \sum\limits_{ d_i \in D}x_{n, k}^i \omega_{n, k}^t(i)- \\& \sum\limits_{r_n \in R e}\sum\limits_{_{i, j} \in E_e} \sum\limits_{_{n, k, l}\in E_n}z_{n, k, l}^{i, j} \omega_{n, k, l}^t(i, j) .\end{aligned}$

3.4 SDRM-EC-DPR算法

环境和智能体构成了深度强化学习,为了最大化所得的奖励,智能体和环境进行交互以调整动作策略,在处理大规模的问题时与传统的启发式算法相比能够更有效地解决SFC部署问题。
在SDRM-EC中,边缘云环境的动态特性要求部署策略能快速适应网络状态、用户需求和服务类型的动态变化,同时优化即时性能与长期收益,平衡资源消耗和延迟需求。基于值的深度强化学习算法不仅具备良好的适应性和鲁棒性,能够迅速响应环境的动态变化,还通过学习价值函数来预测并最大化长期收益,此外,这类算法适用于SFC部署的离散动作空间,与基于策略的算法适合处理连续动作空间相比更适合解决SDRM-EC问题。在基于值的算法中,D3QN结合了Dueling DQN中将Q值分解为状态值(V值)和优势值(A值)的方法以及Double DQN中使用2个Q网络(在线网络和目标网络)分别进行动作选择和价值估计的策略,提高了价值估计的准确性,减少了过高的Q值估计,提高了算法的稳定性和收敛性,于是使用D3QN解决SDRM-EC问题。
而在使用D3QN实践时出现了以下问题:复杂边缘云环境中,智能体需要与环境进行大量交互才能学习到有效的部署策略,尤其在早期学习阶段,智能体需要多次尝试无效或次优的部署决策,才能逐渐收敛至较好的策略,导致效率低下;在动态变化的边缘云环境中,智能体需要探索新的部署策略,在可能的改进和利用已知的优秀策略以保证当前表现之间寻求平衡,而D3QN在大量重复经历相似状态时过早收敛,过拟合于已知的良好策略,忽视了对环境其他部分的探索,限制了策略的泛化能力。
D3QN在经验回放时随机地从回放缓冲区选择样本进行训练,导致一些重要的样本被频繁地遗忘或被重复利用。因此,本研究在D3QN中引入PER机制,PER机制通过对经验回放缓冲区中的样本赋予不同的优先级,使得在训练过程中更频繁地重访重要性较高的样本,提高了学习效率。D3QN中的探索通常通过ε-greedy策略来实现,这会造成探索不足或者过度探索,导致智能体陷入局部最优,所以在PER的基础上融入了RND技术,该技术使用一个随机网络和一个目标网络之间的差异作为奖励信号来鼓励智能体探索那些预测网络尚未充分理解的陌生状态,以此帮助智能体更好地平衡探索与利用,从而提高了算法的动态适应能力。
SDRM-EC-DPR算法框架如图 3所示,算法流程如图 4所示。训练时,智能体从当前状态st开始,使用ε-greedy策略结合在线Q网络选择动作at,ε-greedy策略如式(15)所示[50]
$\left\{\begin{array}{l}\varepsilon: \operatorname{random} a_t, \\1-\varepsilon: \arg \max _{a_t} Q\left(s_t, a_t ; \theta\right) .\end{array}\right.$
图 3 SDRM-EC-DPR算法框架
图 4 SDRM-EC-DPR算法流程图
执行该动作后得到一个样本(st, at, rt, st+1),其中:rt表示在状态st执行动作at获得的奖励, st+1表示st的下一个状态, θ表示在线Q网络中的参数。使用RND探测网络和固定目标网络根据式(16)计算RND探索奖励rRND
$r_{\mathrm{RND}}\left(s_t\right)=\left\|f\left(s_t\right)-g\left(s_t\right)\right\|_2^2 .$
其中:f(st)和g(st)分别为固定的目标网络和随机网络对状态st的内在特征预测值。
随后将带有RND探索奖励的样本存储到回放缓冲区中,PER机制根据第i个样本的时间差分误差(TDerror)对其赋予优先级p(i),二者的计算方式分别如式(17)和(18)所示。
$\begin{gathered}\mathrm{TD}_{\text {error }}=r_t+\varepsilon \cdot \max _{a_{t+1}} Q\left(s_{t+1}, a_{t+1} ; \theta\right)- \\Q\left(s_t, a_t ; \theta\right), \end{gathered}$
$p(i)=\left(\mathrm{TD}_{\text {error }}(i)\right)^\alpha .$
其中:ε和α为折扣因子。
根据式(19)计算样本的重要性采样权重,随后根据权重从回放缓冲区中采样一批样本来更新在线Q网络和目标值Q网络。
$\rho_i=\left(\frac{1}{N \cdot P(i)}\right)^\beta .$
其中:ρi为样本的重要性采样权重,N为样本批量大小,P(i)为样本i被采样的概率,β为折扣因子,控制着重要性采样权重的衰减速度。
对于采样的每一个样本,使用在线Q网络预测Q值(Q(st, at; θ))和最佳动作索引(arg maxat Q(st, at; θ)),在线Q网络对该动作进行评估得到目标Q值如式(20)所示。
$\begin{gathered}&Q_{\text {target }}=\lambda \cdot\left(\operatorname { m a x } _ { a _ { t + 1 } } Q \left(s_{t+1}, \operatorname{argmax}_{a_t} Q\left(s_{t+1}, \right.\right.\right.\\&~~~~~~~\left.\left.\left.a_t ; \theta\right) ; \theta^{-}\right)+\eta \cdot r_{\mathrm{RND}}\left(s_{t+1}\right)\right)+r_t .\end{gathered}$
其中:λη为折扣因子,θ表示目标值Q网络中的参数。
根据式(21)计算预测Q值与目标Q值之间的损失。
$L(\theta)=E\left[\left(Q_{\mathrm{target}}-Q\left(s_t, a_t ; \theta\right)\right)^2\right] .$
最后,通过反向传播利用损失函数的梯度更新在线Q网络的参数θ以最小化损失函数,损失梯度如式(22)所示,在训练过程中,在线Q网络要定期复制参数θ至目标值Q网络,使θ=θ-
$\frac{\partial L(\theta)}{\partial \theta}=E\left[Q_{\mathrm{target}} \cdot \frac{\partial Q\left(s_t, a_t ; \theta\right)}{\partial \theta}\right] .$

4 仿真结果与分析

4.1 实验配置

实验在i7-8750H CPU,8G内存,Windows10操作系统的计算机上运行,仿真基于Python 3.10.9平台、PyTorch 2.0.1机器学习库。为了评估本文提出的算法的实际性能,将SDRM-EC-DPR与利用数学规划求解器Lingo求得的离线最优解OPT、D3QN[50]、A3C+GCN[51]和Li等[43]提出的在线启发式算法Latency-First在总收益、请求接受率、平均端到端延迟、节点负载、链路负载和运行时间方面进行了比较。比较算法的详细内容如下:
1) A3C+GCN:GCN处理环境图结构,提取高级特征,供A3C算法使用,A3C多线程并行探索,独立更新共享全局参数。线程积累经验后提交梯度至全局网络,A3C据此更新参数,实现分布式学习。
2) Latency-First:该策略优先考虑低延迟需求,通过将VNF计算延迟折半转为通信延迟,构建候选链路集,并采用Dijkstra算法选取最小延迟路径,以形成最优SFC部署方案。
实验考虑一个包含边缘层设备和云层设备的边缘云环境。其中边缘层设备因其靠近用户端而处于网络架构的第一层,具有较多部署节点,计算资源相对受限,这导致其在处理VNFs时表现出较高的计算延迟;然而,得益于其地理位置的优势,这些设备能够实现较低的通信延迟。相比之下,处于网络架构第二层的云层设备,虽然相对于边缘层距离用户更远,却拥有更为丰富的计算资源储备,因此,在运行VNFs时可以实现极低的计算延迟,然而,由于物理距离的增加,云层设备与用户之间的通信延迟较高。在跨层传输的情况下,通信延迟将是通过层的通信延迟的累积。设备各层的参数如表 2所示,参考了现有研究[52-55],网络拓扑是随机生成的,层与层之间保证了一定程度的连通性。
表 2 边缘云环境仿真参数
参数 第一层边缘层 第二层云层
设备数量/个 17~73 3~27
计算资源容量/GHz 2~3 9~11
链路带宽容量/Mbps 100 10 000
VNF计算延迟/ms 100~300 5~10
VNF通信延迟/ms 5~20 50~200
在所述场景中,参考文[42, 45],SFC请求数为50~500条,SFC长度为3~7个VNFs,对于每个VNF实例,所需的计算资源在50 ~150 MHz,相邻的VNFs之间所需的带宽在20~50 Mbps,此外,每个SFC请求的收益在10~100元,每个SFC的端到端延迟要求在0.5~5.0 s。尽管这些请求是以随机方式到达系统,但算法会按照请求到达的顺序逐一对其进行处理。

4.2 学习率设置

为验证SDRM-EC-DPR的收敛性并比较不同学习率lr对收敛效果的影响,采取损失loss值作为评价指标比较算法在不同学习率下的收敛过程,根据文[56],结合SDRM-EC-DPR算法本身的复杂结构与数据处理逻辑,考虑到多次自主对照实验均表明,当学习率设置在0.000 5~0.002时,算法的训练结果较好,因此设置学习率为0.000 5~ 0.002进行实验,结果如图 5所示。由图可知,当学习率为0.000 5时,由于更新步长较小,模型需要更多的迭代次数才能接近最优解,因此收敛进程较为迟缓,延长了收敛时间;随后,调整学习率至0.002以加快收敛速度,但会导致收敛效果不佳,因为较大的学习率使模型在更新过程中跳过一些重要的局部最优解,从而无法达到更好的全局最优解;最后,调整学习率为0.001,在保证算法快速收敛的同时,使模型能够更好地学习到数据中的模式,从而提高算法的性能。因此,本文将学习率设置为0.001,以此优化模型的训练效率与效果。
图 5 不同学习率下的收敛过程

4.3 对比结果

4.3.1 评价指标

为衡量SDRM-EC-DPR的有效性,本文基于以下6个指标对算法进行了评价。
1) 总收益。
总收益定义为被部署请求的收益减去设备的计算部署成本和链路的通信部署成本。
$\begin{aligned}\mathrm{REV}= & \sum\limits_{r_n \in R} \operatorname{rev}_n y_n-\sum\limits_{r_n \in R}\sum\limits_{f_{n, k} \in F_n} \sum\limits_{ d_i \in D}x_{n, k}^i \omega_{n, k}^p(i)- \\& \sum\limits_{r_n \in R e}\sum\limits_{_{i, j} \in E_e} \sum\limits_{_{n, k, l}\in E_n}z_{n, k, l}^{i, j} \omega_{n, k, l}^q(i, j) .\end{aligned}$
其中:$\sum\limits_{r_n \in R} \operatorname{rev}_n y_n$表示被部署请求的收益,$\sum\limits_{r_n \in R}\sum\limits_{ f_{n, k} \in F_n}\sum\limits_{ d_i \in D} x_{n, k}^i \omega_{n, k}^p(i)$表示设备的计算部署成本,$\sum\limits_{r_n \in R e} \sum\limits_{_{i, j} \in E e}\sum\limits_{_{n, k, l}\in {E_n}}z_{n, k, l}^{i, j} \omega_{n, k, l}^q(i, j)$表示链路的通信部署成本。
2) SFC请求接受率。
SFC请求接受率定义为部署成功的SFC的数量占总SFC请求数量的比重。
3) 运行时间。
运行时间定义为算法从一开始运行到结束时的运行时间,由于深度强化学习算法训练多轮,此处运行时间为训练一轮的时间。
4) 节点负载率。
边缘层及云层的节点负载率分别定义为部署在该层设备上的计算资源与该层总计算资源之比。
$\text { NodeLoad }=\frac{\sum\limits_{r_n \in R }\sum\limits_{ f_{n, k} \in F_n} \sum\limits_{d_i \in D} y_n x_{n, k}^i r_{n, k}}{\sum\limits_{d_i \in D} R_i} .$
其中:$\sum\limits_{r_n \in R} \sum\limits_{f_{n, k} \in F_n} \sum\limits_{d_i \in D} y_n x_{n, k}^i r_{n, k}$表示部署在该层的计算资源,$\sum\limits_{d_i \in D} R_i$表示该层的总计算资源。
5) 链路负载率。
边缘层及云层的链路负载率分别定义为部署在该层链路上的链路带宽与该层总链路带宽之比。
$\operatorname{LinkLoad}=\frac{\sum\limits_{r_n \in R_n} y_n\left(\sum\limits_{e_{n, k, l} \in E_n} z_{n, k, l}^{i, j} b_{n, k, l}\right)}{\sum\limits_{e_{i, j} \in E} B_{i, j}} .$
其中:$\sum\limits_{r_n \in R_n} y_n\left(\sum\limits_{e_{n, k, l} \in E_n} z_{n, k, l}^{i, j} b_{n, k, l}\right)$表示部署在该层的链路带宽,$\sum\limits_{e_{i, j} \in E} B_{i, j}$表示该层的总链路带宽。
6) 平均端到端延迟。
平均端到端延迟定义为所有部署成功的SFC请求的端到端延迟的平均值。

4.3.2 请求数量对算法的影响

固定设备总数为70个,其中边缘层配备40个,云层配备30个的条件下,SFC请求数量从50条逐步增至500条的过程中,OPT、SDRM-EC-DPR、D3QN、A3C+GCN和启发式算法Latency-First在总收益、SFC请求接受率、运行时间、节点负载率以及链路负载率方面的性能表现分别如图 6a-6e所示。由图可知,随着网络规模和请求数量的增加,最优解OPT由于底层可用资源变少,求解所需的时间指数级增加,无法满足在线SFC部署的时间需求,说明OPT无法满足大规模的部署场景,尽管如此,OPT有助于评估其他算法与最优解之间的差距。随着SFC请求数的增加,所有比较算法的总收益均呈现出递增的趋势,这主要是由于一开始供大于求,更多的SFC请求得以部署,从而相应地提升了整体收益水平,SFC请求接受率也相应上涨,此外,各算法的运行时间同样呈现上升趋势,这是由于处理的SFC请求数量增加所致,SDRM-EC-DPR的总收益和请求接受率最接近OPT,远远高于其他三种算法,当SFC请求数量到达300条时,OPT的请求接受率为100%,这说明此时供求平衡。SFC请求数量大于300条时,逐渐供小于求,SFC请求不会全部被部署,因此SFC请求接受率逐渐减小,但总收益还在慢慢增加,这是由于算法选择部署的SFC的收益不同。
图 6 请求数量对算法的影响
SDRM-EC-DPR的平均总收益比D3QN提高了8.82%,SFC请求接受率提高了3.33%,且平均运行时间缩短了36.3%,这是由于SDRM-EC-DPR进一步引入了PER机制和RND技术,有效提升了算法效率,避免了探索不足或过度的问题,从而使总收益和运行时间都优于基础的D3QN算法。SDRM-EC-DPR的平均总收益相较于A3C+GCN提高了12.62%,SFC请求接受率提高了5.31%,平均运行时间缩短了56.31%,这是因为A3C中的基础经验回放机制相对简单,无法像PER那样有针对性地强化重要样本的学习,虽然GCN能捕捉图结构信息,但在复杂环境中的探索效率不如RND,于是收益较少,A3C的异步并行特性虽然能加速学习,但涉及多线程协调和参数同步,增加了系统的复杂性和通信开销,再加上GCN的计算需求,整体上在边缘云环境中占用更多资源,导致运行时间较长。相较于Latency-First,SDRM-EC-DPR的平均运行时间是Latency-First的1.45倍,但平均总收益提高了19.85%,SFC请求接受率提高了8.07%,SDRM-EC-DPR虽然运行时间长,但也在秒级内,符合在线部署的要求,这是由于SDRM-EC-DPR通过与环境的交互学习逐步优化策略,其决策过程涉及多个步骤,计算复杂度高,虽然增加了运行时间,但也使得算法能够适应环境变化,动态调整策略,实现长期收益最大化,Latency-First算法是启发式方法,决策过程相对固定且计算简单,这种设计使得算法能够快速响应请求,实现较低的运行时间,但缺乏对复杂环境变化的灵活适应能力。
随着SFC请求数量的增加,所有算法对应的节点负载率和链路负载率也随之上升,这是由于部署的SFC数量增加,对计算资源和链路资源的需求同步加大。其中Latency-First的负载率始终最低,这是因为Latency-First处理单个请求时,主要关注如何通过最优路径选择将延迟降至最低,它的决策更多聚焦于局部链路和节点,这种局部优化策略无法充分利用所有资源以实现全局最优,而其他三种深度强化学习算法具备全局优化视野,可以基于整个边缘云环境的状态做出决策,有可能会牺牲部分节点或链路的短期负载均衡以换取整体收益的最大化。从图中可以看出SDRM-EC-DPR的方框小于其他算法,说明资源占用更均匀,体现了负载均衡,这是由于资源占用越高,成本越高,而SDRM-EC-DPR追求低成本高收益,因此算法会避开高成本的设备和链路。

4.3.3 设备数量对算法的影响

SFC请求数固定为300条时,5种算法在物理设备数在20~100个时的变化如图 7a-7e所示,每层的设备数量设置如表 2所示。
图 7 设备数量对算法的影响
图 7a7b可知,供小于求时,随着设备数量的增加,所有算法的总收益和SFC请求接受率均呈现稳步上升态势,主要原因是设备数量的扩充带来了更多的计算资源和链路资源,能够支持更大数量的SFC请求的部署,当设备数量增加到70个时,OPT请求接受率达到100%,收益也到达最大,此时供求平衡,所有请求已被有效处理,而随着设备数量的增加,供大于求,算法到达最大收益后不再增加。在这过程中,SDRM-EC-DPR相较于其他三种算法更早达到峰值,且请求接受率始终高于另外三种算法,再次说明该算法在收益方面的优越性。如图 7c所示,随着设备数量的增加,所有算法的运行时间也呈现出上升的走势,这是由于潜在部署方案的增多使算法所需计算时间相应增加,SDRM-EC-DPR的运行时间再次普遍低于D3QN和A3C+GCN,而高于Latency-First。如图 7d7e所示,随着设备数量的增加,由于可用的计算和链路资源愈发丰富,有利于更妥善地部署SFC请求,当计算资源和通信资源足够时,供大于求时,所有算法都能找到满足要求的部署方法,其中SDRM-EC-DPR的箱体除OPT外仍是最小,再次表明其在负载均衡方面的优势。

4.3.4 SFC请求的平均端到端延迟

在实验中,5种算法的平均端到端延迟如图 8所示,其中OPT表示最优解,其次为所提算法SDRM-EC-DPR,SDRM-EC-DPR分别比D3QN、A3C+GCN、Latency-First的平均端到端延迟降低了12.50%、28.12%和38.80%,说明SDRM-EC-DPR不仅可以实现更高的收益,而且可以实现更低的端到端延迟。
图 8 平均端到端延迟

5 结论

面对在复杂多变的边缘云环境部署服务功能链(service function chain,SFC)时遇到的挑战:边缘云环境中不同的设备和链路具有不同计算资源及链路带宽、在保证网络服务提供商的利润时进行资源容量和延迟要求的权衡、对SFC请求在线到达的及时响应,本文提出了基于深度强化学习的算法SDRM-EC-DPR,其目标在于最大化边缘云环境中的部署收益。首先,本文提出了要解决的问题边缘云环境中的在线SFC部署收益最大化问题(online SFC deployment revenue maximization in edge and cloud environment,SDRM-EC),并对物理网络模型、SFC请求模型和部署成本模型进行了全面建模,特别地,部署成本模型依据设备实时剩余计算能力和链路可用通信资源,精准衡量每个请求的部署成本,以消除设备之间的异构性。随后,针对边缘云的动态性对模型构建了Markov决策过程,为处理大规模的环境及复杂的状态提出了SDRM-EC-DPR算法,该算法融合了对决型双重深度Q网络、优先经验回放机制以及随机网络蒸馏技术,增强了部署决策的智能化程度与学习效率。最后,本文进行了不同请求数量和设备数量情况下的仿真实验,实验结果表明,SDRM-EC-DPR相比于其他算法在收益方面实现了显著增长,在SFC请求接受率、SFC端到端延迟、运行时间、节点及链路负载方面同样表现出色,证实了其在复杂边缘云环境中高效部署SFC的实用价值。
1
BERISHA B , MËZIU E , SHABANI I . Big data analytics in Cloud computing: An overview[J]. Journal of Cloud Computing, 2022, 11 (1): 24.

2
CARLSSON-WALL M , GORETZKI L , HOFSTEDT J , et al. Exploring the implications of cloud‐based enterprise resource planning systems for public sector management accountants[J]. Financial Accountability & Management, 2022, 38 (2): 177- 201.

3
LI X B , DARWICH M , SALEHI M A , et al. Chapter Four-A survey on cloud-based video streaming services[J]. Advances in Computers, 2021, 123, 193- 244.

4
SHARIF Z , JUNG L T , AYAZ M , et al. Smart home automation by internet-of-things edge computing platform[J]. International Journal of Advanced Computer Science and Applications, 2022, 13 (4): 474- 484.

5
NAIN G , PATTANAIK K K , SHARMA G K . Towards edge computing in intelligent manufacturing: Past, present and future[J]. Journal of Manufacturing Systems, 2022, 62, 588- 611.

6
MINH Q N , NGUYEN V H , QUY V K , et al. Edge computing for IoT-enabled smart grid: The future of energy[J]. Energies, 2022, 15 (17): 6140.

7
KRISTIANI E , YANG C T , HUANG C Y , et al. The implementation of a cloud-edge computing architecture using OpenStack and Kubernetes for air quality monitoring application[J]. Mobile Networks and Applications, 2021, 26 (3): 1070- 1092.

8
ARTHURS P , GILLAM L , KRAUSE P , et al. A taxonomy and survey of edge cloud computing for intelligent transportation systems and connected vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (7): 6206- 6221.

9
YANG Z M , LIANG B , JI W . An intelligent end-edge-cloud architecture for visual IoT-assisted healthcare systems[J]. IEEE Internet of Things Journal, 2021, 8 (23): 16779- 16786.

10
王进文, 张晓丽, 李琦, 等. 网络功能虚拟化技术研究进展[J]. 计算机学报, 2019, 42 (2): 415- 436.

WANG J W , ZHANG X L , LI Q , et al. Network function virtualization technology: A survey[J]. Chinese Journal of Computers, 2019, 42 (2): 415- 436.

11
MEDHAT A M , TALEB T , ELMANGOUSH A , et al. Service function chaining in next generation networks: State of the art and research challenges[J]. IEEE Communications Magazine, 2017, 55 (2): 216- 223.

12
HARUTYUNYAN D, SHAHRIAR N, BOUTABA R, et al. Latency-aware service function chain placement in 5G mobile networks[C]// 2019 IEEE Conference on Network Softwarization (NetSoft). Paris, France: IEEE, 2019: 133-141.

13
GAO T , LI X , WU Y , et al. Cost-efficient VNF placement and scheduling in public cloud networks[J]. IEEE Transactions on Communications, 2020, 68 (8): 4946- 4959.

14
YUE Y , CHENG B , WANG M , et al. Throughput optimization and delay guarantee VNF placement for mapping SFC requests in NFV-enabled networks[J]. IEEE Transactions on Network and Service Management, 2021, 18 (4): 4247- 4262.

15
WU Y T , ZHOU J H . Dynamic service function chaining orchestration in a multi-domain: a heuristic approach based on SRv6[J]. Sensors, 2021, 21 (19): 6563.

16
WANG P W , XU J , ZHOU M C , et al. Budget-constrained optimal deployment of redundant services in edge computing environment[J]. IEEE Internet of Things Journal, 2023, 10 (11): 9453- 9464.

17
ZHANG Q Z , LI C L , HUANG Y , et al. Effective multi-controller management and adaptive service deployment strategy in multi-access edge computing environment[J]. Ad Hoc Networks, 2023, 138, 103020.

18
WANG L L , DENG X H , GUI J S , et al. Microservice-oriented service placement for mobile edge computing in sustainable internet of vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24 (9): 10012- 10026.

19
LI G L , FENG B H , ZHOU H C , et al. Adaptive service function chaining mappings in 5G using deep Q-learning[J]. Computer Communications, 2020, 152, 305- 315.

20
WANG L , MAO W X , ZHAO J , et al. DDQP: A double deep Q-learning approach to online fault-tolerant SFC placement[J]. IEEE Transactions on Network and Service Management, 2021, 18 (1): 118- 132.

21
GU L , ZENG D Z , LI W , et al. Intelligent VNF orchestration and flow scheduling via model-assisted deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38 (2): 279- 291.

22
PEI J N , HONG P L , PAN M , et al. Optimal VNF placement via deep reinforcement learning in SDN/NFV- enabled networks[J]. IEEE Journal on Selected Areas in Communications, 2020, 38 (2): 263- 278.

23
邱航, 汤红波, 游伟. 基于深度Q网络的在线服务功能链部署方法[J]. 电子与信息学报, 2021, 43 (11): 3122- 3130.

QIU H , TANG H B , YOU W . Online service function chain deployment method based on deep Q network[J]. Journal of Electronics & Information Technology, 2021, 43 (11): 3122- 3130.

24
KHOSHKHOLGHI M A , MAHMOODI T . Edge intelligence for service function chain deployment in NFV- enabled networks[J]. Computer Networks, 2022, 219, 109451.

25
LÜ F, CAI X Y, WU F, et al. Dynamic pricing scheme for edge computing services: A two-layer reinforcement learning approach[C]// 2022 IEEE/ACM 30th International Symposium on Quality of Service (IWQoS). Oslo, Norway: IEEE, 2022: 1-10.

26
CHAI F R , ZHANG Q , YAO H P , et al. Joint multi-task offloading and resource allocation for mobile edge computing systems in satellite IoT[J]. IEEE Transactions on Vehicular Technology, 2023, 72 (6): 7783- 7795.

27
LI H P , KORDI M E . DSPPV: Dynamic service function chains placement with parallelized virtual network functions in mobile edge computing[J]. Internet of Things, 2023, 22, 100733.

28
SUN B Q , THEILE M , QIN Z Y , et al. Edge generation scheduling for DAG tasks using deep reinforcement learning[J]. IEEE Transactions on Computers, 2024, 73 (4): 1034- 1047.

29
TANG Q Q , XIE R C , FANG Z R , et al. Joint service deployment and task scheduling for satellite edge computing: a two-timescale hierarchical approach[J]. IEEE Journal on Selected Areas in Communications, 2024, 42 (5): 1063- 1079.

30
YU X , WANG R , HAO J , et al. Priority-aware deployment of autoscaling service function chains based on deep reinforcement learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2024, 10 (3): 1050- 1062.

31
GUO C J , REZAEIPANAH A . Dynamic service function chains placement based on parallelized requests in edge computing environment[J]. Transactions on Emerging Telecommunications Technologies, 2024, 35 (1): e4905.

32
ZHAI D , MENG X R , YU Z H , et al. Reliability-aware service function chain backup protection method[J]. IEEE Access, 2021, 9, 14660- 14676.

33
XIE Y H , WANG S , DAI Y Y . Revenue-maximizing virtualized network function chain placement in dynamic environment[J]. Future Generation Computer Systems, 2020, 108, 650- 661.

34
ALGHAYADH F Y , RAMESH J V N , QURAISHI A , et al. Ubiquitous learning models for 5G communication network utility maximization through utility-based service function chain deployment[J]. Computers in Human Behavior, 2024, 156, 108227.

35
PAN P, FAN Q L, WANG S, et al. GCN-TD: A learning-based approach for service function chain deployment on the fly[C]// GLOBECOM 2020-2020 IEEE Global Communications Conference. Taipei, China: IEEE, 2020: 1-6.

36
FAN Q L , PAN P , LI X H , et al. DRL-D: Revenue-aware online service function chain deployment via deep reinforcement learning[J]. IEEE Transactions on Network and Service Management, 2022, 19 (4): 4531- 4545.

37
WANG T F, FAN Q L, LI X H, et al. DRL-SFCP: Adaptive service function chains placement with deep reinforcement learning[C]// ICC 2021-IEEE International Conference on Communications. Montreal, QC, Canada: IEEE, 2021: 1-6.

38
SON J , BUYYA R . Latency-aware virtualized network function provisioning for distributed edge clouds[J]. Journal of Systems and Software, 2019, 152, 24- 31.

39
MARTÍN-PÉREZ J, MALANDRINO F, CHIASSERINI C F, et al. OKpi: All-KPI network slicing through efficient resource allocation[C]// IEEE INFOCOM 2020-IEEE Conference on Computer Communications. Toronto, ON, Canada: IEEE, 2020: 804-813.

40
YANG S , LI F , TRAJANOVSKI S , et al. Delay-aware virtual network function placement and routing in edge clouds[J]. IEEE Transactions on Mobile Computing, 2021, 20 (2): 445- 459.

41
MA Y , LIANG W F , WU J , et al. Throughput maximization of NFV-enabled multicasting in mobile edge cloud networks[J]. IEEE Transactions on Parallel and Distributed Systems, 2020, 31 (2): 393- 407.

42
XU Z C , ZHANG Z H , LIANG W F , et al. QoS-aware VNF placement and service chaining for IoT applications in multi-tier mobile edge networks[J]. ACM Transactions on Sensor Networks, 2020, 16 (3): 3387705.

43
LI H, LI X, QIAN Z Z, et al. Resource-aware service function chain deployment in cloud-edge environment[C]// IEEE INFOCOM 2021-IEEE Conference on Computer Communications Workshops (INFOCOM WKSHPS). Vancouver, BC, Canada: IEEE, 2021: 1-6.

44
MAO Y L, SHANG X J, YANG Y Y. Joint resource management and flow scheduling for SFC deployment in hybrid edge-and-cloud network[C]// IEEE INFOCOM 2022-IEEE Conference on Computer Communications. London, United Kingdom: IEEE, 2022: 170-179.

45
SIASI N , JAESIM A , GHANI N . Service function chain provisioning schemes for multi-layer fog networks[J]. IEEE Networking Letters, 2020, 2 (1): 38- 42.

46
REN J K , YU G D , HE Y H , et al. Collaborative cloud and edge computing for latency minimization[J]. IEEE Transactions on Vehicular Technology, 2019, 68 (5): 5031- 5044.

47
PARK S H , JEONG S , NA J , et al. Collaborative cloud and edge mobile computing in C-RAN systems with minimal end-to-end latency[J]. IEEE Transactions on Signal and Information Processing over Networks, 2021, 7, 259- 274.

48
AL-AZAD M W, SHANNIGRAHI S, STERGIOU N, et al. CLEDGE: A hybrid cloud-edge computing framework over information centric networking[C]//2021 IEEE 46th Conference on Local Computer Networks (LCN). Edmonton, Canada: IEEE, 2021: 589-596.

49
ZHOU R T , LI Z P , WU C , et al. An efficient cloud market mechanism for computing jobs with soft deadlines[J]. IEEE/ACM Transactions on Networking, 2017, 25 (2): 793- 805.

50
LIU Z W , SHU Z G , CHEN S W , et al. Low-latency virtual network function scheduling algorithm based on deep reinforcement learning[J]. Computer Networks, 2024, 246, 110418.

51
ZHONG Y H, ZHENG D Y, CAO X J. A DRL approach with network service deployment transformer for reliable SFC deployment[C]// ICC 2024-IEEE International Conference on Communications. Denver, CO, USA: IEEE, 2024: 177-182.

52
HU M , XIE Z X , WU D , et al. Heterogeneous edge offloading with incomplete information: A minority game approach[J]. IEEE Transactions on Parallel and Distributed Systems, 2020, 31 (9): 2139- 2154.

53
HUANG M T , LIANG W F , SHEN X J , et al. Reliability-aware virtualized network function services provisioning in mobile edge computing[J]. IEEE Transactions on Mobile Computing, 2020, 19 (11): 2699- 2713.

54
CHEN Y T, LIAO W. Mobility-aware service function chaining in 5G wireless networks with mobile edge computing[C]// ICC 2019-2019 IEEE International Conference on Communications (ICC). Shanghai, China: IEEE, 2019: 1-6.

55
LI J , LIANG W F , MA Y . Robust service provisioning with service function chain requirements in mobile edge computing[J]. IEEE Transactions on Network and Service Management, 2021, 18 (2): 2138- 2153.

56
QIN H S , MENG T , CHEN K , et al. A comparative study of DQN and D3QN for HVAC system optimization control[J]. Energy, 2024, 307, 132740.

Outlines

/