新质通信前沿技术

扩散模型赋能的生成式视觉语义通信

  • 秦海龙 1 ,
  • 戴金晟 , 1, * ,
  • 王思贤 1 ,
  • 姚圣时 1 ,
  • 牛凯 1 ,
  • 许文俊 2
展开
  • 1. 北京邮电大学 泛网无线通信教育部重点实验室,北京 100876
  • 2. 北京邮电大学 网络与交换技术全国重点实验室,北京 100876
戴金晟,副教授,E-mail:

秦海龙(2001—),男,硕士研究生

收稿日期: 2024-11-07

  网络出版日期: 2025-11-07

基金资助

国家重点研发计划项目(2024YFF0509700)

国家自然科学基金面上项目(62371063)

北京市自然科学基金-海淀原始创新联合基金项目(L232047)

版权

版权所有,未经授权,不得转载。

Diffusion model-empowered generative visual semantic communication

  • Hailong QIN 1 ,
  • Jincheng DAI , 1, * ,
  • Sixian WANG 1 ,
  • Shengshi YAO 1 ,
  • Kai NIU 1 ,
  • Wenjun XU 2
Expand
  • 1. Key Laboratory of Universal Wireless Communications, Ministry of Education, Beijing University of Posts and Telecommunications, Beijing 100876, China
  • 2. State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China

Received date: 2024-11-07

  Online published: 2025-11-07

Copyright

All rights reserved. Unauthorized reproduction is prohibited.

摘要

端到端语义通信通过深度学习模型提取数据的语义特征,实现了以意图为导向的通信过程,显著提升了传输效率。然而,现有的基于判别式模型的语义通信范式采用符号级率—失真优化,仅根据接收信号进行最大似然估计,难以满足用户的感知需求。为保障传输数据的视觉质量,生成式视觉语义通信范式应运而生,该范式采用率—失真—感知优化框架,通过最大后验估计实现数据传输与人类感知的对齐。扩散模型在可控视觉生成方面的优势促使其成为生成式视觉语义通信的重要工具。然而,现有研究缺乏对扩散模型赋能语义通信技术路径的系统梳理。为此,该文将通信过程建模为数学逆问题,阐述了扩散模型通过后验采样求解语义压缩与传输问题的一般方法论,表明了基于扩散模型的解码器能实现数据的高效压缩并在恶劣的信道环境下保持传输韧性,进而对扩散模型在生成式视觉语义通信领域的未来研究进行展望。

本文引用格式

秦海龙 , 戴金晟 , 王思贤 , 姚圣时 , 牛凯 , 许文俊 . 扩散模型赋能的生成式视觉语义通信[J]. 清华大学学报(自然科学版), 2025 , 65(11) : 2080 -2094 . DOI: 10.16511/j.cnki.qhdxxb.2025.27.046

Abstract

Significance: End-to-end semantic communication leverages deep learning models to extract semantic features from data, enabling intent-driven communication processes that significantly enhance transmission efficiency. However, existing semantic communication paradigms based on discriminative models employ symbol-level rate-distortion optimization and perform maximum likelihood estimation solely based on received signals, failing to satisfy the perceptual requirements of users. To ensure the visual quality of transmitted data, a generative visual semantic communication paradigm has emerged, which adopts a rate-distortion-perception optimization framework to achieve alignment between data transmission and human perception through maximum a posteriori estimation. Diffusion models are advantageous for controlling visual generation and have thus become essential tools for this generative paradigm. Nevertheless, systematic organization of the technical roadmaps for empowering semantic communication using diffusion models is lacking in current research. Progress: This study addresses this gap by modeling the communication process as a mathematical inverse problem and elucidating the general methodology by which diffusion models solve data compression and transmission challenges through posterior sampling. The fundamental concepts, mathematical formulations, and sampling strategies underpinning diffusion models are systematically introduced. In addition, the general methods and key technologies employed for diffusion model-enabled generative compression and transmission are comprehensively reviewed from an inverse problem-solving perspective. Moreover, the performance metrics commonly used for objective assessment of the visual quality of transmitted data are summarized to provide a comprehensive evaluation framework. The core methodology demonstrates that generalized communication processes can be effectively modeled as inverse problems. The approach involves inferring the source data distribution using maximum a posteriori estimation based on channel measurements and forward operators composed of various signal processing operations. Through diffusion posterior sampling, diffusion models solve these communication inverse problems via a three-step process: first, pre-training diffusion models from large-scale datasets are used to obtain diffusion priors; second, joint source-channel codecs are used to mitigate channel distortions in visual data transmission and construct proximal regularization terms; finally, measurement regularization terms are constructed based on channel measurements. By integrating these regularization terms for posterior estimation and distribution sampling, diffusion models can implicitly reconstruct source data through gradient descent, effectively overcoming transmission challenges caused by strong channel noise, nonlinear operators, and time-varying channel conditions. Conclusions and Prospects: The analysis reveals that compared to visual semantic communication approaches based on discriminative deep learning models, the generative visual semantic communication paradigm based on diffusion models can significantly improve transmission efficiency and resilience while ensuring perceptual quality and semantic consistency of visual information. This advancement represents a fundamental shift toward communication systems that prioritize human perceptual requirements alongside traditional distortion metrics. Open issues, including image realism modeling and acceleration of diffusion model sampling, are discussed. The report highlights the effectiveness of conditional diffusion models for enabling existing semantic communication architectures to recover sources at the receiver based on minimal tokens and highly degraded measurements, offering an intelligent and concise design philosophy for future generative visual semantic communication systems.

为克服传统通信系统传输效率受限的挑战[1],语义通信的概念应运而生[2-4],其以“智能”和“简约”为主要特点[5-6],借助人工智能技术提取、解析并利用传输信息的语义,实现以任务或意图为导向的通信过程,成为进一步提升通信系统传输效率、降低信道带宽、增强传输韧性、简化系统模块、减少设备能耗的新兴研究方向[7-11]
为了克服“信源信道分离设计”所导致的“悬崖效应”,基于信源信道联合编码的端到端“一体化”设计思路成为语义通信的主流选择[12]。随着深度神经网络(deep neural network, DNN)被应用于构建联合编解码器,以DeepJSCC为代表的研究工作[13]开辟了深度学习赋能信源信道联合编码传输的新思路。然而,这些工作本质仍然属于“判别式通信范式”,即通过最小化符号之间的均方误差来优化判别式深度学习模型的率—失真权衡,并未构成真正意义上的语义通信[14]。例如,面向视觉数据传输任务时,最小化重建样本与信源之间的“像素级”均方误差通常未必增强用户的感知体验,反而会产生质量瑕疵,例如过平滑纹理、局部模糊等。尽管保护了内容一致性,但过度保留了冗余信息,难以较好地满足虚拟现实(virtual reality, VR)、超高清在线直播等用户感知体验优先的高带宽流媒体数据传输业务的需求。
事实上,人类的视觉感知过程是分层次的[15],低层次的视觉内容对应高频率的纹理细节,高层次的视觉内容则对应低频率的结构布局。人类视觉系统遵循“层次自高向低、频率由低至高”的感知规律,视觉信息所反映的语义也随着上下文语境和时间的变化而改变[16],这体现了视觉语义的全局性和动态性,判别式地匹配符号在传输前后是否等同显然无法准确地描述语义。由此可见,判别式范式难以适配人类感知与语义理解的内在特性,亟须寻找新的范式实现经典通信向语义通信的平稳过渡。
目前学界尚未形成对于语义信息表征和度量的统一观点,针对信号失真至何种程度将会导致语义失真的问题尚未达成一致。为此,以NTSCC为代表的研究工作[17]提出在向率—失真优化中引入感知正则项,并基于非线性变换编码和深度生成建模自适应优化率—失真—感知权衡[18-19],显著改善了接收端重建图像的感知质量与语义一致性,启发了语义通信的范式转变[12],即由“判别式通信范式”转变为“生成式通信范式”,如图 1所示。
图 1 判别式语义通信范式向生成式语义通信范式转变示意图

注:x为输入数据,z为隐变量,$ \hat{\boldsymbol{x}}$为输出数据,n为加性信道噪声,$ \mathcal{H}^{*}$泛指通信过程中的信号处理操作集,$ \mathcal{E}_{\phi}$为编码器,$ \mathcal{D}_{\theta}$为解码器,$ \mathcal{G}_{\theta}$为基于条件扩散模型实现的生成式解码器,p(x)为原始数据分布,pθ(x)为扩散模型用以近似p(x)的分布。

生成式语义通信范式使用深度生成模型建模数据先验分布,隐式地提取信息的上下文语义。具体而言,判别式的符号匹配操作被生成式的分布对齐取而代之,最小化“像素级”均方误差的率—失真优化转变为综合度量“上下文”分布距离的率—失真—感知权衡。在此背景下,深度生成建模方法的选取直接影响到压缩传输性能。例如,NTSCC采用变分自编码器(variational autoencoder, VAE)[20]进行非线性概率建模,支持高效的变速率联合编码传输,但生成建模能力受限于模型结构,难以适应复杂的无线信道环境并重建高保真的图像。HiFiC[21]+LDPC传输方案使用生成对抗网络(generative adversarial network, GAN)[22]隐式建模信源概率分布,在率—失真—感知权衡优化的压缩编码框架下实现了高保真生成式通信,但GAN难以稳定训练,并且采用确定性解码的方式重建样本[14],其拟合分布和提取语义的能力有限。扩散模型被认为是目前拟合视觉数据分布能力最强的深度生成模型之一,将扩散模型应用于生成式视觉语义通信已成为研究趋势。
扩散模型赋能的生成式视觉语义通信的现有相关工作,按照研究思路不同,可分为2类:1) 训练或微调条件扩散模型,结合文本提示词等条件在接收端生成语义一致的样本。2) 将通信过程建模为逆问题,在接收端利用预训练扩散模型的采样过程恢复样本细节。
思路1的代表性工作有Gen-SC[23]和CDM-JSCC[24],前者预解析传输图像对应的注释(caption)作为携带语义信息的文本提示词,并将该提示词输入至接收端微调后的隐空间扩散模型(latent diffusion model, LDM)[25]以生成对齐信源语义的样本;后者使用经由联合编码器压缩后的有损图像引导源空间(像素空间)的条件扩散模型生成内容与信源相近的样本,间接传输了语义信息。然而,Gen-SC生成的图像内容相较于信源易产生较大偏差;CDM-JSCC存在条件扩散模型难以训练的问题,并且对恶劣的无线传输环境较为敏感,一旦联合编解码器未能正常工作,模型的重建结果将极端异常。上述问题产生的主要原因是该研究思路试图人为构造语义条件以控制扩散模型的生成过程,但由于条件构造不充分或模型性能不完备,很难适应动态变化的信道环境。
思路2紧密围绕通信的核心目标:在接收端尽可能高保真复现发送端选取的消息[1],将端到端通信过程建模为数学中的逆问题,以经由信道传输后的退化信号作为观测条件,并结合该观测条件使用预训练的扩散模型进行后验采样以求解该逆问题,从而最大限度地高保真恢复信源,确保收发两端传输内容的语义一致性。该研究思路面对动态变化的环境,无需重新训练条件生成模型,具备较强的适变能力和较好的应用前景,有效提升了语义通信系统的压缩效率与传输韧性。
Erdemir等[26]最早提出采用逆问题求解思路实现生成式视觉语义通信。在此基础上,Yang等[27]提出的DiffJSCC利用DDNM[28]求解逆问题,并向LDM中输入文本提示词作为辅助内容生成的语义条件,在极低码率下实现了高保真的图像压缩与传输;Wang等[29]提出的DiffCom则利用DPS[30]求解逆问题,直接以信道接收到的退化观测信号作为条件,利用源空间的预训练无条件扩散模型便实现了极低码率的图像感知压缩与传输。
上述工作均利用扩散后验采样实现了生成式视觉语义通信,验证了思路2的可行性和优越性。因此,本文重点以逆问题的求解思路总结扩散模型赋能生成式视觉语义通信的一般方法与关键技术。首先,从得分匹配的视角介绍扩散模型的基本概念与数学原理;其次,进一步阐述扩散模型分别在生成式图像压缩和传输中的应用;接着,分析基于扩散模型的生成式视觉语义通信存在的领域特定挑战,并构建解决这些挑战的普适性技术框架;最后,介绍亟须关注的开放性问题,以期启发后续相关研究。

1 扩散模型简介

经典的深度生成模型借助变分推断(如VAE)或对抗学习(如GAN)估计数据分布的概率密度函数,分别存在模型结构僵化与样本模式坍塌的问题,数据分布的拟合能力有限[31]。不同的是,扩散模型建模得分函数而非直接估计概率密度,无须计算归一化的配分函数并易于采样,有效地解决了上述问题。所谓得分函数,是指对数似然函数的梯度,其物理含义为“力”[32]
扩散模型实质是模拟了受随机外力扰动的动力学系统克服阻力并恢复稳定状态的过程,该过程经常通过向数据中逐步添加并反向去除随机噪声等效实现。该过程因类似分子从高浓度区域向低浓度区域热运动的扩散现象而得名。

1.1 得分匹配与Langevin动力学

得分函数定义为s(x)= ∇xlogp(x),可视化如图 2所示的梯度流,用以近似求解得分函数的深度学习模型称为得分模型(假设参数为θ),记为sθ(x)。根据Boltzmann机[33],数据的概率分布可通过式(1)进行似然估计。
$p_{\theta}(\boldsymbol{x})=\frac{\exp \left(-f_{\theta}(\boldsymbol{x})\right)}{Z_{\theta}} . $
图 2 数据得分可视化(箭头越长表示得分越高)
其中:pθ(x)为估计的似然分布,fθ(x) 为未归一化的概率模型,Zθ为归一化的配分函数。
显然,pθ(x) 关于x的对数梯度与Zθ无关,故扩散模型通过建模得分可以规避归一化操作。进一步地,得分模型形式化为sθ(x)=- ∇xfθ(x),意味着模型无须进行对抗训练,故而不存在模式坍塌现象。
综合来看,基于得分建模的扩散模型具备分布拟合优势,可确保相对最佳的生成建模性能,尤其体现在拟合高维的视觉数据分布方面。
在此基础上,训练sθ(x) 等价于训练fθ(x),可通过最小化模型与真实数据分布之间的Fisher散度L(θ) 实现,如式(2)所示。
$L(\theta)=\frac{1}{2} \mathbb{E}_{p({\boldsymbol{x}})}\left[\left\|\boldsymbol{s}(\boldsymbol{x})-\boldsymbol{s}_{\theta}(\boldsymbol{x})\right\|_{2}^{2}\right] . $
考虑到真实数据的得分s(x) 难以直接计算,式(2)须借助“得分匹配”方法进行求解,即使用代理分布q(x) 的对数梯度来近似真实得分。
为避免有限样本或离群样本对q(x) 估计精度的影响,可通过“去噪得分匹配”(denoising score matching, DSM)[34]优化得分模型的训练过程,即利用条件分布$ q(\tilde{\boldsymbol{x}} \mid \boldsymbol{x})$向原始数据x加噪形成有噪数据$ \tilde{\boldsymbol{x}}$,并对$ \tilde{\boldsymbol{x}}$应用得分匹配,如式(3)所示。
$\begin{gather*}J(\theta)=\frac{1}{2} \mathbb{E}_{p(\boldsymbol{x}) q(\widetilde{\boldsymbol{x}} \mid \boldsymbol{x})} \\{\left[\left\|\nabla_{\tilde{{\boldsymbol{x}}}} \log q(\widetilde{\boldsymbol{x}} \mid \boldsymbol{x})-\boldsymbol{s}_{\theta}(\widetilde{\boldsymbol{x}})\right\|_{2}^{2}\right] .} \end{gather*}$
其中:J(θ) 为DSM损失。由式(3)可知,DSM的目标是训练得分模型使之学会从有噪数据中预测并去除噪声以恢复原始数据。
得分模型充分训练后,真实数据的得分可被准确近似,继而可使用Langevin动力学[35]从近似的得分分布中随机采样以生成新的样本。
Langevin动力学从任意先验分布π(x) 中初始化MCMC(Markov chain Monte Carlo)过程,并依据式(4)迭代地更新样本点。
$\boldsymbol{x}_{t+1}=\boldsymbol{x}_{t}+\zeta \nabla_{x_{t}} \log p\left(\boldsymbol{x}_{t}\right)+\sqrt{2 \zeta} \boldsymbol{\epsilon} . $
其中:超参数ζ为更新步长,噪声ϵ~$ \mathcal{N}$(0, I)。当ζ→0且迭代总次数T→∞时,假设sθ(x) 已充分训练,式(4)最终的迭代结果xT将收敛于真实数据分布p(x) 的某个特定样本,等效于从sθ(x)拟合的分布中采样。扩散模型的得分建模流程如图 3所示。
图 3 扩散模型的得分建模流程示意图

注:①得分匹配,② Langevin动力学。

因此,基于得分建模的扩散模型遵循“前向扩散(加噪)、反向采样(去噪)”的一般工作流程,即:先通过得分匹配训练得分模型以建模前向扩散过程,再利用Langevin动力学模拟退火以实现反向采样过程。

1.2 随机微分方程统一扩散模型

粒子在位形空间中的运动状态可被形式化为随机微分方程(stochastic differential equation, SDE),因此可使用SDE在数学上统一地描述基于得分建模的扩散模型[36],其前向扩散与反向采样过程分别形式化为式(5)与式(6)。
$\mathrm{d} \boldsymbol{x}=\boldsymbol{f}(\boldsymbol{x}, t) \mathrm{d} t+g(t) \mathrm{d} \boldsymbol{w}, $
$\mathrm{d} \boldsymbol{x}=\left[\boldsymbol{f}(\boldsymbol{x}, t)-g^{2}(t) \nabla_{{\boldsymbol{x}}} \log p_{t}(\boldsymbol{x})\right] \mathrm{d} t+g(t) \mathrm{d} \overline{\boldsymbol{w}}.$
其中:SDE采用Itô形式表示。定义连续时间区间t∈[0, T]的扩散过程{ x(t)}t=0T,向量值函数f(x, t): $ \mathbb{R}^{d} \mapsto \mathbb{R}^{d}$被称为样本x(t) 的“漂移系数”,描述无外力扰动下封闭系统内任意粒子的运动状态;标量函数g(t): $ \mathbb{R} \mapsto \mathbb{R}$被称为样本x(t)的“扩散系数”,描述任意粒子受外力扰动后的随机位置变化;w$ \overline{\boldsymbol{w}}$均指标准Wiener过程(Brownian运动),但后者定义在连续时间区间t∈[-T, 0] 内,负号表示反向。显然,扩散模型的建模目标是准确估计任意时刻t所对应的得分∇xlogpt(x),并从拟合的原始数据分布p0中采样,工作流程如图 4所示。
图 4 扩散模型的工作流程(扩散后验采样版本)
为简化式(6)的求解过程,通常使用Euler-Maruyama或Runge-Kutta方法求取对应常微分方程(ordinary differential equation, ODE)的数值解以实现确定性采样,如式(7)所示。
$\mathrm{d} \boldsymbol{x}=\left[\boldsymbol{f}(\boldsymbol{x}, t)-\frac{1}{2} g^{2}(t) \boldsymbol{s}(\boldsymbol{x}, t)\right] \mathrm{d} t.$
式(7)被称为式(6)的概率流ODE。为进一步简化并加速采样过程,可令f(x, t)= 0g(t)=$ \sqrt{2 t}$,并使用时间相关的得分模型sθ(x, t)近似真实数据的得分函数s(x, t),即dx =-tsθ(x, t)dt,并通过采样xT~$ \cal{N}$(0, T2I) 进行初始化[37]

1.3 逆问题建模与扩散后验采样

逆问题亦称反问题,旨在根据已知观测逆推未知源,本质为“倒果求因”。由于通信的核心目标为“在接收端尽可能高保真复现发送端选取的消息”,故可形式化为$ \boldsymbol{x}_{0} \simeq \hat{\boldsymbol{x}}_{0}=\boldsymbol{y}-\boldsymbol{n}$,其中:x0表示信源(如原始图像),y表示接收到的观测信号,n表示加性信道噪声,$ \hat{\boldsymbol{x}}_{0}$表示精确或近似复现的信号。考虑压缩、编码、调制、复用、加密等信号处理操作,通信的数学模型可进一步表达为
$\boldsymbol{y}=\mathcal{H}\left(\boldsymbol{x}_{0}\right)+\boldsymbol{n} . $
其中:x0$ \mathbb{R}^{d}$y, n$ \mathbb{R}^{k}$$ \mathcal{H}(\cdot): \mathbb{R}^{d} \mapsto \mathbb{R}^{k}$被称为“前向算子” (forward operator),泛指任意实现信号处理的线性或非线性变换。式(8)也是逆问题的一般表达形式,该式表明:通信问题属于逆问题,有效可靠的通信过程可通过普适稳定的逆问题求解等效实现。考虑到逆问题通常不适定(ill-posed),难以解析求解,因此可借助Bayes推断近似求解。
Bayes推断的基本思想是以p(x) 为先验,并从后验p(x|y) 中采样。若向扩散模型的得分建模过程中引入Bayes推断以实现后验采样,则条件得分函数可形式化为
$\nabla_{\boldsymbol{x}} \log p(\boldsymbol{x} \mid \boldsymbol{y})=\nabla_{\boldsymbol{x}} \log p(\boldsymbol{x})+\nabla_{\boldsymbol{x}} \log p(\boldsymbol{y} \mid \boldsymbol{x}) . $
显然,求解条件得分∇xlogp(x|y)需要分别计算∇xlogp(x)以及∇xlogp(y|x)。对于任意t时刻的样本点xt,∇xtlogp(xt)可通过使用预训练的得分模型(即无条件扩散模型) sθ(x, t) 近似。为计算∇xtlogp(y|xt),须估计似然概率p(y|xt)。然而根据式(8),仅x0y之间存在显式的依赖关系,意味着难以直接求取y关于xt的条件概率。
假设扩散过程遵循xt= x0+σtϵ,其中:噪声ϵ~$ \mathcal{N}$(0, I),σtt时刻的噪声标准差。根据Tweedie公式[38],得分函数∇xtlogp(xt) 可通过引入后验均值$ \hat{\boldsymbol{x}}_{{\bf{0}} \mid t}$等价计算,如式(10)所示。
$\nabla_{\boldsymbol{x}_{t}} \log p\left(\boldsymbol{x}_{t}\right)=\frac{\mathbb{E}\left[\boldsymbol{x}_{0} \mid \boldsymbol{x}_{t}\right]-\boldsymbol{x}_{t}}{\sigma_{t}^{2}}=\frac{\hat{\boldsymbol{x}}_{0 \mid t}-\boldsymbol{x}_{t}}{\sigma_{t}^{2}} . $
其中:后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$为统计平均意义上的去噪数据,其物理含义是粒子克服平均阻力所恢复的运动状态。结合式(3)可知,估计后验均值等效于去噪[39]。为获得均方误差最小化意义下的最优后验均值,常使用预训练的得分模型sθ(x, t)估计$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$,即:
$\hat{\boldsymbol{x}}_{0 \mid t}=\mathbb{E}_{{\boldsymbol{x}}_{0} \sim p\left({\boldsymbol{x}}_{0} \mid {\boldsymbol{x}}_{t}\right)}\left[\boldsymbol{x}_{0}\right] \simeq \boldsymbol{x}_{t}+\sigma_{t}^{2} \boldsymbol{s}_{\theta}(\boldsymbol{x}, t) . $
进一步地,可使用估计的后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$近似计算p(y|xt),如式(12)所示。
$\begin{align*}& p\left(\boldsymbol{y} \mid \boldsymbol{x}_{t}\right)=\int p\left(\boldsymbol{y} \mid \boldsymbol{x}_{0}\right) p\left(\boldsymbol{x}_{0} \mid \boldsymbol{x}_{t}\right) \mathrm{d} \boldsymbol{x}_{0}= \\& \mathbb{E}_{{\boldsymbol{x}}_{0} \sim p\left({\boldsymbol{x}}_{0} \mid {\boldsymbol{x}}_{t}\right)}\left[p\left(\boldsymbol{y} \mid \boldsymbol{x}_{0}\right)\right] \simeq p\left(\boldsymbol{y} \mid \hat{\boldsymbol{x}}_{0 \mid t}\right) . \end{align*}$
于是,后验条件得分函数s(xt|y)可通过式(13)计算。
$\begin{gather*}\boldsymbol{s}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right) \simeq \boldsymbol{s}_{\theta}(\boldsymbol{x}, t)+ \\\gamma \frac{\partial \hat{\boldsymbol{x}}_{0 \mid t}}{\partial \boldsymbol{x}_{t}} \frac{\partial\left\|\boldsymbol{y}-\mathcal{H}\left(\hat{\boldsymbol{x}}_{0 \mid t}\right)\right\|_{2}^{2}}{\partial \hat{\boldsymbol{x}}_{0 \mid t}}= \\\boldsymbol{s}_{\theta}(\boldsymbol{x}, t)+\gamma \nabla_{\boldsymbol{x}_{t}}\left\|\boldsymbol{y}-\mathcal{H}\left(\hat{\boldsymbol{x}}_{0 \mid t}\right)\right\|_{2}^{2} . \end{gather*}$
其中:γ为与信道噪声n方差相关的步长,用于调控观测正则项$ \left\|\boldsymbol{y}-\mathcal{H}\left(\hat{\boldsymbol{x}}_{0 \mid t}\right)\right\|_{2}^{2}$对扩散先验sθ(x, t)采样轨迹的引导或矫正力度,通常为负数。
诸如式(13)所示的扩散模型条件得分建模过程被称为“扩散后验采样”[30],其概率图如图 5所示,其本质是基于最大后验估计的“两阶段”策略:为了建模后验p(x|y),第一阶段利用扩散模型作为先验获取初步预测结果,即建模p(x);第二阶段通过最小化平均观测似然损失来修正初步预测结果,即建模p(y|x)。故扩散后验采样实质借鉴“Kalman滤波”思想建模了数据的后验分布或联合分布。
图 5 扩散后验采样求解逆问题的概率图

注:h0, ht$ \hat{\boldsymbol{h}}_{0}$分别为原始、有噪及重建前向算子。

为了加速扩散后验采样,可将随机采样轨迹建模为确定性的ODE[40];为了适配高分辨率图像生成,可通过使用LDM针对隐变量进行后验采样[41];为了提高生成图像的保真度,可重复随机地对采样过程施加观测正则化[42];特别地,针对前向算子未知的盲逆问题(blind inverse problems),可通过预估计前向算子将其转换为一般逆问题,再应用扩散后验采样予以解决[43]
总之,扩散后验采样具备直观的物理可解释性,能够根据高度退化的观测条件应用扩散先验求解不适定的逆问题。

2 视觉质量评估的核心性能指标

在面向图像等视觉数据进行端到端传输时,扩散模型驱动的生成式语义通信技术需要考虑对齐人类的感知质量。视觉感知质量是人类感知质量中十分重要的一部分,本章介绍部分可用于评价视觉感知质量的核心性能指标。
目前,用于优化和评估“率—失真—感知”(rate-distortion-perception, RDP)三方权衡的指标主要分为全参考(full-reference)指标和无参考(no-reference)指标[19]。这2类指标的主要区别在于是否依赖特定的参考对象来评估图像的视觉感知质量。表 1概述了常用的视觉质量评价指标。
表 1 常用的视觉质量评价指标
指标类型 度量方式 指标名称 指标说明 参考文献
全参考指标 像素级误差 PSNR 使用均方误差评估图像像素级重建质量的简单指标 [44]
MAD 综合建模多种像素级均方误差策略的灵活指标 [45]
PAMSE 结合图像的结构信息优化均方误差以提升保真度 [46]
NLPD 在归一化Laplace域中最小化像素级均方误差 [47]
结构相似性 SSIM 度量图像的结构相似性而非简单的像素级差异 [44]
MS-SSIM 在多尺度上评估重建前后图像的结构相似性 [48]
CW-SSIM 在复杂小波域中评估图像的结构相似性 [49]
FSIM 通过相位一致性和梯度测量特征相似性 [44]
SFF 使用稀疏特征衡量特征相似性和明暗保真度 [50]
GMSD 基于梯度幅度相似性偏差的高效评价指标 [51]
VSI 使用视觉显著性衡量图像的局部质量重要性 [52]
MCSD 通过多尺度对比相似性偏差实现质量评价 [53]
信息理论 IFC 根据自然场景的统计特性提取保真度相关信息 [54]
VIF 衡量重建后图像中保留的视觉感知质量信息 [55]
PIM 通过多变量互信息学习图像的随机表征作为度量 [56]
深度学习 GTI-CNN 使用卷积神经网络提取图像的几何变换不变性 [57]
PieAPP 使用卷积神经网络预测人类视觉误差 [58]
LPIPS 使用卷积神经网络提取特征并计算特征之间的距离 [59]
DISTS 使用卷积神经网络同时衡量结构和纹理相似性 [60]
无参考指标 标签分类 IS 用于无标签情境下生成样本的真实性评估 [61]
SSEQ 基于空间和谱熵特性评估质量的通用指标 [62]
统计特性 BLISS 通过合成得分进行无参考图像的质量评价 [63]
NIQE 直接比较失真图像的统计特性进行质量评估 [64]
FID 通过计算Fréchet距离比较不同分布间的相似性 [65]
KID 在核Hilbert空间中评估图像分布间的相似性 [66]
由表可知,全参考指标的度量方式可分为像素级误差、结构相似性、信息理论和深度学习4类,其中最常用的基于深度学习的代表性评价指标包括LPIPS[59]和DISTS[60]。以LPIPS为例,该指标通过使用预训练的卷积神经网络(如VGG或AlexNet)提取不同层次的图像特征,并综合计算特征对之间的l2距离,以验证待评估图像是否与人类的视觉感知相一致。LPIPS的数值越低,表示图像的视觉质量越高。
无参考指标的度量方式可分为标签分类和统计特性2类,其中最常用的基于统计特性的代表性评价指标包括NIQE[64]和FID[65]。以FID为例,该指标通过比较待评估图像与真实图像在Inception-V3特征空间中的差异来评价图像质量。具体而言,FID将这种差异量化为多维Gauss分布之间的Fréchet距离。与LPIPS类似,FID的数值越低,表示图像的视觉质量越高。
这些指标有助于扩散模型在压缩效率与感知质量之间取得平衡,奠定了扩散模型赋能生成式图像压缩的指标体系基础。

3 扩散模型赋能生成式压缩

数据压缩是实现语义通信的重要环节之一,直接关乎系统的传输有效性。生成式压缩的基本思想源于神经数据压缩,旨在利用深度生成模型估计数据分布并进行压缩编码。由于建模了联合分布p(x, y)∝p(x)p(y|x),其中xy为随机变量,生成式压缩比传统的神经数据压缩方法具备更强的语义表征和细节保护能力,因而压缩率更高且压缩结果更逼真。
以图像为例,生成式压缩的目标是优化率—失真—感知权衡并解码得到高保真图像,其与原始图像语义等价、内容一致,且感知逼真。

3.1 对齐人类感知质量的生成式隐空间

有效的生成式压缩一方面需要基于合理的视觉质量评价指标,另一方面也需要构建与人类感知质量对齐的生成式隐空间(generative latent space, GLS)[67],并在其中优化率—失真—感知权衡,如图 6所示。所谓的生成式隐空间,是指通过使用特定的深度生成模型(如VQ-VAE[68])进行表征解析(tokenization)所构建的低维隐空间。不同于标准隐空间(如VAE隐空间[20]),生成式隐空间除了实现对信源的降维,还可以提取图像的结构特性,使得解析出的表征单元(token)携带高层语义与抽象概念,从而对齐人类的视觉感知。
图 6 生成式隐空间对齐人类的感知质量

3.2 扩散模型实现高效生成式压缩的一般方法

生成式压缩的主要挑战在于如何有效平衡数据压缩前后的内容一致性与感知逼真度,这通常与质量评价指标的选取、生成式隐空间的构建以及用于解码的深度生成模型的架构有关。
从模型架构的角度来看,根据用于压缩的扩散模型构建方式的不同,生成式压缩分为2种技术路线,如图 7所示,一种为基于条件扩散模型的端到端压缩[69];另一种为基于扩散后验采样的即插即用式(plug and play)压缩[70]。技术路线1直接使用端到端训练的条件扩散模型进行压缩,能够快速解码并得到高质量图像,但存在泛化能力弱与环境敏感度高的问题;技术路线2则将压缩视作逆问题,将压缩后的有损图像作为观测条件,采用扩散后验采样逐步恢复有损图像的纹理细节,最终得到高保真的图像。该方法理论上可泛化至绝大多数生成式压缩场景,即插即用,无须重新训练或微调扩散模型,训练成本低廉且鲁棒性强,即便在极低码率场景下,通常也能保持一定的压缩效果,故而压缩率较高。缺点为采样步骤需多次迭代完成,推理速度慢。
图 7 扩散模型赋能生成式压缩的2种技术路线
相比之下,基于扩散后验采样的即插即用式压缩方法更加易于部署且适配极端的生成式传输场景,故进行具体介绍。
使用传统的神经数据压缩方法得到的压缩图像尽管在视觉感知上模糊,但原始图像的语义信息几乎可被完整保留[71-72]。基于这一观察,本文将生成式压缩也建模为如式(8)所示的逆问题,即根据有损的压缩图像y和已知的压缩变换$ \mathcal{H}$(·) 求解该逆问题,从而恢复原始图像x0
事实上,神经数据压缩的编解码器通常包含非线性变换,且该变换可逆或存在伪逆,这意味着对同一张图像进行重复压缩与解压缩操作均能使其稳定收敛至相同的结果[70],该现象确保了使用扩散后验采样求解压缩逆问题的可行性。
假设压缩编码器为$ \mathcal{E}$(·),压缩解码器为$ \mathcal{D}$(·),并采用扩散后验采样优化解码器,则:
$\tilde{\boldsymbol{x}}=\mathcal{D}(\boldsymbol{z}) \sim p_{{\boldsymbol{x}} \mid \boldsymbol{z}} \Rightarrow \mathcal{E}(\tilde{\boldsymbol{x}})=\boldsymbol{z}, $
$\tilde{\boldsymbol{x}} \sim p_{x} \text {, s. t. } \mathcal{E}(\tilde{\boldsymbol{x}})=\boldsymbol{\boldsymbol{z}} \Rightarrow \tilde{\boldsymbol{x}} \sim p_{\boldsymbol{{x}} \mid \boldsymbol{z}} . $
其中:隐空间的码流$ {\boldsymbol{z}}=\mathcal{E}(\boldsymbol{x})$,且$ \tilde{\boldsymbol{x}}=\mathcal{D}(\boldsymbol{z})$。式(14)确保了生成式压缩逆问题的可解性,式(15)确保了扩散后验采样求解该逆问题的有效性。进一步地,可通过求解以下优化问题来实现生成式图像压缩:
$\min \|\boldsymbol{z}-\mathcal{E}(\tilde{\boldsymbol{x}})\|_{2}^{2}, \text { s. t. } \tilde{\boldsymbol{x}} \sim p_{{\boldsymbol{x}}} . $
上式与式(13)本质上是等价的,约束条件$ \tilde{\boldsymbol{x}} \sim p_{{\boldsymbol{x}}}$对应扩散先验sθ(x, t),编码后的码流z对应观测条件y,编码器的非线性变换$ \mathcal{E}$(·) 对应前向算子$ \mathcal{H}$(·),优化目标$ \|\boldsymbol{z}-\mathcal{E}(\tilde{\boldsymbol{x}})\|_{2}^{2}$对应观测正则项$ \left\|\boldsymbol{y}-\mathcal{H}\left(\hat{\boldsymbol{x}}_{0 \mid t}\right)\right\|_{2}^{2}$。故而,给定神经数据编解码器,结合预训练的无条件扩散模型,基于扩散后验采样即可实现生成式压缩。
在极低码率场景下,传统的神经数据压缩方法极易解码失败,而扩散模型凭借随机后验采样则有一定概率根据高度退化的隐空间观测条件渐进地探索出一种合理的图像复原结果,使其(近似)服从真实的数据分布,确保用户良好的视觉感知体验,同时保留完整的或绝大部分的原始语义。
由此可见,扩散模型赋能的生成式压缩能够在极低码率下高效地压缩图像,不仅实现了较高的压缩率,还平衡了压缩后图像的内容一致性和感知逼真度。因此,基于扩散后验采样的高效生成式压缩技术为生成式语义传输奠定了基础。

4 扩散模型赋能生成式传输

包括生成式数据压缩在内,生成式语义通信默认建立在生成式隐空间之上。生成式隐空间应当在发送端最先构建,并用于后续的信源压缩与感知优化。换言之,生成式语义通信系统的基本对象从“bit”转变为“token”[14],压缩与传输过程主要关注“上下文(context)”的概率建模而非像素间的精准匹配。
根据上文所述,通信问题可被建模为式(8)所示的逆问题,借助扩散后验采样求解该逆问题成为实现生成式高保真图像传输的合理途径。然而,扩散后验采样主要面向计算机视觉的成像逆问题而设计,如自然图像修复[30]、医学影像重建[73]等,将其直接应用于通信领域的端到端无线传输可能面临3类挑战,具体如下所述。

4.1 扩散模型赋能生成式传输的领域特定挑战

本文将扩散模型应用于生成式传输可能面临的领域特定挑战(domain-specific challenges)分为3类:1) 强信道噪声导致的后验采样不稳定问题;2) 强非线性算子导致的优化目标模糊问题;3) 时变传输环境导致的前向算子未知问题。

4.1.1 强信道噪声导致的后验采样不稳定问题

无线信道中不可避免地存在随机噪声,可能引发后验采样的不稳定性。
当信噪比(signal to noise ratio, SNR)较大时,可通过先进的信道编码技术克服噪声干扰;但在极端恶劣的信道环境下,SNR较小甚至为负值,此时信道编码等保护措施失效,直接采用扩散后验采样不但难以重建高保真图像,甚至无法稳定收敛。这是因为当信道噪声较强时,与观测条件相关的后验分布将难以建模,若噪声为Gauss白噪声,则该后验分布始终近似为Gauss分布,意味着后验得分难以被精确建模,这加剧了扩散模型反向采样过程中的随机性,从而导致后验采样极其不稳定。
不稳定的后验采样会导致联合解码过程的误差累积,继而造成重建图像的内容失真和语义退化。

4.1.2 强非线性算子导致的优化目标模糊问题

语义通信遵循信源信道联合编码的架构,其联合编解码器常通过DNN实现[13, 17],这表明压缩编解码操作本身具有极强的非线性,使得数据通信逆问题高度不适定。同时,其他信号处理操作如调制或复用,本身也可能具有一定的非线性。
这些强非线性的前向算子在提升传输性能的同时,也使得扩散后验采样的优化目标极其模糊,可能产生错误的引导。在极低码率场景下,前向算子的非线性影响被进一步增强,随机后验采样的优化方向更加模糊,导致重建结果经常出现明显的质量瑕疵,如伪影等。

4.1.3 时变传输环境导致的前向算子未知问题

在绝大多数情况下,无线传输环境是时变的、动态的、非平稳的,这意味着前向算子整体是难以预测的。此时,前向算子的未知性还会进一步导致扩散后验采样失效。
当前向算子未知时,端到端传输便成了一个盲逆问题,若缺乏对动态环境的实时感知,则观测条件所提供的正则化引导将难以确保扩散模型的生成结果与信源的内容一致。

4.2 扩散模型实现韧性生成式传输的一般方法

高韧性的生成式传输是解决上述挑战的关键。通过改进扩散后验采样,使系统能够适应极端的无线通信环境并具备一定的“自愈”能力[14],进而根据退化的观测条件最大限度地复原信源。本节主要介绍扩散模型通过随机后验采样赋能生成式视觉语义通信实现韧性传输的技术框架。对应解决领域特定挑战,总体的技术路线如图 8所示。
图 8 扩散模型赋能生成式视觉语义通信解决领域特定挑战的技术路线

注:H$ \mathcal{H}$分别为线性和非线性变换,H-1$ \mathcal{H}^{\dagger}$分别为H$ \mathcal{H}$所对应的逆和伪逆变换。

标准的扩散后验采样通过预测后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$构造观测正则项来修正扩散模型反向采样过程的轨迹。然而,扩散后验采样对较大方差的噪声相对敏感,容易过拟合随机噪声导致模型估计的后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$与观测y并不一致。这表明观测正则项可能会为扩散模型的采样过程提供错误的优化方向,致使重建结果脱离真实的数据分布。当前向算子的非线性较强时,扩散后验采样的重建性能将会严重下降。上述问题主要由前2类领域特定挑战所导致。
为此,可设计额外的正则项来修正后验采样过程,确保扩散模型每个迭代步骤生成的样本不仅符合观测条件的约束,同时也能够对齐真实的数据分布[26-28]。生成式传输的条件后验得分可被形式化为$ \boldsymbol{s}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}, \boldsymbol{x}_{0 \mid \boldsymbol{y}}\right) \simeq \boldsymbol{s}_{\theta}(\boldsymbol{x}, t)+\nabla_{{\boldsymbol{x}}_{t}} \log p\left(\boldsymbol{y}, \boldsymbol{x}_{0 \mid \boldsymbol{y}} \mid \boldsymbol{x}_{t}\right)$,其中x0|y为近端参考点,用以确保后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$尽可能地落在真实的数据分布上。考虑端到端的隐变量传输架构[17],近端参考点可通过常规的联合解码器$ \mathcal{D}$(·) 解码y得到,即x0|y = $ \mathcal{D}$(y)。此时隐空间的后验均值$ \hat{\boldsymbol{z}}_{0 \mid t}$采用对应的联合编码器$ \mathcal{E}$(·) 编码$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$得到,即$ \hat{\boldsymbol{z}}_{0 \mid t}$= $ \mathcal{E}$($ \hat{\boldsymbol{x}}_{{{0}} \mid t}$)。
进而,条件后验得分可通过式(17)近似计算。
$\begin{array}{c} \underbrace{\boldsymbol{s}_{\theta}(\boldsymbol{x}, t)}_{\text {扩散先验 }}+\lambda \nabla_{\boldsymbol{x}_{t}} \underbrace{\left\|\boldsymbol{x}_{0 \mid \boldsymbol{y}}-\widetilde{\boldsymbol{x}}_{0 \mid t}\right\|_{2}^{2}}_{\text {近端正则项 }}+ \\ \gamma \nabla_{{\boldsymbol{x}}_{t}} \underbrace{\left\|\boldsymbol{y}-\mathcal{H}\left(\hat{\boldsymbol{z}}_{0 \mid t}\right)\right\|_{2}^{2}}_{\text {观测正则项 }} \text {. } \end{array}$
其中:λγ是与信道噪声n方差相关的步长,分别指近端正则项和观测正则项的引导力度。构造近端正则项的目的是抑制由于信道环境的不理想所产生的随机不确定性扰动,即通过引入近端参考点稳定采样过程的轨迹。
近端参考点通过预训练的联合编解码器获得,天然地去除了绝大多数信道噪声,包含丰富的纹理细节和完整的上下文语义,为后验均值估计提供了充分参考,提高了重建结果的保真度。
此外,近端参考点也能够加速后验采样,相当于初始化噪声较小的后验均值,一定程度上缓解了强信道噪声导致的后验采样不稳定问题。
特别地,$ \hat{\boldsymbol{x}}_{0 \mid t}=\mathcal{D}\left(\mathcal{H}^{\dagger}\left(\mathcal{H}\left(\mathcal{E}\left(\hat{\boldsymbol{x}}_{0 \mid t}\right)\right)\right)\right)$为修正后的后验均值,$ \mathcal{H}^{\dagger}(\cdot)$表示前向算子$ \mathcal{H}$(·) 的伪逆,目的是显式地考虑联合编解码器与无线信道的非线性扰动[28],确保近端正则项充分排除非线性因素的影响,避免优化目标模糊所导致的错误引导。
为了进一步应对时变信道环境导致的前向算子未知的挑战,通常采用信道估计感知时变环境。然而,用于信道估计的导频信号在盲逆问题下难以直接获取[74]。对此,可使用扩散后验采样估计并生成未知的前向算子,继而求解非盲逆问题。
具体而言,对于任意t时刻的信道冲激响应ht,有且仅有唯一对应的真实信道冲激响应h*,通过扩散后验采样可联合估计信道后验均值$ \hat{\boldsymbol{h}}_{0 \mid t}$和数据后验均值$ \hat{\boldsymbol{x}}_{{{0}} \mid t}$,并求解生成式传输逆问题,联合条件后验得分s(xt, ht|y) 的近似如式(18)所示。
$\begin{gather*}\boldsymbol{s}_{\theta}(\boldsymbol{x}, t)+\lambda \nabla_{{\boldsymbol{x}}_{t}}\left\|\boldsymbol{x}_{0 \mid \boldsymbol{y}}-\widetilde{\boldsymbol{x}}_{0 \mid t}\right\|_{2}^{2}+ \\\gamma \nabla_{{\boldsymbol{x}}_{t}}\left\|\boldsymbol{y}-\widehat{\mathcal{H}}_{0 \mid t}\left(\hat{\boldsymbol{z}}_{0 \mid t}\right)\right\|_{2}^{2} . \end{gather*}$
其中:$ \widehat{\mathcal{H}}_{\left.0\right|{t}}$(·) 表示由信道后验均值$ \hat{\boldsymbol{h}}_{\left.0\right|{t}}$参数化的与时变信道环境相关的前向算子。通过迭代执行式(18)这一联合扩散后验采样过程,最终可以近似求解未知前向算子的生成式图像传输盲逆问题。
由于信道冲激响应的维度远低于图像,易于扩散模型进行概率建模,因此时变信道环境的“去盲”操作并不会带来很大的计算开销[28]。此外,联合扩散后验采样过程不需要额外训练条件扩散模型,也节省了模型训练所产生的时间成本,能够泛化真实的无线通信场景,提升了系统的传输韧性。
因此,通过引入特定的后验采样改进策略,扩散模型可以克服通信领域特定的3类技术挑战,使系统具备较强的传输韧性与鲁棒性,能够自适应极端恶劣与动态时变的信道环境。在该技术框架下,即便图像出现了较大程度的像素级失真,也能通过扩散后验采样在接收端重建原始内容与语义,并保证较高的视觉感知质量。因此,扩散模型为生成式视觉语义通信的进一步发展提供了新的思路。

5 开放性问题

本章介绍扩散模型赋能生成式视觉语义通信的2类开放性问题:1) 图像逼真度的度量问题;2) 扩散模型的加速采样问题。针对第1类开放性问题,本章详细阐述了图像逼真度的通用评价模型;针对第2类开放性问题,本章具体讨论了加速扩散后验采样的4种基本方法,即数据降维法、知识蒸馏法、模型剪枝法及缓存复用法。如图 9所示。
图 9 开放性问题综览

5.1 图像逼真度的度量问题

扩散模型在生成式图像压缩方面表现出色,特别是在提高感知逼真度上。然而,度量图像逼真度的问题仍有待解决。“逼真度”指人们区分真实数据和合成数据的难度[18]。设计一种能够有效度量真实与合成图像差异的函数,对于生成式感知图像压缩的进一步发展至关重要。通常,逼真图像被视为从(近似)真实的数据分布中合理采样所生成的样本[19]
传统的图像逼真度度量方法通常基于概率(probability)和典型性(typicality),但这些方法在评估结构复杂的高维视觉数据时存在局限性。Theis[75]提出了一种结合Kolmogorov复杂度的策略,通过构造式(19)所示的通用评价模型$ \mathcal{U}$(·)度量图像的逼真度。
$\mathcal{U}(\boldsymbol{x})=-\log P(\boldsymbol{x})-\mathcal{K}(\boldsymbol{x}) . $
其中:P(x) 表示从特定数据分布中采样并生成图像的概率;$ \mathcal{K}$(x) 表示图像的Kolmogorov复杂度,描述生成图像所需的最简流程,反映生成该图像的难度。如果一幅图像具有高概率和低复杂度,则更容易被人类认为是逼真的;反之则通常会显得不逼真。
从随机性缺陷(randomness deficiency)的角度而言,人类感知的自然图像往往包含噪声等随机扰动[75],即人类倾向于认为包含部分随机性缺陷的图像更加逼真。然而,人工合成图像的方法通常试图完全消除这些随机噪声,通过降低随机不确定性来增强生成过程的可控性,这反而可能削弱图像的逼真度。因此,图像的逼真度与生成过程中预期出现的随机性缺陷有关,度量逼真度的关键在于平衡图像的生成概率与Kolmogorov复杂度。
尽管式(19)理论上提供了一种评估图像逼真度的有效方法,但在虚拟现实等场景中,数据的Kolmogorov复杂度通常难以被有效评估。因此,构建更加全面的图像逼真度度量标准并将其应用于生成式压缩与传输,是值得探索的研究方向。

5.2 扩散模型的加速采样问题

扩散模型通过逐步采样(去噪)生成高质量的图像。虽然这一过程能够确保生成图像的逼真度和多样性,但也带来了显著的计算开销和时间成本[76]。一幅图像的生成通常经过数百到数千个采样步骤,每个采样步骤都须求解反向SDE。在实时通信场景下,这种迭代采样的方式极大地限制了扩散模型的解码效率,增加了计算复杂度,导致通信时延,继而影响用户体验。因此,加速扩散模型采样是生成式视觉语义通信的另一开放性问题。
目前主要有4种加速扩散模型采样的方法,分别为:数据降维、知识蒸馏、模型剪枝、缓存复用。
数据降维通过在低维空间进行扩散采样,从而显著减少计算复杂度。这种方法通过将高维数据投影到更紧凑的表征空间,并在表征空间中执行采样步骤,然后将结果解码回原始数据空间。此操作不仅降低了采样所需的计算资源,还在一定程度上提升了生成数据的质量。典型的数据降维方法有基于特征隐空间降维的LDM[25]以及基于频域稀疏性降维的WaveOpt-Estimator[77]
知识蒸馏通过从大型复杂模型向较小模型转移知识以加速扩散模型采样。主要机制是使用“教师模型”生成高质量样本,训练“学生模型”学习数据的分布和特征,从而在推理时降低计算复杂度。知识蒸馏加速扩散模型采样的策略主要集中于蒸馏模型的参数规模以及采样所需的时间步骤[78-79]
模型剪枝通过移除冗余计算单元或模块以加速扩散模型采样。主要是分析模型各个组件在不同扩散步骤中的重要性,“剪去”不必要的部分,以降低计算复杂度和内存占用[80]
缓存复用将扩散模型生成过程中的计算冗余作为缓存进行重复使用,继而加速采样。核心思想是高层特征在相邻时间步骤之间经常表现出微小变化,允许其在后续的采样步骤中被缓存并复用,而无需重新计算。常见的缓存复用策略有特征缓存复用和时间缓存复用,前者根据语义属性不变性,在扩散过程中缓存高层语义特征以减少冗余计算[81];后者根据语义结构稳定性,通过让多个时间步骤共享并复用特征缓存以加速采样[82]
尽管上述方法旨在提高扩散模型的采样效率并保持生成质量,但在处理高分辨率或细节丰富的图像生成与感知压缩任务时,仍面临复杂性、可扩展性和自适应性的平衡问题。可能的解决方法是利用动态剪枝和自适应蒸馏技术,使模型能够根据图像内容动态调整采样策略,从而提升压缩效率,同时确保高质量的感知效果。此外,结合多种策略协同加速扩散后验采样也值得研究。

6 结论

面向扩散模型赋能的生成式视觉语义通信新范式,本文系统介绍了扩散模型的基础概念、数学模型及采样策略,梳理了视觉质量客观评估的常用性能指标,并从逆问题求解视角综合评述了扩散模型赋能生成式压缩与传输的一般方法与关键技术。在此基础上,本文讨论了图像逼真度度量以及扩散模型采样加速等开放性问题,并对未来研究进行展望。主要结论如下:
1) 相较于基于判别式深度学习模型的视觉语义通信范式,基于扩散模型的生成式视觉语义通信范式能够显著提升通信系统数据传输效率与韧性,同时保证视觉信息的感知质量和语义一致性。
2) 广义通信过程(包括数据压缩与传输)可建模为逆问题求解,核心思路为:根据信道接收到的观测信号和信号处理操作构成的前向算子,通过最大后验估计推测传输信源的数据分布,进而近似重建信源内容。
3) 通过扩散后验采样,扩散模型可有效求解通信逆问题。首先,从大规模关联数据中预训练扩散模型获取扩散先验;其次,使用信源—信道联合编解码器去除视觉数据在信道传输中的扰动,构造近端正则项;最后,根据信道观测信号构造观测正则项。综合上述3步操作进行后验估计与分布采样,扩散模型可通过梯度下降隐式重建原始数据,克服强信道噪声、强非线性算子及时变信道环境带来的传输挑战。
4) 扩散模型赋能生成式视觉语义通信研究目前面临图像逼真度度量和扩散模型加速采样2类开放性问题。未来研究可聚焦于构建更全面的逼真度度量体系和更高效的后验采样策略。
值得注意的是,本文指出借助得分扩散模型,现有语义通信架构可根据极简表征单元与高度退化观测在接收端近似恢复信源,该“智简”观点有望为生成式视觉语义通信的未来技术架构设计提供方法论指导。
1
SHANNON C E . A mathematical theory of communication[J]. The Bell system technical journal, 1948, 27 (3): 379- 423.

DOI

2
牛凯, 戴金晟, 张平. 面向6G的语义通信[J]. 移动通信, 2021, 45 (4): 85- 90.

NIU K , DAI J C , ZHANG P , et al. 6G-oriented semantic communications[J]. Mobile Communications, 2021, 45 (4): 85- 90.

3
QIN Z J, TAO X M, LU J H, et al. Semantic communications: Principles and challenges[EB/OL]. (2022-01-04) [2024-10-24]. https://doi.org/10.48550/ arXiv. 2201.01389.

4
石光明, 肖泳, 李莹玉, 等. 面向万物智联的语义通信网络[J]. 物联网学报, 2021, 5 (2): 26- 36.

SHI G M , XIAO Y , LI Y Y , et al. Semantic communication networking for the intelligence of everything[J]. Chinese Journal on Internet of Things, 2021, 5 (2): 26- 36.

5
ZHANG P , XU W J , GAO H , et al. Toward wisdom- evolutionary and primitive-concise 6G: A new paradigm of semantic communication networks[J]. Engineering, 2022, 8, 60- 73.

DOI

6
ZHANG P , XU W J , LIU Y M , et al. Intellicise wireless networks from semantic communications: A survey, research issues, and challenges[J]. IEEE Communications Surveys & Tutorials, 2025, 27 (3): 2051- 2084.

7
NIU K , DAI J C , YAO S S , et al. A paradigm shift toward semantic communications[J]. IEEE Communications Maga-zine, 2022, 60 (11): 113- 119.

DOI

8
GÜNDÜZ D , QIN Z J , AGUERRI I E , et al. Beyond transmitting bits: Context, semantics, and task-oriented communications[J]. IEEE Journal on Selected Areas in Communications, 2023, 41 (1): 5- 41.

DOI

9
刘传宏, 郭彩丽, 杨洋, 等. 面向智能任务的语义通信: 理论、技术和挑战[J]. 通信学报, 2022, 43 (6): 41- 57.

LIU C H , GUO C L , YANG Y , et al. Intelligent task-oriented semantic communications: Theory, technology and challenges[J]. Journal on Communications, 2022, 43 (6): 41- 57.

10
LUO X W , CHEN H H , GUO Q . Semantic communications: Overview, open issues, and future research directions[J]. IEEE Wireless Communications, 2022, 29 (1): 210- 219.

DOI

11
秦志金, 赵菼菼, 李凡, 等. 多模态语义通信研究综述[J]. 通信学报, 2023, 44 (5): 28- 41.

QIN Z J , ZHAO T T , LI F , et al. Survey of research on multimodal semantic communication[J]. Journal on Communications, 2023, 44 (5): 28- 41.

12
张平, 戴金晟, 张育铭, 等. 面向语义通信的非线性变换编码[J]. 通信学报, 2023, 44 (4): 1- 14.

ZHANG P , DAI J C , ZHANG Y M , et al. Nonlinear transform coding for semantic communications[J]. Journal on Communications, 2023, 44 (4): 1- 14.

13
BOURTSOULATZE E , KURKA D B , GÜNDÜZ D . Deep joint source-channel coding for wireless image trans-mission[J]. IEEE Transactions on Cognitive Communications and Net-working, 2019, 5 (3): 567- 579.

DOI

14
DAI J C , QIN X Q , WANG S X , et al. Deep generative modeling reshapes compression and transmission: From efficiency to resiliency[J]. IEEE Wireless Communications, 2024, 31 (4): 48- 56.

DOI

15
PÁRRAGA C A , TROSCIANKO T , TOLHURST D J . The human visual system is optimised for processing the spatial information in natural visual images[J]. Current Biology, 2000, 10 (1): 35- 38.

DOI

16
ADINI Y , SAGI D , TSODYKS M . Context-enabled learning in the human visual system[J]. Nature, 2002, 415 (6873): 790- 793.

DOI

17
DAI J C , WANG S X , TAN K L , et al. Nonlinear transform source-channel coding for semantic communications[J]. IEEE Journal on Selected Areas in Communications, 2022, 40 (8): 2300- 2316.

DOI

18
BLAU Y, MICHAELI T. The perception-distortion tradeoff[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 6228-6237.

19
BLAU Y, MICHAELI T. Rethinking lossy compression: The rate-distortion-perception tradeoff[C]// Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR, 2019: 675-685.

20
KINGMA D P, WELLING M. Auto-encoding variational bayes[C]// Proceedings of the 2nd International Conference on Learning Representations. Banff, Canada: ICLR, 2014: 1-14.

21
MENTZER F, TODERICI G, TSCHANNEN M, et al. High-fidelity generative image compression[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020: 999.

22
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014: 2672-2680.

23
WEI X F, TONG H N, YANG N C, et al. Language-oriented semantic communication for image transmission with fine-tuned diffusion model[C]// Proceedings of 2024 16th International Conference on Wireless Communications and Signal Processing. Hefei, China: IEEE, 2024: 1456-1461.

24
YANG P J , ZHANG G Y , CAI Y L . Rate-adaptive generative semantic communication using conditional diffusion models[J]. IEEE Wireless Communications Letters, 2025, 14 (2): 539- 543.

DOI

25
ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]// Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 10674-10685.

26
ERDEMIR E , TUNG T Y , DRAGOTTI P L , et al. Generative joint source-channel coding for semantic image transmission[J]. IEEE Journal on Selected Areas in Communications, 2023, 41 (8): 2645- 2657.

DOI

27
YANG M Y, LIU B W, WANG B Y, et al. Diffusion-aided joint source channel coding for high realism wireless image transmission[EB/OL]. (2024-04-27) [2024-10-24]. https://doi.org/10.48550/arXiv.2404.17736.

28
WANG Y H, YU J W, ZHANG J. Zero-shot image restoration using denoising diffusion null-space model[C]// Proceedings of the 11th International Conference on Learning Representations. Kigali, Rwanda: ICLR, 2023: 1-31.

29
WANG S X, DAI J C, TAN K L, et al. DiffCom: Channel received signal is a natural condition to guide diffusion posterior sampling[EB/OL]. (2024-06-11) [2024-10-24]. https://doi.org/10.48550/arXiv.2406.07390.

30
CHUNG H, KIM J, MCCANN M T, et al. Diffusion posterior sampling for general noisy inverse problems[C]// Proceedings of the 11th International Conference on Learning Representations. Kigali, Rwanda: ICLR, 2023: 1-30.

31
SONG Y, ERMON S. Generative modeling by estimating gradients of the data distribution[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Curran Associates Inc., 2019: 1067.

32
王磊, 张潘. 写给物理学家的生成模型[J]. 物理, 2024, 53 (6): 368- 378.

WANG L , ZHANG P . Generative models for physicists[J]. Physics, 2024, 53 (6): 368- 378.

33
HINTON G E . Boltzmann machine[J]. Scholarpedia, 2007, 2 (5): 1668.

DOI

34
VINCENT P . A connection between score matching and denoising autoencoders[J]. Neural computation, 2011, 23 (7): 1661- 1674.

DOI

35
WELLING M, TEH Y W. Bayesian learning via stochastic gradient langevin dynamics[C]// Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue, USA: Omnipress, 2011: 681-688.

36
SONG Y, SOHL-DICKSTEIN J, KINGMA D P, et al. Score-based generative modeling through stochastic differential equations[C]// Proceedings of the 9th International Conference on Learning Representations. Virtual Event: ICLR, 2021: 1-36.

37
KARRAS T, AITTALA M, LAINE S, et al. Elucidating the design space of diffusion-based generative models[C]// Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans, USA: Curran Associates Inc., 2022: 1926.

38
EFRON B . Tweedie's formula and selection bias[J]. Journal of the American Statistical Association, 2011, 106 (496): 1602- 1614.

DOI

39
DARAS G, CHUNG H, LAI C H, et al. A survey on diffusion models for inverse problems[EB/OL]. (2024-09-30) [2024-10-24]. https://doi.org/10.48550/arXiv.2410.00083.

40
SONG Y, DHARIWAL P, CHEN M, et al. Consistency models[C]// Proceedings of the 40th International Conference on Machine Learning. Honolulu, USA: PMLR, 2023: 32211-32252.

41
ROUT L, RAOOF N, DARAS G, et al. Solving linear inverse problems provably via posterior sampling with latent diffusion models[C]// Proceedings of the 37th International Conference on Neural Information Processing Systems. New Orleans, USA: Curran Associates Inc., 2024: 2174.

42
ZHANG B L, CHU W D, BERNER J, et al. Improving diffusion inverse problem solving with decoupled noise annealing[EB/OL]. (2024-07-01) [2024-10-24]. https://doi.org/10.48550/arXiv.2407.01521.

43
CHUNG H, KIM J, KIM S, et al. Parallel diffusion models of operator and image for blind inverse problems[C]// Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2023: 6059-6069.

44
SARA U , AKTER M , UDDIN M S . Image quality assessment through FSIM, SSIM, MSE and PSNR-a comparative study[J]. Journal of Computer and Communications, 2019, 7 (3): 8- 18.

DOI

45
LARSON E C , CHANDLER D M . Most apparent distortion: Full-reference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging, 2010, 19 (1): 011006.

DOI

46
XUE W F, MOU X Q, ZHANG L, et al. Perceptual fidelity aware mean squared error[C]// Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 705-712.

47
LAPARRA V , BALLÉ J , BERARDINO A , et al. Perceptual image quality assessment using a normalized Laplacian pyramid[J]. Electronic Imaging, 2016, 28 (16): art00008.

48
WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]// Proceedings of the 37th Asilomar Conference on Signals, Systems & Computers. Pacific Grove, USA: IEEE, 2003: 1398-1402.

49
WANG Z, SIMONCELLI E P. Translation insensitive image similarity in complex wavelet domain[C]// Proceedings of 2005 IEEE International Conference on Acoustics, Speech, and Signal Processing. Philadelphia, USA: IEEE, 2005: ii/573-ii/576.

50
CHANG H W , YANG H , GAN Y , et al. Sparse feature fidelity for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2013, 22 (10): 4007- 4018.

DOI

51
XUE W F , ZHANG L , MOU X Q , et al. Gradient magnitude similarity deviation: A highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23 (2): 684- 695.

DOI

52
ZHANG L , SHEN Y , LI H Y . VSI: A visual saliency-induced index for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2014, 23 (10): 4270- 4281.

DOI

53
WANG T H , ZHANG L , JIA H Z , et al. Multiscale contrast similarity deviation: An effective and efficient index for perceptual image quality assessment[J]. Signal Processing: Image Communication, 2016, 45, 1- 9.

DOI

54
SHEIKH H R , BOVIK A C , DE VECIANA G . An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14 (12): 2117- 2128.

DOI

55
SHEIKH H R , BOVIK A C . Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15 (2): 430- 444.

DOI

56
BHARDWAJ S, FISCHER I, BALLÉ J, et al. An unsupervised information-theoretic perceptual quality metric[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020: 2.

57
MA K D, DUANMU Z F, WANG Z. Geometric transformation invariant image quality assessment using convolutional neural networks[C]// Proceedings of 2018 IEEE International Conference on Acoustics, Speech, and Signal Processing. Calgary, USA: IEEE, 2018: 6732-6736.

58
PRASHNANI E, CAI H, MOSTOFI Y, et al. PieAPP: Perceptual image-error assessment through pairwise preference[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 1808-1817.

59
ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 586-595.

60
DING K Y , MA K D , WANG S Q , et al. Image quality assessment: Unifying structure and texture similarity[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44 (5): 2567- 2581.

61
SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016: 2234-2242.

62
LIU L X , LIU B , HUANG H , et al. No-reference image quality assessment based on spatial and spectral entropies[J]. Signal Processing: Image Communication, 2014, 29 (8): 856- 863.

DOI

63
YE P, KUMAR J, DOERMANN D. Beyond human opinion scores: Blind image quality assessment based on synthetic scores[C]// Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 4241-4248.

64
MITTAL A , SOUNDARARAJAN R , BOVIK A C . Making a "completely blind" image quality analyzer[J]. IEEE Signal Processing Letters, 2013, 20 (3): 209- 212.

DOI

65
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6629-6640.

66
BIИ́KOWSKI M, SUTHERLAND D J, ARBEL M, et al. Demystifying MMD GANs[C]// Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018: 1-36.

67
JIA Z Y, LI J H, LI B, et al. Generative latent coding for ultra-low bitrate image compression[C]// Proceedings of 2014 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2024: 26088-26098.

68
VAN DEN OORD A, VINYALS O, KAVUKCUOGLU K. Neural discrete representation learning[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6309-6318.

69
CAREIL M, MUCKLEY M J, VERBEEK J, et al. Towards image compression with perfect realism at ultra-low bitrates[C]// Proceedings of the 12th International Conference on Learning Representations. Vienna, Austria: ICLR, 2024: 1-21.

70
XU T D, ZHU Z R, HE D L, et al. Idempotence and perceptual image compression[C]// Proceedings of the 12th International Conference on Learning Representations. Vienna, Austria: ICLR, 2024: 1-28.

71
BALLÉ J, LAPARRA V, SIMONCELLI E P. End-to-end optimized image compression[C]// Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017: 1-27.

72
BALLÉ J , CHOU P , MINNEN D , et al. Nonlinear transform coding[J]. IEEE Journal of Selected Topics in Signal Processing, 2021, 15 (2): 339- 353.

DOI

73
SONG Y, SHEN L Y, XING L, et al. Solving inverse problems in medical imaging with score-based generative models[C]// Proceedings of the 10th International Conference on Learning Representations. ICLR, 2022: 1-18.

74
SHIN C , HEATH R W , POWERS E J . Blind channel estimation for MIMO-OFDM systems[J]. IEEE Transactions on Vehicular Technology, 2007, 56 (2): 670- 685.

DOI

75
THEIS L. What makes an image realistic? [EB/OL]. (2024-03-07) [2024-10-24]. https://doi.org/10.48550/arXiv.2403.04493.

76
SONG J M, MENG C L, ERMON S. Denoising diffusion implicit models[C]// Proceedings of the 9th International Conference on Learning Representations. Virtual Event: ICLR, 2021: 1-20.

77
KOO G, YOON S, YOO C D. Wavelet-guided acceleration of text inversion in diffusion-based image editing[C]// Proceedings of 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing. Seoul, Republic of Korea: IEEE, 2024: 4380-4384.

78
HSIAO Y T, KHODADADEH S, DUARTE K, et al. Plug-and-play diffusion distillation[C]// Proceedings of 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2024: 13743-13752.

79
SALIMANS T, HO J. Progressive distillation for fast sampling of diffusion models[C]// Proceedings of the 10th International Conference on Learning Representations. Virtual Event: ICLR, 2022: 1-21.

80
CHENG H R , ZHANG M , SHI J Q . A survey on deep neural network pruning: Taxonomy, comparison, analysis, and recommendations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46 (12): 10558- 10578.

DOI

81
MA X Y, FANG G F, WANG X C. DeepCache: Accelerating diffusion models for free[C]// Proceedings of 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2024: 15762-15772.

82
XUE S C, LIU Z Q, CHEN F, et al. Accelerating diffusion sampling with optimized time steps[C]// Proceedings of 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2024: 8292-8301.

文章导航

/