Residual network-based stacked vector quantized autoencoder

Hui WANG; Xiaojun YE; Zewei DONG

doi:10.16511/j.cnki.qhdxxb.2025.21.030

Journal of Tsinghua University(Science and Technology) >

2025 , Vol. 65 >Issue 11: 2259 - 2268

DOI: https://doi.org/10.16511/j.cnki.qhdxxb.2025.21.030

Computer Science and Technology

Residual network-based stacked vector quantized autoencoder

Hui WANG ¹^,² ,
Xiaojun YE ^,¹^,* ,
Zewei DONG ³

Expand

1. School of Software, Tsinghua University, Beijing 100084, China
2. National Defense University, Joint Operations College, Beijing 100091, China
3. Department of Avionics and Weapons Engineering, Army Aviation Institution, Beijing 101123, China

Received date: 2025-01-12

Online published: 2025-11-07

Copyright

Fold

Abstract

Objective: Deep learning technologies have achieved remarkable progress in the field of personalized recommendation services. However, recommendation systems based on deep neural networks still face the challenge of data sparsity, which limits the ability of a model to accurately capture subtle differences in user preferences, thereby affecting the robustness of model training. This problem is specifically prominent in scenarios with limited user interaction data. Therefore, this paper aims to propose a recommendation system model that can effectively address the data sparsity issue to enhance the capability of a model in user behavior modeling and overall performance. Methods: To tackle the data sparsity issue, this paper proposes a residual network-based stacked vector-quantized autoencoder (RSVQ-AE). This model fully utilizes the advantages of residual connections by directly passing the continuous latent vector output from the multiple layers of encoders to the corresponding layers of the decoder. This effectively reduces the loss of high-value continuous information that is common in encoders, which is crucial for maintaining the fidelity of data representation. Meanwhile, by introducing vector quantization technology, we discretize the latent space to ensure that the model can accurately capture and represent the data. In addition, this paper constructs multiple stacked codebooks using vector quantization technology, enabling the model to learn multidimensional discrete vector quantization feature representations and capture the discretized interest representations of user behavior across multiple dimensions through stacked codebooks. To further enhance the stability and generative capabilities of the model, an adversarial network is introduced as a regularizer during the training process to promote rapid convergence. Results: To verify the effectiveness of the model, experiments were conducted on several public datasets widely used in recommendation systems. The experimental results revealed that the RSVQ-AE model exhibits excellent reconstruction performance across multiple datasets. Based on the ML-1M (MovieLens-1M) dataset, when the sequence length is 20, the reconstruction loss of RSVQ-AE is only 0.1525, with an accuracy rate of as high as 70.69%; when the sequence length increases to 100, the reconstruction loss further decreases to 0.0039, with an accuracy rate of 50.58%. Based on the Retail Rocket dataset, when the sequence length is 20, the reconstruction loss is as low as 2.42×10^-4, with an accuracy rate of 81.26%; when the sequence length is 100, the reconstruction loss is 0.0019, with an accuracy rate of 74.21%. These results fully demonstrate that RSVQ-AE can maintain low reconstruction loss and high accuracy when processing sequences with different lengths. Its performance is only second to the autoencoder model, which cannot perform sampling generation. Conclusions: The proposed RSVQ-AE offers a powerful solution for the generation of discrete sequence data in recommendation systems. By addressing the limitations of existing generative models and introducing innovative technologies such as stacked codebooks, this model has achieved remarkable improvements in reconstruction accuracy and data generation quality. This method not only enhances the capability of the model in user behavior modeling but also provides new ideas and approaches for the development of personalized recommendation services, holding the potential to drive the future development of more efficient and user-behavior-centered recommendation systems. In addition, the flexibility and robustness of model data generation make it applicable to a variety of recommendation system model architectures.

Key words： recommendation systems; generative models; residual networks; autoencoders

Cite this article

Hui WANG , Xiaojun YE , Zewei DONG . Residual network-based stacked vector quantized autoencoder[J]. Journal of Tsinghua University(Science and Technology), 2025 , 65(11) : 2259 -2268 . DOI: 10.16511/j.cnki.qhdxxb.2025.21.030

深度学习技术在个性化推荐服务领域已取得显著成就，尤其在电商平台的商品推荐、流媒体平台的视频和音乐推荐等场景中发挥了关键作用^[1-2]。然而，基于深度神经网络的推荐系统仍面临着一系列挑战。例如，在处理庞大的用户和物品空间时，交互序列的稀疏性问题尤为显著，这对高效的用户兴趣特征表达和模型训练构成了障碍^[3-4]。

生成式模型因其能够从复杂的数据分布中学习并生成数据而受到广泛关注。这些模型通过从复杂的数据分布中提取特征和进行采样，为模型学习和训练提供了丰富的数据支持^[5-7]。然而，传统的生成式模型存在一些固有的局限性，例如，对抗生成网络(GAN)^[8]的训练过程不稳定，变分自编码器(VAE)^[6]的表达能力受限^[9]。这些问题限制了模型对复杂用户交互的精确建模能力。特别是，近些年的扩散模型(diffusion model)^[7]在连续数据空间如图像生成方面比传统生成式模型展现出明显优势，但在处理离散的序列数据如文本或用户行为序列时表现并不理想^[10]。

通过对比分析，本文发现生成式模型在离散域比连续域更容易产生较大的训练损失。在连续域中，以图像处理为例，RGB亮度值的范围为0~255，均方误差所构成的训练损失对像素点的亮度变化难以在语义层面区分，导致训练过程中损失值的变化较小。但在离散域的序列化推荐系统中，采用交叉熵构成训练损失，使得离散量的微小变化能反映出不同的兴趣偏好，从而造成更大损失。如果重构损失未能有效降低，将导致重构质量显著下降，进而影响模型对用户兴趣的精准捕捉与建模^{[5, 11]}。

本文提出了一种基于残差网络的矢量量化堆叠自编码器(residual vector quantization stacked autoencoder，RVQS_AE)。首先，基于U-Net^[12]网络结构，通过一维卷积将稀疏的长序列表征为稠密的短序列特征，并利用分层的残差结构，使编码器输出的隐向量直接传递给解码器作为输入的一部分，从而避免了现有矢量量化方法中高价值连续信息的丢失的问题。其次，利用矢量量化方法构建多重堆叠码本(code book)，学习多维度的离散化类别特征表达，有效克服了编码器的后验坍塌问题。再次，通过引入对抗型网络，以缩小量化结果与编码器输出之间的差异，加速模型收敛速度；最后，数据生成阶段采用变换器(transformer)模型^[13]在码本空间训练先验分布，从而实现在离散的隐空间进行先验采样，进而解码生成数据。通过在多个公开的推荐系统数据集上进行实验，验证了该方法在多项指标上的良好性能。

1 相关工作

早期的生成式模型是通过编码器(encoder)和解码器(decoder)构建自编码器^[14]。编码器负责将输入数据压缩成低维的潜在空间表示，而解码器基于这个压缩表示重构输入数据。通过最小化输入与输出之间的重构误差，使得自编码器能够有效捕捉数据的内在结构，并在降维和特征提取方面展现了出色的性能。然而，由于其主要关注于数据的重构，而非样本多样性，因此在生成新样本方面的能力相对有限。

为了克服这一限制，通过在自编码器的基础上引入概率生成，研究人员提出了变分自编码器(VAE)^[6]。VAE通过参数化潜在变量(即均值和方差)，使得解码器根据这些潜在变量重构数据。这种设计使变分自编码器能够学习数据的潜在分布，并生成新的数据样本。尽管如此，变分自编码器的生成样本在细节丰富度和逼真度方面可能存在不足，并且训练过程中需要平衡重构误差和Kullback-Leibler(KL)散度，可能导致后验坍塌(posterior collapse)现象，进而影响重构数据的质量^[5]。

为了解决变分自编码器在生成样本细节方面的限制，矢量量化变分自编码器(vector quantised-variational autoencoder，VQ-VAE)^[5]结合了VAE和矢量量化(VQ)的思想，将连续的潜在空间离散化。这种离散化有助于捕捉数据中的类别性质，增强模型的解释性。并通过引入编码器层次化^[11]、向量化残差^[15]及对抗性判别^[16]等方法，进一步缓解了潜在空间的过度平滑问题，提高了生成样本的多样性和区分度。

近年来，扩散模型通过逐步添加Gauss噪声并逆向预测这些噪声，在连续域的重构和生成中取得了显著成果。然而，由于Gauss噪声添加不适合离散数据，大多数扩散模型只能应用于连续数据。

在处理离散序列化数据的场景中，扩散模型面临着较大的挑战^{[10, 17]}。现有的离散序列化扩散模型^[10]通过在输入端采用扩散嵌入(diffusion embedding)和输出端采用映射嵌入(map embedding) 的方式，在自然语言处理任务中将词汇表映射到连续空间。然而，这种非端到端的方案存在误差传播，且模型结构异常复杂。此外，基于扩散模型的协同过滤推荐^[17]采用交互矩阵构建扩散过程，但无法应对可变长度的离散序列^[10]。

2 基于残差网络的矢量量化堆叠自编码器

本文基于U-Net网络结构和残差连接构建图 1的模型结构。图中标注了模型各关键部件的输入、输出向量及其维度信息。U-Net网络以其对称的编码器-解码器架构和跳跃连接而著称，能够有效地缓解深度模型中信息丢失的问题。本文模型的对称结构结合残差跳跃连接，能够在解码器中保留原始离散序列的多尺度细节信息，同时通过为梯度传播提供直接路径，有效缓解了梯度消失问题，提高了模型的训练效率和稳定性。

显示原图|下载原图ZIP|生成PPT

图 1 基于残差网络的矢量量化堆叠自编码器结构

具体而言，图 1中利用残差连接在编码器和解码器之间建立直接的信息传递通道，使低层特征能够直接参与高层特征的重构，从而避免深层网络中细节信息的过早丢失。此外，残差机制通过简化优化目标，减少了模型训练过程中的梯度消失现象，使得深层网络的参数更新更加高效，使模型能够在更复杂的数据集上表现出色。

该结构主要包括4个核心模块：编码器模块、堆叠矢量化模块、解码器模块和采样生成器模块。这种模块化设计不仅提高了模型的表达能力，还增强了生成结果的语义一致性和可控性，为多种复杂任务提供了理论支持和实践优势。

2.1 编码器模块

通过定义编码器，将输入序列

$ \boldsymbol{X}=\left(x_1, x_2, \cdots, x_t\right).$

经过一系列一维卷积(Conv1D)操作后的输出 z_e作为编码器输出：

(1)

$\boldsymbol{z}_{\mathrm{e}}=\operatorname{Encoder}(\boldsymbol{X}) .$

为了详细描述这一过程，用 z_e^(l)表示第l层卷积的输出：

$\begin{gathered}\boldsymbol{z}_{\mathrm{e}}^{(l)}=\operatorname{Conv} 1 \mathrm{D}\left(\boldsymbol{z}_{\mathrm{e}}^{(l-1)}, \boldsymbol{W}^{(l)}, \boldsymbol{b}^{(l)}\right), 2 \leqslant l \leqslant L ; \\\boldsymbol{z}_{\mathrm{e}}^{(1)}=\operatorname{Conv1D}\left(\boldsymbol{X}, \boldsymbol{W}^{(1)}, \boldsymbol{b}^{(1)}\right) .\end{gathered}$

其中：W^(l)和 b^(l)分别是编码器第l层的卷积核和偏置项，L代表编码器的总层数。

2.2 堆叠矢量量化模块

传统的VQ-VAE通过单一的矢量量化将连续的潜在空间映射到离散的向量集合，即码本中的向量集合。然而，当处理高维或多模态数据时，单个码本可能无法充分捕捉数据分布的细节。为了符合多兴趣表达，本文构建了m个不同的量化模块VQ_i (i=1, 2, ···, m)，并相应地创建了m个码本。每个VQ_i负责将编码器输出的连续稠密隐向量 z_e，通过最近邻相似度匹配映射到其对应码本C_i中的编码索引z_i和最近邻向量z_qi：

(2)

$\left(\boldsymbol{z}_i, \boldsymbol{z}_{\mathrm{q} i}\right)=\mathrm{VQ}_i\left(\boldsymbol{z}_{\mathrm{e}}, C_i\right) .$

然后，对 z_qi进行池化操作，最终输出矢量化嵌入向量 z_q。池化操作可以是平均池化、最大池化或其他形式：

(3)

$\boldsymbol{z}_{\mathrm{q}}=\operatorname{Pooling}\left(\boldsymbol{z}_{\mathrm{q} 1}, \boldsymbol{z}_{\mathrm{q} 2}, \cdots, \boldsymbol{z}_{\mathrm{q} m}\right) .$

由于 z_q由离散的量化映射获得，而VQ-VAE模型优化过程需要引入直通式估计量^[5]，因此存在的码本损失和承诺损失影响了重构损失。降低该部分对重构损失的影响，成为提升矢量量化方法重构质量的关键。本文采用堆叠的多个码本，平滑单个码本的额外损失。

2.3 解码器模块

本文基于U-Net网络结构的解码器与编码器具有相同的层数L，解码器首层的输入z_q⁽¹⁾由量化输出z_q和编码器末端的输出z_e^(L)通过拼接操作构成。随后通过一维转置卷积(Conv1DT)，也称为反卷积，进行上采样，以匹配编码器相应层的维度。该过程可以表示为

(4)

$\boldsymbol{z}_{\mathrm{q}}^{(1)}=\operatorname{Conv1D}^{\mathrm{T}}\left(\boldsymbol{z}_{\mathrm{q}} \oplus \boldsymbol{z}_{\mathrm{e}}^{(L)}, \boldsymbol{W}_{\mathrm{d}}^{(1)}, \boldsymbol{b}_{\mathrm{d}}^{(1)}\right) .$

其中：

$ \oplus$

表示拼接操作，W_d⁽¹⁾和 d_d⁽¹⁾分别是解码器第1层的反卷积核和偏置项。随后，对于解码器第l层，其输入z_q^(l)由前一层的输出z_q^(l-1)和编码器中第l层输出z_e^(L-l+1)拼接构成，再经过反卷积上采样操作

(5)

$\boldsymbol{z}_{\mathrm{q}}^{(l)}=\operatorname{Conv1D}^{\mathrm{T}}\left(\boldsymbol{z}_{\mathrm{q}}^{(l-1)} \oplus \boldsymbol{z}_{\mathrm{e}}^{(L-l+1)}, \boldsymbol{W}_{\mathrm{d}}^{(l)}, \boldsymbol{b}_{\mathrm{d}}^{(l)}\right) \text {. }$

其中：W_d^(l)和 b_d^(l)分别是解码器第l层的反卷积核和偏置项。最后，将编码器输出z_q^(L)经过softmax函数恢复到输入时的离散序列分布：

(6)

$\begin{gathered}p_j=\operatorname{softmax}\left(z_{\mathrm{q}}^{(L)}, j\right)=\frac{\mathrm{e}^{z_j}}{\sum\limits_{k=1}^K \mathrm{e}^{z_k}}, \\j=1, 2, \cdots, K .\end{gathered}$

其中：

$ z_{\mathrm{q}}^{(L)}=\left(\begin{array}{llll}z_1 & z_2 & \cdots & z_K\end{array}\right)$

，K为离散编码空间大小。式(4)—(6)可汇总为一般形式：

(7)

$\hat{\boldsymbol{X}}=\operatorname{Decoder}\left(\boldsymbol{z}_{\mathrm{q}}, \left\{\boldsymbol{z}_{\mathrm{e}}^{(L-l+1)}\right\}_{l=1}^L\right) .$

其中：z_q为式(3)矢量量化后的池化结果，

$ \left\{\boldsymbol{z}_{\mathrm{e}}^{(L-l+1)}\right\}_{l=1}^L$

为式(1)编码器中各层残差直通量。

2.4 采样生成器模块

由于编解码过程没有学习样本概率分布，还无法进行采样。本文通过增加一个先验分布模块学习码本映射的概率分布，并基于码本分布在隐空间采样生成新的码本编码。

1) 码本先验分布概率学习。

首先，利用2.1节中训练过的编码器对离散输入序列进行推理，以获得对应的m个离散码本编码向量z_i。随后，部署与之对应的m个BERT模型，用以学习编码序列的分布概率，见图 1右侧部分。具体而言，每个码本编码序列z_i的概率分布p(z_i)，是通过将BERT模型的输出应用softmax函数得到：

(8)

$p\left(\boldsymbol{z}_i\right)=\operatorname{softmax}\left(\operatorname{BERT}\left(\boldsymbol{z}_i\right)\right) .$

2) 序列掩码。

此外，为了确保概率分布的先验采样能够适应多样化的任务场景，码本概率分布的学习过程需要对输入数据进行一定的掩码。本文采纳无掩码、随机掩码、块掩码、滑动掩码和完全掩码5种掩码策略，如图 2所示。在训练过程中对所有样本随机选择一种策略进行掩码。

显示原图|下载原图ZIP|生成PPT

图 2 掩码策略示意图

其中，无掩码将离散序列直接进行编解码，通过最小化重构误差学习有效的特征提取能力；随机掩码通过随机选择一定比例的数据进行遮盖，有效模拟了数据缺失情况和不同分辨率的数据处理；块掩码则覆盖了序列尾部的固定长度数据，通过调整覆盖长度来适应不同输出长度的预测需求；滑动掩码通过设定步长，规律性地覆盖序列中的一部分数据，有助于整合时间序列中的非连续信息如不同周期的数据，从而提升模型的表现力；完全掩码则对整个输入序列进行遮盖，或者随机输入任意序列，促使模型重构整个序列，适用于异常检测等场景。通过这些掩码策略的实施，提高了先验概率模块适应多任务场景的泛化能力和实用性。

3) 采样生成。

基于上述掩码机制，由输入序列 X根据不同的掩码策略生成掩码序列：

(9)

$\boldsymbol{X}^{\prime}=\operatorname{MASK}(\boldsymbol{X}) .$

随后，将 X′送入编码器中以获取对应的连续编码序列：

(10)

$\boldsymbol{z}_{\mathrm{e}}=\text { Encoder }\left(\boldsymbol{X}^{\prime}\right) .$

然后，采用式(4)获取m个独立的码本编码索引和最近邻向量(z_i, z_qi)。并采用式(8)基于z_i计算p(z_i)。

对p(z_i)进行采样得到码本编码

$ \hat{\boldsymbol{z}}_i$

, 可以直接查找C_i中的索引进行量化嵌入，从而得到VQ_i量化嵌入向量z_qi对应的采样嵌入向量

$ \hat{\boldsymbol{z}}_{\mathrm{q} i}$

。最后，结合式(10)编码器中各层输出的残差z_e^(l)作为直通量，利用式(7)进行解码生成新的样本序列

$ \hat{\boldsymbol{X}}$

3 模型训练

基于残差网络的矢量量化堆叠自编码器模型训练的优化目标是使总损失最小化，主要包括3个方面。

3.1 重构损失

模型的一个核心优化目标是最小化重构损失即模型输出与原始输入之间的差异。这通常通过计算输入数据和解码器输出的重构数据之间的差异来实现，对于推荐系统中离散的序列数据，基于式(8)定义交叉熵损失：

(11)

$L_{\mathrm{rec}}=-\sum\limits_{i=1}^T x_i \log p_i .$

其中：T为序列长度，输入序列 X中第i项x_i作为真实标签。

3.2 量化损失

量化损失是矢量量化编码特有的损失函数，定义为

(12)

$\begin{gathered}L_{\mathrm{vq}}=\sum\limits_{i=1}^m\left(\left\|\operatorname{sg}\left(\boldsymbol{z}_{\mathrm{e}}\right)-\boldsymbol{z}_{\mathrm{q} i}\right\|^2+\right. \\\left.\beta\left\|\boldsymbol{z}_{\mathrm{e}}-\operatorname{sg}\left(\boldsymbol{z}_{\mathrm{q} i}\right)\right\|^2\right) .\end{gathered}$

其中：sg是停止梯度操作符，β是超参数。该损失函数由2部分组成：一部分是编码器输出与码本嵌入向量之间的差异即嵌入损失；另一部分是嵌入向量与编码器输出之间的差异即承诺损失。利用β来平衡这2部分的权重。通过最小化该损失函数，使得z_e更接近于z_qi。

3.3 对抗性损失

对抗性损失用于训练量化向量和判别器D，使得量化后的池化聚合结果z_q能够“欺骗”判别器，从而缩小z_q与z_e的差异：

(13)

$L_{\mathrm{GAN}}=-\log D\left(\boldsymbol{z}_{\mathrm{e}}\right)-\log \left(1-D\left(\boldsymbol{z}_{\mathrm{q}}\right)\right) .$

3.4 总损失

模型的总损失是重构损失、量化损失和对抗损失之和：

(14)

$L_{\mathrm{total}}=L_{\mathrm{rec}}+L_{\mathrm{vq}}+L_{\mathrm{GAN}} .$

4 实验结果及分析

4.1 实验数据集

1) 电影数据集ML-1M。

根据数据规模不同，数据集MovieLen主要包含MovieLens 100K、MovieLens 1M和MovieLens 10M等。其中MovieLens 1M即ML-1M包含了6 000名用户对4 000部电影的100万条评分的交互数据，因其规模适中、数据质量高，成为了推荐系统研究领域中一个非常重要的数据集。

2) 电子商务数据集Retail Rocket。

该数据集包含了140万条用户行为记录，涉及4.5个月内他们对商品的浏览、添加到购物车和购买行为。Retail Rocket数据集因其真实性和全面性，在推荐系统研究领域中扮演着重要角色。通过分析这些用户行为数据，研究者可以构建和评估推荐算法，以提高个性化推荐的准确性和效率。

数据集的概要统计信息如表 1所示。在预处理过程中，按照用户数量8∶1∶1的比例划分训练集、验证集和测试集。并在T为20和100时分别对用户的交互历史进行窗口滑动，构成离散的ID序列。

表 1 数据集概要统计信息

数据集	用户数	物品数	交互数
ML-1M	6 040	3 706	1 000 209
Retail Rocket	1 407 580	235 061	2 756 101

4.2 评价指标

1) 重构能力评估指标。

重构损失是生成式模型衡量重构能力的一项重要指标，能够定量比较各个模型及超参数配置的优劣。为了公平评价重构能力，本文只对各模型在训练阶段的交叉熵损失进行度量，如式(11)所示。此外，采用Top-1准确率^[3]定量评价序列数据重构能力。

2) 生成能力评估指标。

首先，本文采用2.4节中的掩码策略，对原始序列进行随机掩码操作。然后，将经过掩码处理的序列输入生成器进行采样，将生成的样本作为评估对象，旨在衡量原始样本数据与生成数据之间推荐物品是否存在显著的曝光度差异。

计算每一个推荐物品曝光均值和方差：

(15)

$\mu_v^{\boldsymbol{A}}=\frac{1}{N} \sum\limits_{u=1}^N \boldsymbol{A}_{u v}, \mu_v^{\boldsymbol{B}}=\frac{1}{N} \sum\limits_{u=1}^N \boldsymbol{B}_{u v} ;$

(16)

$\sigma_v^2(\boldsymbol{A})=p_v^{\boldsymbol{A}}\left(1-p_v^{\boldsymbol{A}}\right), \sigma_v^2(\boldsymbol{B})=p_v^\boldsymbol{B}\left(1-p_v^\boldsymbol{B}\right) .$

其中：μ_v^A和σ_v²(A)分别代表推荐物品v在原始样本交互矩阵A中的曝光均值和曝光方差；μ_v^B和σ_v²(B)分别代表推荐物品v在生成样本交互矩阵B中的曝光均值和曝光方差。

$ v=1, 2, \cdots, I$

，I代表推荐物品的总数，N代表用户总数；A_uv代表在A中用户u与物品v的交互情况，A_uv为1代表有交互，为0代表无交互；B_uv代表在B中用户u与物品v的交互情况，B_uv=1代表有交互，为0代表无交互。然后，计算物品v对应的t检验统计量和p检验值：

(17)

$t_v=\frac{\mu_v^\boldsymbol{A}-\mu_v^\boldsymbol{B}}{\sqrt{\frac{\sigma_v^2(\boldsymbol{A})}{N}+\frac{\sigma_v^2(\boldsymbol{B})}{N}}}, $

(18)

$p_v=2 \times\left(1-\varPhi\left(\left|t_v\right|\right)\right) .$

其中Φ是标准正态分布的累积分布函数。

4.3 基线模型及实验设置

本文将对比生成领域常见的5种模型：

1) 自编码器(AE)^[14]。用于学习输入数据的高效表示，通常用于降维或特征学习。

2) 变分自编码器(VAE)^[6]。将输入数据编码到概率潜在空间，然后从这个空间中采样以生成新数据。

3) 向量量化变分自编码器(VQ-VAE)^[5]。向量量化层将连续的潜在表示聚类到有限的离散向量集合中，通过单独学习先验分布采样生成数据。

4) 向量量化变分自编码器2(VQ-VAE2)^[11]。VQ-VAE模型的扩展，引入了分层潜在空间结构，每一层负责学习不同粒度的离散特征。

5) 变分自编码器生成对抗网络(VQGAN)^[16]。结合了VQ-VAE的生成能力和GAN的判别能力。矢量量化部分VQ作为生成器，判别器D用于评估矢量化嵌入向量与编码器输出的差异。

对于离散的序列样本数据，将所有对比模型统一引入一维卷积，并保证相同的卷积层数、卷积核大小和卷积步长。鉴于矢量量化系列模型要求较低的学习率，将VQ-VAE、VQ-VAE2和VQGAN模型的学习率设置为0.000 2，其他模型的学习率设置为0.01。

4.4 总体性能比较

4.4.1 重构能力分析

从表 2中不难看出AE具有强大的重构能力，在2个数据集上，T分别为20和100时的重构损失均明显小于其他模型，并且重构准确率达到98%以上。VAE准确率最低，且在图 3和4中可以看到重构损失曲线比其他模型变化幅度小，说明重构的拟合能力不足。VQ-VAE在引入矢量量化后，重构能力有所提升；VQ-VAE2进一步增加量化层次，重构能力继续增强。然而，VQGAN通过强制拉近编码器输出和量化结果的差距，性能并未得到改善。RVQS_AE在2个数据集上重构损失均快速下降，重构损失曲线逼近AE模型，这一现象表明RVQS_AE在离散序列特征表达中借助堆叠量化进行了提升改进，且由于引入了残差机制，其核心优化目标仍然与AE一致，均以重构误差为主导。因此，其重构能力与AE相当，重构损失曲线高度吻合。然而，RVQS_AE采用多层堆叠的向量量化方法对潜在空间表示进行约束，这种离散化引入了量化误差，因此重构性能比AE低。

表 2 模型重构性能总览

数据集	T	重构损失						准确率/%
数据集	T	AE	VAE	VQ-VAE	VQ-VAE2	VQGAN	RVQS_AE	AE	VAE	VQ-VAE	VQ-VAE2	VQGAN	RVQS_AE
ML-1M	20	3.14×10^-7	7.511	4.902	4.159	4.918	0.151 2	0.998	0.002 7	0.042	0.496	0.056	0.706 9
ML-1M	100	4.84×10^-6	7.581	4.560	4.026	4.677	0.003 9	0.989	0.001 9	0.042	0.041	0.008	0.505 8
Retail	20	1.88×10^-5	9.219	5.754	8.368	5.336	0.000 2	0.974	0.002 9	0.051	0.031	0.054	0.812 6
Rocket	100	3.55×10^-7	9.006	2.774	7.927	3.271	0.001 9	0.965	0.002 6	0.045	0.032	0.062	0.742 1

显示原图|下载原图ZIP|生成PPT

图 3 ML-1M数据集上重构损失曲线比较

显示原图|下载原图ZIP|生成PPT

图 4 RetailRocket数据集上重构损失曲线比较

各模型在重构准确率指标上差异巨大，主要源于以下几点：AE凭借连续潜在空间，能精准捕捉输入数据特征，重构细节能力强；VAE因后验坍塌，潜在变量信息不足，重构能力受限；VQ-VAE与VQ-VAE2由于存在量化误差，丢失了样本特征细节信息，重构性能明显降低；VQGAN的对抗性训练虽拉近了量化结果与编码器输入的差距，但因GAN的训练不稳定性，且单一码本的量化误差在不同数据集上可能进一步放大，因此重构性能比AE更低；RVQS_AE借助残差机制保留了编码器输出特征，并采用堆叠量化平滑了单一码本的量化误差，因此重构能力仅次于AE。

4.4.2 生成能力分析

由于物品空间庞大，根据式(18)难以直观比较整体样本生成前后曝光程度的差异。为此，借助生物学基因组分析方法中广泛使用的火山图进行可视化分析^[18]，通过将用户的会话序列视为基因序列，交互的物品视为基因，分析基因片段的显著性变化。横坐标为物品曝光均值的对数变化倍数如lb (μ_v^B/μ_v^A)。该值为正时，表示生成数据中物品曝光度相对原始数据上调；本文设置上调阈值为2，表示生成数据中物品v的曝光度是原始数据的4倍。该值为负时，表示曝光下调；本文设置下调阈值为-2，表示生成数据中物品v的曝光度是原始数据的1/4倍。纵坐标为物品对应的p检验值的负对数值如-lgp_v，表示曝光差异的统计显著性。p_v越小，表示生成数据中物品v曝光差异越显著。本文设置显著性阈值为0.05，用于区分物品的p_v是否具有统计显著性。

从图 5a和6a不难看出，当T为20时，从物品曝光均值变化看，为了确保足够的重构能力，生成数据中物品呈现曝光度上调；从纵向统计显著性看，AE模型得到的物品p检验值较高，对应的负对数值较低，表明在统计上没有足够的证据认为生成数据与原始数据之间存在显著差异。图 5b和6b中VAE模型生成数据中物品曝光度均下调，并且统计显著性与训练集中物品的曝光度具有一定相关性，即原始数据中曝光量越大的物品，显著性越强，表明模型的生成能力严重不足。VQ-VAE和VQ-VAE2模型中生成数据中物品曝光度下调，说明存在一定量的样本序列重构性欠缺，但同时也有一定的物品曝光度增强。图 5e和6e中VAEGAN通过引入对抗性，生成数据中物品在曝光一致性和显著性方面均有所改善，但是不够明显。RVQS_AE总体表现为生成数据中曝光度偏差和显著性变化与AE模型相似，即生成数据中物品曝光程度上调，但统计显著性低。说明RVQS_AE模型生成数据中物品在曝光程度上与原始数据具有较高的一致性。

显示原图|下载原图ZIP|生成PPT

图 5 ML-1M数据集上T为20时模型生成性能对比

显示原图|下载原图ZIP|生成PPT

图 6 ROCKTAIL数据集上T为20时模型生成性能对比

此外，当T为100时各模型在2个数据集上的生成能力表现与T为20时相似，因此不再赘述。

4.5 超参数分析

本节专注于研究矢量量化模型中堆叠层数m这一超参数对RVQS_AE模型性能的影响，以及模型性能与T的关系。从表 3和4中可以看出，随着堆叠层数的增加，模型的训练损失总体呈现一定下降趋势，重构准确率也得到显著提升。

表 3 ML-1M数据集上的超参数实验

m	T	重构损失	准确率/%
1	20	0.184 9	0.651 1
1	100	0.045 2	0.480 3
2	20	0.184 2	0.652 3
2	100	0.043 1	0.485 2
3	20	0.172 8	0.690 2
3	100	0.041 5	0.498 5
4	20	0.151 2	0.706 9
4	100	0.003 9	0.505 8
5	20	0.162 3	0.695 1
5	100	0.040 9	0.501 2

表 4 RetailRocket数据集上的超参数实验

m	T	重构损失	准确率/%
1	20	2.92×10^-4	0.762 1
1	100	4.25×10^-5	0.722 1
2	20	2.64×10^-4	0.798 4
2	100	4.12×10^-5	0.732 1
3	20	2.42×10^-4	0.812 6
3	100	3.94×10^-5	0.742 1
4	20	2.99×10^-4	0.775 4
4	100	4.14×10^-4	0.712 1
5	20	2.96×10^-4	0.751 9
5	100	3.01×10^-4	0.651 4

在ML-1M数据集上，当m为4时模型性能达到最优。在Retail Rocket上，m为3时模型性能达到最优。当m继续增加时，性能不再提升，这表明过多的堆叠层数可能导致矢量码本趋向于同质化分布，对性能提升没有进一步贡献。同时，可以观察到T和样本空间的稀疏程度对重构能力有一定的影响，在2个数据集上均表现为较长的序列中模型性能更好，表明模型能够更有效地捕捉长序列中用户兴趣模式。

4.6 消融实验分析

RVQS_AE模型核心组件包括残差连接、堆叠矢量化和对抗性训练。为了系统评估这些关键组件对模型性能的具体贡献，本文分别在2个数据集上设计了一系列消融实验，通过分别剔除这些组件来评估它们对模型性能的影响。具体而言，对RVQS_AE模型去掉残差连接模块，记为NoRest-Stack；去掉堆叠量化，保留单一码本和残差连接(即4.5节中m为1)，记为Rest-NoStack；去掉对抗性训练模块，记为NoAdv-Stack。此外，受数据集稀疏程度影响，NoRest-Stack和NoAdv-Stack模型在ML-1M上m为4，在RetailRocket上m为3。

从表 5可以看出，残差连接对模型的重构能力影响最为明显，NoRest-Stack模型性能最差。在保留堆叠矢量化的基础上，去掉池化聚合后的对抗性训练模块后，NoAdv-Stack模型性能略有降低。这表明在该模型中，对抗性训练模块对性能的提升作用相对较小。在保留残差连接和对抗性训练的基础上，去掉堆叠矢量化后，Rest-NoStack模型性能也有一定程度降低。这说明堆叠矢量化在缓解后验坍塌、提高模型编码效率和重构精度方面起到了重要的支撑作用。

表 5 消融实验结果

数据集	模型	T	重构损失	准确率/%
ML-1M	NoRest-Stack	20	5.028	0.416 0
	NoRest-Stack	100	5.021	0.402 1
	Rest-NoStack	20	0.184	0.651 1
	Rest-NoStack	100	0.045	0.480 3
	NoAdv-Stack	20	0.190	0.645 1
	NoAdv-Stack	100	0.048	0.475 5
Retail Rocket	NoRest-Stack	20	5.742	0.050 1
	NoRest-Stack	100	7.712	0.045 1
	Rest-NoStack	20	2.92×10^-4	0.762 1
	Rest-NoStack	100	4.25×10^-5	0.722 1
	NoAdv-Stack	20	3.01×10^-4	0.755 0
	NoAdv-Stack	100	4.50×10^-5	0.715 1

4.7 模型计算效率分析

超参数实验中，随着m增大，模型的参数量略有增加，但依然保持了较高的计算效率。例如，ML-1M数据集上，表 3中RVQS-AE模型在m为3时的参数量是3.2 M，而在m为4时为3.6 M，仅增加了约12.5%的参数量，每轮训练时间仅增加约8%，而推理时间几乎没有显著变化。这表明，RVQS-AE在性能提升的同时，保持了较高的计算效率。

此外，表 5中在T分别为20和100时，虽然Rest-NoStack和NoAdv-Stack引入残差连接导致计算效率略低，但有效降低了重构损失，并且显著提升了准确率。这表明RVQS-AE模型的多尺度残差连接在一定程度上实现了性能与效率的平衡。

5 结论

本文提出了一种基于残差网络的矢量量化堆叠自编码器。通过分层残差连接，保留编码器在不同视野尺寸的有价值连续信息，并利用堆叠多个码本平滑解决了单一矢量化码本的后验坍塌问题。

实验结果显示，与现有模型相比，本文模型在提高离散序列数据的重构特征表达能力和生成数据分布的一致性方面取得了显著改善。这表明，该自编码器为推荐系统中的离散序列数据生成提供了一种新的有效解决方案。下一步可以探索该模型在其他类型数据和模型架构中的应用潜力，并优化模型结构以应对更复杂的推荐场景。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	WANG J L, DING K Z, HONG L J, et al. Next-item recommendation with sequential hypergraphs[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, United States: ACM, 2020: 1101-1110.

2	EKSOMBATCHAI C, JINDAL P, LIU J Z, et al. Pixie: A system for recommending 3+ billion items to 200+ million users in real-time[C]//Proceedings of the Web Conference 2018. Lyon, France: ACM, 2018: 1775-1784.

3	SUN F, LIU J, WU J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing, China: ACM, 2019: 1441-1450.

4	KANG W C, MCAULEY J. Self-attentive sequential recommendation[C]//Proceedings of the 2018 IEEE International Conference on Data Mining. Singapore, Singapore: IEEE, 2018: 1-10.

5	VAN DEN OORD A, VINYALS O, KAVUKCUOGLU K. Neural discrete representation learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, Long Beach, USA: Curran Associates Inc., 2017: 1-10.

6	KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2013-12-10)[2025-01-12]. https://arxiv.org/abs/1312.6114.

7	HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, USA: Curran Associates Inc., 2020, 33: 6840-6851.

8	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, United States: MIT Press, 2014: 2672-2680.

9	KASWAN K S, DHATTERWAL J S, MALIK K, et al. Generative AI: A review on models and applications[C]//2023 International Conference on Communication, Security and Artificial Intelligence (ICCSAI). Greater Noida, India: IEEE, 2023: 699-704.

10	GONG S S, LI M K, FENG J T, et al. Diffuseq: Sequence to sequence text generation with diffusion models[EB/OL]. (2022-10-17)[2025-01-12]. https://arxiv.org/abs/1312.6114.

11	RAZAVI A, VAN DEN OORD A, VINYALS O. Generating diverse high-fidelity images with VQ-VAE-2[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, USA: Curran Associates Inc., 2019: 1-10.

12	RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015). Munich, Germany: Springer, 2015: 234-241.

13	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates, Inc., 2017: 5998-6008.

14	RUMELHART D E , HINTON G E , WILLIAMS R J . Learning representations by back-propagating errors[J]. Nature, 1986, 323 (6088): 533- 536. DOI

15	LEE D, KIM C, KIM S, et al. Autoregressive image generation using residual quantization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USA: IEEE, 2022: 11523-11532.

16	ESER P, ROMBACH R, OMMER B. Taming transformers for high-resolution image synthesis[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USA: IEEE, 2021: 1268-1277.

17	LI Z H , SUN A X , LI C L . Diffurec: A diffusion model for sequential recommendation[J]. ACM Transactions on Information Systems, 2023, 42 (3): 1- 28.

18	BURGER T . Fudging the volcano-plot without dredging the data[J]. Nature Communications, 2024, 15 (1): 1392. DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 相关工作

2 基于残差网络的矢量量化堆叠自编码器

图 1 基于残差网络的矢量量化堆叠自编码器结构

2.1 编码器模块

2.2 堆叠矢量量化模块

2.3 解码器模块

2.4 采样生成器模块

图 2 掩码策略示意图

3 模型训练

3.1 重构损失

3.2 量化损失

3.3 对抗性损失

3.4 总损失

4 实验结果及分析

4.1 实验数据集

表 1 数据集概要统计信息

4.2 评价指标

4.3 基线模型及实验设置

4.4 总体性能比较

4.4.1 重构能力分析

表 2 模型重构性能总览

图 3 ML-1M数据集上重构损失曲线比较

图 4 RetailRocket数据集上重构损失曲线比较

4.4.2 生成能力分析

图 5 ML-1M数据集上T为20时模型生成性能对比

图 6 ROCKTAIL数据集上T为20时模型生成性能对比

4.5 超参数分析

表 3 ML-1M数据集上的超参数实验

表 4 RetailRocket数据集上的超参数实验

4.6 消融实验分析

表 5 消融实验结果

4.7 模型计算效率分析

5 结论

References

Visited