基于注意力机制的两阶段融合多视图图聚类

引用本文

赵兴旺, 侯哲栋, 姚凯旋, 梁吉业. 基于注意力机制的两阶段融合多视图图聚类[J]. 清华大学学报(自然科学版), 2024, 64(1): 1-12.

ZHAO Xingwang, HOU Zhedong, YAO Kaixuan, LIANG Jiye. Two-stage fusion multiview graph clustering based on the attention mechanism[J]. Journal of Tsinghua University (Science and Technology), 2024, 64(1): 1-12.

基于注意力机制的两阶段融合多视图图聚类

赵兴旺^1,2, 侯哲栋^1,2, 姚凯旋^1,2, 梁吉业^1,2

1. 山西大学计算机与信息技术学院, 太原 030006;
2. 计算智能与中文信息处理教育部重点实验室(山西大学), 太原 030006

收稿日期：2023-08-12

基金项目：国家自然科学基金面上项目(62072293, 62272285);国家自然科学基金区域联合创新基金重点项目(U21A20473)

作者简介：赵兴旺(1984—), 男, 副教授

通讯作者：梁吉业, 男, 教授, E-mail: ljy@sxu.edu.cn

摘要：多视图图聚类旨在挖掘多视图图数据中蕴含的簇结构, 近年来得到了研究者的广泛研究。然而, 现有大多数方法在不同视图信息的融合过程中同等对待各个视图, 未能根据视图质量分配相应权重, 而且处理具有属性和图的数据时面临一定困难。该文提出了一种基于注意力机制的两阶段融合多视图图聚类算法。首先, 应用图滤波器过滤高频噪声, 各个视图获得更适用于下游聚类任务的节点平滑表示; 其次, 基于注意力机制融合各个视图特征滤波后的平滑表示, 并为拓扑融合阶段提供初始化权重; 然后, 在拓扑融合阶段, 将不同视图加权融合的Laplace矩阵与融合的特征表示输入编码器得到嵌入表示, 并构造优化函数对权重和嵌入表示进行优化, 可以为质量较好的视图分配较大权重, 同时产生更加紧凑的嵌入表示; 最后, 通过对嵌入表示执行谱聚类得到最终的聚类结果。将该算法和已有的相关聚类算法在真实数据集上进行了实验分析。结果表明, 相比已有算法, 所提出的算法在处理多视图图数据方面更加有效。

关键词：多视图学习图聚类注意力机制图学习嵌入表示

Two-stage fusion multiview graph clustering based on the attention mechanism

ZHAO Xingwang^1,2, HOU Zhedong^1,2, YAO Kaixuan^1,2, LIANG Jiye^1,2

1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China;
2. Key Laboratory of Computational Intelligence and Chinese Information Processing Ministry of Education(Shanxi University), Taiyuan 030006, China

Abstract: [Objective] Multiview graph clustering aims to investigate the inherent cluster structures in multiview graph data and has received quite extensive research attention over recent years. However, there are differences in the final quality of different views, but existing methods treat all views equally during the fusion process without assigning the corresponding weights based on the received quality of the view. This may result in the loss of complementary information from multiple views and go on to ultimately affect the clustering quality. Additionally, the topological structure and attribute information of nodes in multiview graph data differ significantly in terms of content and form, making it somewhat challenging to integrate these two types of information effectively. To solve these problems, this paper proposes two-stage fusion multiview graph clustering based on an attention mechanism. [Methods] The algorithm can be divided into three stages: feature filtering based on graph filtering, feature fusion based on the attention mechanism, and topological fusion based on the attention mechanism. In the first stage, graph filters are applied to combine the attribute information with the topological structure of each view. In this process, a smoother embedding representation is achieved by filtering out high-frequency noise. In the second stage, the smooth representations of individual views are fused using attention mechanisms to obtain the consensus smooth representation, which incorporates information from all views. Additionally, a consensus Laplacian matrix is obtained by combining multiple views' Laplacian matrices using learnable weights. To obtain the final embedded representation, the consensus Laplacian matrix and consensus smooth representation are inputted into an encoder. Subsequently, the similarity matrix for the final embedded representation is computed. Training samples are selected from the similarity matrix, and the embedded representation and learnable weights of the Laplacian matrix are optimized iteratively to obtain a somewhat more compressed embedded representation. Finally, performing spectral clustering on the embedding representation yields the clustering results. The performance of the algorithm is evaluated using widely-used clustering evaluation metrics, including accuracy, normalized mutual information, an adjusted Rand index, and an F1-score, on three datasets: Association for Computing Machinery (ACM), Digital Bibliography & Library Project (DBLP), and Internet Movie Database (IMDB). [Results] 1) The experimental results show that the proposed algorithm is more effective in handling multiview graph data, particularly for the ACM and DBLP datasets, compared to extant methods. However, it may not perform as well as LMEGC and MCGC on the IMDB dataset. 2) Through the exploration of view quality using the proposed methods, the algorithm can learn weights specific to each view based on quality. 3) Compared to the best-performing single view on each dataset (ACM, DBLP, and IMDB), the proposed algorithm achieves an average performance improvement of 2.4%, 2.9%, and 2.1%, respectively, after fusing all views. 4) Exploring the effect of the number of graph filter layers and the ratio of positive to negative node pairs on the performance of the algorithm, it was found that the best performance was achieved with somewhat small graph filter layers. The optimal ratio for positive and negative node pairs was around 0.01 and 0.5. [Conclusions] The algorithm combines attribute information with topological information through graph filtering to obtain smoother representations that are more suitable for clustering. The attention mechanisms can learn weights from both the topological and attribute information perspectives based on view quality. In this way, the representation could get the information from each view while avoiding the influence of poor-quality views. The proposed method in this paper achieves the expected results, greatly enhancing the clustering performance of the algorithm.

Key words: multiview learning graph clustering attention mechanism graph learning embedded representation

图聚类是图分析中的一项基本任务，目的是依据一定的准则将图中节点划分为几个紧密连接且不相交的社区或组。目前，研究者已经提出了一系列图聚类算法，并在社会化推荐、链路预测、引文网络分析、蛋白质作用分析、脑网络分析等领域得到了广泛应用。现有的大多数图聚类算法主要聚焦单视图图数据进行处理。然而，随着信息技术的快速发展，实际应用中产生了大量多视图图数据。例如，社交网络中的个体之间可能存在不同类型的社交关系，如好友、关注、评论、转发等，而且个体拥有一定的特征信息对其进行描述；在生物网络中，对于某些生物体来说，完整的蛋白质相互作用涉及数千种蛋白质分子之间多种不同的相互作用模式，且蛋白质具有一定的属性信息。与单视图图数据相比，该类多视图图数据具有多层拓扑结构，蕴含更丰富的信息，有助于更为准确地探测网络中蕴含的模式结构。但是不同视图下蕴含的簇结构之间既存在一定的相关性又存在异质性，为簇模式发现任务带来了新的挑战^[1-2]。

近年来，研究者针对多视图图聚类问题开展了广泛研究，并提出了一系列图聚类算法。这些算法大致可分为基于共识图学习和基于嵌入表示学习的图聚类2类。其中，基于共识图学习的图聚类旨在通过最大化不同视图间一致性来学习一个共识图，进而基于共识图利用传统聚类方法得到最终聚类结果^[3-5]。该类方法通过学习共识图尽可能保留视图间的一致性，但是直接在共识图上聚类可能会丢失视图中的特有信息。基于嵌入表示学习的图聚类在保留多视图图数据原始信息最大化的情况下，将图中每个节点的属性信息及其拓扑结构进行有效融合，并映射至一个联合的低维向量，进而基于低维向量表示利用传统聚类算法进行聚类^[6-7]。该类方法在聚类过程中不仅保留各个视图特有的信息，还能够发掘图数据中深层次的特征信息，可以更全面地探索多视图图数据中蕴含的结构信息。但是，该类方法也存在一定的问题，例如，视图之间质量存在差异，现有方法在不同视图信息进行融合过程中同等对待各个视图，未能根据视图质量分配相应的权重，可能会导致丢失多视图数据的互补性信息，进而影响最终聚类质量^[8]。另外，多视图图数据中节点的拓扑结构和属性信息从内容到形式截然不同，具有一定的异质性，难以有效地融合。

针对上述问题，本文提出了一种基于注意力机制的两阶段融合多视图图聚类算法。通过拓扑信息和属性信息相互协助融合，并基于注意力机制从拓扑信息和属性信息的双角度根据视图的质量学习相应的权重，以充分利用视图间互补信息，提高聚类质量。首先，基于低通图滤波器过滤各个视图中特征信息的高频噪声，得到更适合聚类的平滑表示；其次，基于注意力机制将各个视图滤波后的平滑表示融合，得到共识平滑表示，并为拓扑融合阶段提供初始化视图权重；然后，在拓扑融合阶段，基于特征融合阶段得到的初始权重对不同视图的Laplace矩阵进行融合，得到共识Laplace矩阵，并将其与共识平滑表示输入编码器中得到嵌入表示，完成拓扑信息与属性信息的融合；最后，计算嵌入表示的相似度矩阵，从中挑选训练样本并迭代地优化嵌入表示与融合Laplace矩阵的权重。通过对权重和嵌入的优化，模型可以为质量较好视图分配较大权重，同时可以获得更好的嵌入表示，进而利用谱聚类^[9]得到最终聚类结果。

1 相关工作 1.1 基于共识图学习的图聚类

基于共识图学习的图聚类通过学习一个能够最大化各个视图间一致性的共识图，在共识图上使用图切割或其他谱图技术获得最终聚类结果。该类方法主要包括3个步骤：1) 多视图数据的预处理；2) 学习共识图以最大化各个视图之间一致性；3) 基于所学到的共识图进行聚类。其中，最关键的步骤是如何使用数据中的信息或先验知识来指导共识图的学习。例如，文[3]通过低通滤波器对多视图进行平滑处理，生成每个视图的平滑表示，然后同时进行共识图学习和锚点的生成。文[4]通过学习共识图以最大化各个视图平滑表示的一致性，并通过对比学习使相似节点相互靠近和不相似节点相互远离，从而可以使共识图更准确地反应不同视图中的特征关系，使聚类更加精确。文[5]通过低通滤波器获得平滑表示后，学习共识图时不仅最大化各个视图平滑表示的一致性，而且同时探索各个视图的高阶拓扑结构信息的一致性。文[10]通过自适应地选择多个视图的特征同时捕获不同视图之间的一致性，学得能够恢复多个视图共享得底层集群结构共识图，以取得更好的聚类效果。针对传统多视图数据，文[11]通过使共识潜在表示贴近不同的视图，以便探索多个视图之间的互补信息，从而能够灵活地构造潜在表示，从而使共识潜在表示更全面，更适应子空间聚类；文[12]首先根据各个视图的特征生成节点间相似度矩阵，然后通过学习共识图来最大化各个视图的相似度矩阵的一致性，并通过约束共识图的Laplace矩阵帮助聚类。

1.2 基于嵌入表示学习的图聚类

基于嵌入表示学习的图聚类是从多视图图数据中学习节点的紧凑表示，然后对紧凑表示进行聚类。此类方法大致可以分为3个步骤：1) 利用图嵌入技术提取多个视图的紧凑表示；2) 通过设定外部约束条件，如在损失函数中添加相应正则化项，约束嵌入表示使其更适合用于聚类；3) 对紧凑的低维嵌入表示进行聚类。例如，文[6]通过从多个视图中挑选一个信息丰富的视图来重建其余视图，从而学习节点嵌入表示；同时，通过自训练聚类目标，使嵌入表示更适合聚类，最终基于嵌入表示进行聚类并得到聚类结果。文[7]通过全局图自编码器和局部图自编码器分别提取全局信息和局部信息的嵌入表示，进而通过自适应权重学习方法根据特征的重要性融合不同的特征。文[13]利用图自编码器来提取各个视图的嵌入表示，同时添加了块对角表示约束以便更好地探索聚类结构，然后利用学习到的聚类标签来指导节点表示和系数矩阵的学习，后两者依次用于后续聚类。文[14]使用双路径编码器来捕捉各个视图的一致性信息。其中，第一个路径用于提取节点的嵌入表示，第二个路径采用一致性嵌入编码器来捕获不同视图之间的几何关系和概率分布的一致性。最终，依赖于一致性嵌入编码器学到的嵌入表示来进行聚类，并输出最终的聚类结果。

1.3 自注意力机制

自注意力机制(self-attention mechanism)是近年来在自然语言处理(natural language processing, NLP)领域引起广泛关注的一种机制。它在各种任务包括机器翻译、文本摘要、语义角色标注等中取得了显著的成果。自注意力机制是用于序列建模的关键技术之一, 能够帮助模型在处理序列数据时，将重点放在不同位置的信息上，并且能够自适应地计算各个位置的注意力权重。这种特性使得自注意力机制在处理长序列和捕捉序列内部依赖关系方面具有独特的优势。文[15]首次提出了Transformer模型，引入了自注意力机制作为序列建模的核心组件, 通过使用多层自注意力机制和前馈神经网络可以有效地处理序列数据。文[16]开创性地将自注意力机制应用于预训练语言模型的领域。通过利用大规模语料库进行无监督学习。文[17]提出了Reformer模型，用于解决传统Transformer模型在处理长序列时的效率问题。使用一系列技术，如局部敏感哈希(locality-sensitive hashing, LSH)注意力和可逆网络，Reformer模型能够快速而有效地处理长序列数据文。相比传统的固定窗口或固定权重的方法，自注意力机制能够根据不同位置的重要性动态地分配权重，从而将更多的信息纳入考虑范围。本文借鉴了自注意力机制的思想，并将其应用于多视图图数据聚类任务中。不同于NLP中的注意力机制，本文将注意力机制应用于属性、拓扑融合过程中，根据每个视图质量确定融合部分对其关注程度通过考虑各个视图质量，以确定在融合阶段对各个视图的关注程度。

2 基于注意力机制的两阶段融合多视图图聚类 2.1 问题描述

本文考虑的多视图图数据为一组节点, 节点之间存在多种拓扑关系，节点由一组属性共同描述。这种多视图图数据可以形式化地表示为

$ G=\left\{V, E^{1}, E^{2}, \cdots, E^{M}, \boldsymbol{X}\right\}, $

(1)

其中，V={v_i}_i=1ⁿ为图数据中的所有节点组成的集合，e_{i, j}^(m)∈E^m表示第m个视图下节点v_i和v_j存在的连边关系。图G的拓扑结构(对应节点之间的多种关系)可以由多个邻接矩阵表示，A_m={a_ij^(m)|a_ij^(m)∈{0, 1}} 为第m个视图的邻接矩阵，若第m个视图中顶点节点v_i和v_j之间存在边，则a_ij^(m)=1，否则a_ij^(m)=0。X=(x₁, x₂, …, x_n)^T表示为图数据的属性矩阵。其中x_i表示节点v_i的属性描述。D_m表示第m个视图下图的度矩阵。$ \widetilde{\boldsymbol{A}}_{m}=\boldsymbol{D}_{m}^{-\frac{1}{2}} \boldsymbol{A}_{m} \boldsymbol{D}_{m}^{-\frac{1}{2}}$和$ \boldsymbol{L}_{m}=\boldsymbol{I}-\widetilde{\boldsymbol{A}}_{m}$分别表示第m个视图的归一化邻接矩阵和对称正则化Laplace矩阵。

多视图图聚类的目的是将多视图中n个节点划分为c个不相交的簇，使得在拓扑和属性角度同一簇内节点相近，而与不同簇内节点相距较远。

2.2 基于注意力机制的两阶段融合多视图图聚类

本文提出的算法的整体框架见图 1，主要包括基于图滤波的特征过滤、基于注意力机制的特征融合和基于注意力机制的拓扑结构融合3个部分。具体而言，基于图滤波的特征过滤是指通过低通图滤波器过滤掉特征中的高频噪声，得到有利于聚类的平滑表示；基于注意力机制的特征融合通过注意力机制融合各个视图的平滑表示，得到拥有全部视图特征信息的共识平滑表示；基于注意力机制的拓扑结构融合通过可学习的权重融合多个视图的Laplace矩阵，得到共识Laplace矩阵，再将其与共识平滑表示输入编码器得到嵌入表示，最后，计算嵌入表示的相似度矩阵，从中挑选训练样本并迭代地优化嵌入表示与融合Laplace矩阵的权重，以得到良好的嵌入表示和视图权重。

图 1 算法框架示意图

图选项

2.2.1 基于图滤波的特征过滤

图滤波是一种经典的信号处理过程，可以得到平滑的信号表示。本节基于图滤波器过滤各个原始图数据中的噪声，生成平滑表示。

在图信号处理领域, Laplace矩阵的特征值和特征向量分别对应于经典谐波分析中的频率和Fourier基^[18]。对称正则化Laplace矩阵可以特征分解为L=UΛU^－1，其中Λ=diag(λ₁, λ₂, …, λ_n)，λ_i(i=1, 2, …, n)是特征值，U=[u₁, u₂, …, u_n]^T为对应的正交特征向量。其中，特征值λ_i可以被认为是频率, 对应的特征向量u_i(i=1, 2, …, n)可以被认为是Fourier基。因此，图信号可以分解为u_i的线性组合：

$ f=\boldsymbol{U} \boldsymbol{c}=\sum\limits_{i=1}^{n} c_{i} \boldsymbol{u}_{i}. $

(2)

其中：c=(c₁, c₂…, c_n)^T并且|c_i|是u_i的系数。线性图滤波器可以表示为g=Up(Λ)U^-1，线性图滤波的输出f可以表示为

$ \overline{\boldsymbol{f}}=g \boldsymbol{f}=\boldsymbol{U} p(\boldsymbol{\varLambda}) \boldsymbol{U}^{-1} \cdot \boldsymbol{U} \boldsymbol{c}=\sum\limits_{i=1}^{n} p\left(\lambda_{i}\right) c_{i} \boldsymbol{u}_{i} . $

(3)

由式(3)可知，系数|c_i|的大小表示u_i的强度。u_i的平滑度可以由λ_i反映^[19]：

$ \sum\limits_{e_{j, k \in E}} a_{j k}\left[\boldsymbol{u}_{i}(j)-\boldsymbol{u}_{i}(k)\right]^{2}=\boldsymbol{u}_{i}^{\mathrm{T}} \boldsymbol{L} \boldsymbol{u}_{i}=\lambda_{i}. $

(4)

由式(4)可知，较小特征值对应的基信号更加平滑。这表明在图数据中，较小特征值对应的属性分量在相邻节点间差异更小，即相邻节点更加相似，这样有利于簇结构的形成，意味着聚类任务所需的图信号应该包含更多的低频基信号。因此图滤波器的功能是能够在保留低频信号的同时抑制高频信号。p(Λ)=diag(p(λ₁), p(λ₂), …p(λ_n))被称作滤波器的频率响应函数，为了满足图滤波器的低通需求并且避免引入噪声，p(λ_i)应该为在定义域上的单调递减的非负函数。由于L的所有特征值在[0, 2] 范围内^[9]，因此，频率响应函数可以设计为：p(λ_i)=$ 1-\frac{1}{2} \lambda_{i}$。最终的完全低通的图滤波器可表示为

$ \boldsymbol{H}=\left(\boldsymbol{I}-\frac{1}{2} \boldsymbol{L}\right)^{k} \boldsymbol{X}. $

(5)

其中：k为滤波器层数，X表示顶点的特征信息矩阵。因此，第m个视图经过图滤波以后的嵌入表示H_m表示为

$ \boldsymbol{H}_{m}=\left(\boldsymbol{I}-\frac{1}{2} \boldsymbol{L}_{m}\right)^{k} \boldsymbol{X}. $

(6)

2.2.2 基于注意力机制的特征融合

本文将注意力机制应用于属性、拓扑融合中，根据每个视图质量确定融合部分对其关注程度。具体来说，通过注意力机制根据每个视图的质量分配权重，决定每个视图在整个聚类任务中的重要程度。

通过图滤波器以后，各个视图得到了一个特征信息的平滑表示H_m(m=1, 2, …, M)。为了获得拥有全部视图信息平滑表示即共识平滑表示H，以及为拓扑融合模块提供良好的初始权重，本节基于注意力机制进行特征融合。首先，为每个视图的平滑表示H_m分配随机权重v_m，H可以表示为

$ \overline{\boldsymbol{H}}=\sum\limits_{m=1}^{M} w_{m} \boldsymbol{H}_{m}. $

(7)

在特征融合阶段，根据H_m与H的簇划分一致性程度为每个视图分配权重。对H和H_m使用谱聚类^[9]可以得到聚类结果P和Q_m，为了保证权重和为1并且同等地对待每个视图，故将Value设为1，则w_m的计算过程为

$ \begin{gathered} w_{m}=\operatorname{Attention}\left(P, Q_{m}, \text { Value }\right)= \\ \operatorname{softmax}\left(\operatorname{score}\left(P, Q_{m}\right)\right) \text { Value }= \\ \frac{\exp \left(\operatorname{score}\left(P, Q_{m}\right)\right)}{\sum\limits_{i=1}^{M} \exp \left(\operatorname{score}\left(P, Q_{i}\right)\right)}. \end{gathered} $

(8)

其中：score(P, Q_m)表示将P作为真实标签，使用聚类评价指标准确率计算Q_m的聚类结果得分。通过式(7)和(8)迭代更新各个视图权重，假设w^t=(w₁^t, w₂^t, …, w_M^t)表示第t次迭代后的权重，当‖w^t－w^t－1‖₂²≤0.01时表示w收敛。当w收敛之后，得到最终的H。基于注意力机制的特征融合算法如图 2所示。

图 2 基于注意力机制的特征融合算法

图选项

2.2.3 基于注意力机制的拓扑结构融合

为了得到包含全部视图拓扑信息的共识Laplace矩阵L，可以对各个视图的Laplace矩阵进行融合：

$ \overline{\boldsymbol{L}}=\sum\limits_{m=1}^{M} t_{m} \boldsymbol{L}_{m}. $

(9)

其中：t_m为第m个视图的权重。本节中可学习权重t由2.2.2节中收敛后的权重w来初始化。t用于拓扑结构融合阶段，而w用于特征融合阶段。

为了避免质量较差的视图影响最终的聚类结果，本节采用了注意力机制来为各个视图分配权重。对于聚类任务，当视图中相似节点的相似度越高、不相似节点的相似度越低时，认为该视图质量越好。因此，在拓扑结构融合阶段，根据各个视图中的节点聚集程度I_m为每个视图分配相应的权重，同样将Value设置为1。则每个视图的权重t_m可以计算如下：

$ \begin{gathered} t_{m}=\operatorname{Attention}\left(I_{m}, \text { Value }\right)= \\ \operatorname{softmax}\left(I_{m}\right) \text { Value }=\frac{\exp \left(I_{m}\right)}{\sum\limits_{i=1}^{M} \exp \left(I_{i}\right)}. \end{gathered} $

(10)

$ I_{m}=\sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n}-l_{i j} \ln s_{i j}^{(m)}-\left(1-l_{i j}\right) \ln \left(1-s_{i j}^{(m)}\right) . $

(11)

其中：节点i和j在同一簇中时l_ij=1，否则l_ij=0；s_ij^(m)表示第m个视图中节点i和节点j的余弦相似度。由于无监督条件下，并不知道哪些节点属于同一簇，因此认为相似度高的一对节点是同一簇内节点，相似度低的一对节点是不同簇内节点。

得到L后，将L与H送入编码器获得最终的嵌入表示Z。具体地，编码器通过低通图滤波器和MLP来组合实现。首先将H与L结合得到H_a：

$ \boldsymbol{H}_{\mathrm{a}}=\left(\boldsymbol{I}-\frac{1}{2} \overline{\boldsymbol{L}}\right) \overline{\boldsymbol{H}}=\left(\boldsymbol{I}-\frac{1}{2} \sum\limits_{m=1}^{M} t_{m} \boldsymbol{L}_{m}\right) \overline{\boldsymbol{H}} $

(12)

然后，将H_a送入MLP中得到嵌入表示Z：

$ \boldsymbol{Z}=f\left(\boldsymbol{H}_{\mathrm{a}} ; \boldsymbol{W}\right)=\boldsymbol{H}_{\mathrm{a}} \boldsymbol{W}=\left(\boldsymbol{I}-\frac{1}{2} \sum\limits_{m=1}^{M} t_{m} \boldsymbol{L}_{m}\right) \overline{\boldsymbol{H}}. $

(13)

其中W是MLP中可学习权重矩阵。

本节设计了一个能够同时优化t与Z的模块，具体如下。

基于Z，通过式(13)构造节点间相似性矩阵S：

$ \boldsymbol{S}=\frac{\boldsymbol{Z} \boldsymbol{Z}^{\mathrm{T}}}{\|\boldsymbol{Z}\|_{2}^{2}}. $

(14)

根据S中节点间相似度值大小进行降序排列。假设r_ij表示节点对(v_i, v_j)相似度值在所有相似度中的排名，根据正负样本比例η_pos和η_neg挑选部分节点对分为正样本和负样本构建正负样本集合，如式(15)所示。

$ l_{i j}^{\prime}= \begin{cases}1, & r_{i j} \leqslant r_{\mathrm{pos}}; \\ 0, & r_{i j}>r_{\mathrm{neg}} .\end{cases} $

(15)

其中：r_pos=n²η_pos，r_neg=n²η_neg。l′_ij=1表示节点对(v_i, v_j)为正样本，l′_ij=0表示节点对(v_i, v_j)为负样本。

基于以上构造的正负样本集合，可以通过有监督的方式优化t和Z。假设构造的正负样本集合用ϑ表示，则优化损失函数为

$ L=\sum\limits_{\left(v_{i}, v_{j}\right) \in \vartheta}-l_{i j}^{\prime} \ln s_{i j}-\left(1-l_{i j}^{\prime}\right) \ln \left(1-s_{i j}\right) . $

(16)

其中：s_ij为S中第i行第j列的元素。通过对以上损失函数进行优化，能够联合优化t和Z。随着训练过程的进行，每次更新阈值时，模型都会重建训练集并保存Z，通过对Z构造的相似度矩阵执行谱聚类获得聚类结果。因此，基于注意力机制的拓扑结构融合算法描述如图 3所示。

图 3 基于注意力机制的拓扑结构融合算法

图选项

基于以上描述，本文提出的基于注意力机制的两阶段融合多视图图聚类算法如图 4所示。

图 4 基于注意力机制的两阶段融合多视图图聚类算法

图选项

3 实验分析

为了验证本文提出算法的有效性，与已有的多视图图聚类算法在3个真实数据集上进行了实验比较分析。

3.1 数据集

本文在美国计算机协会引文网络数据集(ACM)、计算机科学文献库作者网络数据集(DBLP)、互联网电影资料库电影网络数据集(IMDB)这3个常用的真实多视图图数据集上进行了实验分析。

1) ACM：该数据集以共作论文(2篇论文由同一作者撰写)关系和共同主题(2篇论文包含相同主题)关系，构建了一个2视图的图拓扑结构，特征为关键词表示的词袋元素，并以论文的研究区域作为数据集的真实标签。

2) DBLP：数据集以共同写作(表示2位作者共写过一篇文章)、共同引用(表示两位作者在同一个会议上发表过论文)、共同术语(表示2位作者发表过相同术语的论文)为关系构建了3视图的图拓扑结构，特征是关键词表示的词袋元素。作者的研究领域为数据集的真实标签。

3) IMDB：该数据集为电影网络数据，其中节点属性对应于每部电影的单词袋的元素，根据由同一演员扮演和由同一导演执导的关系，构造了2视图图拓扑结构，电影类型作为真实标签。

数据集的详细情况见表 1, 其中ACM中的V₁和V₂分别对应共作论文和共同主题；DBLP中的V₁、V₂和V₃分别对应共同写作、共同术语和共同引用；IMDB中的V₁和V₂分别对应同一演员和同一导演。

表 1 数据集统计信息

数据集	节点	各视图中边数	特征数	簇个数
ACM	3 025	V₁ (29 281)	1 830	3
		V₂(2 210 761)
		V₁(11 113)
DBLP	4 057	V₂(6 776 335)	334	4
		V₃(5 000 495)
IMDB	4 780	V₁(98 010)	1 232	3
		V₂(21 018)

表选项

3.2 评价指标

本文选取准确率(accuracy, ACC)、标准化互信息(normalized mutual information, NMI)、调整Rand系数(adjusted Rand index, ARI)和F1分数(F1-score)4个广泛使用的聚类有效性评价指标对结果进行评价。

3.3 比较方法及参数设置

为了对提出算法进行较为全面的评估，将本文算法与单视图聚类方法GAE^[20]、LINE^[21], 传统多视图聚类方法SwMC^[12]、PMNE^[22]、RMSC^[23]，基于嵌入表示的多视图聚类方法O2MAC^[6]、GRAE^[7]和基于图滤波器的共识图学习方法MvAGC^[3]、MCGC^[4]、LMGEC^[24]等进行了比较。对比算法简要介绍如下。

1) GAE^[20]：利用图自动编码器对图结构数据进行了重建，使用所学得嵌入表示进行聚类。针对GAE，本文在每个图视图上都进行了实验，并报告了最佳结果。

2) LINE^[21]：开发了一个大规模的信息嵌入网络，用于学习图的嵌入。LINE是一种单视图算法，因此本文报告了所有视图中最佳的聚类结果。

3) SwMC^[12]：一种自加权多视图图聚类算法。

4) PMNE^[22]：包括网络聚合、结果聚合、层间协同分析3种多视图网络嵌入方法。对于3种嵌入方法，本文报告了最好的结果。

5) RMSC^[23]：一种鲁棒多视图谱聚类的Markov方法。它为每个视图构造一个转移概率矩阵，然后利用这些矩阵恢复一个共享的低秩转移概率矩阵。

6) O2MAC^[6]：使用一个编码器对质量最优视图信息进行编码得到嵌入表示，并通过该嵌入表示和多组解码器重构原数据中的多个视图，以此优化嵌入表示，并对嵌入表示执行聚类算法。

7) GRAE^[7]：在O2MAC的基础上加入了局部以及全局自编码器。弥补了O2MAC在融合视图时无法捕捉多视图数据的互补性信息的缺点。

8) MvAGC^[3]：用于多视图属性图数据聚类的通用框架，该框架通过图对比损失正则化学习一致图。

9) MCGC^[4]：能够处理多属性图聚类的框架。为了消除原始图噪声或不完整的影响，使用了图滤波技术来实现，并且设计了对比正则算子来探索嵌入间关系。

10) LMGEC^[24]：简单的线性模型，可以同时完成聚类和表示学习的双重任务，得到图的共识嵌入和划分。

对于所有3个数据集，本文算法的滤波层数k设置为2，η_pos和η_neg分别设置为0.01和0.5，嵌入维度均设置为500，使用Adam优化器来优化MLP参数和t，学习率λ设置为0.001，迭代次数设置为500。

3.4 实验结果

在对比实验中，将每种方法按照原文中的参数设置运行10次并报告其平均值。为了进行公平比较，本文复制了文献中LMGEC、MCGC、MVAGC、GRAE、O2MAC的实验结果。本文算法及对比算法的聚类结果见表 2，其中每个数据集的最佳聚类结果用黑体显示，次优聚类结果用下划线标注。可以看出，本文算法在ACM和DBLP数据集上优于其他方法，在IMDB数据集上的结果劣于MCGC与LMGEC。具体实验结果分析如下：

表 2 不同算法在3个数据集的聚类结果

数据集	指标	GAE	LINE	PMNE	RMSC	SwMC	O2MAC	GRAE	MvAGC	MCGC	LMGEC	本文算法
ACM	ACC	0.821 6	0.647 9	0.693 6	0.631 5	0.383 1	0.904 2	0.918 3	0.897 5	0.914 7	0.930 2	0.938 9
	NMI	0.491 4	0.394 1	0.464 8	0.397 3	0.083 8	0.692 3	0.723 3	0.673 5	0.712 6	0.751 3	0.778 4
	ARI	0.544 4	0.343 3	0.430 2	0.331 2	0.018 7	0.739 4	0.773 9	0.721 2	0.762 7	0.803 1	0.826 5
	F1	0.822 5	0.659 4	0.695 5	0.574 6	0.470 9	0.905 3	0.918 8	0.898 6	0.915 5	0.931 1	0.939 0
DBLP	ACC	0.885 9	0.868 9	0.792 5	0.899 4	0.653 8	0.907 4	0.918 3	0.927 7	0.929 8	0.928 5	0.930 6
	NMI	0.682 5	0.667 6	0.591 4	0.711 1	0.376 0	0.728 7	0.747 8	0.772 7	0.830 2	0.773 9	0.786 9
	ARI	0.741 0	0.698 8	0.526 5	0.764 7	0.380 0	0.778 0	0.805 2	0.827 6	0.774 6	0.828 4	0.832 3
	F1	0.874 3	0.854 6	0.796 6	0.824 8	0.560 2	0.901 3	0.912 8	0.922 5	0.925 2	0.924 1	0.925 5
IMDB	ACC	0.429 8	0.426 8	0.495 8	0.270 2	0.267 1	0.450 2	0.552 2	0.563 3	0.618 2	0.589 3	0.575 8
	NMI	0.040 2	0.003 1	0.035 9	0.005 4	0.005 6	0.042 1	0.080 2	0.037 1	0.114 9	0.063 2	0.079 0
	ARI	0.047 3	0.009 0	0.036 6	0.001 8	0.000 4	0.056 4	0.111 4	0.094 0	0.183 3	0.129 4	0.153 6
	F1	0.406 2	0.287 0	0.390 6	0.377 5	0.371 4	0.145 9	0.461 1	0.378 3	0.440 1	0.426 7	0.451 6

表选项

1) 单视图算法LINE和GAE在处理多视图图数据时效果不佳，因为它们无法获取其他视图中的信息。

2) 本文所提出的算法明显优于其他多视图聚类算法如PMNE、RMSC、SwMC。虽然这些算法考虑了所有视图但是仅能利用一类信息。PMNE、SwMC仅能利用结构信息，而RMSC仅能利用属性信息。相比之下，本文算法充分利用了拓扑信息和属性信息。

3) 本文算法在3个数据集上全面优于O2MAC、GRAE。这主要是因为：O2MAC仅将最优的视图作为输入，这明显会丢失其余视图的信息；GRAE虽然顾及到了多个视图的信息，但是未能根据视图质量来分配权重，视图质量较差的视图可能会影响聚类结果；而本文算法能够通过注意力机制根据视图质量学习到对应的权重，且前2种方法未能在融合属性信息与拓扑信息的过程中过滤高频噪声。

4) 相比基于图滤波器的共识图学习算法MvAGC、MCGC和LMGEC，本文算法在ACM和DBLP数据集上表现较优。这主要是由于MCGC、LMGEC和MvAGC在共识图上聚类，这会丢失各个视图中的特定信息。而本文算法在IMDB数据集上表现不佳，主要是由于IMDB数据集各个视图边和属性稀疏，所含属性信息与拓扑信息较少。

3.5 消融实验

为了探究本文提出算法中各模块对聚类任务的贡献，设计了消融实验来验证多视图学习、特征融合模块和拓扑融合模块的有效性。

3.5.1 多视图学习有效性验证

为了验证本文提出算法的多视图学习的有效性，将每个数据集的多个视图单独输入模型中，所有视图的聚类结果如表 3所示。可以看出，不同视图的聚类性能具有差异，而融合多个视图后的聚类结果总要优于单个视图的聚类结果。这充分说明本文提出的算法能够有效融合多个视图信息，学习到不同视图的互补性、一致性信息。

表 3 本文提出算法在不同视图下的聚类结果

数据集	指标	V₁	V₂	V₃	融合视图
ACM	ACC	0.9263	0.7170	—	0.9389
	NMI	0.7402	0.5103	—	0.7784
	ARI	0.7941	0.4705	—	0.8265
	F1	0.9261	0.6980	—	0.9390
DBLP	ACC	0.7732	0.6860	0.9122	0.9306
	NMI	0.4802	0.3726	0.7494	0.7869
	ARI	0.5096	0.3734	0.7866	0.8323
	F1	0.7674	0.6840	0.9074	0.9255
IMDB	ACC	0.5430	0.5481	—	0.5758
	NMI	0.0535	0.0661	—	0.0790
	ARI	0.1151	0.1210	—	0.1536
	F1	0.4383	0.4458	—	0.4516

表选项

为了更加直观地展示本文提出算法的多视图学习效果，将3个数据集中各个视图所得嵌入表示与融合所有视图所得嵌入表示经过t分布式随机邻居嵌入(t-distributed stochastic neighbor embedding, t-SNE)降维可视化。其中，节点的颜色代表其所属类别。

由图 5可以看出，ACM中V₁视图上同类节点聚合密集，不同类的节点间边界明显；V₂视图上不同类节点重叠情况严重, 但相比V₁视图，其红色节点聚集情况更加紧密；融合视图相比V₁视图，簇内节点更加紧凑，簇间边界更加明显，且红色节点的分散现象有所改善。

图 5 使用t-SNE将ACM中各视图的节点嵌入表示的二维可视化

图选项

由图 6可以看出，DBLP中V₁和V₂视图上不同类节点重叠严重，且无明显的簇结构。V₁同类节点聚集情况略好于V₂。V₃视图表现相对较好，同类节点聚集紧密，且不同类节点之间有明显边界，但仍然存在一些问题，簇内节点存在断层现象。融合视图相比V₃视图，同类节点聚集更加紧密且无明显断层。

图 6 使用t-SNE将DBLP中各视图的节点嵌入表示的二维可视化

图选项

由图 7可以看出，IMDB中3个视图表现都较差，不同类重叠现象严重，且无明显的簇结构。主要是由于IMDB数据集稀疏性造成的。但通过表 3中实验结果可以看出，融合后的聚类效果优于单个视图。

图 7 使用t-SNE将IMDB中各视图的节点嵌入表示的二维可视化

图选项

以上观察到的现象进一步验证了本文算法中多视图学习的有效性。

本文提出算法在不同数据集不同视图的最终权重如图 8所示。通过对表 3、图 5—7的综合观察发现，同一数据集的各个视图聚类结果与其所学习到的权重相互对应，聚类性能好的视图能够学到更大的权重。观察表 3、图 6、图 8中DBLP数据集可以发现：1) V₂、V₁、V₃这3个视图的聚类结果从好到坏，而所学得的权重同样从大到小，这主要得益于基于注意力机制的特征融合模块提供了良好的初始权重；2) V₁、V₂视图聚类效果差且所学得权重远远小于V₃；3) 融合各个视图以后的聚类效果优于单一视图下的聚类结果。以上现象进一步验证了本文提出算法采用注意力机制能够根据视图质量分配相应的权重，并且能够在获取所有视图信息的同时避免质量较差的视图影响聚类结果。

图 8 各数据集的视图所学习到的权重

图选项

3.5.2 特征融合模块与拓扑结构融合模块有效性验证

在每个数据集上，本文算法在简单聚类、无特征融合模块、无拓扑结构融合模块和完整算法4种情况下的聚类结果如表 4所示。其中，简单聚类情况下，仅将多个视图的拓扑结构进行平均加权后与X通过低通滤波融合后进行聚类，这个过程无特征融合与拓扑融合；在无特征融合模块的情况下，H由X代替；在无拓扑结构融合模块的情况下，使用特征融合模块所得到的H直接进行聚类。可以看出，与完整算法相比，缺失特征融合和缺失拓扑融合模块的算法在聚类效果上均有衰退，充分说明这2种模块对聚类结果的重要性，特别是拓扑融模块对聚类结果的贡献更大。

表 4 消融实验的聚类结果

数据集	评价指标	简单聚类	无特征融合模块	无拓扑融合模块	完整算法
ACM	ACC	0.863 3	0.935 9	0.871 1	0.938 9
	NMI	0.617 4	0.766 3	0.628 6	0.778 4
	ARI	0.652 3	0.811 0	0.660 7	0.826 5
	F1	0.864 5	0.924 4	0.872 2	0.939 0
DBLP	ACC	0.847 7	0.927 8	0.848 4	0.930 6
	NMI	0.604 4	0.776 2	0.603 2	0.786 9
	ARI	0.655 0	0.825 6	0.650 0	0.832 3
	F1	0.840 2	0.922 5	0.842 9	0.925 5
IMDB	ACC	0.533 0	0.573 4	0.537 0	0.575 8
	NMI	0.006 4	0.077 8	0.007 9	0.079 0
	ARI	0.027 1	0.141 8	0.028 9	0.153 6
	F1	0.299 8	0.436 7	0.308 5	0.451 6

表选项

3.6 参数分析

本文算法包括 η_pos、η_neg和k这3个参数，为了进一步验证提出算法的鲁棒性，本节进行了参数分析。由于在现实世界的多视图图数据中，不相似的节点对要远多于相似的节点对，因此参数η_pos、η_neg分别在{0.001，0.01，0.1，0.2，0.5}和{0.01，0.1，0.2，0.5，0.8}中进行调优，k在{1，2，3，4，5}中进行调优。图 9和10显示了参数对聚类性能的影响。

图 9 ACC评估指标下参数η_pos、η_neg对聚类结果的影响

图选项

图 10 ACC评估指标下参数k对聚类结果的影响

图选项

图 9展示了η_pos、η_neg对不同数据集聚类结果的ACC评估指标值的影响。可以看出，本文算法在数据集的一定范围内保持了相对稳定的聚类性能。特别地，当η_pos取较小值且η_neg取中等值时，本文算法在3个数据集中聚类性能表现均较好；而当η_pos和η_neg都取较大值时，本文算法的聚类性能显著下降。这是因为当正、负节点对比例选取过大时，可能会错误地将部分的非同簇但较为相似的节点拉近，同簇但不相似的节点推远。

图 10显示了对数据集聚类效果ACC评估指标值的影响。可以看出，当k较小时，随着k的增加，聚类结果总体呈上升趋势，随着k的继续增加，聚类的效果反而开始下降，这是由于滤波层数过多会造成过平滑。与ACM、IMDB相比，DBLP的聚类结果对k不太敏感。

4 结论

本文针对多视图图聚类中不同视图权重分配问题，提出了一种基于注意力机制的两阶段融合多视图图聚类算法。通过图滤波可以将属性信息与拓扑信息融合得到更加适合聚类的平滑表示，并且引入注意力机制，从拓扑信息和属性信息双角度根据视图质量学习权重，同时优化嵌入表示使其更加紧凑，最后对优化的嵌入表示执行谱聚类得到最终的聚类结果。通过在真实多视图图数据上进行实验分析，对该算法的有效性和鲁棒性进行了验证。本文算法针对包含大量节点的图数据会耗费较多时间，因此降低时间复杂度将会是下一步的目标。

参考文献

[1]	刘金花, 王洋, 钱宇华. 基于谱结构融合的多视图聚类[J]. 计算机研究与发展, 2022, 59(4): 922-935. LIU J H, WANG Y, QIAN Y H. Multi-view clustering with spectral structure fusion[J]. Journal of Computer research and Development, 2022, 59(4): 922-935. (in Chinese)
[2]	刘晓琳, 白亮, 赵兴旺, 等. 基于多阶近邻融合的不完整多视图聚类算法[J]. 软件学报, 2022, 33(4): 1354-1372. LIU X L, BAI L, ZHAO X W, et al. Incomplete multi-view clustering algorithm based on multi-order neighborhood fusion[J]. Journal of Software, 2022, 33(4): 1354-1372. (in Chinese)
[3]	LIN Z P, KANG Z. Graph filter-based multi-view attributed graph clustering[C]//Proceedings of the 30th International Joint Conference on Artificial Intelligence. Montreal, Canada: IJCAI. org, 2021: 2723-2729.
[4]	PAN E L, KANG Z. Multi-view contrastive graph clustering[C]//Proceedings of the 35th Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2021: 2148-2159.
[5]	LIN Z P, KANG Z, ZHANG L Z, et al. Multi-view attributed Graph clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(2): 1872-1880.
[6]	FAN S H, WANG X, SHI C, et al. One2Multi graph autoencoder for multi-view graph clustering[C]//Proceedings of the Web Conference 2020. Taipei, China: ACM, 2020: 3070-3076.
[7]	CAI E C, HUANG J, HUANG B S, et al. GRAE: Graph recurrent autoencoder for multi-view graph clustering[C]//Proceedings of the 4th International Conference on Algorithms, Computing and Artificial Intelligence. Sanya, China: ACM, 2021: 72.
[8]	LIANG J Y, LIU X L, BAI L, et al. Incomplete multi-view clustering via local and global co-regularization[J]. Science China Information Sciences, 2022, 65(5): 152105. DOI:10.1007/s11432-020-3369-8
[9]	CHUNG F R K. Spectral graph theory[M]. Providence: American Mathematical Society, 1997.
[10]	WU D Y, XU J, DONG X, et al. GSPL: A succinct kernel model for group-sparse projections learning of multiview data[C]//Proceedings of the 30th International Joint Conference on Artificial Intelligence. San Francisco, USA: Morgan Kaufmann, 2021: 3185-3191.
[11]	LI R H, ZHANG C Q, HU Q H, et al. Flexible multi-view representation learning for subspace clustering[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: AAAI Press, 2019: 2916-2922.
[12]	NIE F P, LI J, LI X L. Self-weighted multiview clustering with multiple graphs[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: AAAI Press, 2017: 2564-2570.
[13]	XIA W, WANG S, YANG M, et al. Multi-view graph embedding clustering network: Joint self-supervision and block diagonal representation[J]. Neural Networks, 2022, 145: 1-9. DOI:10.1016/j.neunet.2021.10.006
[14]	CHENG J F, WANG Q Q, TAO Z Q, et al. Multi-view attribute graph convolution networks for clustering[C]//Proceedings of the 29th International Joint Conference on Artificial Intelligence. Yokohama, Japan: IJCAI. org, 2021: 411.
[15]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[16]	DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers). Minneapolis, USA: ACL, 2019.
[17]	KITAEV N, KAISER L, LEVSKAYA A. Reformer: The efficient transformer[C]//Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: OpenReview. net, 2020.
[18]	SHUMAN D I, NARANG S K, FROSSARD P, et al. The emerging field of signal processing on graphs: Extending high-dimensional data analysis to networks and other irregular domains[J]. IEEE Signal Processing Magazine, 2013, 30(3): 83-98. DOI:10.1109/MSP.2012.2235192
[19]	WANG J, LIANG J Y, YAO K X, et al. Graph convolutional autoencoders with co-learning of graph structure and node attributes[J]. Pattern Recognition, 2022, 121: 108215.
[20]	KIPF T N, Welling M. Variational graph auto-encoders[EB/OL]. [2016-01-01]. https://arxiv.org/abs/1611.07308.
[21]	TANG J, QU M, WANG M Z, et al. LINE: Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. Florence, Italy: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.
[22]	LIU W Y, CHEN P Y, YEUNG S, et al. Principled multilayer network embedding[C]//Proceedings of the 2017 International Conference on Data Mining Workshops. New Orleans, USA: IEEE Press, 2017: 134-141.
[23]	XIA R K, PAN Y, DU L, et al. Robust multi-view spectral clustering via low-rank and sparse decomposition[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada: AAAI Press, 2014: 2149-2155.
[24]	FETTAL C, LABIOD L, NADIF M. Simultaneous linear multi-view attributed graph representation learning and clustering[C]//Proceedings of the 60th ACM International Conference on Web Search and Data Mining. Singapore, Singapore: ACM, 2023: 303-311.

文章信息

工作空间