面向跨模态检索的自监督深度语义保持Hash
逯波1, 段晓东1, 袁野2    
1. 大连民族大学 大数据应用技术国家民委重点实验室, 大连 116600;
2. 北京理工大学 计算机科学与技术学院, 北京 100081
摘要:在跨模态媒体检索任务中, 如何最大化保持异构媒体数据映射后的语义关联成为跨模态Hash的关键问题, 该文提出一种基于自监督学习的深度语义保持Hash网络框架用于生成紧凑的Hash编码。首先, 针对图像和文本数据, 分别训练2个单一模态的深度Hash网络并生成高层语义特征及各自的Hash编码。同时, 利用跨模态注意力机制度量不同模态高层语义特征之间的相似性, 最大化异构媒体数据间的局部语义关联性。其次, 利用训练数据的多标签语义信息建立深度语义Hash网络, 并以自监督对抗学习的方式同时监督指导2个单一模态的深度Hash网络的训练过程, 从而在全局角度保持不同模态数据之间的语义关联, 提高生成Hash编码的区分能力。最后, 在3个被广泛使用的大规模多模态媒体数据集上验证了提出框架的有效性。
关键词深度跨模态Hash    对抗学习    语义Hash    跨模态注意力机制    
Self-supervised deep semantics-preserving Hashing for cross-modal retrieval
LU Bo1, DUAN Xiaodong1, YUAN Ye2    
1. SECA Key Laboratory of Big Data Applied Technology, Dalian Minzu University, Dalian 116600, China;
2. School of Computer and Technology, Beijing Institute of Technology, Beijing 100081, China
Abstract: The key issue for cross-modal retrieval using cross-modal Hashing is how to maximize the consistency of the semantic relationship for heterogeneous media data. This paper presents a self-supervised deep semantics-preserving hashing network (UDSPH) that generates compact Hash codes using an end-to-end architecture. Two modality-specific hashing networks are first trained for generating the Hash codes and high-level features. The semantic relationship between different modalities is then measured using cross-modal attention mechanisms that maximize preservation of the local semantic correlation. Multi-label semantic information in the training data is used to simultaneously guide the training of two modality-specific Hashing networks by self-supervised adversarial learning. This constructs a deep semantic hashing network that preserves the semantic association in the global view and improves the discriminative capability of the generated Hash codes. Tests on three widely-used benchmark datasets verify the effectiveness of this method.
Key words: deep cross-modal Hashing    adversarial learning    semantic Hashing    cross-modal attention    

随着多媒体和网络技术的快速发展,海量的异构多模态媒体数据(如图片、文本、视频和音频等)呈指数级爆炸式的增长。为了更好地响应用户日益增长的多样化查询需求,跨模态媒体检索引起了相关研究领域越来越多的关注,并逐渐成为热点研究课题[1]。由于异构媒体数据具有高维度特征和存储代价大等特点,基于Hash技术的跨模态检索方法被提出用于实现高效地检索任务。通常,这些方法将高维度的多模态数据映射成紧凑的二进制Hash编码,使得相似的原始多模态数据实例具有相似的二进制Hash编码,如图 1所示。主要有2个优点:1) 相似模态数据实例映射之后的Hash码可以在统一的Hamming空间中进行有效地度量;2) 以bit为单位的二进制Hash码具有较低的存储成本和计算代价。然而,不同模态数据在低层特征上的异构性和高层语义特征上的“语义鸿沟”仍然是跨模态检索领域中极具挑战性的问题。

图 1 基于Hash方法的跨模态检索示例

为了解决不同模态之间的异构性问题,跨模态Hash方法被提出[2],根据是否使用标签语义信息,跨模态Hash方法的训练方式可以大致分为2类:无监督学习和有监督学习。无监督跨模态Hash方法旨在利用不带标签的训练数据学习从原始特征空间到Hamming空间的映射函数,并保持数据映射前后的特征分布。Song等[3]提出了一种模态间Hash网络(inter-media Hashing, IMH),通过学习一个共同的Hamming空间,以此来保持不同模态间数据的特征表达一致性。Ding等[4]利用基于潜在因子模型的集合矩阵特征分解方法来学习Hash函数(collective matrix factorization Hashing, CMFH),并将多模态媒体对象实例映射为一个统一的Hash编码。相比于无监督学习模式,有监督的跨模态Hash方法由于使用标签和相关联的语义信息,因此通常能够得到更好的跨模态检索性能。Bronstein等[5]提出跨模态相似性敏感Hash(cross-modal similarity sensitive Hashing,CMSSH),利用激励的方式将Hash学习看作一个分类任务,通过最小化原始空间相似性和映射后的Hash编码之间的距离,逐步按位迭代优化每一位的Hash编码。Wu等[6]提出量化关联Hash(quantized correlation Hashing,QCH),同时学习不同模态数据的相似度和量化误差。然而,传统的基于有监督的跨模态Hash方法在学习Hash码时仅利用手工标注的标签信息来训练浅层神经网络,这极大程度上限制了所生成Hash码的区分能力以及Hash函数的学习能力。因此,这些方法无法有效地捕获不同模态媒体数据间的语义关联并以此解决语义鸿沟问题,即在统一的Hamming空间中,映射后的Hash编码无法有效地保持异构模态数据之间原始的语义相关性。

近几年,由于深度学习方法[7]在自然语言理解、图像分类、物体检测、语音识别等领域的成功应用,一些跨模态Hash方法开始使用深度学习技术来获取不同模态数据实例之间有效和准确的非线性关联和特征表达。深度跨模态Hash方法[8]通过训练端到端的深层网络结构,进行特征学习和特征选择来得到更加准确的特征表达,同时在深层网络的最后一层学习相应的Hash编码。Jiang等[9]提出深度跨模态Hash框架(deep cross-modal Hashing,DCMH),使用负对数似然估计损失函数来保持跨模态相似性。Wang等[10]提出基于对抗学习的跨模态检索方法(adversarial cross-modal retrieval, ACMR),使用对抗学习来训练分类任务,从而提高不同模态数据之间的区分能力。尽管深度跨模态Hash方法已经在跨模态数据集上进行了验证并取得了有效的结果,但仍存在一个主要问题,大多数的深度跨模态Hash方法直接使用模态数据的单一语义标签进行训练[11],并仅使用不同模态成对数据的相似矩阵作为学习二进制Hash编码的限制条件,导致多模态数据的丰富语义关联信息无法被有效捕获用于生成Hash编码和学习Hash函数。事实上,成对的多模态数据实例通常都会有多个语义标签,例如在被广泛使用的多模态媒体数据集中,通常每个图像数据都被分配了多个类别标签,这些语义信息有助于提高不同模态数据间描述语义相关性的准确性。同时能够使生成的二进制Hash编码能够很好地保持原始空间中的语义相关性和特征表达一致性。

针对上述问题,本文提出一种基于自监督学习的深度语义保持Hash网络用于跨模态媒体检索任务。可用于端到端训练的深度混合模型框架,主要包括3个子学习网络,图像模态Hash网络、文本模态Hash网络以及深度语义Hash网络。首先,利用成对的多模态媒体数据,如图像和文本,分别训练2个相应的单一模态深度Hash网络,得到相应模态媒体数据映射后所生成的Hash编码。同时,针对2个单一模态深度Hash网络所生成的高层语义特征,利用跨模态注意力机制度量其之间的语义相关性,从而使图像—文本对之间的局部语义关联性保持最大化。其次,利用多模态媒体数据集中的多标签语义信息,构建深度语义Hash网络,并以对抗学习的方式同时监督指导两个单一模态的深度Hash网络的训练和学习过程,以此保证不同模态媒体数据经过训练学习所得到的Hash编码,能够从全局角度最大化保持不同模态之间的语义相关性和特征空间分布的一致性。

1 问题定义

本文提出了一种基于自监督的深度语义Hash网络框架,通过端到端方式进行训练和学习,可以得到紧凑的二进制Hash编码,同时Hash编码能够最大化保持原始语义空间的相似性以及特征表达的一致性,提出的框架如图 2所示。特别地,提出的框架可以扩展到更多模态数据上使用,但本文中仅关注图像和文本2种模态数据用于研究和实验。

图 2 基于自监督的深度语义保持Hash网络框架

给定一个包含n个训练样本的跨模态媒体数据集$\mathbb{Z}=\left\{z_{i}\right\}_{i=1}^{n}$,其中zi=(xi, yi, li)是一个三元组,每个训练数据都包含图像和文本2种成对的模态数据以及相应的标签信息。$X=\left\{x_{i}\right\}_{i=1}^{n} \in \mathbb{R}^{n \times d_{x}}$$Y=\left\{y_{i}\right\}_{i=1}^{n} \in \mathbb{R}^{n \times d_{y}}$分别表示训练样本zi中的图像模态和文本模态,dxdy分别表示各自特征空间的维度。li=(li1, li2, …, lim)表示训练数据zi的多个标签信息,其中m是类别的数量,lij=1表示数据zi属于第j类,否则lij=0。此外,给定每对多模态训练样本的语义相似度S,如果样本zizj具有语义相似性则Sij=1,否则Sij=0。

给定上面定义的$\mathbb{Z}$XYS,跨模态Hash的目标是从图像模态数据和文本模态数据中学习统一且紧凑的Hash编码。定义Bx, y∈{-1, 1}K表示生成的Hash编码,其中K是二进制Hash编码的长度。

同时,2个单一模态Hash网络中分别学习到的Hash函数定义为

$ H^{x, y}=f^{x, y}\left(x, y, l, \omega^{x, y}\right). $ (1)

其中:fx, y为对应于图像和文本Hash网络的Hash映射,ωx, y为Hash函数的训练参数。

对应于深度语义Hash网络中学习到的Hash函数定义为

$ H^{l}=f^{l}\left(l, \omega^{l}\right): \mathbb{R}^{d_{l}} \mapsto\{-1, 1\}^{K}. $ (2)

在式(1)和式(2)中的Hx, y, l分别对应3个深度Hash网络中所学习到的Hash函数,ωx, y, l为深度Hash网络中的协调参数。

最终,通过sign函数在Hx, y, l上进行非线性转换,可以得到生成的二进制Hash编码Bx, y, l定义为

$ B^{x, y, l}=\operatorname{sign}\left(H^{x, y, l}\right) \in\{-1, 1\}^{K}. $ (3)
2 基于自监督学习的深度语义保持Hash方法 2.1 模型训练与学习

本文提出的框架主要包括3部分:图像模态Hash网络、文本模态Hash网络和语义Hash网络。为了从全局角度最大化的保持不同模态媒体数据在映射后的语义关联性,使用语义Hash网络的输出作为辅助自监督信息,指导图像和文本模态Hash网络的训练和学习。具体地,1) 图像模态Hash网络采用预训练的CNN-F[12]神经网络进行特征学习,本文保留了原始CNN-F的前7层网络架构,将第8层设置为具有K个神经元的全连接Hash层,K为生成的Hash编码长度。2) 文本模态Hash网络首先通过Doc2Vec方法[13]提取特征嵌入向量,然后通过双向GRU网络将特征嵌入向量映射到语义向量空间,为了学习文本模态对应的Hash码,在双向GRU框架中,添加了2层全连接层,并将最后一层的神经元个数也设置为Hash编码长度K。3) 语义Hash网络首先将多模态数据的类别信息利用word2vec方法[14]转化为嵌入向量,将得到的嵌入向量作为感知机模型的输入,最终在模型最后一层得到相应的长度为K的Hash编码。

给定图像模态数据X和文本模态数据Y,2个单一模态Hash网络中的损失函数定义为

$ \begin{gathered} \min _{B^{x, y}, \alpha} L^{x, y}=\alpha_{1} J_{1}+\alpha_{2} J_{2}+\alpha_{3} J_{3}, \\ J_{1}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\nabla}_{i j}^{x, y}-\log \left(1+\mathrm{e}^{\mathit{\nabla}_{i j}^{x, y}}\right)\right), \\ J_{2}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\Lambda }_{i j}^{x, y}-\log \left(1+\mathrm{e}^{ \mathit{\Lambda }_{i j}^{x, y}}\right)\right), \\ J_{3}=\left\|H^{x, y}-B^{x, y}\right\|^{2}. \end{gathered} $ (4)

其中:

$ {\mathit{\nabla}} _{ij}^{x, y} = \frac{1}{2}{\left( {U_{*i}^l} \right)^{\rm{T}}}\left( {U_{*j}^{x, y}} \right), \quad \mathit{\Lambda }_{ij}^{x, y} = \frac{1}{2}{\left( {H_{*i}^l} \right)^{\rm{T}}}\left( {H_{*j}^{x, y}} \right), $

这里$U^{x, y, l} \in \mathbb{R}^{d \times n}$是训练网络过程中而学习到的高层语义特征。α1α2α3是网络中的超参数。J1损失和J2损失分别是生成的高层语义特征空间、Hamming空间与原始特征分布之间的交叉熵损失,J3损失是从2个单一模态Hash网络学习到的Hash编码的成对近似损失。

针对深度语义Hash网络,损失函数定义为

$ \begin{gathered} \min _{B^{l}, \beta} L^{l}=\alpha_{1} J_{1}+\alpha_{2} J_{2}+\alpha_{3} J_{3}, \\ J_{1}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\nabla}_{i j}^{l}-\log \left(1+\mathrm{e}^{\mathit{\nabla}_{i j}^{l}}\right)\right), \\ J_{2}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\Lambda }_{i j}^{l}-\log \left(1+\mathrm{e}^{ \mathit{\Lambda }_{i j}^{l}}\right)\right), \\ J_{3}=\left\|H^{l}-B^{l}\right\|^{2} . \end{gathered} $ (5)

其中:

$ \mathit{\nabla} _{i j}^{l}=\frac{1}{2}\left(U_{* i}^{l}\right)^{\mathrm{T}}\left(U_{* j}^{l}\right), \quad \mathit{\Lambda }_{i j}^{l}=\frac{1}{2}\left(H_{* i}^{l}\right)^{\mathrm{T}}\left(H_{* j}^{l}\right), $

Hl为在语义Hash网络中学习到的Hash编码。J1损失的作用是最大化保持语义特征之间的相似度,J2损失用来最大化保持原始语义标签信息和生成的Hash编码之间相似度。J3是学习到的Hash编码二值化的近似损失。

2.2 自监督对抗学习

根据式(5),将语义Hash网络所得到的U*ilH*il作为自监督信息,用来指导图像模态Hash网络和文本模态Hash网络的训练和学习,从而期望在全局角度最大化保持2种模态数据之间的语义相关性。然而,由于不同模态数据在低层特征向量上的分布具有不一致性,导致难以生成最优化的统一Hash编码。为了进一步提高跨模态媒体检索的性能,受到生成对抗网络的启发,利用对抗学习的方式来解决多模态的分布不一致性问题。

首先,分别为图像模态和文本模态构建2个判别器。对于图像模态判别器,输入是图像模态Hash网络所生成的语义特征Ux和语义Hash网络生成的语义特征Ul,类似地,文本模态判别器的输入是UyUl,2个判别器的输出为0或1。具体地,基于生成对抗网络的博弈思想,将由真实标签生成的语义特征所对应的模态标签设置为1,2个单一模态Hash网络生成的语义特征对应的模态标签设置为0。当训练模型时,定义判别器的对抗损失函数为

$ \begin{gathered} \min _{\eta^{x, y, l}} L_{\mathrm{D}}^{x, y, l}=-\frac{1}{2 n}\left(\sum\limits_{i=1}^{2 n} \log D\left(z^{x, y, l}\right)+\right. \\ \left.\sum\limits_{i=1}^{2 n} \log \left(1-D\left(\hat{z}^{x, y, l}\right)\right)\right) . \end{gathered} $ (6)

其中:${{{\hat z}^{x, y, l}}}$表示公共语义空间中的特征,zx, y, l表示对应于学习到的多模态特征Ux, y, l的模态标签,zx, y, l∈{0, 1}。

2.3 跨模态注意力机制

由于不同模态的相似媒体数据间具有很强的语义相似度,为了更加细粒度的挖掘这种语义关联性,并进一步提高图像模态和文本模态Hash网络所生成Hash编码的区分能力,引入跨模态注意力机制[15],从而最大化2种模态数据间的局部语义关联性。

给定$\boldsymbol{U}^{x}=\left(\boldsymbol{u}_{1}^{x}, \boldsymbol{u}_{2}^{x}, \cdots, \boldsymbol{u}_{m}^{x}\right), \boldsymbol{u}_{i}^{x}$表示由图像的子区域特征向量,$\boldsymbol{U}^{y}=\left(\boldsymbol{u}_{1}^{y}, \boldsymbol{u}_{2}^{y}, \cdots, \boldsymbol{u}_{n}^{y}\right), \boldsymbol{u}_{j}^{y}$表示文本的词嵌入向量,为了度量2种模态数据间的局部语义关联性,即实现语义相似的图片区域和词嵌入两者之间的局部对齐,首先计算2种模态数据对间的余弦相似度:

$ s_{i j}=\frac{\left(\boldsymbol{u}_{i}^{x}\right)^{\mathrm{T}} \boldsymbol{u}_{j}^{y}}{\left\|\boldsymbol{u}_{i}^{x}\right\||\cdot| \boldsymbol{u}_{j}^{y} \mid}, \quad i \in[1, m], j \in[1, n] . $ (7)

从2个方面考虑跨模态注意力机制,图像—文本注意力和文本—图像注意力。针对图像—文本注意力,计算文本模态的词注意力向量

$ \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_j^y = \sum\limits_{j = 1}^n {{\mu _{ij}}} \mathit{\boldsymbol{u}}_j^y, $

其中μij=soft max(γ1, sij),γ1为soft max函数的平滑系数。则图像—文本注意力相似度可表示为

$ S_{X 2 Y}\left(\boldsymbol{u}_{i}^{x}, \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}\right)=\frac{1}{m} \sum\limits_{i=1}^{m} \frac{\boldsymbol{u}_{i}^{x} \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}}{\left\|\left|\boldsymbol{u}_{i}^{x}\right| \cdot\left| \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}\right|\right\|}. $ (8)

类似地,文本—图像注意力相似度可表示为

$ S_{X 2 Y}\left(\boldsymbol{u}_{j}^{y}, \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}\right)=\frac{1}{n} \sum\limits_{j=1}^{n} \frac{\boldsymbol{u}_{j}^{y} \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}}{\left\|\boldsymbol{u}_{j}^{y}\right\| \cdot\left\| \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}\right\|} . $ (9)

进一步地,给定边界参数σ,可计算图像—文本数据对之间的三元组损失:

$ \min L_{\text {tri }}(X, Y)=\sum\limits_{n=1}^{N} L_{\text {tri }}^{X}\left(X_{n}, Y_{n}\right)+L_{\text {tri }}^{Y}\left(X_{n}, Y_{n}\right). $ (10)
2.4 训练优化策略

根据上面的讨论,可以得到提出的深度语义保持Hash网络的总损失函数为

$ \text { Loss }=L^{x, y}+L^{l}+L_{\mathrm{D}}+L_{\mathrm{tri}} . $ (11)

为了能够更快的完成迭代并收敛,在训练整个模型时,通过迭代优化的方式计算Loss。具体地,针对损失Lx, yLl,共享训练参数α1α2α3。同时,按以下顺序优化迭代损失函数:

$ L^{l} \rightarrow L^{x, y} \rightarrow L_{\mathrm{D}} \rightarrow L_{\text {tri }} \rightarrow L^{x, y} $

在计算某阶段的损失函数时,模型中其他部分的参数保持固定。整个模型采用后向传播算法,并利用随机梯度下降方法对各部分的损失函数进行求导并得到最优近似解。

当整个模型以端到端的方式训练完毕并收敛,可将查询数据q(图像或文本)作为模型输入并最终根据式(3)得到映射后的Hash编码Bqx, y,即$B_{q}^{x, y}=\operatorname{sign}\left(f^{x, y}\left(b_{q}; \omega^{x, y}\right)\right)$

3 实验与结果

本文提出的方法在3个广泛使用的数据集上验证了有效性,提出的框架通过TensorFlow进行深度学习网络的训练和实现,所有实验在装配有2个NVIDIA TESLA V100 32G的深度学习机上运行。

3.1 数据集及评估方法

实验过程中所使用的数据集包括:

1) MIRFLICKR-25K[16]数据集包含从社交图片网站Flickr收集的25 000个数据,所有数据共分为24个类别标签。实验中,共挑选18 020个数据,其中11 000个数据用于训练模型,2 000个数据作为测试集,其余数据用作跨模态检索数据集。该数据集中的对应的文本在实验中抽取为1 200维的嵌入向量。

2) NUS-WIDE[17]数据集包括26 800张图片数据,共81个真实类别标签,实验中选取了常用的25个类别标签,以及对应的18 000个数据,其中10 500个数据作为训练集,2 200个数据作为测试集,其余数据作为跨模态检索数据集。

3) MS-COCO[18]数据集包括80 000个训练数据和40 000个验证数据。实验选取了其中12 000个数据作为训练集,5 000个数据作为测试集,对应的文本抽取为2 000维的嵌入向量。

此外,使用Hamming排序和Hash查找验证提出方法在跨模态检索任务上的性能,评估准则使用平均精度均值(mean average precision, MAP@N),查准率—查全率(precision-recall)。

3.2 性能评估

为了评估本文提出方法在跨模态检索任务上的性能,提出的方法与5种当前主流的跨模态Hash方法进行了对比,这些方法包括:CMSSH、STMH[19]、SePH[20]、SCM[21]以及DCMH。其中前4种都是只使用了浅层神经网络结构的跨模态Hash方法,而DCMH方法是基于深度学习网络的跨模态Hash方法。鉴于公平对等性,与前4种方法比较时,针对图片数据的处理,为所有使用浅层神经网络结构的方法统一提取了深度CNNF特征。本文方法与其他方法基于不同Hash编码长度在3个数据集上测试了平均精度均值,对比结果如表 1所示。特别地,针对2类检索任务,利用图像查询文本数据和利用文本查询图像数据分别用I$ \mapsto $TT$ \mapsto $I来表示。从表 1中可以观察到,相比于4种使用浅层神经网络的方法,本文提出的方法在MIRFLICKR25K数据集,Hash编码长度为64 bits时,针对2种检索任务,MAP值分别高出31.9%和35.9%,34.4%和32.2%,22.5%和26%,9.1%和20.4%。对比使用深层神经网络的DCMH方法,本文方法也显著改善了MAP值达11%和12.7%。此外,基于64位Hash编码,在3个数据集上执行跨模态检索任务,对比了本文提出方法与其他方法的查准率—查全率,如图 3所示。由于提出方法使用跨模态注意力机制,保证了局部语义相关性最大化,同时,通过全局角度考虑不同模态媒体对象之间的分布差异,并通过成对损失函数和对抗损失函数求得误差的近似最优解,使得提出方法所得到的检索结果的查准率和查全率明显优于其他方法。

表 1 3个数据集上测试不同Hash编码长度的平均精度均值评估
检索任务 对比方法 MIRFLICKR25K NUS-WIDE MS-COCO
16 bits 32 bits 64 bits 16 bits 32 bits 64 bits 16 bits 32 bits 64 bits
I$ \mapsto $T SCM 0.545 0.556 0.557 0.438 0.434 0.428 0.387 0.385 0.383
CMSSH 0.579 0.556 0.532 0.435 0.446 0.424 0.535 0.487 0.456
STMH 0.587 0.625 0.651 0.481 0.514 0.515 0.468 0.546 0.561
SePH 0.755 0.773 0.785 0.651 0.679 0.685 0.578 0.613 0.634
DCMH 0.765 0.752 0.752 0.545 0.563 0.595 0.513 0.556 0.657
OURS 0.834 0.862 0.876 0.681 0.712 0.764 0.650 0.685 0.721
T$ \mapsto $I SCM 0.554 0.558 0.556 0.435 0.432 0.428 0.386 0.386 0.385
CMSSH 0.566 0.593 0.519 0.435 0.443 0.425 0.535 0.476 0.451
STMH 0.612 0.623 0.655 0.434 0.469 0.461 0.523 0.551 0.579
SePH 0.687 0.698 0.711 0.575 0.576 0.567 0.571 0.622 0.657
DCMH 0.765 0.750 0.788 0.551 0.594 0.621 0.548 0.574 0.610
OURS 0.893 0.912 0.915 0.733 0.767 0.763 0.746 0.780 0.835

图 3 基于三种数据集的跨模态检索任务的查准率—查全率曲线

4 结论

本文提出了一种可用于端到端训练的基于自监督学习的深度语义保持Hash网络进行Hash编码和Hash函数的学习。该框架利用多模态训练数据对的多标签语义信息建立深度语义Hash网络,并通过自监督对抗学习的方式同时监督指导2个单一模态的深度Hash网络的训练过程,从而在全局角度保持不同模态数据之间的语义关联,同时利用跨模态注意力机制度量不同模态高层语义特征之间的相似性,最大化异构媒体数据间的局部语义关联性。通过在3个被广泛使用的大规模多模态媒体数据集上验证了提出框架的有效性。未来研究工作将进一步尝试构建更加有效的深度Hash网络,并考虑引入transformer结构和图神经网络,设计更加有效的损失函数,从更多角度探索和挖掘多模态数据间的语义相似性。

参考文献
[1]
WAN J, WANG D Y, HOI S C, et al. Deep learning for content-based image retrieval: A comprehensive study[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando Florida, USA: ACM, 2014: 157-166.
[2]
ZHUANG Y T, YU Z, WANG W, et al. Cross-media hashing with neural networks[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando Florida, USA: ACM, 2014: 901-904.
[3]
SONG J, YANG Y, HUANG Z. Inter-media hashing for large-scale retrieval from heterogeneous data sources[C]//Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data. New York, USA: ACM, 2013: 785-796.
[4]
DING G G, GUO Y C, ZHOU J L, et al. Large-scale cross-modality search via collective matrix factorization hashing[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5427-5440.
[5]
BRONSTEIN M M, BRONSTEIN A M, MICHEL F, et al. Data fusion through cross-modality metric learning using similarity-sensitive hashing[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 3594-3601.
[6]
WU B T, YANG Q, ZHENG W S, et al. Quantized correlation hashing for fast cross-modal search[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3946-3952.
[7]
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[8]
ZHANG J, PENG Y X, YUAN M K. Unsupervised generative adversarial cross-modal hashing[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI Press, 2018: 539-546.
[9]
JIANG Q Y, LI W J. Deep cross-modal hashing[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017: 3270-3278.
[10]
WANG B K, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA: ACM, 2017: 154-162.
[11]
LIONG V E, LU J W, TAN Y P, et al. Cross-modal deep variational hashing[C]//Proceeding of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 4097-4105.
[12]
CHATFIELD C, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: Delving deep into convolutional nets[C]//Proceedings of the British Machine Vision Conference. Nottingham, UK: BMVA Press, 2014: 1-12.
[13]
LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China: JMLR, 2014: 1188-1196.
[14]
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations. Scottsdale, USA, 2013: 2-11.
[15]
LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 212-228.
[16]
HUISKES M J, LEW M S. The MIR flickr retrieval evaluation[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. Vancouver, Canada: ACM, 2008: 39-43.
[17]
CHUA T S, TANG J H, HONG R C, et al. NUS-WIDE: A real-world web image database from national university of Singapore[C]//Proceedings of the ACM International Conference on Image and Video Retrieval. Santorini, Greece: ACM, 2009: Article No. : 48.
[18]
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 740-755.
[19]
WANG D, GAO X B, WANG X M, et al. Semantic topic multimodal hashing for cross-media retrieval[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3890-3896.
[20]
LIN Z J, DING G G, HU M Q, et al. Semantics-preserving hashing for cross-view retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015: 3864-3872.
[21]
ZHANG D Q, LI W J. Large-scale supervised multimodal hashing with semantic correlation maximization[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada: AAAI Press, 2014: 2177-2183.