利用图像描述与知识图谱增强表示的视觉问答
王屹超, 朱慕华, 许晨, 张琰, 王会珍, 朱靖波    
东北大学 计算机科学与工程学院, 自然语言处理实验室, 沈阳 110000
摘要:视觉问答作为多模态任务, 需要深度理解图像和文本问题从而推理出答案。然而在许多情况下, 仅在图像和问题上进行简单推理难以得到正确的答案, 事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部知识增强表示的视觉问答模型。该模型以问题为导向, 基于协同注意力机制分别在图像和其描述上进行编码, 并且利用知识图谱嵌入, 将外部知识编码到模型当中, 丰富了模型的特征表示, 增强了模型的推理能力。在OKVQA数据集上的实验结果表明, 该方法相比基线方法有1.71%的准确率提升, 与已有的主流模型相比也有1.88%的准确率提升, 证明了该方法的有效性。
关键词视觉问答    多模态融合    知识图谱    图像描述    
Exploiting image captions and external knowledge as representation enhancement for VQA
WANG Yichao, ZHU Muhua, XU Chen, ZHANG Yan, WANG Huizhen, ZHU Jingbo    
Natural Language Processing Lab, School of Computer Science and Engineering, Northeastern University, Shenyang 110000, China
Abstract: As a multimodal task, visual question answering (VQA) requires a comprehensive understanding of images and questions. However, conducting reasoning simply on images and questions may fail in some cases. Other information that can be used for the task, such as image captions and external knowledge base, exists. A novel approach is proposed in this paper to incorporate information on image captions and external knowledge into VQA models. The proposed approach adopts the co-attention mechanism and encodes image captions with the guidance from the question to utilize image captions. Moreover, the approach incorporates external knowledge by using knowledge graph embedding as the initialization of word embeddings. The above methods enrich the capability of feature representation and model reasoning. Experimental results on the OKVQA dataset show that the proposed method achieves an improvement of 1.71% and 1.88% over the baseline and best-reported previous systems, respectively, which proved the effectiveness of this method.
Key words: visual question answering    multimodal fusion    knowledge graph    image captioning    

近年来,深度学习技术极大推动了包括自然语言处理和计算机视觉在内的人工智能领域的发展,人们希望机器可以像人一样思考、交流。本文关注一项非常具有挑战性的多模态理解任务:视觉问答[1]。视觉问答要求模型在读懂文本问题的同时对图像内容有很好的理解,并利用2种模态的信息获得正确的答案。因此,视觉问答的发展得益于计算机视觉和自然语言处理2个领域的蓬勃发展。视觉问答在帮助视觉障碍人士了解世界,构建智能问答系统提升人机交互体验等场景下有巨大的应用潜力。

目前领域内的视觉问答模型广泛采用双线性编码的范式[2],基本思想是先对图像和文本分别进行编码,如图像领域的VGG[3]、ResNet[4], 自然语言处理领域的Word2vec[5]、Glove[6]、Bert[7]等;然后基于注意力机制学习图像和文本问题之间的隐含对齐特征[8-9], 将图像特征与文本特征进一步融合从而推理出正确的答案。然而在许多情况下,直接从图像和文本问题学习得到的特征表示很可能存在不足,需要引入额外的信息来增强特征表示,从而得到更好的模型性能。如图 1中的例1所示,对于“男人在玩什么乐器”这个问题在图像描述中可以找到与答案相关的信息,即“电子琴”“乐器”等,引入图像描述的信息有助于解答该问题。例2则说明引入外部知识的必要性:在图像描述中没有与问题“图中物体有什么用”的相关信息,但是可以从外部知识间接获得与答案相关的知识信息。将图像描述和外部知识信息编码到模型当中来丰富模型的特征表示,提升模型的推断能力,有助于模型更准确地生成正确答案。

图 1 视觉问答实例:引入图像描述和外部知识的必要性

为了引入图像描述信息,首先利用图像描述生成技术生成图像的“显式”描述即图像描述,再基于注意力机制以问题为导向生成图像描述的特征表示, 从而让模型可以更加充分地学习图像和文本的对齐信息。为了使模型能更好的回答类似例2中的问题,引入外部知识库提供额外的问答知识。使用知识库作为答案的来源是外部知识库的常用方法[10-12], 但是这种方法依赖于知识库对答案实体的覆盖程度,另外检索所消耗的计算成本也很高。

本文利用知识图谱嵌入(knowledge graph embedding, KGE)[13],对文本问题与图像描述进行编码,从而实现将外部知识引入到问答系统。在基于双线性编码的基准系统上,本文通过从图像中额外提取出来的图像描述和基于ConceptNet知识库[14]学习得到的知识图谱嵌入,为系统增强图像语义信息的同时也融入外部常识信息,提升了模型的推理能力从而更准确地生成答案。在OKVQA[15]数据集上进行了广泛的实验,发现本文问答系统的答案准确率与基线方法相比有1.71%的提升,与已有主流模型相比也有1.88%的显著提升。

1 相关工作

视觉问答[1]任务提出以来,受到了自然语言处理领域和计算机视觉领域研究者的广泛关注。目前主流的视觉问答模型采用双线性编码的范式[2],即图像与文本问题对应各自领域编码方法。为了学习图像和文本之间的内在联系,注意力机制被用来捕捉图像和自然语言之间的隐含对齐,取得了一定的效果。与直接将整张图像进行编码的方法不同,文[9]通过“自下而上”的方法确定图像中包含的物体区域框,利用文本问题与每个区域框相似度计算得出注意力权重,最后基于注意力机制模型学习图像区域与文本问题之间的隐含对齐。该方法一经提出便引起了视觉问答领域研究人员大量的关注,后续的工作都是在注意力机制基础上进行了相应的改进[8, 16]。本文在捕获图像和问题的“隐式”关系的同时,将图像描述作为“显式”的语义信息,并且基于注意力机制学习图像描述与问题之间的“显式”对齐,增强模型对图像与文本的编码能力。

视觉问答的另一个重要研究方向在于如何将知识库信息引入到问答系统中。文[10-12]等将知识库引进视觉问答模型,利用知识库中的实体拓展答案的候选集合。具体来说,文[10]所采用的数据集在原本的图像-问题-答案三元组基础上额外分配一个事实知识来支撑答案的推理。视觉问答模型需要通过在知识库中选择对应的知识实体作为答案。文[11-12]等则是利用在图像提取到的物体、场景、动作等信息在知识库中检索最相关的知识,并推理出答案。基于知识库的视觉问答优点在于模型不再局限于固定的答案集合,而是利用知识库动态提供答案候选。但这种基于检索的方式使模型性能依赖于识别物体、场景等子模块的效果,并且检索知识占据大部分运行时间。

2 本文方法 2.1 问题定义

在本文设定的视觉问答任务中,问答系统的输入包括预先给定的图像文件I和文本问题文件T,以及根据图像自动生成的图像描述文件C和额外引入的外部知识图谱G。本文将外部知识信息表示为E={G, C}。视觉问答系统的目标是从答案集合A中得到满足下列公式的最优答案$\hat{a}$

$ \hat{a}=\operatorname{argmax} p_{\theta}(a \mid I, T, E) . $ (1)

其中pθ (a|I, T, E) 表示在给定ITE的前提下,生成答案aA的条件概率,θ为可训练参数。

使用文[8]模型作为基线方法,该模型采用双线性编码范式,基于协同注意力机制使模型学习文本问题与图像之间的隐含对齐。在基线方法的基础上,本文所提的模型框架如图 2所示,与基线方法相比本文方法将额外生成的图像描述作为输入,利用协同注意力机制学习文本问题与图像描述的对齐信息,丰富了模型表示,此外本文通过KGE引入知识库信息,在运行效率得到保证的同时为模型融入常识知识,提升模型推理能力。使用ConceptNet[14]作为外部知识来源,ConceptNet是一个多语言的知识库,表示单词或者短语实体之间的常识知识(包含维基词典、开放常识、游戏[17]等)。从ConceptNet知识库中抽取与问答数据集语言相关的150万个节点,并且利用文[13]中的表示学习方法将节点所对应的单词转化成维度为dk的特征表示。

图 2 视觉问答系统整体框架图

2.2.1 表示层

模型的表示层包括图像表示、文本问题表示、图像描述表示,分别对应模型的3种输入。表示层的主要目的是将模型的输入映射到一定维度的向量特征,这些特征再被应用于模型训练中。

图像表示:本文对图像的表示采用“自下而上”的区域编码方法[9]:利用Visual Genome数据集[7]预训练得到Faster R-CNN模型[18],基于该模型提取图像中的区域对象。最终一张图像可以表示为一个特征矩阵$\boldsymbol{Y} \in \mathbb{R}^{n_{\mathrm{y}} \times d_{\mathrm{y}}}$ :

$ \boldsymbol{Y} \leftarrow \text { FasterRCNN }(I). $ (2)

其中,Y=[y1, y2, …, yny],$\boldsymbol{y}_{i} \in \mathbb{R}^{d_{\mathrm{y}}}$, ny表示区域框数量,dy表示区域框特征维度。

文本问题表示:文本问题的表示分拆为2个并行的视角,每个视角由2个阶段组成。视角1利用词嵌入Glove[6]将文本转换成特征向量,然后利用长短时记忆(long short-term memory, LSTM)网络进一步生成包含上下文信息的特征表示Xqg;视角2则采用知识图谱嵌入[13]初始化词向量,再利用长短时记忆网络得到特征表示Xqk

$ \boldsymbol{X}_{\mathrm{qg}} \leftarrow \operatorname{LSTM}(\operatorname{Glove}(T)), $ (3)
$ \boldsymbol{X}_{\mathrm{qk}} \leftarrow \operatorname{LSTM}(\operatorname{KGE}(T)) . $ (4)

其中: $\boldsymbol{X}_{\mathrm{qg}} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{g}}}, \boldsymbol{X}_{\mathrm{qk}} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{k}}}$dgdk分别表示Glove词嵌入和知识图谱嵌入的维度。

图像描述表示:首先利用图像描述生成模型[19]生成图像描述C∈{ci |i=1, 2, …, nc},nc表示图像描述的长度。与问题的表示方法不同,本文对图像描述的表示只采用KGE将文本映射成特征向量,然后经过LSTM网络产生图像描述的特征表示$\boldsymbol{X}_{\mathrm{ck}} \in \mathbb{R}^{n_{\mathrm{c}} \times d_{\mathrm{k}}}$ :

$ \boldsymbol{X}_{\mathrm{ck}} \leftarrow \operatorname{LSTM}(\operatorname{KGE}(C)). $ (5)
2.2.2 多模态注意力层

多模态注意力层包含问题-图像注意力模块、问题-描述注意力模块,通过注意力机制学习同模态或者不同模态表示之间的交互信息。多模态注意力模块实现细节如图 3所示,问题-图像注意力模块与问题-描述注意力模块具有相同的实现方式,区别只在于将图像表示替换为图像描述表示,因此本文只以问题-图像注意力模块为例进行说明。该模块采用类似编码器-解码器的结构形式[8],首先通过N层自注意力机制对文本问题进行编码,学习文本问题的自注意力特征,使模型对问题有一定的理解;图像先经过自注意力机制编码,学习图像自身的特征表示,该特征表示与经过N层自注意力机制编码的文本问题特征表示作为协同注意力机制的输入,计算得到在文本问题指导下的图像的多模态特征表示。经过M层解码器之后,问题-图像注意力模块的输出为:编码器端得到的文本问题的自注意力特征表示和解码器端得到的问题导向下的图像特征表示;将图像替换为图像描述,文本问题与图像描述作为问题-描述注意力模块的输入,经过上述的计算过程,问题-描述注意力模块的最终输出为:编码器端得到的文本问题的自注意力特征表示和解码器端得到的问题导向的图像描述特征表示。

图 3 多模态注意力模块

自注意力机制模块包含多头注意力层、正则化与残差链接层、前向层。以文本问题自注意机制计算为例,如图 3输入的文本特征$\boldsymbol{X} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{x}}}$(包括XqgXqkXck)经过矩阵映射之后得到相应的查询矩阵$\boldsymbol{Q} \in \mathbb{R}^{n_\text{q} \times d_{\text {query }}}$、键值矩阵$\boldsymbol{K} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{key}}}$和实值矩阵$\boldsymbol{V} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\text {value }}}$, 这里dquery=dkey=dvalue,下文均用d表示。注意力层采用缩放点积运算,其计算方法[20]如下所示:

$ \boldsymbol{Q}=\boldsymbol{X} \boldsymbol{W}^{Q}, \boldsymbol{K}=\boldsymbol{X} \boldsymbol{W}^{\boldsymbol{K}}, \boldsymbol{V}=\boldsymbol{X} \boldsymbol{W}^{\boldsymbol{V}} ; $ (6)
$ \text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d}}\right) \boldsymbol{V} . $ (7)

为了进一步提高表示能力,可以采用多头注意力机制[20]。多头注意力包含h个注意力运算,每个注意力运算对应了缩放点积运算,将运算结果拼接成为多头注意力层的输出表示:

$ \begin{gathered} \operatorname{MAtt}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\\ {\rm{Concat}} ({\text {Attention}}_1, {\rm{Attention}} _{2}, \cdots, {\rm{Attention}} _{h}) \boldsymbol{W}^{\rm{o}}. \end{gathered} $ (8)

这里$\boldsymbol{W}^\text{o} \in \mathbb{R}^{(d \times h) \times d}$为多头注意力参数矩阵。多头注意力层的输出$\boldsymbol{f} \in \mathbb{R}^{n_{\mathrm{q}} \times d}$再经过残差链接与层正则化以防止梯度消失和加速模型收敛:

$ \boldsymbol{f}=\text { LayerNorm }(\boldsymbol{X}+\operatorname{MAtt}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})). $ (9)

经过前向层后得到自注意力模块的最终输出为

$ \boldsymbol{Z}=\text { LayerNorm }(\boldsymbol{f}+\mathrm{FFN}(\boldsymbol{f})). $ (10)

协同注意力机制模块与自注意力模块不同的之处在于查询矩阵、键值矩阵和实质矩阵的生成方式。如图 3所示,Y作为指导特征与X生成对应的矩阵:

$ \boldsymbol{Q}^{\prime}=\boldsymbol{X} \boldsymbol{W}^{\boldsymbol{Q}^{\prime}}, \boldsymbol{K}^{\prime}=\boldsymbol{Y} \boldsymbol{W}^{\boldsymbol{K}^{\prime}}, \boldsymbol{V}^{\prime}=\boldsymbol{Y} \boldsymbol{W}^{\boldsymbol{V}^{\prime}}. $ (11)

之后的运算与自注意力模块相同,在协同注意力模块中X为文本问题特征,Y为图像或图像描述特征,因为这里的XY可以是不同维度的特征,所以能够进行多个模态特征之间的注意力学习。

2.2.3 输出层

上述模型得到了4部分的输出,分别是:问题引导的图像特征Y;问题自注意力特征$\boldsymbol{X}_{\mathrm{q}} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{q}}}$;问题引导并融入知识图谱表示的图像描述特征$\boldsymbol{X}_{\mathrm{c}} \in \mathbb{R}^{n_{\mathrm{c}} \times d_{\mathrm{k}}}$;融入知识图谱表示的问题自注意力特征$\boldsymbol{X}_{\mathrm{k}} \in \mathbb{R}^{n_{\mathrm{q}} \times d_{\mathrm{k}}}$。将这4部分特征通过线性层映射到统一维度,并且利用加和的融合方式生成最终的向量,然后将该特征向量送入到与答案集合长度相同的分类器当中,分类得到预测结果。

3 实验 3.1 实验数据

实验所用的数据集在获取答案时需要借助额外知识信息。而先前大多数的数据集都对额外知识施加一些约束,使答案的推理预测相对简单,例如KB-VQA数据集[21]使用模板生成的方式生成答案;FVQA数据集[10]规定只能利用该数据集给定的知识库,不能具备很好的通用性。因此为了验证方法的有效性,本文选用OKVQA数据集[15]

OKVQA数据集包含14 031张图像和14 055个自然语言(英文)问题,文本问题的平均长度为6.8个单词,答案的平均长度为2.0个单词。本文把问题集合划分训练集和验证集,样本数量分别为9 009和5 046。另外该数据集答案分为以下11个类别:车辆和运输工具(VT);品牌、公司和产品(BCP);物品、材料和服装(OMC);体育运动和娱乐活动(SR);烹饪和事物(CF);地理、历史、语言和文化(GHLC);人与日常生活(PEL);动植物(PA);科学技术(ST);天气和气候(WC);其他(Other)。

3.2 实验设置

表示层:针对输入的图像,本文采用Anderson等[9]的方法,基于FasterRCNN[18]从图像中提取区域框特征,设定最大区域框数量ny=100,每个图像特征维度dy=2 048。图像描述的生成则采用Luo等[20]的方法,本文实验中保留得分最高的2个图像描述结果。对文本问题的表示利用Glove[6]将每个词映射成300维的词嵌入,另外还利用知识图谱嵌入[13]将问题和图像描述中的词映射到dk=1 024维的向量空间。文本问题和图像描述最大长度分别为nq=20和nc=14。随后利用LSTM网络将所有文本相关的向量维度映射到2 048。

多模态注意力层:编码器和解码器层数分别为N=6和M=6。多头注意力机制中,设置head=8,d=1 024。

输出层:视觉问答任务中答案来自训练集出现的答案集合,本文实验答案来自训练集中出现次数大于2的答案集合,答案集合的大小为dans=2 255。实验中涉及的超参数如表 1所示,本试验采用二分类交叉熵(binary cross entropy, BCE)损失函数,优化算法为Adam。

表 1 本文实验中所涉及的超参数设置
超参数名称 取值
迭代轮次(epoch) 20
批大小(batch size) 32
遗忘参数(dropout) 0.1
预热参数(warm up) 0.1
学习率(learning rate) 5×10-5
损失函数(loss function) BCE
优化器(optimizer) Adam

使用视觉问答挑战赛[1]中提出的评价标准来评估本文提出模型的有效性:

$ \operatorname{Acc}(\mathrm{ans})=\min \left(1, \frac{\text {与答案匹配的数量}}{3}\right) \text {. } $ (12)

每个问题对应了10个给定的答案(可相同或不同),式(12)表明,每个预测答案所得到的分数为该预测答案与答案匹配的数量除以3,然后与1取最小值。

3.3 主实验结果

在OKVQA数据集上的主实验结果如表 2所示。本文使用文[8]作为基线方法,并在基线方法的基础上实现了本文所提方法。此外为了更好地体现本文方法的效果,在表 2中汇总了在OKVQA数据集上开展的相关工作。可以看出,本文方法与基线方法相比准确率提升1.71%,同时在绝大部分类别都有准确率上的提升,特别是在ST、WC、OMC上分别有7.86%、4.97% 和4.30%的提升。另外,相比其他方法,本文方法在ALL类别上获得了最好的结果。在细粒度类别方面,本文方法也在VT、OMC、CF、PEL、ST、WC和Other等大多数类别上准确率最高。

表 2 主实验准确率结果 
%
方法 ALL VT BCP OMC SR CF GHLC PEL PA ST WC Other
BAN[2] 25.17 23.79 17.67 22.43 30.58 27.90 25.96 20.33 25.60 20.95 40.166 22.46
MUTAN[15] 26.41 25.36 18.95 24.02 33.23 27.73 17.59 20.09 30.44 20.48 39.38 22.46
B+AN[15] 25.61 24.45 19.88 21.59 30.79 29.12 20.57 21.54 26.42 27.14 38.29 22.16
M+AN[15] 27.84 25.56 23.95 26.87 33.44 29.94 20.71 25.05 29.70 24.76 39.84 23.62
B+oracle[15] 27.59 26.35 18.26 24.35 33.12 30.46 28.51 21.54 28.79 24.52 41.40 25.07
M+oracle[15] 28.47 27.28 19.53 25.28 35.13 30.53 21.56 21.68 32.16 24.76 41.40 24.85
Mucko[12] 29.02
基线方法[8] 29.19 26.35 22.79 25.09 40.00 30.78 26.10 24.63 30.26 24.76 37.67 26.79
本文方法 30.90 28.31 21.86 29.39 39.17 34.04 27.52 25.51 29.79 32.62 42.64 29.34

4 试验分析 4.1 消融试验对比

表 3为消融实验的结果,其中“-KGE”和“-Cap”表示模型分别去掉知识图谱表示和图像描述。可以看到在去掉知识图谱表示和图像描述之后模型的性能都所下降,这也证明融入图谱知识和图像描述的有效性。

表 3 消融实验准确率结果 
%
方法 ALL VT BCP OMC SR CF GHLC PEL PA ST WC Other
本文方法 30.90 28.31 21.86 29.39 39.17 34.04 27.52 25.51 29.79 32.62 42.64 29.34
-KGE 30.28 28.40 21.63 25.79 39.97 33.42 22.55 23.18 30.74 24.29 42.48 30.08
-Cap 29.30 26.67 23.72 25.51 39.96 30.81 24.26 24.21 30.37 24.76 39.53 26.85

具体而言,在仅去掉知识图谱表示的情况下,虽然模型在ALL类别上准确率仅下降0.62%,但在细粒度类别上如OMC、GHLC、ST类别上分别下降了3.60%、4.97%和8.33%,这说明在一些特殊的领域,知识信息起着相对更为重要的作用,而一些领域例如VT和SR仅凭借图像信息也可以很好地推理出答案。另外,在仅去掉图像描述信息之后,模型的整体准确率下降较为明显,在细粒度类别上或多或少都有下降,体现了图像描述给模型提供的信息的普遍有效性。另一种角度来说,图像描述是图像的自然语言表示,这种显式的表示与自然语言问题之间的交互相对容易,可以弥补一些跨模态特征之间的“语义鸿沟”。

4.2 词嵌入的影响

为分析采用KGE的作用,本文分别利用Glove词嵌入和随机初始化同维度词嵌入替换KGE,并与采用KGE的结果进行对比。将KGE替换为Glove词嵌入后,模型准确率略有下降(0.62%)。而替换为随机初始化同维度词嵌入后,模型的准确率有5.03%的明显下降。原因是:模型中所有文本使用Glove编码后,编码的信息较单一,导致模型性能略有下;而随机初始化向量没有经过大规模语料训练,很难有较好的表示能力,也会使模型性能下降明显。

4.3 图像描述数量的影响

图像的描述不是唯一的,图像描述生成可以为一张图像产生多个描述。本文比较了图像描述数量对模型的影响。实验中,使用类似Bert[7]对多句数据的处理方式,将同个图像的不同描述直接进行拼接,图像描述之间利用“ < SEP>”做间隔。图像描述的数量与模型整体准确率的关系如图 4所示。可以看到,由于从图像生成的描述信息所表达的意思是相近的,因此加入过多的描述信息会引入额外的噪声;仅加入系统打分最高的图像描述信息引入的有用信息可能相对有限。经过上述的实验验证,图像描述数量为2时模型的效果最佳。

图 4 不同图像描述数量的对比结果

4.4 错误分析

本文对错误案例进行了人工分析,如图 5所示,其中Q表示给定的问题,C是利用Luo[19]生成的图像描述,A代表真实答案,P代表预测答案。一方面,在预测正确的案例中可以观察到,类似于图 5a5b中“Jet”“Party”这种不能由图像和问题直接推导出的答案(即基准系统预测错误)得到了正确的预测,知识图谱嵌入的应用起到了一定的效果,图像描述中出现的“skis”关键词信息也帮助模型预测“skis”答案;另一方面,在预测错误的数据中,不难发现图像描述在一些情况下起到的不一定是积极的作用,例如在图像描述中有“Motorcycles”关键词,而问题问到的是有关“bike”的内容,这样就会误导系统的判断。任务的评判也存在一定的误差,例如真实答案为“Orange”而预测答案为“Orange Juice”。根据所问的问题“What kind of juice?”,系统的回答经人工判定是正确的,但是评价标准的原因造成计算机的误判。另外,类似“Garden”这种图片中的细粒度场景很难被模型捕捉到,也是造成模型预测错误的主要原因之一。综上所述,可能导致模型推断错误的原因总结如下:

图 5 错误分析

1) 问题指导下的细粒度场景识别错误。模型没有正确地关注在当前问题下应该关注地图像区域。

2) 评价方式的差异:系统所给出的答案,人工判断是正确的,然而基于自动化评价方法的原因,只要预测答案与真实答案没有完全匹配即判为错误。

3) 知识库在细粒度类别下覆盖不完全。虽然知识图谱的使用使某些类别正确率明显上升,但是个别类别下的覆盖率不够,甚至被模型当做噪声处理。

5 结论

本文基于注意力机制利用图像描述增强图像与文本间的对齐表示,同时利用知识图谱嵌入为模型融入外部知识,提高了模型推理能力。本文的方法在OKVQA数据集进行了有效性验证,与前人工作相比准确率有了1.88%的显著提升。后续的消融试验表明为模型融入图像描述信息和图谱外部知识都促进了模型性能的提升。

下一步将关注于如何让模型更准确地捕捉图像的细粒度区域以及如何通过额外知识为不同的细粒度类别提供“专门”的知识信息。另外,优化视觉问答任务的评价方法,使评价方法更符合人工的评判标准,也是比较有意义的方向。

参考文献
[1]
AGRAWAL A, LU J S, ANTOL S, et al. VQA: Visual question answering[J]. International Journal of Computer Vision, 2017, 123(1): 4-31. DOI:10.1007/s11263-016-0966-6
[2]
KIM J H, JUN J, ZHANG B T. Bilinear attention networks [C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc., 2018: 1571-1581.
[3]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]// 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015: 1-14.
[4]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE Press, 2016: 770-778.
[5]
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [C]// 1st International Conference on Learning Representations. Scottsdale, USA: ICLR, 2013: 1-12.
[6]
PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: ACL, 2014: 1532-1543.
[7]
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: ACL, 2019: 4171-4186.
[8]
YU Z, YU J, CUI Y H, et al. Deep modular co-attention networks for visual question answering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE Press, 2019: 6274-6283.
[9]
ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE Press, 2018: 6077-6086.
[10]
WANG P, WU Q, SHEN C H, et al. FVQA: Fact-based visual question answering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(10): 2413-2427. DOI:10.1109/TPAMI.2017.2754246
[11]
NARASIMHAN M, LAZEBNIK S, SCHWING A G. Out of the box: Reasoning with graph convolution nets for factual visual question answering [C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc., 2018: 2659-2670.
[12]
ZHU Z H, YU J, WANG Y J, et al. Mucko: Multi-layer cross-modal knowledge reasoning for fact-based visual question answering [C]// Twenty-Ninth International Joint Conference on Artificial Intelligence. Yokohama, Japan: ijcai. org, 2020: 1097-1103.
[13]
MALAVIYA C, BHAGAVATULA C, BOSSELUT A, et al. Commonsense knowledge base completion with structural and semantic context [C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI Press, 2020: 2925-2933.
[14]
LIU H, SINGH P. ConceptNet: A practical commonsense reasoning tool-kit[J]. BT Technology Journal, 2004, 22(4): 211-226. DOI:10.1023/B:BTTJ.0000047600.45421.6d
[15]
MARINO K, RASTEGARI M, FARHADI A, et al. OK-VQA: A visual question answering benchmark requiring external knowledge [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 3190-3199.
[16]
GUO W Y, ZHANG Y, WU X P, et al. Re-attention for visual question answering[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(1): 91-98. DOI:10.1609/aaai.v34i01.5338
[17]
KRISHNA R, ZHU Y K, GROTH O, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations[J]. International Journal of Computer Vision, 2017, 123(1): 32-73. DOI:10.1007/s11263-016-0981-7
[18]
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Montréal, Canada: MIT Press, 2015: 91-99.
[19]
LUO R T, SHAKHNAROVICH G, COHEN S, et al. Discriminability objective for training descriptive captions [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 6964-6974.
[20]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[21]
WANG P, WU Q, SHEN C H, et al. Explicit knowledge-based reasoning for visual question answering [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: ijcai. org, 2017: 1290-1296.