Skip to main content
QUICK REVIEW

[论文解读] Relation-Aware Graph Attention Network for Visual Question Answering

Linjie Li, Zhe Gan|arXiv (Cornell University)|Mar 29, 2019
Multimodal Machine Learning Applications参考文献 66被引用 56
一句话总结

本论文提出 ReGAT,一种关系感知的图注意力网络,用于在图像中建模显式与隐式的对象间关系,并以问题为条件,以提升 VQA 性能。它可作为现有 VQA 架构的即插即用模块,并在 VQA 2.0 和 VQA-CP v2 上实现了最先进的结果。

ABSTRACT

In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model needs to fully understand the visual scene in the image, especially the interactive dynamics between different objects. We propose a Relation-aware Graph Attention Network (ReGAT), which encodes each image into a graph and models multi-type inter-object relations via a graph attention mechanism, to learn question-adaptive relation representations. Two types of visual object relations are explored: (i) Explicit Relations that represent geometric positions and semantic interactions between objects; and (ii) Implicit Relations that capture the hidden dynamics between image regions. Experiments demonstrate that ReGAT outperforms prior state-of-the-art approaches on both VQA 2.0 and VQA-CP v2 datasets. We further show that ReGAT is compatible to existing VQA architectures, and can be used as a generic relation encoder to boost the model performance for VQA.

研究动机与目标

  • 理解图像对象之间语义动态与交互以实现语义丰富的 VQA 的动机。
  • 开发一个关系编码器,使其学习显式(空间/语义)与隐式关系。
  • 使关系表示对问题具有自适应性,以引导注意力与融合。
  • 证明 ReGAT 兼容现有的 VQA 架构并提升性能。

提出的方法

  • 构建一个全连接的隐式关系图并在必要时裁剪为显式关系图(空间与语义)。
  • 实现一个对问题自适应的图注意力机制来编码关系,采用多头注意力。
  • 将关系编码器分为隐式、空间和语义分支,并在推理阶段通过加权求和来组合它们的输出。
  • 使用 Faster R-CNN 提取对象区域和特征,以及基于 GRU 的问题编码器及自注意力。
  • 与现有 VQA 架构进行多模态融合,并通过 MLP 分类器预测答案。
  • 独立训练关系编码器并用学习到的权重(α、β)对它们的输出进行集成。

实验结果

研究问题

  • RQ1显式与隐式对象间关系是否能在对象级特征之外进一步提升 VQA 性能?
  • RQ2问题自适应的关系编码器是否比非自适应方法达到更好的问题-区域对齐?
  • RQ3ReGAT 是否可以作为现有 VQA 架构和数据集的即插即用模块?
  • RQ4每种关系类型(语义、空间、隐式)对不同模型的性能贡献是多少?

主要发现

  • ReGAT 在 VQA 2.0 的 Bottom-up Top-Down (BUTD)、MUTAN 和 BAN 基线上均显示出持续的性能提升。
  • 每种关系类型(语义、空间、隐式)在使用图注意力时都能提升性能。
  • 问题自适应关系在静态关系编码器之外提供额外的增益。
  • 在 VQA-CP v2 上,ReGAT 取得了最先进的结果,在使用全部关系时尤为显著。
  • 总体而言,集成 ReGAT 在性能上显著优于基线且无需额外的特征增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。