QUICK REVIEW

[论文解读] Relation-Aware Graph Attention Network for Visual Question Answering

Linjie Li, Zhe Gan|arXiv (Cornell University)|Mar 29, 2019

Multimodal Machine Learning Applications参考文献 66被引用 56

一句话总结

本论文提出 ReGAT，一种关系感知的图注意力网络，用于在图像中建模显式与隐式的对象间关系，并以问题为条件，以提升 VQA 性能。它可作为现有 VQA 架构的即插即用模块，并在 VQA 2.0 和 VQA-CP v2 上实现了最先进的结果。

ABSTRACT

In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model needs to fully understand the visual scene in the image, especially the interactive dynamics between different objects. We propose a Relation-aware Graph Attention Network (ReGAT), which encodes each image into a graph and models multi-type inter-object relations via a graph attention mechanism, to learn question-adaptive relation representations. Two types of visual object relations are explored: (i) Explicit Relations that represent geometric positions and semantic interactions between objects; and (ii) Implicit Relations that capture the hidden dynamics between image regions. Experiments demonstrate that ReGAT outperforms prior state-of-the-art approaches on both VQA 2.0 and VQA-CP v2 datasets. We further show that ReGAT is compatible to existing VQA architectures, and can be used as a generic relation encoder to boost the model performance for VQA.

研究动机与目标

理解图像对象之间语义动态与交互以实现语义丰富的 VQA 的动机。
开发一个关系编码器，使其学习显式（空间/语义）与隐式关系。
使关系表示对问题具有自适应性，以引导注意力与融合。
证明 ReGAT 兼容现有的 VQA 架构并提升性能。

提出的方法

构建一个全连接的隐式关系图并在必要时裁剪为显式关系图（空间与语义）。
实现一个对问题自适应的图注意力机制来编码关系，采用多头注意力。
将关系编码器分为隐式、空间和语义分支，并在推理阶段通过加权求和来组合它们的输出。
使用 Faster R-CNN 提取对象区域和特征，以及基于 GRU 的问题编码器及自注意力。
与现有 VQA 架构进行多模态融合，并通过 MLP 分类器预测答案。
独立训练关系编码器并用学习到的权重（α、β）对它们的输出进行集成。

实验结果

研究问题

RQ1显式与隐式对象间关系是否能在对象级特征之外进一步提升 VQA 性能？
RQ2问题自适应的关系编码器是否比非自适应方法达到更好的问题-区域对齐？
RQ3ReGAT 是否可以作为现有 VQA 架构和数据集的即插即用模块？
RQ4每种关系类型（语义、空间、隐式）对不同模型的性能贡献是多少？

主要发现

ReGAT 在 VQA 2.0 的 Bottom-up Top-Down (BUTD)、MUTAN 和 BAN 基线上均显示出持续的性能提升。
每种关系类型（语义、空间、隐式）在使用图注意力时都能提升性能。
问题自适应关系在静态关系编码器之外提供额外的增益。
在 VQA-CP v2 上，ReGAT 取得了最先进的结果，在使用全部关系时尤为显著。
总体而言，集成 ReGAT 在性能上显著优于基线且无需额外的特征增强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。