Skip to main content
QUICK REVIEW

[论文解读] Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering

Medhini Narasimhan, Svetlana Lazebnik|arXiv (Cornell University)|Nov 1, 2018
Multimodal Machine Learning Applications被引用 130
一句话总结

本论文提出一种图卷积网络(GCN)方法,通过对事实子图进行推理来回答 FVQA 问题,在 FVQA 上通过联合评估多条事实而非预测单一 ground-truth facts,准确率大约比以往的最先进方法高出约7%。

ABSTRACT

Accurately answering a question about a given image requires combining observations with general knowledge. While this is effortless for humans, reasoning with general knowledge remains an algorithmic challenge. To advance research in this direction a novel `fact-based' visual question answering (FVQA) task has been introduced recently along with a large set of curated facts which link two entities, i.e., two possible answers, via a relation. Given a question-image pair, deep network techniques have been employed to successively reduce the large set of facts until one of the two entities of the final remaining fact is predicted as the answer. We observe that a successive process which considers one fact at a time to form a local decision is sub-optimal. Instead, we develop an entity graph and use a graph convolutional network to `reason' about the correct answer by jointly considering all entities. We show on the challenging FVQA dataset that this leads to an improvement in accuracy of around 7% compared to the state of the art.

研究动机与目标

  • 通过利用图像之外的外部知识来激发并解决 FVQA 问题。
  • 通过对多个候选事实进行联合推理,降低对单一正确事实的依赖。
  • 利用知识库的图结构来共享信息并提升可解释性。

提出的方法

  • 使用基于 GloVe 的词语相似度为给定的图像-问题对检索前100条相关事实。
  • 预测可能的关系以筛选检索到的事实,得到更小的子图。
  • 构建一个实体图,其中节点来自筛选后的事实中的唯一实体,边连接在同一事实中出现的实体。
  • 在实体图上应用图卷积网络(GCN)传播信息,随后使用多层感知机(MLP)预测答案实体。
  • 分别训练关系预测器和答案预测器;通过 GCN 和 MLP 组件实现答案部分的端到端训练。

实验结果

研究问题

  • RQ1通过 GCN 对一组候选事实进行联合推理,是否能在 FVQA 的回答准确性上优于预测单一真实事实?
  • RQ2在图节点中整合视觉概念、问题嵌入和实体嵌入在多大程度上提高答案准确性?
  • RQ3候选事实的检索规模和预测的关系如何影响整体性能?

主要发现

  • 所提出的模型在 FVQA 数据集上的表现领先于基线(FVQA、STTF)约7%。
  • 最佳配置在 FVQA 上达到 Top-1 精度 72.97% 和 Top-3 精度 83.01%(模型13)。
  • 在节点表示中加入视觉概念特征,显著提升准确性(相对增益约20%)。
  • 基于 GCN 的联合推理实现了跨候选事实的信息共享,提升了可解释性并对同义词与同形异义词具有鲁棒性。
  • 预测过程中避免使用真实事实;模型对多个相关事实进行推理以推断最终答案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。