[论文解读] Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering
该论文提出一种基于图卷积网络(GCN)的方法,能够在知识库中对多条事实进行联合推理以回答事实性 VQA 问题,在 FVQA 上比最先进方法提升约 7%。
Accurately answering a question about a given image requires combining observations with general knowledge. While this is effortless for humans, reasoning with general knowledge remains an algorithmic challenge. To advance research in this direction a novel `fact-based' visual question answering (FVQA) task has been introduced recently along with a large set of curated facts which link two entities, i.e., two possible answers, via a relation. Given a question-image pair, deep network techniques have been employed to successively reduce the large set of facts until one of the two entities of the final remaining fact is predicted as the answer. We observe that a successive process which considers one fact at a time to form a local decision is sub-optimal. Instead, we develop an entity graph and use a graph convolutional network to `reason' about the correct answer by jointly considering all entities. We show on the challenging FVQA dataset that this leads to an improvement in accuracy of around 7% compared to the state of the art.
研究动机与目标
- 通过利用结构化事实库来弥合视觉观测与常识之间的差距,实现 VQA 的提升。
- 超越单条事实检索,进行多候选事实的联合推理。
- 利用词嵌入在同义词/同音异形词存在时鲁棒检索相关事实。
- 通过将图结构推理引入 FVQA 数据集,展示更高的准确性。
- 通过事实图中的信息共享传播提升可解释性。
提出的方法
- 通过对问题-图像对的问句、图像概念和事实词的 GloVe 向量的余弦相似度提取前 100 个候选事实。
- 将候选事实集合缩小到其关系与对问题的预测关系相匹配的子集。
- 构建一个实体图,其节点为候选事实中的唯一实体,边连接同一事实中出现的实体。
- 将每个节点表示为图像概念、问题与实体嵌入的拼接;对节点进行图卷积以得到节点表征。
- 将 GCN 输出送入多层感知机(MLP)以预测哪个节点(实体)是答案。
- 分别训练关系预测器和答案预测器;对答案预测器进行端到端训练。
实验结果
研究问题
- RQ1通过 GCN 对知识库子图进行推理,是否能比单条事实检索方法提升 FVQA 风格的视觉问答?
- RQ2对多个候选事实进行联合推理,是否比以往方法更能处理同义词与同形异义词?
- RQ3在基于 GC N 的框架中,包含视觉概念与问题/实体嵌入对答案准确性有何影响?
主要发现
| Model | @1 Accuracy | @3 Accuracy |
|---|---|---|
| FVQA 基线模型 (Wang 等人 2018 FVQA) | 56.91 | 64.65 |
| STTF(直接到事实) | 62.20 | 75.60 |
| 我们的方法(最终消融 13:Q、VC、实体、GCN、gt 关系) | 72.97 | 83.01 |
| 人工 | 77.99 | - |
- 所提出的基于 GCN 的方法在 FVQA 数据集上的准确性相比于现有方法提升约 7%。
- 从前 100 条事实中带关系过滤得到的最多 200 个实体的子图能达到 ground-truth 事实的高召回率(top-100 中为 84.8%)。
- 引入视觉概念特征显著提升性能(加入时约提升 20%)。
- 最佳消融(包含 Q、VC、实体嵌入、GCN 两层以及 MLP)在 FVQA 上达到 top-1 72.97% 与 top-3 83.01% 的准确率。
- 通过 GloVe 嵌入实现同义词和同形异义词的处理,提升问句与事实匹配,优于基于关键词的基线在同义问题和同形异义词问题上的表现。
- 三步流程(事实检索、关系预测、基于 GCN 的答案预测)具有鲁棒性,失败主要由于任一步骤出错。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。