[论文解读] Learning Conditioned Graph Structures for Interpretable Visual Question Answering
本论文提出一个图学习器,构建一个基于问题条件的图像图用于VQA,使得可解释的图卷积成为可能,并在VQA v2测试集上达到66.18%的准确率。
Visual Question answering is a challenging problem requiring a combination of concepts from Computer Vision and Natural Language Processing. Most existing approaches use a two streams strategy, computing image and question features that are consequently merged using a variety of techniques. Nonetheless, very few rely on higher level image representations, which can capture semantic and spatial relationships. In this paper, we propose a novel graph-based approach for Visual Question Answering. Our method combines a graph learner module, which learns a question specific graph representation of the input image, with the recent concept of graph convolutions, aiming to learn image representations that capture question specific interactions. We test our approach on the VQA v2 dataset using a simple baseline architecture enhanced by the proposed graph learner module. We obtain promising results with 66.18% accuracy and demonstrate the interpretability of the proposed method. Code can be found at github.com/aimbrain/vqa-project.
研究动机与目标
- 通过学习图来建模语义关系和空间关系,从而推动可解释的VQA。
- 提出一个图学习器,使边的条件取决于问题,以捕捉相关对象之间的交互。
- 将图卷积整合到所学习的图上,以产生对问题感知的图像表示。
- 通过可视化学习到的节点和边来展示可解释性,并在VQA v2上与基线进行比较。
提出的方法
- 将图像表示为包含特征和空间坐标的对象边界框。
- 使用词嵌入和一个动态GRU对问题进行编码以获得 q。
- 通过来自 [v; q] 的联合嵌入 e 来学习一个问题条件的邻接矩阵 A,其中 A = E E^T,并通过选取前 m 个最近邻来实现稀疏化。
- 使用带高斯核的伪坐标 u(i,j) 的补丁算子在时空图卷积上执行 K-核空间图卷积以生成 H。
- 计算最大池化的图特征 h_max,使用逐元素乘积将其与 q 融合,并用两层 MLP 进行分类。
- 使用适合每个问题可能有多种答案的多标签软损失进行训练。
实验结果
研究问题
- RQ1学习得到的、以问题为条件的图结构是否能在VQA中相比固定或启发式图结构提升推理能力?
- RQ2在稀疏且可解释的图上整合基于图的消息传递,是否能在VQA v2上达到具有竞争力的准确性且实现可解释?
主要发现
| 答案类型 | 全部 | 是/否 | 数字 | 其他 |
|---|---|---|---|---|
| ReasonNet | 64.61 | 78.86 | 41.98 | 57.39 |
| Bottom-Up | 65.67 | 82.20 | 43.90 | 56.26 |
| Counting module | 68.41 | 83.56 | 51.39 | 59.11 |
| kNN graph | 61.00 | 79.35 | 41.63 | 49.70 |
| Attention | 61.90 | 79.87 | 42.48 | 50.95 |
| Ours | 66.18 | 82.91 | 47.13 | 56.22 |
- 在 VQA v2 测试集上达到 66.18% 的准确率,与最先进基线具有竞争力。
- 学习一个稀疏、问题特定的图,相对于非图或朴素图基线能更关注相关对象和关系。
- 图注意力和边权提供了对模型依赖的对象和关系的可解释可视化。
- 与某些基线相比,该模型在数字计数类型问题上表现尤为出色。
- 学习的、问题条件的图超过了 k 最近邻图和一个简单的注意力基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。