[论文解读] MUREL: Multimodal Relational Reasoning for Visual Question Answering
MUREL 提出了一种用于视觉问答(VQA)的多模态关系推理网络,通过可学习的 MuRel 单元替代标准注意力机制,以建模图像区域与问题表征之间的丰富成对交互。通过迭代地细化这些关系特征,MUREL 在 VQA 2.0、VQA-CP v2 和 TDIUC 上实现了最先进性能,优于基于注意力的模型,并展现出对语言偏见的鲁棒性。
Multimodal attentional networks are currently state-of-the-art models for Visual Question Answering (VQA) tasks involving real images. Although attention allows to focus on the visual content relevant to the question, this simple mechanism is arguably insufficient to model complex reasoning features required for VQA or other high-level tasks. In this paper, we propose MuRel, a multimodal relational network which is learned end-to-end to reason over real images. Our first contribution is the introduction of the MuRel cell, an atomic reasoning primitive representing interactions between question and image regions by a rich vectorial representation, and modeling region relations with pairwise combinations. Secondly, we incorporate the cell into a full MuRel network, which progressively refines visual and question interactions, and can be leveraged to define visualization schemes finer than mere attention maps. We validate the relevance of our approach with various ablation studies, and show its superiority to attention-based methods on three datasets: VQA 2.0, VQA-CP v2 and TDIUC. Our final MuRel network is competitive to or outperforms state-of-the-art results in this challenging context. Our code is available: https://github.com/Cadene/murel.bootstrap.pytorch
研究动机与目标
- 为解决基于注意力的模型在捕捉超越软区域选择的复杂视觉推理方面的局限性。
- 开发一种可学习的、端到端的多模态关系网络,显式建模图像区域与问题标记之间的交互。
- 通过依赖视觉和关系线索而非答案频率模式,提升在 VQA 中对语言偏见的鲁棒性。
- 通过基于成对区域关系的可视化方案,实现更细粒度的可解释性。
- 通过消融研究和基准比较,验证关系推理在真实图像 VQA 中的有效性。
提出的方法
- 引入 MuRel 单元作为可学习的基本单元,编码问题嵌入与图像区域特征之间的丰富向量交互。
- 使用逐元素运算和拼接操作建模图像区域之间的成对关系,实现超越注意力的关系推理。
- 采用迭代架构,将 MuRel 单元堆叠多次,逐步优化图像与问题的联合表征。
- 以自下而上的目标检测特征(如 Faster R-CNN 所提取)作为图像区域输入,结合 BERT 或 GRU 嵌入的问题表征。
- 应用可微分的可视化机制,突出显示与答案最相关的区域和关系,超越标准注意力图。
- 使用交叉熵损失在答案预测上端到端训练整个网络。
实验结果
研究问题
- RQ1可学习的关系机制是否能在建模复杂视觉推理方面超越标准注意力机制?
- RQ2显式建模成对区域关系是否能提升真实图像 VQA 中的泛化能力与对语言偏见的鲁棒性?
- RQ3多模态表征的迭代细化是否能带来更高的答案准确率和更可解释的决策过程?
- RQ4所提出的基于关系推理的机制与基于注意力的基线模型相比,在标准和有偏见的 VQA 基准上表现如何?
- RQ5模型的视觉与关系组件在复杂 VQA 任务中对性能提升的贡献程度如何?
主要发现
- 在 TDIUC 数据集上,MUREL 达到 88.20% 的测试准确率,比之前的最先进方法高出 3.17 个百分点。
- 在 VQA-CP v2 数据集上,MUREL 总体准确率达到 39.54%,比使用自下而上特征的强基线注意力模型高出 1.50 个百分点。
- 在 VQA 2.0 数据集上,MUREL 达到 85.03% 的准确率,比之前的最先进方法高出 1.22 个百分点。
- 消融研究证实,向量表征和成对关系建模均显著提升性能,且迭代细化机制进一步提高了结果。
- 定性分析表明,MUREL 正确识别出语义相关的区域和关系(如一个人拿着风筝,或一位女性的帽子),展示了超越语言偏见的推理能力。
- 关系机制的可视化突出显示了绿色(最活跃)和红色(最具影响力)的区域,与人类直觉一致,提供了可解释的推理路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。