Skip to main content
QUICK REVIEW

[论文解读] Multi-modality Latent Interaction Network for Visual Question Answering

Peng Gao, Haoxuan You|arXiv (Cornell University)|Aug 10, 2019
Multimodal Machine Learning Applications参考文献 57被引用 34
一句话总结

MLIN 引入多模态潜在交互模块,将视觉和语言信息汇总为少量潜在向量,建模这些摘要之间的跨模态关系,并通过基于注意力的聚合更新特征以提升 VQA 性能。

ABSTRACT

Exploiting relationships between visual regions and question words have achieved great success in learning multi-modality features for Visual Question Answering (VQA). However, we argue that existing methods mostly model relations between individual visual regions and words, which are not enough to correctly answer the question. From humans' perspective, answering a visual question requires understanding the summarizations of visual and language information. In this paper, we proposed the Multi-modality Latent Interaction module (MLI) to tackle this problem. The proposed module learns the cross-modality relationships between latent visual and language summarizations, which summarize visual regions and question into a small number of latent representations to avoid modeling uninformative individual region-word relations. The cross-modality information between the latent summarizations are propagated to fuse valuable information from both modalities and are used to update the visual and word features. Such MLI modules can be stacked for several stages to model complex and latent relations between the two modalities and achieves highly competitive performance on public VQA benchmarks, VQA v2.0 and TDIUC . In addition, we show that the performance of our methods could be significantly improved by combining with pre-trained language model BERT.

研究动机与目标

  • 动机在于通过学习每种模态的高层次潜在摘要,超越区域-词语关系的局限。
  • 提出 MLIN 框架,将视觉和语言信息汇总为少量潜在向量。
  • 建模潜在的视觉-语言摘要之间的跨模态关系并在它们之间传播信息。
  • 通过注意力机制更新原始视觉与词特征,以预测答案。
  • 表明与预训练语言模型(BERT)集成可提升 VQA 性能。

提出的方法

  • 使用 Faster R-CNN 编码视觉区域,使用双向 Transformer 编码问题,以获得 R∈R^{M x 512} 和 E∈R^{N x 512}。
  • 通过学习的线性映射为每种模态生成 k 个潜在摘要向量,将 R 和 E 转换为各模态的 lat 表示。
  • 构造一个 k x k 的跨模态关系张量 A(i,j,:) = W_A [ overline{R}(i,:) ⊕ overline{E}(j,:) ] + b_A,用于捕捉成对的潜在交互。
  • 通过两个操作在成对潜在特征之间传播信息:(i) 对 A 进行跨模态变换以产生 ϕlat_A_c,(ii) 通过第二次传播在所有对之间交换高阶信息以产生 ϕlat_A_p;将它们相加得到 ϕlat_A。
  • 使用键-查询注意力将更新后的潜在表示聚合回原始模态,产生 R_U 和 E_U。
  • 堆叠多个 MLI 模块以逐步细化特征,然后通过逐元素相乘进行池化与融合,使用线性分类器进行最终答案预测。

实验结果

研究问题

  • RQ1通过学习一组小型的潜在跨模态摘要,是否能通过关注高层次交互来提升 VQA,而不是所有区域-词语对?
  • RQ2在潜在摘要之间传播信息如何影响跨模态推理及最终的 VQA 精度?
  • RQ3将预训练语言模型(BERT)集成到 MLIN 框架对 VQA 性能的影响是什么?

主要发现

  • MLIN 在 VQA v2.0 和 TDIUC 基准上实现了具有竞争力的性能。
  • 使用 6 个视觉潜在摘要和 6 个问题潜在摘要,以及 3x3 注意力头,在消融实验中表现强劲。
  • 通过潜在摘要的关系推理在减少所需消息传递的同时,维持与先前方法如 DFAF 相比较的竞争性准确度。
  • 结合 BERT 微调(并辅以小心的学习率调度)进一步提高相对于 MLIN 基线的准确性。
  • 更深的堆叠(MLIN-8)在消融实验中通常优于较浅的配置,提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。