Skip to main content
QUICK REVIEW

[论文解读] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

Akira Fukui, Dong Huk Park|arXiv (Cornell University)|Jun 6, 2016
Multimodal Machine Learning Applications参考文献 53被引用 394
一句话总结

引入 Multimodal Compact Bilinear pooling (MCB),用于高效融合视觉与文本特征,适用于 VQA 和视觉定位,在 VQA 数据集上达到最先进水平,并提升定位准确性。

ABSTRACT

Modeling textual or visual information with vector representations trained from large language or visual datasets has been successfully explored in recent years. However, tasks such as visual question answering require combining these vector representations with each other. Approaches to multimodal pooling include element-wise product or sum, as well as concatenation of the visual and textual representations. We hypothesize that these methods are not as expressive as an outer product of the visual and textual vectors. As the outer product is typically infeasible due to its high dimensionality, we instead propose utilizing Multimodal Compact Bilinear pooling (MCB) to efficiently and expressively combine multimodal features. We extensively evaluate MCB on the visual question answering and grounding tasks. We consistently show the benefit of MCB over ablations without MCB. For visual question answering, we present an architecture which uses MCB twice, once for predicting attention over spatial features and again to combine the attended representation with the question representation. This model outperforms the state-of-the-art on the Visual7W dataset and the VQA challenge.

研究动机与目标

  • 倡导超越简单拼接或逐元运算的表达式丰富的多模态融合。
  • 提出 MCB 以高效近似图像与文本之间的外积交互。
  • 将 MCB 应用于带注意力的 VQA 和视觉定位,并在多个数据集上进行评估。
  • 证明基于 MCB 的模型在强基线和消融实验上有改进。

提出的方法

  • 使用 Count Sketch 投影和基于 FFT 的卷积来近似外积交互,定义 Multimodal Compact Bilinear pooling (MCB)。
  • 将 MCB 应用于融合图像特征(CNN)和问题嵌入(LSTM),形成 16k 维的联合表征。
  • 通过在每个网格位置对语言-视觉对应用 MCB,并预测注意力映射,整合对空间特征的软注意力。
  • 为多重窥视扩展额外的注意力分支,并在多选设置中新增一个用于回答编码的 MCB。
  • 在视觉定位中,将 GroundeR 中的拼接替换为 MCB,以将短语和视觉候选框结合起来,并使用 L2-归一化嵌入。

实验结果

研究问题

  • RQ1Multimodal Compact Bilinear pooling 是否比拼接或逐元素池化在 VQA 与定位方面提供更具表达力的融合?
  • RQ2将 MCB 与注意力机制和多问答设置结合时,性能表现如何?
  • RQ3MCB 特征的不同维度 d 对 VQA 与定位有什么影响?
  • RQ4MCB 能否在多数据集的 VQA 数据集和定位基准上提升到最新水平?

主要发现

  • MCB 在 VQA 和定位任务中优于非双线性池化基线。
  • 带有 MCB 的软注意力带来最佳结果;对 MCB 特征的注意力优于对拼接层的注意力。
  • 使用 16k 维 MCB 特征在开放式 VQA 设置中提供最高准确性。
  • 最佳单模型(MCB 两个注意力、再加 Visual Genome 数据和 GloVe)在 VQA 开放式和多选基准上超过竞争方法。
  • 基于 MCB 的定位在 Flickr30k Entities 和 ReferItGame 数据集上达到最新水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。