Skip to main content
QUICK REVIEW

[论文解读] Modeling Relationships in Referential Expressions with Compositional Modular Networks

Ronghang Hu, Marcus Rohrbach|arXiv (Cornell University)|Nov 30, 2016
Multimodal Machine Learning Applications参考文献 1被引用 21
一句话总结

该论文提出组合模块网络(CMNs),一种新颖的端到端可微架构,通过使用软注意力机制将指代表达式分解为主体、关系和对象三个组成部分,实现对指代表达式的建模。该方法采用两种神经模块——定位模块和关系模块——联合学习语言解析与视觉定位,在多个指代表达和视觉定位基准测试中超越了当前最先进方法的性能。

ABSTRACT

People often refer to entities in an image in terms of their relationships with other entities. For example, "the black cat sitting under the table" refers to both a "black cat" entity and its relationship with another "table" entity. Understanding these relationships is essential for interpreting and grounding such natural language expressions. Most prior work focuses on either grounding entire referential expressions holistically to one region, or localizing relationships based on a fixed set of categories. In this paper we instead present a modular deep architecture capable of analyzing referential expressions into their component parts, identifying entities and relationships mentioned in the input expression and grounding them all in the scene. We call this approach Compositional Modular Networks (CMNs): a novel architecture that learns linguistic analysis and visual inference end-to-end. Our approach is built around two types of neural modules that inspect local regions and pairwise interactions between regions. We evaluate CMNs on multiple referential expression datasets, outperforming state-of-the-art approaches on all tasks.

研究动机与目标

  • 解决图像中涉及对象间关系的复杂指代表达式定位挑战。
  • 克服先前整体式定位模型在显式建模语言成分与视觉对应关系方面的局限性。
  • 实现在无需预定义关系类别的情况下,端到端学习组合式语言结构与视觉定位。
  • 开发一种模块化神经架构,可微分地解析表达式,并将文本成分与图像区域对齐。
  • 在弱监督下实现多样化指代表达与视觉定位任务的强性能表现。

提出的方法

  • 使用软注意力图将输入指代表达式解析为主体、关系和对象三个组成部分。
  • 部署两种不同的神经模块:用于单区域评分的定位模块,以及用于成对区域评分的关系模块。
  • 将两个模块的输出整合为最终的区域对得分,以生成定位预测结果。
  • 使用弱监督通过可微损失函数(公式20)端到端训练整个模型,以鼓励正确定位。
  • 利用预训练的Faster R-CNN(VGG-16)提取图像区域和提议区域的视觉特征。
  • 应用可微注意力机制,将文本成分与相关图像区域对齐,而无需为每个成分提供显式标注。

实验结果

研究问题

  • RQ1神经网络架构能否以端到端可微的方式联合学习指代表达式的语言解析与视觉定位?
  • RQ2通过分离主体、关系和对象来组合式建模指代表达式,是否能相比整体式方法提升定位准确率?
  • RQ3一种使用独立模块分别处理定位与成对关系的模块化架构,是否能在无固定类别约束的情况下泛化于多样化的指代表达?
  • RQ4所提出的CMN模型在标准指代表达与视觉定位基准测试中,相较于强基线模型与先前最先进方法表现如何?
  • RQ5该模型在仅依赖弱监督的情况下,能在多大程度上恢复组合结构与视觉对应关系?

主要发现

  • 在Google-Ref数据集中,CMNs在指代表达式定位任务中优于自然基线与最先进方法,取得了更高的准确率。
  • 在Visual-7W数据集中,完整CMN模型在多选指认问题上的准确率高于以往工作,优于使用外部解析器或仅依赖局部外观特征的模型。
  • 通过整合定位模块与关系模块,模型性能显著提升,证明了模块化、组合式推理的优势。
  • 消融实验表明,采用端到端训练的完整CMN模型优于使用外部解析器(Stanford解析器)的截断版本,说明联合学习具有优势。
  • 图5和图6的定性结果表明,CMNs能正确地对齐包含空间关系、关系属性及描述性特征的复杂表达式,包括多对象关系。
  • 该模型在未见表达上泛化良好,并在多样化数据集上表现强劲,包括具有复杂空间与关系描述的数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。