Skip to main content
QUICK REVIEW

[论文解读] Mapping Images to Scene Graphs with Permutation-Invariant Structured Prediction

Roei Herzig, Moshiko Raboh|arXiv (Cornell University)|Feb 15, 2018
Multimodal Machine Learning Applications参考文献 28被引用 68
一句话总结

本文提出用于从图像生成场景图的结构预测的图置换不变(GPI)深度架构,证明了必要且充分的形式,并在 Visual Genome 上取得了业界最先进的结果。

ABSTRACT

Machine understanding of complex images is a key goal of artificial intelligence. One challenge underlying this task is that visual scenes contain multiple inter-related objects, and that global context plays an important role in interpreting the scene. A natural modeling framework for capturing such effects is structured prediction, which optimizes over complex labels, while modeling within-label interactions. However, it is unclear what principles should guide the design of a structured prediction model that utilizes the power of deep learning components. Here we propose a design principle for such architectures that follows from a natural requirement of permutation invariance. We prove a necessary and sufficient characterization for architectures that follow this invariance, and discuss its implication on model design. Finally, we show that the resulting model achieves new state of the art results on the Visual Genome scene graph labeling benchmark, outperforming all recent approaches.

研究动机与目标

  • 激发在多目标场景的深度结构化预测中使用置换不变性。
  • 推导出置换不变架构的必要且充分的表征。
  • 提出一个基于 GPI 的模型,用于将图像映射到场景图。
  • 通过经验结果展示数据高效性以及在 Visual Genome 上的业界领先性能。

提出的方法

  • 为结构化预测输出定义图置换不变性(GPI)。
  • 证明存在 GPI 函数当且仅当它可以通过特定架构实现:y_k = rho(z_k, sum_i alpha(z_i, sum_{j≠i} phi(z_i, z_{i,j}, z_j))) 对所有 k。
  • 展示 phi、alpha 和 rho 如何以置换不变的方式聚合全局图信息。
  • 通过自同构讨论对不完整图的扩展。
  • 描述注意力和递归变体如何融入 GPI 框架。
  • 提出一个场景图预测器(SGP),使用 GPI,与实体与关系变量以及对邻居的注意力相结合。

实验结果

研究问题

  • RQ1置换不变性如何引导图的深度结构化预测架构的设计?
  • RQ2确保图置换不变性(GPI)并且对如场景图预测等复杂任务具有足够表达力的精确架构形式是什么?
  • RQ3与非 GPI 的深度模型相比,基于 GPI 的模型是否在场景图生成上提升数据效率和性能?
  • RQ4注意力与递归构造能否在 GPI 框架内实现以实现可扩展、并行化的预测?

主要发现

  • GPI 架构在合成图标注任务中收敛到正确解所需的样本更少。
  • 基于 GPI 的场景图预测器(SGP)结合注意力与语言特征,在 Visual Genome 的 SGCls 上实现了业界领先的 recall,在 PredCls 上也具竞争力。
  • GPI 的变体(无注意力、邻居注意力、语言特征)在有约束与无约束评估中持续超越基线。
  • 所提出的模型能够有效学习对相关邻近实体进行关注以提升预测的准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。