QUICK REVIEW

[论文解读] Scene Graph Generation from Objects, Phrases and Region Captions

Yikang Li, Wanli Ouyang|arXiv (Cornell University)|Jul 31, 2017

Multimodal Machine Learning Applications参考文献 44被引用 29

一句话总结

本文提出多层级场景描述网络（MSDN），一种端到端的深度学习框架，通过空间-语义图动态对齐三个语义层级的区域，并利用消息传递机制优化特征，联合完成目标检测、场景图生成和区域描述生成。该方法在视觉genome数据集上实现场景图生成任务的最先进性能，平均精度均值（mAP）相比之前模型提升超过3.6个百分点。

ABSTRACT

Object detection, scene graph generation and region captioning, which are three scene understanding tasks at different semantic levels, are tied together: scene graphs are generated on top of objects detected in an image with their pairwise relationship predicted, while region captioning gives a language description of the objects, their attributes, relations, and other context information. In this work, to leverage the mutual connections across semantic levels, we propose a novel neural network model, termed as Multi-level Scene Description Network (denoted as MSDN), to solve the three vision tasks jointly in an end-to-end manner. Objects, phrases, and caption regions are first aligned with a dynamic graph based on their spatial and semantic connections. Then a feature refining structure is used to pass messages across the three levels of semantic tasks through the graph. We benchmark the learned model on three tasks, and show the joint learning across three tasks with our proposed method can bring mutual improvements over previous models. Particularly, on the scene graph generation task, our proposed method outperforms the state-of-art method with more than 3% margin.

研究动机与目标

为解决视觉场景理解中跨任务对齐薄弱的问题，通过联合建模目标检测、场景图生成和区域描述生成来实现。
利用物体、短语和描述之间的相互依赖关系与互补信息，提升特征学习效果。
设计一种动态图构建机制，基于空间与语义相似性，对齐不同语义层级的区域。
开发一种消息传递机制，通过构建的图在不同任务间传递信息，实现联合优化。
通过端到端的联合学习，展示三项任务之间的相互性能提升。

提出的方法

基于物体、短语和描述区域之间的空间重叠与语义相似性，为每张图像构建动态图。
图通过学习到的注意力权重，连接来自不同语义层级的区域——物体、短语（物体对）和描述。
特征优化结构在图中执行消息传递，使特征能通过其他任务中相关区域的信息进行迭代优化。
模型使用共享的卷积主干网络与区域提议网络（RPNs）分别处理物体和描述区域，并通过短语生成模块将物体区域配对。
ROI池化从每个区域提取特征，经全连接层处理后，送入图中实现跨任务特征优化。
最终特征用于共享参数的端到端训练，实现目标检测、场景图预测和区域描述生成。

实验结果

研究问题

RQ1在目标检测、场景图生成和区域描述生成之间进行联合学习，是否能带来相互的性能提升？
RQ2如何有效建模不同语义层级区域之间的空间与语义关系，以实现跨任务的特征优化？
RQ3通过动态构建的图进行消息传递，在多大程度上能增强三项任务的特征表示？
RQ4将短语和描述的互补监督信息引入，是否能提升对小尺寸或难检测物体的识别能力？
RQ5统一的端到端框架是否能在基准数据集上超越任务专用或多阶段基线模型？

主要发现

在Visual Genome数据集上，所提出的MSDN模型在场景图生成任务中，相比最先进方法，平均精度均值（mAP）绝对提升3.63%至4.31%。
目标检测mAP从基线模型Faster R-CNN的6.72%提升至7.43%，表明短语和描述提供的跨任务上下文信息具有显著优势。
区域描述生成的AP指标从基线的4.41%提升至5.39%，表明场景图提供的结构与语义信号能有效提升描述质量。
消融实验表明，消息传递机制至关重要，即使使用相同架构和语言模型，不启用消息传递的模型（Baseline-3-bran.）性能仍明显下降。
定性结果表明，预测的场景图与描述输出之间存在强相关性，失败案例通常源于物体或关系的误分类。
性能增益主要归因于多层次监督的整合，以及动态图在对齐与优化不同语义层级特征方面的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。