[论文解读] Scene Graph Generation by Iterative Message Passing
该论文提出一种端到端模型,通过在对象(节点)和关系(边)组成的二分图上进行原始-对偶信息传递,迭代完善对象和关系预测,从而从图像生成具视觉 grounding 的场景图。
Understanding a visual scene goes beyond recognizing individual objects in isolation. Relationships between objects also constitute rich semantic information about the scene. In this work, we explicitly model the objects and their relationships using scene graphs, a visually-grounded graphical structure of an image. We propose a novel end-to-end model that generates such structured scene representation from an input image. The model solves the scene graph inference problem using standard RNNs and learns to iteratively improves its predictions via message passing. Our joint inference model can take advantage of contextual cues to make better predictions on objects and their relationships. The experiments show that our model significantly outperforms previous methods for generating scene graphs using Visual Genome dataset and inferring support relations with NYU Depth v2 dataset.
研究动机与目标
- 通过以显式建模对象及其关系为场景图来强调需要对视觉场景进行结构化表示,而不仅仅是对象检测。
- 提出一个端到端的神经网络模型,联合推断图像中的对象类别、边界框和成对关系。
- 在二分图上利用迭代信息传递,以融入上下文线索并在迭代中改进预测。
- 在基于 Visual Genome 的新场景图数据集以及 NYU Depth v2 上展示该方法以支持关系推理。
提出的方法
- 从输入图像中使用区域建议网络(RPN)提取对象候选。
- 用节点 GRU 表示每个对象候选,用边 GRU 表示每对对象,图中参数共享。
- 使用自适应、学习得到的消息汇聚来在节点和边之间生成消息并执行迭代的 GRU 更新。
- 利用原始-对偶二分图结构在节点-GRU 与边-GRU之间交替迭代地高效传递消息。
- 在若干次迭代后预测最终的对象类别、边界框 refinements 和关系谓词。
- 以分类任务使用交叉熵训练、对边界框偏移使用 L1 损失;仅微调全连接层和 GRU,冻结 VGG-16 特征,除了 FC 层。
实验结果
研究问题
- RQ1一个端到端模型是否能够直接从图像生成具视觉 grounding 的场景图?
- RQ2与逐元素或非迭代基线相比,在二分图场景图上进行迭代消息传递是否能改善对象和关系预测?
- RQ3学习到的自适应消息汇聚如何影响图上的信息融合?
- RQ4模型在室内场景中的密集、空间关系如支撑关系上的泛化能力到何种程度?
主要发现
| 模型 | PredCls R@50 | PredCls R@100 | SGCls R@50 | SGCls R@100 | SGGen R@50 | SGGen R@100 |
|---|---|---|---|---|---|---|
| [26] | 27.88 | 35.04 | 11.79 | 14.11 | 0.32 | 0.47 |
| avg. pool | 32.39 | 39.63 | 15.65 | 18.27 | 2.70 | 3.42 |
| max pool | 34.33 | 41.99 | 16.31 | 18.70 | 3.03 | 3.71 |
| final | 44.75 | 53.08 | 21.72 | 24.38 | 3.44 | 4.24 |
- 最终模型结合学习得到的加权消息汇聚,在 Visual Genome 的 PredCls、SGCls、SGGen 任务上均优于强基线(PredCls R@100: 53.08 与 41.99;SGCls R@100: 24.38 与 18.70;SGGen R@100: 4.24 与 3.71)。
- 两次消息传递迭代取得最佳谓词分类性能;更多迭代可能引入嘈杂消息并降低结果。
- 由于上下文信息和自适应消息聚合,模型在常见和不太常见谓词上均取得显著提升( recalls@5 对各种谓词显示本模型的性能提升)。
- 在 NYU Depth v2 的 RGB 图像上,该方法在支撑关系预测方面取得最先进结果(类型感知:89.0% 对 82.1% 的最佳先前;类型无关:91.2% 对 88.4% 的最佳先前)。
- 基于 Visual Genome 的结果包含一个平均每图 25 个对象和 22 个关系的 refined 数据集,使场景图生成任务的评估更稳健。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。