[论文解读] Pixels to Graphs by Associative Embedding
本文提出了一种单阶段端到端CNN,直接从像素预测完整场景图,使用关联嵌入,不依赖外部候选系统,在Visual Genome上达到最先进的结果。
Graphs are a useful abstraction of image content. Not only can graphs represent details about individual objects in a scene but they can capture the interactions between pairs of objects. We present a method for training a convolutional neural network such that it takes in an input image and produces a full graph definition. This is done end-to-end in a single stage with the use of associative embeddings. The network learns to simultaneously identify all of the elements that make up a graph and piece them together. We benchmark on the Visual Genome dataset, and demonstrate state-of-the-art performance on the challenging task of scene graph generation.
研究动机与目标
- 推动从图像端到端的图预测,以在场景图中捕捉对象及其关系。
- 引入关联嵌入,作为在没有预定义槽位的情况下连接图的顶点(对象)和边(关系)的方法。
- 开发基于像素空间的、对无序和重叠检测进行定位的训练方案。
- 在 Visual Genome 上进行基准测试,并展示对先前工作的显著改进。
提出的方法
- 使用高分辨率的 CNN 输出(顶点和边的热力图)将图元素(顶点和边)地在逐像素位置上定位。
- 通过全连接头从逐像素特征预测顶点/边的属性(类别、边界框、关系类型)。
- 使用关联嵌入,其中每个顶点获得唯一的嵌入;边引用源顶点/目标顶点的嵌入以形成图。
- 使用拉-推嵌入损失进行训练,使同一顶点的嵌入聚在一起、不同顶点的嵌入分离,边距 m=8,嵌入维度 d=8。
- 通过在每个像素使用多个槽并在训练期间进行匈牙利匹配步骤来将真实元素分配到槽,以处理重叠检测。
- 通过将边的嵌入与相应顶点的嵌入匹配来连接元素,构建最终图。
实验结果
研究问题
- RQ1卷积神经网络是否能直接从图像中预测整个场景图(对象及其关系),而无需区域提案?
- RQ2如何在无序输出设置中使用关联嵌入来引用和连接图的元素(顶点和边)?
- RQ3在训练和推理阶段,如何处理同时落在同一像素位置的多个图元素?
- RQ4在 Visual Genome 上实现场景图生成的性能提升有哪些?
主要发现
| 设定 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 | R@50 | R@100 |
|---|---|---|---|---|---|---|---|---|
| Lu et al. | – | – | 0.3 | 0.5 | 11.8 | 14.1 | 27.9 | 35.0 |
| Xu et al. | – | – | 3.4 | 4.2 | 21.7 | 24.4 | 44.8 | 53.0 |
| Our model | 6.7 | 7.8 | 9.7 | 11.3 | 26.5 | 30.0 | 68.0 | 75.2 |
| Our model (03/2018) | 15.5 | 18.8 | – | – | 35.7 | 38.4 | 82.0 | 86.4 |
- 在 Visual Genome 的场景图生成任务(SGGen、SGCls、PredCls)上达到最先进的结果。
- 在没有 RPN 的情况下,模型获得了有竞争力的 Recall@K 分数,展示了从原始图像到端到端图预测的有效性。
- 使用关联嵌入和无序输出槽的模型在 Visual Genome 基准上显著超越先前的方法。
- 更长时间的训练与高效代码带来更新的增益(例如,2018-03 的结果在各设置上均有显著提升)。
- 该方法揭示了谓词分布的偏差,并展示了槽如何按谓词子集(如 behind、has、in、of、on)进行组织。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。