Skip to main content
QUICK REVIEW

[论文解读] Detecting Visual Relationships with Deep Relational Networks

Bo Dai, Yuqi Zhang|arXiv (Cornell University)|Apr 11, 2017
Advanced Image and Video Retrieval Techniques参考文献 50被引用 68
一句话总结

该论文提出 Deep Relational Network (DR-Net) 通过在神经网络中建模空间配置和统计依赖,联合推断视觉关系检测的三元组(主体、谓词、对象),在 VRD 和 sVG 数据集上优于现有方法。

ABSTRACT

Relationships among objects play a crucial role in image understanding. Despite the great success of deep learning techniques in recognizing individual objects, reasoning about the relationships among objects remains a challenging task. Previous methods often treat this as a classification problem, considering each type of relationship (e.g. "ride") or each distinct visual phrase (e.g. "person-ride-horse") as a category. Such approaches are faced with significant difficulties caused by the high diversity of visual appearance for each kind of relationships or the large number of distinct visual phrases. We propose an integrated framework to tackle this problem. At the heart of this framework is the Deep Relational Network, a novel formulation designed specifically for exploiting the statistical dependencies between objects and their relationships. On two large datasets, the proposed method achieves substantial improvement over state-of-the-art.

研究动机与目标

  • 动机:需要在独立对象识别之外实现鲁棒的视觉关系检测。
  • 引入一个框架,通过利用空间和统计关系来预测 (subject, predicate, object) 三元组。
  • 开发 DR-Net 将概率推理展开为深度网络,以实现端到端学习。
  • 证明将外观特征、空间掩码以及统计相关性结合起来可获得更优的性能。

提出的方法

  • 使用 Faster R-CNN 检测对象,并提取每个候选对象的外观特征。
  • 构建对象对并应用对过滤器以排除不太可能的关系。
  • 对于保留的对,从包含框中提取一个外观特征,以及主体和对象各自的两个对称空间掩码(32x32),压缩到 64D。
  • 提出 Deep Relational Network (DR-Net),通过将推理展开为神经网络层(q_s, q_r, q_o)并在推理单元之间共享权重,执行对 s、r、o 的迭代后验更新。
  • 在组件之间应用对称权重约束来建模关系,并实现端到端的判别训练。
  • 将 DR-Net 与基于 CRF 的公式以及其他基线进行比较,显示 DR-Net 在谓词识别方面具有显著提升。

实验结果

研究问题

  • RQ1一个联合学习的模型是否能够捕捉主体、谓词和对象之间的统计依赖,以提高视觉关系检测?
  • RQ2将外观、空间配置和学习的关系推理结合起来,是否优于基于分类或 CRF 的方法?
  • RQ3推理单元数量和权重共享如何影响 DR-Net 的性能?
  • RQ4该框架是否对场景图生成也有效?

主要发现

数据集任务Recall@50Recall@100
VRD谓词识别(DR-Net)80.7881.90
sVG谓词识别(DR-Net)88.2691.26
  • DR-Net 在 VRD 和 sVG 的谓词识别上显著提升召回率,相对于基线的 recall@50/100 明显更高。
  • 同时考虑外观和空间配置能带来比仅使用任一组件更好的性能。
  • DR-Net 利用统计依赖(相对于 CRFs)实现了有意义的困惑度降低和更好的谓词判别。
  • 更多的推理单元通常会提升召回率,但收益随权重共享的程度而下降,且在非共享配置下在单元数量足够时可以获得更高的增益。
  • 框架扩展到场景图生成时,在使用 DR-Net 配置时与真实图更高的相似度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。