[论文解读] Deep Variation-structured Reinforcement Learning for Visual Relationship and Attribute Detection
VRL 引入一种带变分结构的动作图的深度强化学习框架,用于顺序地检测视觉关系和属性,利用语言先验和全局上下文,将关系/属性类型扩展到数千种。它在 VRD 和 Visual Genome 上实现了最先进的结果,包括零样本场景。
Despite progress in visual perception tasks such as image classification and detection, computers still struggle to understand the interdependency of objects in the scene as a whole, e.g., relations between objects or their attributes. Existing methods often ignore global context cues capturing the interactions among different object instances, and can only recognize a handful of types by exhaustively training individual detectors for all possible relationships. To capture such global interdependency, we propose a deep Variation-structured Reinforcement Learning (VRL) framework to sequentially discover object relationships and attributes in the whole image. First, a directed semantic action graph is built using language priors to provide a rich and compact representation of semantic correlations between object categories, predicates, and attributes. Next, we use a variation-structured traversal over the action graph to construct a small, adaptive action set for each step based on the current state and historical actions. In particular, an ambiguity-aware object mining scheme is used to resolve semantic ambiguity among object categories that the object detector fails to distinguish. We then make sequential predictions using a deep RL framework, incorporating global context cues and semantic embeddings of previously extracted phrases in the state vector. Our experiments on the Visual Relationship Detection (VRD) dataset and the large-scale Visual Genome dataset validate the superiority of VRL, which can achieve significantly better detection results on datasets involving thousands of relationship and attribute types. We also demonstrate that VRL is able to predict unseen types embedded in our action graph by learning correlations on shared graph nodes.
研究动机与目标
- 通过共同检测对象关系和属性来推进对场景的整体理解,而不仅仅是单独检测器。
- 利用从语言先验构建的有向语义行动图,捕获对象之间的全局相关性。
- 开发变分结构化遍历,在大规模动作空间中创建小型、可自适应的动作集,提升 RL 的效率。
- 通过一个具备歧义感知的对象挖掘方案解决对象类别间的语义歧义。
- 整合全局图像上下文和历史嵌入,以改善 RL 中的序列推理。
提出的方法
- 构建一个有向语义行动图,其中节点表示对象类别、属性和谓词,边编码语义相关性。
- 使用变分结构化遍历动态为每一步形成小型动作集,将有效动作空间从上千个缩减到一个可管理的子集。
- 每一步采用三行动决策过程:选择主体属性、选择谓词,并通过歧义感知挖掘选择下一个对象类别。
- 编码一个状态向量,将对象级特征、全图像特征和来自 Skip-thought 模型的历史短语嵌入结合起来。
- 训练三個独立的深度 Q 学习网络(一个用于属性、一个用于谓词、一个用于对象类别),共享回放记忆和目标网络,使用 ε-贪婪学习策略。
- 在 VRD 和 Visual Genome 上使用基于召回率的评价指标进行评估,包括零-shot 评估;与使用共享检测器与单独检测器的最先进方法进行比较。
实验结果
研究问题
- RQ1一个深度 VRL 框架是否能够在复杂场景中有效发现并定位数千种潜在关系和属性?
- RQ2变分结构化动作图是否能在大规模组合动作空间上提升学习效率和泛化能力?
- RQ3语言先验和全局上下文线索如何影响关系与属性检测性能?
- RQ4模型是否能够在动作图框架内对未见的关系与属性类型进行泛化(零-shot)?
主要发现
| 方法 | 短语 R@100 | 短语 R@100 | 关系 R@100 | 关系 R@50 |
|---|---|---|---|---|
| Visual Phrases [22] | 0.07 | - | - | - |
| Joint CNN+R-CNN [25] | 0.09 | 0.07 | 0.09 | 0.07 |
| Joint CNN+RPN [25] | 2.18 | 2.13 | 1.17 | 1.15 |
| Lu et al. V only [16] | 2.61 | 2.24 | 1.85 | 1.58 |
| Faster R-CNN [20] | 3.31 | 3.24 | - | - |
| Joint CNN+Trained RPN [20] | 3.51 | 3.17 | 2.22 | 1.98 |
| Faster R-CNN V only [20] | 6.13 | 5.61 | 5.90 | 4.26 |
| Lu et al. [16] | 17.03 | 16.17 | 14.70 | 13.86 |
| Our VRL | 22.60 | 21.37 | 20.79 | 18.19 |
| Lu et al. [16] (zero-shot) | 3.76 | 3.36 | 3.28 | 3.13 |
| Our VRL (zero-shot) | 10.31 | 9.17 | 8.52 | 7.94 |
- VRL 在 VRD 和 Visual Genome 的关系与属性检测召回率(recall@100/recall@50)上超过强基线,包括零-shot 情况。
- 变分结构化遍历显著降低有效动作空间(如谓词动作从 347 降至平均约 15),并提升学习稳定性和速度。
- 具备歧义感知的对象挖掘通过利用场景上下文改进类别选择,带来更具体的预测(如区分 man 与 skier,hat 与 helmet)。
- 历史短语嵌入和全局图像上下文相较于没有历史或使用简单历史表征的变体显著提升性能。
- VRL 展示出强大的零-shot 能力,通过对动作图中未见类型的预测,利用共享图节点和学得的相关性。
- 在 VRD 上,VRL 在关系短语检测和关系检测两项指标上均超越最先进方法,且幅度显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。