[论文解读] Visual Translation Embedding Network for Visual Relation Detection
VTransE端到端网络通过将主体(subject)、谓词、对象嵌入到一个低维关系空间,使用平移嵌入来实现视觉关系的学习,使对象检测与关系预测能够同时进行,并在对象与关系之间实现知识迁移。
Visual relations, such as "person ride bike" and "bike next to car", offer a comprehensive scene understanding of an image, and have already shown their great utility in connecting computer vision and natural language. However, due to the challenging combinatorial complexity of modeling subject-predicate-object relation triplets, very little work has been done to localize and predict visual relations. Inspired by the recent advances in relational representation learning of knowledge bases and convolutional object detection networks, we propose a Visual Translation Embedding network (VTransE) for visual relation detection. VTransE places objects in a low-dimensional relation space where a relation can be modeled as a simple vector translation, i.e., subject + predicate $\approx$ object. We propose a novel feature extraction layer that enables object-relation knowledge transfer in a fully-convolutional fashion that supports training and inference in a single forward/backward pass. To the best of our knowledge, VTransE is the first end-to-end relation detection network. We demonstrate the effectiveness of VTransE over other state-of-the-art methods on two large-scale datasets: Visual Relationship and Visual Genome. Note that even though VTransE is a purely visual model, it is still competitive to the Lu's multi-modal model with language priors.
研究动机与目标
- 说明需要显式建模视觉关系以弥合视觉与语言之间的差距,超越仅做对象检测与字幕生成
- 提出基于平移嵌入的视觉关系表示,以处理长尾谓词分布
- 引入可微分的特征提取层,实现对象与谓词在端到端CNN中的知识迁移
- 证明VTransE在VRD和Visual Genome数据集上提升关系检测,不需要语言先验
- 显示端到端训练通过关系上下文提升对象检测效果
提出的方法
- 将关系表示为 s + p ≈ o,在一个低维关系空间中进行映射,使用 Ws、Wo 将主体/对象映射到该空间
- 为每个谓词 p 使用一个平移向量 tp 来建模视觉关系,支持基于距离的损失或 softmax 损失
- 引入可微分的特征提取层,将 classeme、位置信息和双线性插值的视觉特征结合成 x_s 和 x_o,实现端到端的知识迁移
- 用双线性插值替代 RoI 池化,以创建端到端训练的平滑梯度
- 训练时使用多任务损失 L = Lobj + 0.4 Lrel,其中 Lrel 对谓词进行 softmax,并包含基于翻译的打分项
- 对象检测使用 Faster-RCNN 与 VGG-16,但采用基于双线性插值的特征提取以支持关系学习
- 一个关系的得分公式为 S_s,p,o = S_s + S_p + S_o,其中包含对象检测分数和谓词预测分数
实验结果
研究问题
- RQ1将视觉关系嵌入到低维平移空间是否相比 JointBox 风格模型能提升谓词预测?
- RQ2哪些特征(classeme、位置信息、视觉)对关系检测贡献最大,特征融合如何影响不同的关系类型?
- RQ3端到端的 VTransE 能否通过上下文关系学习提升对象检测,反之亦然?
- RQ4在 VRD 和 Visual Genome 上,VTransE 相较于最先进的视觉关系模型在零样本情形下表现如何?
主要发现
- VTransE 在 VRD 和 VG 数据集的谓词预测上优于 JointBox(R@50、R@100)
- 加入三种特征类型(classeme、位置、视觉)并学习缩放后,在动词、空间关系、介词和比较关系上实现了最佳的关系检测
- 端到端训练的 VTransE 提升了 VRD 和 VG 的对象检测 mAP,展示了对象和关系之间的相互学习
- VTransE(纯视觉)在若干任务上优于 Lu’s-VLK,体现了翻译嵌入对视觉关系的好处
- 两阶段 VTransE(VTransE-2stage)落后于端到端 VTransE,强调联合优化的价值
- 零样本结果在所有方法上都显著下降,突出在没有语言先验的情况下对动词/对象组合的泛化挑战
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。