[论文解读] PPR-FCN: Weakly Supervised Visual Relation Detection via Parallel Pairwise R-FCN
PPR-FCN 提出了一种并行、成对区域的全卷积网络,用于弱监督视觉关系检测(WSVRD),通过位置-角色敏感得分图和成对 RoI 池化层,仅使用图像级关系标注联合检测物体并预测主语-谓语-宾语关系。该方法在 VRD 和 VG 基准上实现了最先进性能,显著优于以往的弱监督方法,同时保持了计算效率。
We aim to tackle a novel vision task called Weakly Supervised Visual Relation Detection (WSVRD) to detect "subject-predicate-object" relations in an image with object relation groundtruths available only at the image level. This is motivated by the fact that it is extremely expensive to label the combinatorial relations between objects at the instance level. Compared to the extensively studied problem, Weakly Supervised Object Detection (WSOD), WSVRD is more challenging as it needs to examine a large set of regions pairs, which is computationally prohibitive and more likely stuck in a local optimal solution such as those involving wrong spatial context. To this end, we present a Parallel, Pairwise Region-based, Fully Convolutional Network (PPR-FCN) for WSVRD. It uses a parallel FCN architecture that simultaneously performs pair selection and classification of single regions and region pairs for object and relation detection, while sharing almost all computation shared over the entire image. In particular, we propose a novel position-role-sensitive score map with pairwise RoI pooling to efficiently capture the crucial context associated with a pair of objects. We demonstrate the superiority of PPR-FCN over all baselines in solving the WSVRD challenge by using results of extensive experiments over two visual relation benchmarks.
研究动机与目标
- 为解决仅使用图像级关系标注而无需昂贵实例级标注的视觉关系检测挑战。
- 克服在弱监督关系检测中处理 O(N²) 区域对时带来的计算与优化困难。
- 通过并行全卷积架构提升泛化能力并避免局部最优解。
- 实现在无实例级边界框监督下,大规模关系检测的高效端到端训练与推理。
- 为弱监督视觉关系检测建立强大基线,该任务在视觉-语言理解领域中属新颖且研究不足的方向。
提出的方法
- PPR-FCN 采用双分支并行全卷积网络架构,同时对区域对执行弱监督物体检测(WSOD)与弱监督谓词预测(WSPP)。
- 提出一种位置-角色敏感得分图,利用对相对位置和角色敏感的卷积滤波器编码空间上下文与主语/宾语角色。
- 引入一种新型成对 RoI 池化层,保留空间与角色感知特征以支持关系预测,实现区域对间高效得分估计。
- 通过全卷积主干网络在整幅图像上共享计算,显著降低推理成本,相比逐区域全连接网络效率更高。
- 模型使用图像级三元组标注进行端到端训练,通过交替优化物体检测与关系预测实现。
- 避免依赖区域对的真实边界框,使其适用于弱监督设置。
实验结果
研究问题
- RQ1当仅提供图像级关系标注时,全卷积网络能否有效检测图像中的视觉关系?
- RQ2在弱监督关系检测中,如何有效建模空间与角色上下文,以避免主语与宾语之间的错位?
- RQ3与串行或全连接方法相比,并行全卷积网络架构能否缓解局部最优并提升 WSVRD 的泛化能力?
- RQ4在大规模关系检测中,使用成对 RoI 池化与逐区域全连接子网络相比,计算与性能之间的权衡如何?
- RQ5WSVRD 的性能在多大程度上依赖于弱监督物体检测的质量作为前提条件?
主要发现
- 在 VRD 基准上,PPR-FCN 达到 R@50 6.93% 和 R@100 8.22%,显著优于次佳弱监督方法(VTransE-MIL 分别为 4.09% 和 6.15%)。
- 在 VG 基准上,PPR-FCN 达到 R@50 2.41% 和 R@100 3.23%,超越 VTransE-MIL(1.53% 和 2.02%)及其他弱监督基线方法。
- PPR-FCN 推理速度约为 VTransE-MIL 的 2 倍,单张图像在 Titan X GPU 上的推理时间从 270ms 降低至 150ms,尽管处理了 10,000 个区域对。
- 模型性能主要受限于弱监督物体检测模块,因为物体检测失败会导致关系预测的级联失败。
- 共享的全卷积计算机制使数十万个区域对的高效处理成为可能,使大规模 WSVRD 成为现实。
- 定性结果表明,与 VTransE-MIL 相比,PPR-FCN 显著减少了主语-宾语对的错位,尤其在存在多个同类物体的场景中表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。