Skip to main content
QUICK REVIEW

[论文解读] Task-Specific Context Decoupling for Object Detection

Jiayuan Zhuang, Zheng Qin|arXiv (Cornell University)|Mar 2, 2023
Advanced Neural Network Applications被引用 32
一句话总结

该论文提出 TSCODE,一个即插即用的头部,通过提供任务特定输入来实现分类与定位的特征上下文分离,从而以较低额外成本提升检测性能。

ABSTRACT

Classification and localization are two main sub-tasks in object detection. Nonetheless, these two tasks have inconsistent preferences for feature context, i.e., localization expects more boundary-aware features to accurately regress the bounding box, while more semantic context is preferred for object classification. Exsiting methods usually leverage disentangled heads to learn different feature context for each task. However, the heads are still applied on the same input features, which leads to an imperfect balance between classifcation and localization. In this work, we propose a novel Task-Specific COntext DEcoupling (TSCODE) head which further disentangles the feature encoding for two tasks. For classification, we generate spatially-coarse but semantically-strong feature encoding. For localization, we provide high-resolution feature map containing more edge information to better regress object boundaries. TSCODE is plug-and-play and can be easily incorperated into existing detection pipelines. Extensive experiments demonstrate that our method stably improves different detectors by over 1.0 AP with less computational cost. Our code and models will be publicly released.

研究动机与目标

  • 在对象检测中解释分类与定位对上下文偏好不一致的动机。
  • 提出一个解耦头部,为分类和定位提供任务特定的输入特征。
  • 设计高效的用于分类的语义上下文编码(SCE)和用于定位的细节保留编码(DPE)。
  • 展示在主流检测器中的即插即用适用性,并带来一致的改进。

提出的方法

  • 通过用任务特定输入 G cls l 和 G loc l 代替共享的 P l,为分类和定位分支解耦特征编码。
  • 语义上下文编码(SCE)从下采样的 P l 以及更高层的 P l+1 构建 G cls l,为分类提供空间上粗粒度但语义丰富的特征。
  • 细节保留编码(DPE)通过轻量级的 U-Net 风格融合,将 P l-1、P l 和 P l+1 融合,提供高分辨率且边缘丰富的定位特征。
  • 分类头采用一个浅层的两层结构,通道数为 512,从 G cls l 预测分数,随后重排以恢复分辨率并预测每个类别的分数。
  • 定位头通过三层特征融合(P l-1、P l、P l+1)计算得到的 G loc l 来回归边界框。
  • 整体损失将对 G cls l 的 Lcls 和对 G loc l 的 Lloc 结合起来,解耦输入降低任务干扰。

实验结果

研究问题

  • RQ1如何有效地解耦特征上下文,以满足分类和定位的相反需求?
  • RQ2与传统的共享特征解耦头相比,任务特定输入是否在更低计算成本下实现更准确的分类和定位?
  • RQ3TSCODE 能否在不同的一阶段检测器和骨干网络上泛化?
  • RQ4SCE 和 DPE 组件对检测性能的定量影响是什么?
  • RQ5在现有检测流水线中,TSCODE 是否具备即插即用性?  

主要发现

  • 在 FCOS、ATSS 和 GFL 基线下,TSCODE 产生持续的 AP 提升(消融中 AP 增益大约在 1.3–1.4 点左右)。
  • SCE 和 DPE 独立提升性能,二者的组合带来的增益大于各自效果之和。
  • TSCODE 在提高 AP 和各尺寸对象 AR 的同时,计算成本更低或相当,并加速训练收敛。
  • 将 TSCODE 应用于 COCO minival 的多种检测器,基线不同时的 AP 提升约为 ~0.5–1.4 点。
  • 当与 ResNet-101、ResNeXt-101-32x4d、以及 DCN 变体等骨干网络结合时,TSCODE 实现了单模型 COCO test-dev 的最先进性能,超越多种近来检测器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。