Skip to main content
QUICK REVIEW

[论文解读] Beyond Skip Connections: Top-Down Modulation for Object Detection

Abhinav Shrivastava, Rahul Sukthankar|arXiv (Cornell University)|Dec 20, 2016
Advanced Image and Video Retrieval Techniques参考文献 43被引用 336
一句话总结

引入一种自顶向下调制(TDM)网络,通过自顶向下的路径和横向连接来增强自底向上的卷积神经网络,以保留细粒度特征,从而提升 COCO 目标检测。

ABSTRACT

In recent years, we have seen tremendous progress in the field of object detection. Most of the recent improvements have been achieved by targeting deeper feedforward networks. However, many hard object categories such as bottle, remote, etc. require representation of fine details and not just coarse, semantic representations. But most of these fine details are lost in the early convolutional layers. What we need is a way to incorporate finer details from lower layers into the detection architecture. Skip connections have been proposed to combine high-level and low-level features, but we argue that selecting the right features from low-level requires top-down contextual information. Inspired by the human visual pathway, in this paper we propose top-down modulations as a way to incorporate fine details into the detection framework. Our approach supplements the standard bottom-up, feedforward ConvNet with a top-down modulation (TDM) network, connected using lateral connections. These connections are responsible for the modulation of lower layer filters, and the top-down network handles the selection and integration of contextual information and low-level features. The proposed TDM architecture provides a significant boost on the COCO testdev benchmark, achieving 28.6 AP for VGG16, 35.2 AP for ResNet101, and 37.3 for InceptionResNetv2 network, without any bells and whistles (e.g., multi-scale, iterative box refinement, etc.).

研究动机与目标

  • 需要说明从早期 CNN 层保留细粒度特征以实现更准确的目标检测的必要性。
  • 提出一个自顶向下调制框架,选择性地将高级上下文传输到较低层。
  • 证明将 TDM 与标准检测管线结合时的端到端可训练性。
  • 显示在 COCO 数据集上,对多种骨干网络,TDM 能带来一致的提升。

提出的方法

  • 向自底向上的卷积网络添加一个自顶向下调制(TDM)网络,通过横向模块相连。
  • 使用横向模块变换自底向上的特征,使用自顶向下模块将带有低层特征的上下文进行融合和上采样。
  • 在 Faster R-CNN 框架内对整个带 TDM 的检测器进行端到端训练。
  • 改变 T、L、和 T_out 模块的容量,以控制表示的大小并确保与 RPN/RCN 头兼容。
  • 在训练过程中从较高层往较低层逐步添加 TDM 对(L_i, T_{i+1,i})。
  • 证明 TDM 在 VGG16、ResNet101 和 InceptionResNetv2 骨干上均能提升检测性能;给出消融实验。

实验结果

研究问题

  • RQ1自顶向下调制是否通过保留早期 CNN 层的细粒度细节来提升目标检测性能?
  • RQ2应如何设计自顶向下与横向模块(容量、位置、上采样)以最大化检测器性能?
  • RQ3是否可以在各种骨干网络上将 TDM 与现有检测器(如 Faster R-CNN)端到端训练?
  • RQ4TDM 对于小目标及定位精度(AP、AP75)在不同架构中的影响如何?

主要发现

  • TDM 在多种骨干网络上获得显著的 AP 提升:VGG16 + TDM 28.6 AP,相较基线 23.3 AP。
  • ResNet101 + TDM 35.2 AP,相较基线 31.5 AP。
  • InceptionResNetv2 + TDM 37.3 AP,相较基线 34.7 AP。
  • 在 COCO testdev 上,IRNv2 搭配 TDM 达到 37.3 AP,为当时单模型、无花哨设定中的最好结果。
  • TDM 在小目标检测(AP^S)和定位(AP^75)方面对不同架构均有显著提升。
  • 消融实验表明,结合顶层上下文与对低层特征的选择性调制带来益处。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。