Skip to main content
QUICK REVIEW

[论文解读] Crafting GBD-Net for Object Detection

Xingyu Zeng, Wanli Ouyang|arXiv (Cornell University)|Oct 8, 2016
Advanced Neural Network Applications参考文献 47被引用 24
一句话总结

该论文提出GBD-Net,一种门控双向卷积神经网络,通过在多尺度支持区域之间实现特征信息传递,联合验证局部与上下文视觉模式,以提升目标检测性能。通过使用可学习门控机制,根据输入依赖的证据动态控制信息流,GBD-Net增强了特征表示能力,在模型集成下于ImageNet验证集上达到68%的mAP,优于先前方法。

ABSTRACT

The visual cues from multiple support regions of different sizes and resolutions are complementary in classifying a candidate box in object detection. Effective integration of local and contextual visual cues from these regions has become a fundamental problem in object detection. In this paper, we propose a gated bi-directional CNN (GBD-Net) to pass messages among features from different support regions during both feature learning and feature extraction. Such message passing can be implemented through convolution between neighboring support regions in two directions and can be conducted in various layers. Therefore, local and contextual visual patterns can validate the existence of each other by learning their nonlinear relationships and their close interactions are modeled in a more complex way. It is also shown that message passing is not always helpful but dependent on individual samples. Gated functions are therefore needed to control message transmission, whose on-or-offs are controlled by extra visual evidence from the input sample. The effectiveness of GBD-Net is shown through experiments on three object detection datasets, ImageNet, Pascal VOC2007 and Microsoft COCO. This paper also shows the details of our approach in wining the ImageNet object detection challenge of 2016, with source code provided on \url{https://github.com/craftGBD/craftGBD}.

研究动机与目标

  • 通过利用多尺度支持区域中的互补视觉信号,解决目标检测中局部线索不足与遮挡模糊的问题。
  • 通过深度卷积神经网络中的双向信息传递,建模局部与上下文特征之间的相互验证机制。
  • 引入可学习门控机制,根据输入依赖的视觉证据动态控制信息传输。
  • 在ImageNet、Pascal VOC2007和COCO等大规模基准上提升检测精度。
  • 提供一种可泛化的模块,适用于多种网络架构与层,以增强特征学习能力。

提出的方法

  • GBD-Net通过不同尺寸支持区域之间的双向卷积信息传递,实现多尺度特征的双向交互。
  • 信息传递通过在多个网络深度上相邻支持区域之间的跨层卷积实现。
  • 可学习门控机制控制信息是否传输,门控值由输入样本的视觉证据决定。
  • 门控函数通过一个小型卷积分支计算,该分支同时处理局部与上下文区域的特征。
  • 该结构为模块化设计,可插入任意卷积神经网络的任意卷积层之后,兼容多种主干网络。
  • 方法采用标准检测损失进行端到端训练,推理阶段使用测试时增强技术,包括多尺度测试与翻转增强。

实验结果

研究问题

  • RQ1通过多尺度特征之间的双向信息传递,是否能通过局部与上下文特征的相互验证,提升目标检测性能?
  • RQ2可学习门控机制的引入,对复杂场景下信息传输与检测精度有何影响?
  • RQ3GBD-Net在多大程度上减少了因背景混淆或物体混淆导致的误检?
  • RQ4信息传递的效果是否在不同物体类别或图像实例间存在差异?
  • RQ5GBD-Net是否可在无需架构重新设计的前提下,泛化应用于不同主干网络与检测框架?

主要发现

  • 当应用于基线ResNet-269时,GBD-Net将mAP从56.6%提升至58.8%,证明了双向特征交互的优势。
  • 将区域提议网络从Craft-V2升级为Craft-V3后,mAP进一步提升至60.7%,表明更高质量的区域提议对性能有显著影响。
  • 多尺度测试使mAP提升1.3个百分点,左右翻转增强进一步增加0.7个百分点。
  • 边界框投票与NMS阈值调整(从0.3调整至0.4)分别带来1.3和0.4个百分点的mAP增益。
  • 最终由六个多样化模型组成的模型集成在ImageNet的val2划分上达到68%的mAP,赢得2016年ImageNet目标检测挑战赛冠军。
  • 误检分析显示,背景混淆是错误的主要来源(占多数),表明上下文建模的改进有助于减少此类错误。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。