QUICK REVIEW

[论文解读] Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks

Sean Bell, C. Lawrence Zitnick|arXiv (Cornell University)|Dec 14, 2015

Advanced Neural Network Applications参考文献 37被引用 63

一句话总结

该论文提出了一种基于区域的物体检测器——内部-外部网络（ION），通过跳跃池化整合多尺度特征，并利用空间四向RNN引入上下文信息，从而提升检测精度。该方法在PASCAL VOC 2012上达到76.4%的mAP，在MS COCO上达到33.1%的mAP，对小物体和遮挡物体的检测性能有显著提升。

ABSTRACT

It is well known that contextual and multi-scale representations are important for accurate visual recognition. In this paper we present the Inside-Outside Net (ION), an object detector that exploits information both inside and outside the region of interest. Contextual information outside the region of interest is integrated using spatial recurrent neural networks. Inside, we use skip pooling to extract information at multiple scales and levels of abstraction. Through extensive experiments we evaluate the design space and provide readers with an overview of what tricks of the trade are important. ION improves state-of-the-art on PASCAL VOC 2012 object detection from 73.9% to 76.4% mAP. On the new and more challenging MS COCO dataset, we improve state-of-art-the from 19.7% to 33.1% mAP. In the 2015 MS COCO Detection Challenge, our ION model won the Best Student Entry and finished 3rd place overall. As intuition suggests, our detection results provide strong evidence that context and multi-scale representations improve small object detection.

研究动机与目标

通过整合感兴趣区域以外的上下文信息，提升物体检测的准确性。
通过利用多个卷积层提取的多尺度特征，增强对小物体的特征表示能力。
评估空间循环神经网络（RNN）在捕获长距离空间上下文方面的有效性。
系统性地分析网络深度、归一化方法及损失函数等设计选择，以优化性能。
证明结合上下文信息与多尺度特征可产生互补增益，尤其在具有挑战性的物体类别上表现显著。

提出的方法

从VGG16网络的多个层（conv3、conv4、conv5）提取多尺度特征，经拼接、L2归一化及1×1卷积降维后进行融合。
采用两层、四向、门控循环网络（IRNN）在图像空间中传播上下文信息，每个单元从四个方向的邻近单元聚合信息。
通过来自低层卷积特征的跳跃连接，保留对小物体检测至关重要的高分辨率空间细节。
在顶层IRNN层引入分割损失进行监督，以提升特征质量与泛化能力。
对每个感兴趣区域（ROI）通过全连接层预测类别概率（使用softmax）与边界框回归调整。
采用动态ROI池化，在单次前向传播中评估每张图像的2000个候选区域，实现高效的端到端训练。

实验结果

研究问题

RQ1将感兴趣区域外部的上下文信息引入后，物体检测性能提升程度如何？
RQ2来自低层卷积层的多尺度特征在提升小物体检测性能方面有多显著？
RQ3在捕获物体检测中长距离空间上下文方面，空间RNN的最佳架构是什么？
RQ4设计选择（如RNN层数、隐藏单元数、循环转移方式）如何影响检测精度？
RQ5结合上下文与多尺度特征是否具有协同效应，还是各自提供独立增益？

主要发现

ION在PASCAL VOC 2012上达到76.4%的mAP，相比之前最先进方法的73.9%有显著提升。
在更具挑战性的MS COCO数据集上，ION将mAP从19.7%提升至33.1%，创下新的最先进水平。
该模型在2015年MS COCO检测挑战赛中荣获最佳学生论文奖，并取得总排名第三的成绩。
使用两层IRNN（每层512个隐藏单元）并采用可学习的循环转移方式时性能最佳，但若移除循环转移（W_hh = I），性能也几乎相当。
上下文特征对检测遮挡物体（如椅子）最为有益，而多尺度特征则显著提升了小物体（如花盆植物）的检测性能。
同时结合上下文与多尺度特征可产生互补增益，尤其在小物体和杂乱背景下的物体检测中提升最为明显。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。