QUICK REVIEW

[论文解读] Zoom Out-and-In Network with Recursive Training for Object Proposal

Hongyang Li, Yu Liu|arXiv (Cornell University)|Feb 19, 2017

Advanced Neural Network Applications参考文献 37被引用 25

一句话总结

该论文提出了一种名为递归训练的缩放外扩与内缩网络（ZIP）的新颖目标提议方法，通过在缩放内缩子网络中融合高层语义特征与高分辨率反卷积特征，提升小目标检测性能。通过在训练过程中进行递归回归，进一步改善了提议质量，在ILSVRC DET和MS COCO数据集上实现了最先进水平的平均召回率，并将检测mAP提升了约2%。

ABSTRACT

In this paper, we propose a zoom-out-and-in network for generating object proposals. We utilize different resolutions of feature maps in the network to detect object instances of various sizes. Specifically, we divide the anchor candidates into three clusters based on the scale size and place them on feature maps of distinct strides to detect small, medium and large objects, respectively. Deeper feature maps contain region-level semantics which can help shallow counterparts to identify small objects. Therefore we design a zoom-in sub-network to increase the resolution of high level features via a deconvolution operation. The high-level features with high resolution are then combined and merged with low-level features to detect objects. Furthermore, we devise a recursive training pipeline to consecutively regress region proposals at the training stage in order to match the iterative regression at the testing stage. We demonstrate the effectiveness of the proposed method on ILSVRC DET and MS COCO datasets, where our algorithm performs better than the state-of-the-arts in various evaluation metrics. It also increases average precision by around 2% in the detection system.

研究动机与目标

为解决由于激进下采样导致特征分辨率低，从而在目标提议网络中难以检测小目标的挑战。
通过融合高层语义特征与高分辨率特征，提升小目标和中等目标的定位精度。
通过在训练期间对齐推理时使用的迭代回归过程，缩小训练与推理之间的域差距。
在目标检测流程中实现更高的平均召回率，并在不同目标尺度上具备更好的泛化能力。

提出的方法

网络采用缩放外扩与内缩架构：将深层特征反卷积以提高分辨率，并与浅层特征融合，以检测小目标。
通过按尺度聚类锚点，并在不同步长（16、32、64）的特征图上放置锚点，以匹配目标尺寸，实现多尺度检测。
基于反卷积的缩放内缩子网络将高层特征上采样，以恢复空间分辨率，同时保留语义信息。
递归训练方案在训练过程中执行多次回归迭代，模拟推理时使用的迭代优化过程。
采用基于残差块的回归头并结合RoI池化层，实现边界框的迭代优化；同时引入一个额外的“灰度类别”以提升泛化能力。
训练流程使用前一轮迭代生成的中间回归目标，确保与推理时的迭代过程保持一致。

实验结果

研究问题

RQ1基于反卷积的特征上采样是否能提升目标提议网络中小目标的检测性能？
RQ2将高层语义特征与高分辨率特征融合，是否能比仅使用低层特征获得更优的提议质量？
RQ3一种模仿推理时迭代过程的递归训练策略，是否能提升目标提议生成的平均召回率？
RQ4递归回归迭代次数如何影响提议质量与推理效率？
RQ5当该方法作为预处理步骤使用时，其在多大程度上提升了检测mAP？

主要发现

ZIP方法在ILSVRC DET数据集上实现了95.04%的平均召回率，优于先前的最先进方法。
在MS COCO数据集上，ZIP实现了59.45%的平均召回率，展现出在多样化目标尺度下的强劲性能。
采用T=2次迭代的递归回归，使平均召回率从50.14%提升至59.45%，显示出显著改进。
当集成到基于R-FCN的检测系统中时，该方法使平均精度（mAP）提升了约2%。
消融实验表明，将多分辨率特征拼接会损害性能，而使用分辨率特定的特征可提升准确性。
最优设置采用基于残差块的回归头，并引入额外的“灰度类别”，同时设置T=2次递归迭代。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。