Skip to main content
QUICK REVIEW

[论文解读] Untangling Local and Global Deformations in Deep Convolutional Networks for Image Classification and Sliding Window Detection

George Papandreou, Iasonas Kokkinos|arXiv (Cornell University)|Nov 30, 2014
Advanced Neural Network Applications参考文献 33被引用 39
一句话总结

本文提出了一种称为epitomic卷积的新型卷积方式,用以替代深度卷积神经网络中的标准卷积-最大池化操作,通过在滤波器之间实现参数共享,提升训练收敛速度与泛化能力。该方法引入了一种基于拼接块(patchwork)的多实例学习(Multiple Instance Learning, MIL)框架,显式建模全局尺度与平移变换,同时通过重用ImageNet预训练网络并减小感受野,开发出一种高效的滑动窗口检测器,在ImageNet和Pascal VOC 2007数据集上达到最先进性能。

ABSTRACT

Deep Convolutional Neural Networks (DCNNs) commonly use generic `max-pooling' (MP) layers to extract deformation-invariant features, but we argue in favor of a more refined treatment. First, we introduce epitomic convolution as a building block alternative to the common convolution-MP cascade of DCNNs; while having identical complexity to MP, Epitomic Convolution allows for parameter sharing across different filters, resulting in faster convergence and better generalization. Second, we introduce a Multiple Instance Learning approach to explicitly accommodate global translation and scaling when training a DCNN exclusively with class labels. For this we rely on a `patchwork' data structure that efficiently lays out all image scales and positions as candidates to a DCNN. Factoring global and local deformations allows a DCNN to `focus its resources' on the treatment of non-rigid deformations and yields a substantial classification accuracy improvement. Third, further pursuing this idea, we develop an efficient DCNN sliding window object detector that employs explicit search over position, scale, and aspect ratio. We provide competitive image classification and localization results on the ImageNet dataset and object detection results on the Pascal VOC 2007 benchmark.

研究动机与目标

  • 通过改进对局部(非刚性)与全局(平移/尺度)形变的不变性,提升深度卷积神经网络的性能。
  • 用epitomic卷积替代标准卷积-最大池化操作,以实现更好的参数共享与训练稳定性。
  • 通过在多实例学习框架中引入基于拼接块的数据结构,显式建模训练过程中的尺度与位置信息。
  • 通过重用ImageNet分类器并减小感受野,开发一种高效、端到端的滑动窗口目标检测器。
  • 在不依赖外部区域提议网络的情况下,实现图像分类与目标检测的竞争力表现。

提出的方法

  • 提出epitomic卷积作为标准最大池化操作的替代方案,以滤波器为中心,将单个输入块与存储在小型epitome中的滤波器集合进行比较,输出最大响应值。
  • 在每一层使用一组小型、局部化的mini-epitome字典,每个mini-epitome略大于输入块,实现在保持计算效率的同时,实现滤波器间的参数共享。
  • 构建一种拼接块数据结构,高效表示训练与推理过程中所有可能的图像尺度与位置作为候选输入。
  • 应用多实例学习(MIL)进行网络训练,仅使用图像级别的类别标签,使模型能够学习在多种尺度与位置上检测目标。
  • 通过将预训练的VGG-16网络中的全连接层转换为卷积层,并应用“孔洞算法”(hole algorithm),实现8像素步长的密集特征提取,用于滑动窗口检测。
  • 通过将第一个全连接层的空间下采样从7×7减少到4×4,减小网络的感受野,降低计算成本并提升定位精度。

实验结果

研究问题

  • RQ1与标准卷积-最大池化相比,epitomic卷积是否能提升深度卷积神经网络的泛化能力与收敛速度?
  • RQ2通过拼接块MIL框架在训练中显式建模尺度与位置信息,是否能显著提升ImageNet上的图像分类准确率?
  • RQ3基于深度卷积神经网络的滑动窗口检测器是否能在不使用外部区域提议网络的情况下实现竞争力表现?
  • RQ4感受野大小如何影响基于CNN的目标检测器的定位精度?
  • RQ5通过架构修改,预训练的ImageNet分类器在多大程度上可被适配为高效滑动窗口检测器?

主要发现

  • epitomic卷积在保持与标准卷积-最大池化相同计算复杂度的前提下,实现了更优的泛化能力与更快的收敛速度。
  • 在训练中使用拼接块MIL框架显式建模尺度与位置信息,显著提升了ImageNet上的图像分类准确率。
  • 所提出的滑动窗口检测器在Pascal VOC 2007上实现了具有竞争力的性能,且不依赖选择性搜索等外部区域提议方法,优于依赖外部提议网络的方法。
  • 通过将网络感受野从224×224下采样至128×128(即下采样第一个全连接层),计算量减少3倍,同时提升了定位精度。
  • 孔洞算法实现了8像素步长的密集特征提取,使整个图像范围内均能获得精确的检测分数,而不会带来过高的计算开销。
  • 该方法在ImageNet图像分类与Pascal VOC 2007目标检测两个基准上均达到了最先进性能,证明了分离处理局部与全局形变的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。