Skip to main content
QUICK REVIEW

[论文解读] Batch-Shaped Channel Gated Networks.

Babak Ehteshami Bejnordi, Tijmen Blankevoort|arXiv (Cornell University)|Jul 15, 2019
Advanced Neural Network Applications参考文献 27被引用 9
一句话总结

本文提出批量形状通道门控网络(Batch-Shaped Channel Gated Networks),一种基于输入特征动态门控单个卷积通道的新方法,采用新颖的残差块架构。通过应用批量形状技术,使特征后验分布与先验对齐,模型将每个样本的计算成本降低至与较小网络相当的水平,同时实现更高的准确率——在具有ResNet50结构的模型上,ImageNet上的top-1准确率达到74.60%,超过ResNet18的69.76%。

ABSTRACT

We present a method that trains large capacity neural networks with significantly improved accuracy and lower dynamic computational cost. We achieve this by gating the deep-learning architecture on a fine-grained-level. Individual convolutional maps are turned on/off conditionally on features in the network. To achieve this, we introduce a new residual block architecture that gates convolutional channels in a fine-grained manner. We also introduce a generally applicable tool $batch$-$shaping$ that matches the marginal aggregate posteriors of features in a neural network to a pre-specified prior distribution. We use this novel technique to force gates to be more conditional on the data. We present results on CIFAR-10 and ImageNet datasets for image classification, and Cityscapes for semantic segmentation. Our results show that our method can slim down large architectures conditionally, such that the average computational cost on the data is on par with a smaller architecture, but with higher accuracy. In particular, on ImageNet, our ResNet50 and ResNet34 gated networks obtain 74.60% and 72.55% top-1 accuracy compared to the 69.76% accuracy of the baseline ResNet18 model, for similar complexity. We also show that the resulting networks automatically learn to use more features for difficult examples and fewer features for simple examples.

研究动机与目标

  • 在不牺牲准确率的前提下,降低大型神经网络的动态计算成本。
  • 基于输入相关特征,实现对卷积通道的细粒度、条件化门控。
  • 开发一种通用工具——批量形状技术,通过将特征后验分布与预设先验对齐,改善门控条件。
  • 在计算复杂度与较小模型相近的前提下,实现高于小型基线模型的准确率。
  • 使模型能够自动为困难样本分配更多特征,为简单样本分配更少特征。

提出的方法

  • 提出一种新型残差块架构,实现对单个卷积通道的细粒度、条件化门控。
  • 采用一种新颖的批量形状技术,将网络特征的边缘聚合后验分布与预设先验分布对齐。
  • 利用批量形状机制增强门控对输入特征的条件依赖性,提升门控敏感度。
  • 在推理阶段应用门控机制,使网络能够根据每个输入动态激活相关通道。
  • 使用标准反向传播进行网络训练,同时引入批量形状正则化以引导门控学习。
  • 利用条件门控机制降低每个样本的平均计算成本,使其与小型模型相当。

实验结果

研究问题

  • RQ1细粒度、基于输入的通道门控是否能在大型网络中提升准确率的同时降低平均计算成本?
  • RQ2批量形状技术在提升门控对输入特征的条件依赖性方面效果如何?
  • RQ3门控网络是否能自动为困难样本分配更多特征,为简单样本分配更少特征?
  • RQ4在计算复杂度相近的情况下,门控大型架构在准确率上能多大程度上超越小型基线模型?
  • RQ5所提出方法是否能在不同任务和数据集(如图像分类和语义分割)上实现良好泛化?

主要发现

  • 在ImageNet上,门控ResNet50达到74.60%的top-1准确率,显著优于计算复杂度相近的基线模型ResNet18的69.76%。
  • 门控ResNet34达到72.55%的top-1准确率,表明该方法在较小架构上也能提升准确率。
  • 由于条件门控的引入,每个样本的平均计算成本降低至与小型网络相当的水平。
  • 模型学会为困难样本使用更多通道,为简单样本使用更少通道,展现出自适应计算能力。
  • 该方法在任务间具有泛化能力,在CIFAR-10图像分类任务和Cityscapes语义分割任务上均表现优异。
  • 批量形状技术通过将特征后验分布与先验对齐,有效改善了门控条件,使门控决策更具意义且依赖于数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。