[论文解读] Batch-Shaping for Learning Conditional Channel Gated Networks
该论文在基于 ResNet 的架构中引入细粒度通道门控,并提出一种批量成型(batch-shaping)损失以将特征边际与先验对齐,从而实现条件计算,在 CIFAR-10、ImageNet 和 Cityscapes 上展示了在相近或更低运行时成本下的更高精度。
We present a method that trains large capacity neural networks with significantly improved accuracy and lower dynamic computational cost. We achieve this by gating the deep-learning architecture on a fine-grained-level. Individual convolutional maps are turned on/off conditionally on features in the network. To achieve this, we introduce a new residual block architecture that gates convolutional channels in a fine-grained manner. We also introduce a generally applicable tool $batch$-$shaping$ that matches the marginal aggregate posteriors of features in a neural network to a pre-specified prior distribution. We use this novel technique to force gates to be more conditional on the data. We present results on CIFAR-10 and ImageNet datasets for image classification, and Cityscapes for semantic segmentation. Our results show that our method can slim down large architectures conditionally, such that the average computational cost on the data is on par with a smaller architecture, but with higher accuracy. In particular, on ImageNet, our ResNet50 and ResNet34 gated networks obtain 74.60% and 72.55% top-1 accuracy compared to the 69.76% accuracy of the baseline ResNet18 model, for similar complexity. We also show that the resulting networks automatically learn to use more features for difficult examples and fewer features for simple examples.
研究动机与目标
- 在推理阶段推动条件计算以减少不必要的特征计算。
- 在残差块中提出一种细粒度通道门控机制以选择性激活卷积通道。
- 引入批量成型以将特征分布对齐到选定的先验并促进数据条件门控。
- 将批量成型与 L0 风格的稀疏性损失相结合以控制稀疏性并权衡准确性与计算。
提出的方法
- 引入一个门控的 ResNet 模块,其中门控向量 G(x_l) 乘在第一卷积之后、第二卷积之前的中间激活。
- 门控输出 g_c 由一个轻量级门控模块产生,该模块使用通道维全局平均池化,随后是一个小型两层全连接网络,并使用 Gumbel-Softmax/BinConcrete 放宽以实现可微分的二值决策。
- 基于 Cramér-von-Mises 判据的批量成型损失,用于将门控激活的边际后验与选定先验(例如 Beta 分布)对齐,以促进条件性。
- 对门控应用 L0 风格的稀疏性损失,以正则化总体门控并控制活跃通道数量,设定延迟引入以避免过早的容量损失。
- 在 CIFAR-10、ImageNet 和 Cityscapes 上端到端训练,采用一个损失课程表(先批量成形,再稀疏性)并在不同的 lambda、gamma 下探索权衡。
实验结果
研究问题
- RQ1细粒度的通道级门控是否在精度与计算之间提供比对更优的权衡(相对于在更粗粒度层面门控如整个块,或网络剪枝方法)?
- RQ2批量成形是否能使门控对输入更加数据相关,这对准确性和 MAC 节省有何影响?
- RQ3在大规模数据集上将批量成形与 L0 风格稀疏性损失结合对性能和计算有何影响?
- RQ4在相似计算量下,门控网络与现有条件计算方法(ConvNet-AIG、SkipNet、动态通道剪枝)在准确度方面有何比较?
主要发现
- 在 ImageNet 上,ResNet50-BAS 和 ResNet34-BAS 在与 ResNet18 基线相当的计算下分别达到 74.60% 和 72.55% 的 top-1 准确率,展示了条件计算带来更高的准确性。
- Batch-shaping 指导使门控更具数据依赖性;使用 batch-shaping 加上 L0 风格稀疏性时,达到比基线在相同或更低 MAC 的更高准确性。
- 门控的 ResNet 变体在 CIFAR-10 和 ImageNet 的相似准确性-成本点上持续优于 ConvNet-AIG 与 ConvNet-FBS。
- Cityscapes 的语义分割显示 PSPNet 在使用 76.3% 的 MAC 时达到 IoU 0.719 和像素准确度 0.935,若在 ImageNet 预训练后(IoU 0.747,acc 0.948,在 95% MAC)有提升。
- 门控能够分布为始终开启、条件开启、始终关闭等类别,BAS 变体偏好条件稀疏性而非完全关门以更好地利用容量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。