[论文解读] Soft Conditional Computation.
本文提出条件参数卷积(CondConv),一种为每个输入样本学习专用卷积核的方法,可在不增加推理成本的前提下提升网络容量。通过将 EfficientNet-B0 中的标准卷积替换为 CondConv,该方法在 ImageNet 上实现了 78.3% 的 top-1 准确率,仅需 413M 次乘加操作,创下新的 SOTA 记录。
Convolutional layers are one of the basic building blocks of modern deep neural networks. One fundamental assumption is that convolutional kernels should be shared for all examples in a dataset. We propose conditionally parameterized convolutions (CondConv), which learn specialized convolutional kernels for each example. Replacing normal convolutions with CondConv enables us to increase the size and capacity of a network, while maintaining efficient inference. We demonstrate that scaling networks with CondConv improves the performance and inference cost trade-off of several existing convolutional neural network architectures on both classification and detection tasks. On ImageNet classification, our CondConv approach applied to EfficientNet-B0 achieves state-of-the-art performance of 78.3% accuracy with only 413M multiply-adds. Code and checkpoints for the CondConv Tensorflow layer and CondConv-EfficientNet models are available at: this https URL.
研究动机与目标
- 解决标准 CNN 中所有输入共享固定卷积核的局限性。
- 在不增加推理成本的前提下,实现更大、更具表现力的网络。
- 改善现有 CNN 架构中准确率与推理成本之间的权衡。
- 展示条件核参数化在分类与检测任务中的有效性。
提出的方法
- CondConv 学习一个路由网络,为每个输入样本预测核权重。
- 每个卷积核是若干基础核的加权和,权重由输入决定。
- 路由网络是可微的,并与网络其余部分端到端联合训练。
- 该方法将现有架构(如 EfficientNet)中的标准卷积替换为 CondConv 层。
- 通过每层使用少量基础核,保持计算效率。
- 模型使用标准反向传播与基于梯度的优化进行训练。
实验结果
研究问题
- RQ1条件核参数化是否能在不增加推理成本的前提下提升模型容量?
- RQ2CondConv 对现有 CNN 中的准确率与 FLOP 权衡有何影响?
- RQ3CondConv 是否能在图像分类与目标检测等不同任务上泛化?
- RQ4实现有效性能扩展的最优基础核数量是多少?
- RQ5CondConv 是否能在低 FLOP 数量下实现 ImageNet 上的 SOTA 性能?
主要发现
- 将 CondConv 应用于 EfficientNet-B0,在 ImageNet 上实现了 78.3% 的 top-1 准确率,创下新的 SOTA 记录。
- 该模型仅需 413M 次乘加操作,表明其具有很高的效率。
- 该方法在多种 CNN 架构中均改善了准确率与推理成本的权衡。
- 性能提升归因于为每个输入样本学习专用核的能力。
- 通过使用少量基础核和条件路由,该方法保持了低推理成本。
- CondConv 层及模型的代码与检查点已公开可用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。