[论文解读] CondConv: Conditionally Parameterized Convolutions for Efficient Inference
本论文提出 Conditionally Parameterized Convolutions (CondConv),通过将每个样本的卷积核表示为专家卷卷积核的加权组合,在不成比例增加推理成本的情况下提升容量,从而在 ImageNet 与 COCO 上实现多种架构的准确性提升。
Convolutional layers are one of the basic building blocks of modern deep neural networks. One fundamental assumption is that convolutional kernels should be shared for all examples in a dataset. We propose conditionally parameterized convolutions (CondConv), which learn specialized convolutional kernels for each example. Replacing normal convolutions with CondConv enables us to increase the size and capacity of a network, while maintaining efficient inference. We demonstrate that scaling networks with CondConv improves the performance and inference cost trade-off of several existing convolutional neural network architectures on both classification and detection tasks. On ImageNet classification, our CondConv approach applied to EfficientNet-B0 achieves state-of-the-art performance of 78.3% accuracy with only 413M multiply-adds. Code and checkpoints for the CondConv Tensorflow layer and CondConv-EfficientNet models are available at: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv.
研究动机与目标
- 挑战在所有样本之间共享卷积核的假设。
- 在不大幅提高推理成本的前提下增加模型容量和性能。
- 证明 CondConv 可作为多种 CNN 架构的即插即用替代方案。
- 展示 CondConv 支持的模型在 ImageNet 分类和 COCO 检测上的改进。
提出的方法
- 将卷积核参数化为 n 个专家卷积核的线性组合:Output(x) = σ((α1W1 + ... + αnWn) * x).
- 通过全局平均池化、一个全连接层和一个 sigmoid 激活来计算每个样本的路由权重 αi = ri(x)。
- 在一个块内跨层共享路由权重以正则化并稳定训练。
- 使用每个样本的核计算或等效的专家混合线性形式进行高效训练。
- 将 CondConv 应用于多种架构(MobileNetV1/V2、ResNet-50、MnasNet、EfficientNet),并在 ImageNet 和 COCO 上评估。
- 如有需要,使用 dropout、AutoAugment、Mixup 及 Shake-Shake 启发式专家 dropout 进行正则化。
实验结果
研究问题
- RQ1CondConv 是否在不同 CNN 架构中以仅 modest 的 推理成本上升提升准确性?
- RQ2在 CondConv 层中增加专家数量如何影响性能与效率?
- RQ3 CondConv 应该放在网络的哪个位置以在准确性和成本之间取得最佳权衡?
- RQ4学习到的路由权重的性质及其在不同类别上的可解释性如何?
- RQ5CondConv 在图像分类(ImageNet)和目标检测(COCO)任务中的表现如何?
主要发现
- CondConv 在 MobileNetV1、MobileNetV2、MnasNet-A1、ResNet-50、以及 EfficientNet-B0 上持续提升 top-1 准确率,推理成本增加不到 10%。
- 在 ImageNet 上,8 专家的 CondConv 在 EfficientNet-B0 上达到 78.3% 的 top-1,MADDs 为 413M;在 CondConv-EfficientNet-B0-depth 下为 614M MADDs 时达到 79.5% 的 top-1。
- CondConv 增强的模型在 COCO minival 的 mAP 相对于基线,在可比或更低的 MADDs 下表现更好(例如 CondConv-MobileNetV1(0.75x) 与 SSD300 在成本相近的情况下表现出更高的 mAP)。
- 路由权重在更深的层变得更具类别特异性,最终层专家呈现双峰分布,表明专家的专业化。
- 将 CondConv 应用于所有层可获得更好的性能;将 CondConv 放在非常早的层中收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。