Skip to main content
QUICK REVIEW

[论文解读] CondConv: Conditionally Parameterized Convolutions for Efficient Inference

Brandon Yang, Gabriel Bender|arXiv (Cornell University)|Apr 9, 2019
Advanced Neural Network Applications参考文献 45被引用 283
一句话总结

本论文提出 Conditionally Parameterized Convolutions (CondConv),通过将每个样本的卷积核表示为专家卷卷积核的加权组合,在不成比例增加推理成本的情况下提升容量,从而在 ImageNet 与 COCO 上实现多种架构的准确性提升。

ABSTRACT

Convolutional layers are one of the basic building blocks of modern deep neural networks. One fundamental assumption is that convolutional kernels should be shared for all examples in a dataset. We propose conditionally parameterized convolutions (CondConv), which learn specialized convolutional kernels for each example. Replacing normal convolutions with CondConv enables us to increase the size and capacity of a network, while maintaining efficient inference. We demonstrate that scaling networks with CondConv improves the performance and inference cost trade-off of several existing convolutional neural network architectures on both classification and detection tasks. On ImageNet classification, our CondConv approach applied to EfficientNet-B0 achieves state-of-the-art performance of 78.3% accuracy with only 413M multiply-adds. Code and checkpoints for the CondConv Tensorflow layer and CondConv-EfficientNet models are available at: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv.

研究动机与目标

  • 挑战在所有样本之间共享卷积核的假设。
  • 在不大幅提高推理成本的前提下增加模型容量和性能。
  • 证明 CondConv 可作为多种 CNN 架构的即插即用替代方案。
  • 展示 CondConv 支持的模型在 ImageNet 分类和 COCO 检测上的改进。

提出的方法

  • 将卷积核参数化为 n 个专家卷积核的线性组合:Output(x) = σ((α1W1 + ... + αnWn) * x).
  • 通过全局平均池化、一个全连接层和一个 sigmoid 激活来计算每个样本的路由权重 αi = ri(x)。
  • 在一个块内跨层共享路由权重以正则化并稳定训练。
  • 使用每个样本的核计算或等效的专家混合线性形式进行高效训练。
  • 将 CondConv 应用于多种架构(MobileNetV1/V2、ResNet-50、MnasNet、EfficientNet),并在 ImageNet 和 COCO 上评估。
  • 如有需要,使用 dropout、AutoAugment、Mixup 及 Shake-Shake 启发式专家 dropout 进行正则化。

实验结果

研究问题

  • RQ1CondConv 是否在不同 CNN 架构中以仅 modest 的 推理成本上升提升准确性?
  • RQ2在 CondConv 层中增加专家数量如何影响性能与效率?
  • RQ3 CondConv 应该放在网络的哪个位置以在准确性和成本之间取得最佳权衡?
  • RQ4学习到的路由权重的性质及其在不同类别上的可解释性如何?
  • RQ5CondConv 在图像分类(ImageNet)和目标检测(COCO)任务中的表现如何?

主要发现

  • CondConv 在 MobileNetV1、MobileNetV2、MnasNet-A1、ResNet-50、以及 EfficientNet-B0 上持续提升 top-1 准确率,推理成本增加不到 10%。
  • 在 ImageNet 上,8 专家的 CondConv 在 EfficientNet-B0 上达到 78.3% 的 top-1,MADDs 为 413M;在 CondConv-EfficientNet-B0-depth 下为 614M MADDs 时达到 79.5% 的 top-1。
  • CondConv 增强的模型在 COCO minival 的 mAP 相对于基线,在可比或更低的 MADDs 下表现更好(例如 CondConv-MobileNetV1(0.75x) 与 SSD300 在成本相近的情况下表现出更高的 mAP)。
  • 路由权重在更深的层变得更具类别特异性,最终层专家呈现双峰分布,表明专家的专业化。
  • 将 CondConv 应用于所有层可获得更好的性能;将 CondConv 放在非常早的层中收益递减。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。