[论文解读] Omni-Dimensional Dynamic Convolution
ODConv 在卷积核上引入多维注意力,生成输入相关的动态卷积,在参数更少的情况下实现显著的准确率提升,并可作为常规卷积的即插即用替代。在不同骨干网络上提升 ImageNet 与 MS-COCO 的结果。
Learning a single static convolutional kernel in each convolutional layer is the common training paradigm of modern Convolutional Neural Networks (CNNs). Instead, recent research in dynamic convolution shows that learning a linear combination of $n$ convolutional kernels weighted with their input-dependent attentions can significantly improve the accuracy of light-weight CNNs, while maintaining efficient inference. However, we observe that existing works endow convolutional kernels with the dynamic property through one dimension (regarding the convolutional kernel number) of the kernel space, but the other three dimensions (regarding the spatial size, the input channel number and the output channel number for each convolutional kernel) are overlooked. Inspired by this, we present Omni-dimensional Dynamic Convolution (ODConv), a more generalized yet elegant dynamic convolution design, to advance this line of research. ODConv leverages a novel multi-dimensional attention mechanism with a parallel strategy to learn complementary attentions for convolutional kernels along all four dimensions of the kernel space at any convolutional layer. As a drop-in replacement of regular convolutions, ODConv can be plugged into many CNN architectures. Extensive experiments on the ImageNet and MS-COCO datasets show that ODConv brings solid accuracy boosts for various prevailing CNN backbones including both light-weight and large ones, e.g., 3.77%~5.71%|1.86%~3.72% absolute top-1 improvements to MobivleNetV2|ResNet family on the ImageNet dataset. Intriguingly, thanks to its improved feature learning ability, ODConv with even one single kernel can compete with or outperform existing dynamic convolution counterparts with multiple kernels, substantially reducing extra parameters. Furthermore, ODConv is also superior to other attention modules for modulating the output features or the convolutional weights.
研究动机与目标
- 通过利用四个核空间维度(空间、输入通道、输出通道、核索引)来扩展对动态卷积的探索,推进到不仅仅是单一注意力维度的动态卷积。
- 提出 ODConv 作为带有并行多维注意力的广义动态卷积。
- 展示 ODConv 在 ImageNet 与 MS-COCO 上对轻量和大型 CNN 骨干在参数更少的情况下仍能提升准确率。
- 证明 ODConv 可以作为标准卷积的现成替代,并迁移到检测任务上。
提出的方法
- 将 ODConv 定义为具有四个注意力(位置维、通道维、滤波维、核维)的多核动态卷积,在核 W_i 上并行应用。
- 通过一个以输入 x 为条件的多头 SE 型模块计算四个注意力(α_s、α_c、α_f、α_w)。
- 在核空间对位置维、通道维、滤波维、核维进行乘法,形成复合动态卷积核。
- 允许 ODConv 使用单一核来与多核动态方法竞争,降低参数膨胀。
- 将 ODConv 与 CondConv 和 DyConv 进行对比,并在 ImageNet 与 MS-COCO 上以 SE/CBAM/ECA 以及其他权重调制方法进行基准测试。
实验结果
研究问题
- RQ1ODConv 在核空间的多维注意力是否比现有的一维动态卷积具有更强的表示能力?
- RQ2在不同骨干与尺度(轻量级与大型)上,将 ODConv 作为就地替代在 ImageNet 与 MS-COCO 的影响如何?
- RQ3使用更少的核或更小的降维的 ODConv 是否能在性能上保持或超越现有的动态卷积方法?
- RQ4在预训练骨干用于下游任务(如目标检测)时,ODConv 的变体如何迁移?
主要发现
| 模型 | 参数量 | MAdds | Top-1 准确率 (%) | Top-5 准确率 (%) |
|---|---|---|---|---|
| MobileNetV2 (1.0x) baseline | 3.50M | 300.8M | 71.65 | 90.22 |
| + CondConv (8x) | 22.88M | 318.1M | 74.13 | 91.67 |
| + DyConv (4x) | 12.40M | 317.1M | 74.94 | 91.83 |
| + DCD | 5.72M | 318.4M | 74.18 | 91.72 |
| + ODConv (1x) | 4.94M | 311.8M | 74.84 | 92.13 |
| + ODConv (4x) | 11.52M | 327.1M | 75.42 | 92.18 |
| MobileNetV2 (0.75x) | 2.64M | 209.1M | 69.18 | 88.82 |
| + CondConv (8x) | 17.51M | 223.9M | 71.79 | 90.17 |
| + DyConv (4x) | 7.95M | 220.1M | 72.75 | 90.93 |
| + DCD | 4.08M | 222.9M | 71.92 | 90.20 |
| + ODConv (1x) | 3.51M | 217.1M | 72.43 | 90.82 |
| + ODConv (4x) | 7.50M | 226.3M | 73.81 | 91.33 |
| MobileNetV2 (0.5x) | 2.00M | 97.1M | 64.30 | 85.21 |
| + CondConv (8x) | 13.61M | 110.0M | 67.24 | 87.51 |
| + DyConv (4x) | 4.57M | 103.2M | 69.05 | 88.37 |
| + DCD | 3.06M | 105.6M | 69.32 | 88.44 |
| + ODConv (1x) | 2.43M | 101.8M | 68.26 | 87.98 |
| + ODConv (4x) | 4.44M | 106.4M | 70.01 | 89.01 |
- 在 MobileNetV2 骨干上,ODConv 1x 的 top-1 准确率高于 CondConv 8x,且在使用更少参数的同时与 DyConv 4x 竞争力强。
- ODConv 4x 在 MobileNetV2 与 ResNet 骨干上持续带来最佳结果,例如 MobileNetV2 1.0x 提升至 75.42% 的 top-1 和 92.18% 的 top-5。
- 在 ResNet18 上,ODConv 1x 将 top-1 提升 2.85%;ODConv 4x 提升 3.72% 相较基线;在许多情形下 ODConv 超越 CondConv、DyConv 与 DCD,尤其是在较大骨干上。
- ODConv 4x 在 ResNet101 上带来强劲提升(top-1 78.98%),表 3 显示相较 SE/CBAM/ECA 基线的改进。
- 在 MS-COCO 的目标检测中,ODConv 提升了使用 ResNet50 与 MobileNetV2 骨干的 Faster R-CNN / Mask R-CNN 的表现,且在 AP 指标上通常优于 CondConv 与 DyConv。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。