[論文レビュー] Omni-Dimensional Dynamic Convolution
ODConvは畳み込みカーネル上の多次元アテンションを導入し、入力依存のダイナミック畳み込みを作成します。追加パラメータを抑えつつ精度向上を実現し、通常の畳み込みのドロップイン置換として機能します。バックボーン全体でImageNetおよびMS-COCOの結果を改善します。
Learning a single static convolutional kernel in each convolutional layer is the common training paradigm of modern Convolutional Neural Networks (CNNs). Instead, recent research in dynamic convolution shows that learning a linear combination of $n$ convolutional kernels weighted with their input-dependent attentions can significantly improve the accuracy of light-weight CNNs, while maintaining efficient inference. However, we observe that existing works endow convolutional kernels with the dynamic property through one dimension (regarding the convolutional kernel number) of the kernel space, but the other three dimensions (regarding the spatial size, the input channel number and the output channel number for each convolutional kernel) are overlooked. Inspired by this, we present Omni-dimensional Dynamic Convolution (ODConv), a more generalized yet elegant dynamic convolution design, to advance this line of research. ODConv leverages a novel multi-dimensional attention mechanism with a parallel strategy to learn complementary attentions for convolutional kernels along all four dimensions of the kernel space at any convolutional layer. As a drop-in replacement of regular convolutions, ODConv can be plugged into many CNN architectures. Extensive experiments on the ImageNet and MS-COCO datasets show that ODConv brings solid accuracy boosts for various prevailing CNN backbones including both light-weight and large ones, e.g., 3.77%~5.71%|1.86%~3.72% absolute top-1 improvements to MobivleNetV2|ResNet family on the ImageNet dataset. Intriguingly, thanks to its improved feature learning ability, ODConv with even one single kernel can compete with or outperform existing dynamic convolution counterparts with multiple kernels, substantially reducing extra parameters. Furthermore, ODConv is also superior to other attention modules for modulating the output features or the convolutional weights.
研究の動機と目的
- 空間次元、入力チャンネル、出力チャンネル、カーネルインデックスという4つのカーネル空間次元を活用して、単一のアテンション次元を超えるダイナミック畳み込みを動機づける。
- ODConvを、並列の多次元アテンションを備えた一般化されたダイナミック畳み込みとして提案する。
- 軽量および大規模なCNNバックボーンにおいて、ImageNetおよびMS-COCOでパラメータを抑えつつ精度を向上させることを示す。
- ODConvが標準の畳み込みのドロップイン置換となり、検出タスクへも利得を転移できることを示す。
提案手法
- ODConvを、位置方向、チャネル方向、フィルター方向、カーネル方向の4つのアテンションを持つマルチカーネルダイナミック畳み込みとして定義し、カーネル W_i に対して並列に適用する。
- 入力 x に条件づけられたマルチヘッドSE型モジュールを介して、4つのアテンション α_s, α_c, α_f, α_w を計算する。
- カーネル空間全体にわたる位置・チャネル・フィルター・カーネルごとの乗法を用いて、複合ダイナミックカーネルを形成する。
- 単一カーネルを用いたODConvが、複数カーネルのダイナミック手法と競合できるようにし、パラメータ増大を抑える。
- ODConvをCondConvおよびDyConvと比較し、ImageNetおよびMS-COCOでSE/CBAM/ECAなどの重み変調手法とベンチマークする。
実験結果
リサーチクエスチョン
- RQ1ODConvのカーネル空間に対する多次元アテンションは、従来の1次元ダイナミック畳み込みよりも表現力を高めることができるか。
- RQ2ODConvをドロップイン置換として、軽量から大規模までのさまざまなバックボーンでImageNetおよびMS-COCOに与える影響は何か。
- RQ3より少ないカーネルまたは小さなリダクションでODConvは、既存のダイナミック畳み込み手法と比べて性能を維持または向上するか。
- RQ4事前訓練済みバックボーンで使用されたとき、ODConvの変種は物体検出などの下流タスクへどのように転移するか。
主な発見
| Model | Params | MAdds | Top-1 Acc (%) | Top-5 Acc (%) |
|---|---|---|---|---|
| MobileNetV2 (1.0x) baseline | 3.50M | 300.8M | 71.65 | 90.22 |
| + CondConv (8x) | 22.88M | 318.1M | 74.13 | 91.67 |
| + DyConv (4x) | 12.40M | 317.1M | 74.94 | 91.83 |
| + DCD | 5.72M | 318.4M | 74.18 | 91.72 |
| + ODConv (1x) | 4.94M | 311.8M | 74.84 | 92.13 |
| + ODConv (4x) | 11.52M | 327.1M | 75.42 | 92.18 |
| MobileNetV2 (0.75x) | 2.64M | 209.1M | 69.18 | 88.82 |
| + CondConv (8x) | 17.51M | 223.9M | 71.79 | 90.17 |
| + DyConv (4x) | 7.95M | 220.1M | 72.75 | 90.93 |
| + DCD | 4.08M | 222.9M | 71.92 | 90.20 |
| + ODConv (1x) | 3.51M | 217.1M | 72.43 | 90.82 |
| + ODConv (4x) | 7.50M | 226.3M | 73.81 | 91.33 |
| MobileNetV2 (0.5x) | 2.00M | 97.1M | 64.30 | 85.21 |
| + CondConv (8x) | 13.61M | 110.0M | 67.24 | 87.51 |
| + DyConv (4x) | 4.57M | 103.2M | 69.05 | 88.37 |
| + DCD | 3.06M | 105.6M | 69.32 | 88.44 |
| + ODConv (1x) | 2.43M | 101.8M | 68.26 | 87.98 |
| + ODConv (4x) | 4.44M | 106.4M | 70.01 | 89.01 |
- MobileNetV2バックボーンでは、ODConv(1x)はCondConv(8x)より高いTop-1精度を達成し、DyConv(4x)と競合しつつパラメータを抑える。
- ODConv(4x)はMobileNetV2およびResNetバックボーン全体で一貫して最良の結果を示し、例えばMobileNetV2 1.0xはTop-1 75.42%、Top-5 92.18%へ改善。
- ResNet18では、ODConv 1xはTop-1を2.85%向上; ODConv 4xは3.72%上回る。多くの設定でODConvはCondConv、DyConv、DCDを上回り、特にバックボーンが大きい場合に顕著。
- ODConv 4xはResNet101で強力な利得をもたらす(Top-1 78.98%)、表3はSE/CBAM/ECAベースラインを上回る改善を示す。
- MS-COCOの物体検出では、ODConvはResNet50およびMobileNetV2バックボーンを用いたFaster R-CNN/Mask R-CNNを改善し、AP指標でCondConvおよびDyConvを上回ることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。