[논문 리뷰] Omni-Dimensional Dynamic Convolution
ODConv는 합성곱 커널에 걸쳐 다차원 어텐션을 도입해 입력 의존적 다이내믹 컨볼루션을 생성하고, 더 적은 추가 매개변수로 눈에 띄는 정확도 향상을 달성하며 일반 컨볼루션의 드롭인 대체제로 작동합니다. 백본 전체에서 ImageNet 및 MS-COCO 성능을 개선합니다.
Learning a single static convolutional kernel in each convolutional layer is the common training paradigm of modern Convolutional Neural Networks (CNNs). Instead, recent research in dynamic convolution shows that learning a linear combination of $n$ convolutional kernels weighted with their input-dependent attentions can significantly improve the accuracy of light-weight CNNs, while maintaining efficient inference. However, we observe that existing works endow convolutional kernels with the dynamic property through one dimension (regarding the convolutional kernel number) of the kernel space, but the other three dimensions (regarding the spatial size, the input channel number and the output channel number for each convolutional kernel) are overlooked. Inspired by this, we present Omni-dimensional Dynamic Convolution (ODConv), a more generalized yet elegant dynamic convolution design, to advance this line of research. ODConv leverages a novel multi-dimensional attention mechanism with a parallel strategy to learn complementary attentions for convolutional kernels along all four dimensions of the kernel space at any convolutional layer. As a drop-in replacement of regular convolutions, ODConv can be plugged into many CNN architectures. Extensive experiments on the ImageNet and MS-COCO datasets show that ODConv brings solid accuracy boosts for various prevailing CNN backbones including both light-weight and large ones, e.g., 3.77%~5.71%|1.86%~3.72% absolute top-1 improvements to MobivleNetV2|ResNet family on the ImageNet dataset. Intriguingly, thanks to its improved feature learning ability, ODConv with even one single kernel can compete with or outperform existing dynamic convolution counterparts with multiple kernels, substantially reducing extra parameters. Furthermore, ODConv is also superior to other attention modules for modulating the output features or the convolutional weights.
연구 동기 및 목표
- 동일한 어텐션 차원 너머의 다이내믹 컨볼루션을 커널 공간의 네 가지 차원(공간, 입력 채널, 출력 채널, 커널 인덱스)을 활용해 동기화하는 것을 통해 동기화된 동적 컨볼루션으로 확장하려는 동기
- 병렬 다차원 어텐션으로 ODConv를 일반화된 동적 컨볼루션으로 제안
- ImageNet 및 MS-COCO에서 경량 및 대형 CNN 백본 전반에 걸쳐 ODConv가 더 적은 매개변수로 정확도를 향상시키는지 보여주기
- ODConv가 표준 컨볼루션의 드롭인 대체제로 작동하고 사전 학습된 백본을 이용한 탐지 작업으로 이득을 이전시킬 수 있는지 입증하기
제안 방법
- ODConv를 네 가지 어텐션(로케이션별, 채널별, 필터별, 커널별)을 병렬로 Kernel W_i에 적용되는 다-커널 다이내믹 컨볼루션으로 정의합니다.
- 입력 x에 조건화된 다중 헤드 SE형 모듈을 통해 네 가지 어텐션(α_s, α_c, α_f, α_w)을 계산합니다.
- 커널 공간 전반에 걸친 로케이션별, 채널별, 필터별, 커널별 곱셈을 사용해 합성 다이내닉 커널을 구성합니다.
- 하나의 커널로도 다-커널 다이내닉 방법과 경쟁할 수 있도록 매개변수 증가를 줄입니다.
- ODConv를 CondConv 및 DyConv와 비교하고 ImageNet 및 MS-COCO에서 SE/CBAM/ECA 및 기타 가중치 모듈화 방법과 벤치마크합니다.
실험 결과
연구 질문
- RQ1ODConv의 커널 공간에 대한 다차원 어텐션이 기존의 1차원 동적 컨볼루션보다 더 큰 표현력을 제공할 수 있을까?
- RQ2다양한 백본 및 규모(경량 대 대형)에서 ImageNet 및 MS-COCO에 걸쳐 ODConv를 드롭인 대체로 사용했을 때 영향은 무엇인가?
- RQ3커널 수가 적거나 축소된 ODConv가 기존의 동적 컨볼루션 방식에 비해 성능을 유지하거나 향상시키는가?
- RQ4사전 학습된 백본에서 ODConv 변형이 객체 탐지와 같은 다운스트림 작업으로의 전달에 어떤 영향을 미치는가?
주요 결과
| 모델 | 매개변수 수 | MAdds | Top-1 정확도 (%) | Top-5 정확도 (%) |
|---|---|---|---|---|
| MobileNetV2 (1.0x) baseline | 3.50M | 300.8M | 71.65 | 90.22 |
| + CondConv (8x) | 22.88M | 318.1M | 74.13 | 91.67 |
| + DyConv (4x) | 12.40M | 317.1M | 74.94 | 91.83 |
| + DCD | 5.72M | 318.4M | 74.18 | 91.72 |
| + ODConv (1x) | 4.94M | 311.8M | 74.84 | 92.13 |
| + ODConv (4x) | 11.52M | 327.1M | 75.42 | 92.18 |
| MobileNetV2 (0.75x) | 2.64M | 209.1M | 69.18 | 88.82 |
| + CondConv (8x) | 17.51M | 223.9M | 71.79 | 90.17 |
| + DyConv (4x) | 7.95M | 220.1M | 72.75 | 90.93 |
| + DCD | 4.08M | 222.9M | 71.92 | 90.20 |
| + ODConv (1x) | 3.51M | 217.1M | 72.43 | 90.82 |
| + ODConv (4x) | 7.50M | 226.3M | 73.81 | 91.33 |
| MobileNetV2 (0.5x) | 2.00M | 97.1M | 64.30 | 85.21 |
| + CondConv (8x) | 13.61M | 110.0M | 67.24 | 87.51 |
| + DyConv (4x) | 4.57M | 103.2M | 69.05 | 88.37 |
| + DCD | 3.06M | 105.6M | 69.32 | 88.44 |
| + ODConv (1x) | 2.43M | 101.8M | 68.26 | 87.98 |
| + ODConv (4x) | 4.44M | 106.4M | 70.01 | 89.01 |
- MobileNetV2 백본에서 ODConv 1x는 CondConv 8x보다 상위 1위 정확도에서 더 높고 DyConv 4x와 경쟁적이며 매개변수는 더 적게 사용합니다.
- 4x ODConv는 MobileNetV2 및 ResNet 백본 전반에서 일관되게 최상의 결과를 낳으며, 예를 들어 MobileNetV2 1.0x는 상위-1 75.42%, 상위-5 92.18%로 향상됩니다.
- ResNet18에서 ODConv 1x는 상위-1을 2.85% 개선; ODConv 4x는 3.72% 개선으로 기본값을 능가하며, 대형 백본에서 CondConv, DyConv 및 DCD를 능가하는 경우가 많습니다.
- ODConv 4x는 ResNet101에서 강력한 이득을 주며(상위-1 78.98%), 표 3은 SE/CBAM/ECA 기반선 대비 개선을 보여줍니다.
- MS-COCO 객체 탐지에서 ODConv는 ResNet50 및 MobileNetV2 백본과 함께 Faster R-CNN/Mask R-CNN을 개선하며, AP 지표에서 CondConv 및 DyConv를 능가하는 경우가 많습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.