[论文解读] $ShiftwiseConv:$ Small Convolutional Kernel with Large Kernel Effect
本文提出 shift-wise 运算符,通过移位与稀疏分组卷积用小核来模拟大卷积核,在成本更低的情况下实现较强的 ImageNet 性能。
Large kernels make standard convolutional neural networks (CNNs) great again over transformer architectures in various vision tasks. Nonetheless, recent studies meticulously designed around increasing kernel size have shown diminishing returns or stagnation in performance. Thus, the hidden factors of large kernel convolution that affect model performance remain unexplored. In this paper, we reveal that the key hidden factors of large kernels can be summarized as two separate components: extracting features at a certain granularity and fusing features by multiple pathways. To this end, we leverage the multi-path long-distance sparse dependency relationship to enhance feature utilization via the proposed Shiftwise (SW) convolution operator with a pure CNN architecture. In a wide range of vision tasks such as classification, segmentation, and detection, SW surpasses state-of-the-art transformers and CNN architectures, including SLaK and UniRepLKNet. More importantly, our experiments demonstrate that $3 imes 3$ convolutions can replace large convolutions in existing large kernel CNNs to achieve comparable effects, which may inspire follow-up works. Code and all the models at https://github.com/lidc54/shift-wiseConv.
研究动机与目标
- 促使卷积神经网络在不使用对硬件不友好的大卷积核的前提下获得大感受野。
- 提出 shift-wise 运算符,将大卷积核分解为多组带移位聚合的小卷积核。
- 引入粗粒度稀疏性(分组移位)与重新参数化以提升性能与效率。
- 在 ImageNet-1K 上实现与大卷积基线相当的准确率,同时减少参数量与计算量。
提出的方法
- 将一个大 MxN 卷积核分解为多个小 kxk 卷积核,并对每个结果应用移位以模拟大卷积的效果。
- 通过剪枝引入稀疏分组卷积,在保持硬件效率的同时创建长程依赖。
- 结合 ghost 与重新参数化技术将多分支的节省并入单一路径进行推理。
- 定义焦点长度与焦点宽度,以将 shift-wise 运算符泛化到各种卷积核形状和尺寸。
- 在分支间应用共享的稀疏掩码,使推理阶段能够实现重新参数化,同时保留结构。
实验结果
研究问题
- RQ1小型卷积核结合移位操作,是否能够复制大卷积核的感受野?
- RQ2在 shift-wise 分组中的粗粒度稀疏性是否能够提供硬件高效的稀疏长距离依赖?
- RQ3在参数量、FLOPs 与 ImageNet-1K 的准确率方面,shift-wise 运算符与现有的大卷积 CNN 方法相比如何?
主要发现
| 方法 | 输入尺寸 | 训练轮数 | 参数量 (M) | FLOPs (G) | 吞吐量 (img/s) | Acc@1 (%) |
|---|---|---|---|---|---|---|
| SLaK | 224^2 | 300 | 29 | 5 | - | 81.3 |
| SLaK-T (ICCV2021) | 224^2 | 300 | 30/50 | 5.0/8.7 | 1312 | 82.5 |
| C S W i n -T (CSWin-T) | 224^2 | 300 | 23 | 4 | - | 82.7 |
| RepLKNet-T | 224^2 | 300 | 32 | 6.1 | - | 81.6 |
| InternImage-T | 224^2 | 300 | 30 | 5 | 1292 | 83.5 |
| UniRepLKNet-T | 224^2 | 300 | 31 | 4.9 | 1804 | 83.2 |
| SLaK-T (120 epochs) | 224^2 | 120 | 30/50 | 5.0/8.7 | 1312 | 81.6 |
| sparse-sw w/o rep | 224^2 | 120 | 48 | 7.7 | - | 81.36 |
| sparse-sw w/ rep | 224^2 | 120 | 48 | 7.7 | - | 81.65 |
- Shift-wise 模块在实现大卷积效果的同时,参数量与 FLOPs 远低于某些大卷积基线。
- 在 ImageNet-1K 上,shift-wise 变体在显著降低计算量和参数量的同时达到具有竞争力的准确率,相较于 SLaK 类型架构。
- 稀疏训练在不同阶段实现了数据驱动的活动分组减少,提升早期阶段的稀疏性并降低后期阶段的参数。
- 推理优化的重新参数化(ghost/rep)使多分支训练收益在单一路径中实现高效融合。
- 通过重新参数化的基于移位的卷积实现,硬件友好的实现提升了 GPU 吞吐量,同时保持可比的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。