QUICK REVIEW

[论文解读] Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

Xiaohan Ding, Xiangyu Zhang|arXiv (Cornell University)|Mar 13, 2022

Advanced Neural Network Applications被引用 76

一句话总结

论文证明在卷积神经网络中引入几个非常大的逐通道卷积核（最大到31x31），结合参数重新排列和恒等短路，可以缩小与ViTs在性能与效率方面的差距，并提升下游任务的表现。

ABSTRACT

We revisit large kernel design in modern convolutional neural networks (CNNs). Inspired by recent advances in vision transformers (ViTs), in this paper, we demonstrate that using a few large convolutional kernels instead of a stack of small kernels could be a more powerful paradigm. We suggested five guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31, in contrast to commonly used 3x3. RepLKNet greatly closes the performance gap between CNNs and ViTs, e.g., achieving comparable or superior results than Swin Transformer on ImageNet and a few typical downstream tasks, with lower latency. RepLKNet also shows nice scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0% mIoU on ADE20K, which is very competitive among the state-of-the-arts with similar model sizes. Our study further reveals that, in contrast to small-kernel CNNs, large-kernel CNNs have much larger effective receptive fields and higher shape bias rather than texture bias. Code & models at https://github.com/megvii-research/RepLKNet.

研究动机与目标

激发并研究在现代CNN中，极大卷积核是否能相对于叠加小卷积核提供优势。
系统性研究实现大核卷积的设计指南，包括效率、优化和迁移性。
提出 RepLKNet，一种纯CNN架构，使用重参数化的大尺寸逐通道卷积以构建大感受野。
在ImageNet、COCO、ADE20K、Cityscapes以及COCO目标检测上评估大核CNN，以与ViT及基线进行比较。

提出的方法

梳理现有大核CNN文献和ViT机制，识别关于感受野和形状偏差的问题。
提出五条经验法则用于大卷积：大尺寸逐通道核的效率、恒等快捷连接的重要性、通过重参数化解决优化问题、较大核对下游任务的有益性，以及在小特征图上的有效性。
引入 RepLKNet，一种具备大型逐通道卷积（最高31x31）和重参数化的小卷积核的纯CNN，遵循类似 Swin 的宏架构。
在训练过程中通过重参数化将小卷路径并入大卷积以提高推理效率。
在ImageNet分类、ADE20K、Cityscapes和COCO上进行广泛实验，比较Swin Transformer及ResNet/ResNeXt基线。

实验结果

研究问题

RQ1带有少量非常大卷积核的CNN是否可以在ImageNet及下游任务上达到或超过ViT的表现？
RQ2与小核CNN相比，较大卷积核如何影响CNN的有效感受野和形状偏差？
RQ3哪些设计选择（快捷连接、重参数化、架构）对于使大核变得实用且有益是必要的？
RQ4在下游任务上的增益是否比ImageNet分类更大，且预训练数据如何影响这一点？
RQ5大核设计是否可扩展到大模型和大数据集？

主要发现

在适当的优化和基于变换实现的前提下，非常大的逐通道卷积核可以高效。
对具有非常大卷积核的网络而言，恒等快捷连接对于保持准确性至关重要。
通过小卷积核的重参数化有助于缓解优化问题并提升迁移性能。
在下游任务（COCO、ADE20K、Cityscapes）上，较大卷积核带来比在ImageNet分类更明显的提升。
RepLKNet-31B在ImageNet（1K）上实现84.8% top-1，延迟低于Swin-B，并展现出有竞争力或更优的下游性能；更大版本（RepLKNet-31L/XL）在ADE20K和COCO上取得强劲结果，表明良好的可扩展性。
在ADE20K上，将核尺寸从[13,13,13,13]提升到[31,29,27,13]，在参数与FLOPs增量适中的情况下实现0.82 mIoU的提升，凸显对下游任务的收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。