[論文レビュー] Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
論文は、CNNにおいて非常に大きな深さ方向のカーネルを数個(最大31×31)組み込み、再パラメータ化とアイデンティティ・ショートカットを用いると、ViTとの性能と効率のギャップを縮め、下流タスクを改善できることを示している。
We revisit large kernel design in modern convolutional neural networks (CNNs). Inspired by recent advances in vision transformers (ViTs), in this paper, we demonstrate that using a few large convolutional kernels instead of a stack of small kernels could be a more powerful paradigm. We suggested five guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31, in contrast to commonly used 3x3. RepLKNet greatly closes the performance gap between CNNs and ViTs, e.g., achieving comparable or superior results than Swin Transformer on ImageNet and a few typical downstream tasks, with lower latency. RepLKNet also shows nice scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0% mIoU on ADE20K, which is very competitive among the state-of-the-arts with similar model sizes. Our study further reveals that, in contrast to small-kernel CNNs, large-kernel CNNs have much larger effective receptive fields and higher shape bias rather than texture bias. Code & models at https://github.com/megvii-research/RepLKNet.
研究の動機と目的
- 非常に大きなCNNカーネルが現代のCNNにおいて小さなカーネルを積み重ねることより有利になり得るかを動機付け、検討する。
- 効率性、最適化、転移性を含む効果的な大規模カーネルCNNの設計指針を体系的に研究する。
- 再パラメータ化された大きさの深さ方向畳み込みを用いて大きな受容野を構築する純粋なCNNアーキテクチャであるRepLKNetを提案する。
- ImageNet、COCO、ADE20K、Cityscapes、COCO物体検出で大規模カーネルCNNを評価し、ViTsおよびベースラインと比較する。
提案手法
- 受容野と形状バイアスに関する質問を特定するため、既存の大規模カーネルCNN文献とViTの仕組みを調査する。
- 大規模畳み込みの5つの経験則を提案する:大規模深さ方向カーネルの効率、アイデンティティ・ショートカットの重要性、最適化を扱う再パラメトリゼーション、大きなカーネルが下流タスクに有利であること、小さい特徴マップでの有用性。
- Swin風のマクロ構造に従い、大規模深さ方向畳み込み(最大31×31)と再パラメータ化された小カーネルを組み合わせたRepLKNetを導入する。
- 訓練時に小カーネルブランチを再パラメータ化して大きなカーネルへ統合し、推論時の効率を高める。
- ImageNet分類、ADE20K、Cityscapes、COCOを横断する広範な実験を実施し、Swin TransformerおよびResNet/ResNeXtベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1数個の非常に大きなカーネルを持つCNNは、ImageNetと下流タスクでViTsと同等または上回ることができるか?
- RQ2大規模カーネルは、効果的な受容野と形状バイアスにどのように影響するか(小さなカーネルのCNNと比較して)?
- RQ3大規模カーネルを実用的かつ有益にするために必要な設計選択肢(ショートカット、再パラメトリゼーション、アーキテクチャ)は何か?
- RQ4大規模カーネルはImageNet分類より下流タスクでより大きな利益を提供するか?事前学習データはこれにどう影響するか?
- RQ5大規模カーネル設計は大規模モデルとデータセットに対してスケール可能か?
主な発見
- 非常に大きな深さ方向カーネルは、適切な最適化と変換ベースの実装と組み合わせると効率的になり得る。
- 非常に大きなカーネルを持つネットワークにとって、精度を維持するためにはアイデンティティ・ショートカットが不可欠である。
- 小カーネルを用いた再パラメトリゼーションは最適化の問題を緩和し、転移性能を向上させる。
- 大規模カーネルは下流タスク(COCO、ADE20K、Cityscapes)でImageNet分類より大きな利益をもたらす。
- RepLKNet-31BはSwin-Bより低遅延でImageNet(1K)トップ1が84.8%を達成し、下流性能も競合または優越的であることを示す。より大きなバリアント(RepLKNet-31L/XL)はADE20KとCOCOで強力な結果を達成しており、良好なスケーラビリティを示唆する。
- ADE20Kでは、カーネルサイズを[13,13,13,13]から[31,29,27,13]へ増やすと、パラメータとFLOPの増加が控えめであるにもかかわらず0.82 mIoUの改善が得られ、下流タスクの利点が明確である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。