QUICK REVIEW

[논문 리뷰] Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

Xiaohan Ding, Xiangyu Zhang|arXiv (Cornell University)|2022. 03. 13.

Advanced Neural Network Applications인용 수 76

한 줄 요약

이 논문은 CNN에 아주 큰 깊이 방향 커널을 몇 개 도입하고(최대 31x31), 재매개화와 아이덴티티 숏컷으로 ViT 대비 성능 및 효율성의 차이를 좁히고 다운스트림 작업을 개선할 수 있음을 보인다.

ABSTRACT

We revisit large kernel design in modern convolutional neural networks (CNNs). Inspired by recent advances in vision transformers (ViTs), in this paper, we demonstrate that using a few large convolutional kernels instead of a stack of small kernels could be a more powerful paradigm. We suggested five guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31, in contrast to commonly used 3x3. RepLKNet greatly closes the performance gap between CNNs and ViTs, e.g., achieving comparable or superior results than Swin Transformer on ImageNet and a few typical downstream tasks, with lower latency. RepLKNet also shows nice scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0% mIoU on ADE20K, which is very competitive among the state-of-the-arts with similar model sizes. Our study further reveals that, in contrast to small-kernel CNNs, large-kernel CNNs have much larger effective receptive fields and higher shape bias rather than texture bias. Code & models at https://github.com/megvii-research/RepLKNet.

연구 동기 및 목표

매우 큰 CNN 커널이 현대 CNN에서 작은 커널을 스택하는 것보다 이점이 있을 수 있는지 동기 부여하고 조사한다.
효율성, 최적화, 전이 가능성을 포함한 효과적인 대형 커널 CNN의 설계 지침을 체계적으로 연구한다.
대형 리셉티브 필드를 구축하기 위해 재매개화된 대형 깊이 방향 컨볼루션을 사용하는 순수 CNN 아키텍처 RepLKNet을 제안한다.
ImageNet, COCO, ADE20K, Cityscapes, COCO 객체 탐지에서 대형 커널 CNN을 평가하여 ViT 및 베이스라인과 비교한다.

제안 방법

수용 영역 및 형태 편향에 대한 질문을 식별하기 위해 기존 대형 커널 CNN 문헌과 ViT 메커니즘을 조사한다.
대형 컨볼루션에 대한 다섯 가지 경험적 지침을 제시한다: 대형 깊이 방향 커널의 효율성, 아이덴티티 숏컷의 중요성, 최적화를 다루기 위한 재매개화, 더 큰 커널이 다운스트림 작업에 이익을 주는지, 작은 특징 맵에서의 유용성.

실험 결과

연구 질문

RQ1몇 개의 아주 큰 커널을 가진 CNN이 ImageNet 및 다운스트림 작업에서 ViT를 맞먹거나 능가할 수 있는가?
RQ2큰 커널이 효과적인 수용 필드와 모양 편향에 미치는 영향이 작은 커널 CNN에 비해 어떠한가?
RQ3대형 커널을 실용적이고 유익하게 만들기 위해 어떤 설계 선택(짧은 경로, 재매개화, 아키텍처)이 필수적인가?
RQ4대형 커널이 다운스트림 작업에서 ImageNet 분류보다 더 큰 이점을 제공하는가, 그리고 사전 학습 데이터가 이것에 어떤 영향을 미치는가?
RQ5대형 커널 설계가 대형 모델과 데이터 세트에 확장 가능한가?

주요 결과

아주 큰 깊이 방향 커널은 최적화와 변환 기반 구현이 적절히 이루어지면 효율적일 수 있다.
아주 큰 커널을 가진 네트워크에서 아이덴티티 숏컷은 정확도를 보존하기 위해 필수적이다.
작은 커널의 재매개화는 최적화 문제를 완화하고 전이 성능을 향상시키는 데 도움이 된다.
대형 커널은 다운스트림 작업(COCO, ADE20K, Cityscapes)에서 ImageNet 분류보다 더 큰 이점을 제공한다.
RepLKNet-31B는 Swin-B보다 낮은 지연으로 ImageNet(1K)에서 84.8% top-1을 달성하고 다운스트림 성능도 경쟁적이거나 우수하며, 더 큰 변형(RepLKNet-31L/XL)은 ADE20K와 COCO에서 강력한 결과를 보이며 확장성도 좋음을 시사한다.
ADE20K에서 커널 크기를 [13,13,13,13]에서 [31,29,27,13]로 증가시키면 파라미터 및 FLOP 증가가 제한적이면서도 0.82 mIoU의 개선을 보이며 다운스트림 과제의 이점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.