[논문 리뷰] Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
Conv2Former은 self-attention을 컨볼루션 모듈레이션 연산으로 대체하여 Transformer 스타일의 ConvNet을 구축합니다. 대형 커널을 활용하고, 인기 ConvNets 및 ViTs와 비교하여 ImageNet, COCO, ADE20k에서 우수한 성과를 보입니다.
This paper does not attempt to design a state-of-the-art method for visual recognition but investigates a more efficient way to make use of convolutions to encode spatial features. By comparing the design principles of the recent convolutional neural networks ConvNets) and Vision Transformers, we propose to simplify the self-attention by leveraging a convolutional modulation operation. We show that such a simple approach can better take advantage of the large kernels (>=7x7) nested in convolutional layers. We build a family of hierarchical ConvNets using the proposed convolutional modulation, termed Conv2Former. Our network is simple and easy to follow. Experiments show that our Conv2Former outperforms existent popular ConvNets and vision Transformers, like Swin Transformer and ConvNeXt in all ImageNet classification, COCO object detection and ADE20k semantic segmentation.
연구 동기 및 목표
- ConvNets와 Vision Transformers를 대조하여 ConvNet에서 공간 정보를 효율적으로 인코딩하는 방법을 조사한다.
- 자기 주의의 대체로 간단한 컨볼루션 모듈레이션 연산을 제안한다.
- 향상된 성능을 위한 대형 커널 컨볼루션을 활용하는 계층형 ConvNet 패밀리(Conv2Former)를 구축한다.
- ImageNet 분류, COCO 객체 검출/분할, ADE20k 의미적 분할에서 Conv2Former를 평가한다.
- 설계 선택 및 등방성(ViT 스타일) 변형을 탐구하여 유연성과 확장성을 평가한다.
제안 방법
- 네 계층으로 구성된 피라미드 구조의 Conv2Former를 도입하고 계층 간 패치 임베딩을 사용한다.
- 셀프 어텐션을 컨볼루션 모듈레이션 블록으로 대체하여 A = DConv_{k×k}(W1 X) 및 Z = A ⊙ (W2 X)를 계산한다.
- 긴 범위의 공간 상호 작용을 가능하게 하는 대형 커널 크기(k×k 이상)를 사용하여 컨볼루션 모듈레이션을 수행한다.
- 가중 맵을 생성하기 위한 깊이별 합성곱(depthwise convolutions)과 Hadamard 곱을 사용하여 값 표현을 모듈레이션하되, 모듈레이션 전에는 활성화나 정규화를 적용하지 않는다.
- 모델 변형별로 차원 수(N, T, S, B, L) 및 깊이 구성을 조정하며, 파라미터는 1500만~199M 범위; LayerNorm과 GELU 활성화를 사용한 정규화를 적용한다.
- 등방성/ViT 스타일 변형(Conv2Former-IS/IB)을 도입하여 ViT 스타일 아키텍처와 비교한다.
실험 결과
연구 질문
- RQ1컨볼루션 모듈레이션이 셀프 어텐션을 대체하여 Transformer 스타일의 ConvNet을 만들어 공간 정보를 효율적으로 인코딩할 수 있는가?
- RQ2대형 커널 컨볼루션이 컨볼루션 모듈레이션의 가중치로 사용될 때 일관된 성능 향상을 제공하는가?
- RQ3Conv2Former가 ImageNet-1k/22k 및 COCO, ADE20k와 같은 다운스트림 작업에서 최첨단 ConvNet 및 ViT와 어떻게 비교되는가?
- RQ4커널 크기, 가중 전략, 모델의 등방성은 성능에 어떤 영향을 미치는가?
주요 결과
- Conv2Former은 크기에 따라 ImageNet-1k 정확도에서 경쟁력 있거나 우수한 성능을 달성한다. 예: Conv2Former-T 83.2% 및 Conv2Former-S 84.1% (Table 3).
- ImageNet-22k 사전학습을 사용한 경우 Conv2Former-S는 84.9%, Conv2Former-B는 86.2%의 top-1 정확도에서 ImageNet-1k 미세조정; Conv2Former-L은 87.7%에 도달한다.
- COCO 객체 검출/인스턴스 세분화(Mask R-CNN/Cascade Mask R-CNN)에서 Conv2Former-T/S/B는 SwinT 및 ConvNeXt 대비 일관된 AP 이득을 보이며, 예를 들어 Conv2Former-T는 Cascade Mask R-CNN 구성을 사용한 경우 Mask R-CNN의 AP_bb를 48.0에서 51.4로 개선한다.
- ADE20k 의미적 분할을 위한 UperNet에서 Conv2Former 변형은 Swin Transformer 및 ConvNeXt를 능가하며, 예를 들어 Conv2Former-L은 54.3% mIoU를 달성한다(ImageNet-22k 사전학습).
- 비정류 실험에서 더 큰 커널(최대 21×21)에서 일관된 이득이 나타나며, Hadamard-곱 기반 융합이 합산 또는 정규화 기반 융합보다 우수하다.
- 등방성 Conv2Former 변형(Conv2Former-IS/IB)은 유사한 매개변수 수에서 DeiT 및 ConvNeXt 베이스라인을 능가하며, 등방성 설정에서 강한 ViT 스타일 성능을 확인시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.