[논문 리뷰] CoAtNet: Marrying Convolution and Attention for All Data Sizes
CoAtNet은 깊이별 합성곱과 상대적 자기 주의를 하나의 블록에 통합하고 컨벌루션과 트랜스포머 블록의 수직적 쌓기를 원칙적으로 사용하여 데이터 체계에서 일반화와 높은 용량을 달성하며 다양한 데이터/계산 예산에서 최첨단 ImageNet 결과를 달성한다.
Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse than convolutional networks due to the lack of the right inductive bias. To effectively combine the strengths from both architectures, we present CoAtNets(pronounced "coat" nets), a family of hybrid models built from two key insights: (1) depthwise Convolution and self-Attention can be naturally unified via simple relative attention; (2) vertically stacking convolution layers and attention layers in a principled way is surprisingly effective in improving generalization, capacity and efficiency. Experiments show that our CoAtNets achieve state-of-the-art performance under different resource constraints across various datasets: Without extra data, CoAtNet achieves 86.0% ImageNet top-1 accuracy; When pre-trained with 13M images from ImageNet-21K, our CoAtNet achieves 88.56% top-1 accuracy, matching ViT-huge pre-trained with 300M images from JFT-300M while using 23x less data; Notably, when we further scale up CoAtNet with JFT-3B, it achieves 90.88% top-1 accuracy on ImageNet, establishing a new state-of-the-art result.
연구 동기 및 목표
- ConvNet과 Transformer를 결합하면 두 가지 측면인 귀납 편향과 높은 용량을 모두 활용할 수 있는지 설명.
- 깊이별 합성곱과 상대적 자기 주의를 하나의 통합 블록으로 합치는 것을 제안한다.
- 일반화와 용량의 균형을 맞추는 컨벌루션과 어텐션 스테이지의 수직적 네트워크 레이아웃을 탐구한다.
- 데이터 체계(1K, 21K, 대규모 JFT) 전반에서 최첨단 성능을 입증한다.
- 설계 선택과 레이아웃 결정의 타당성을 뒷받침하기 위한 세부 실험을 제공한다.
제안 방법
- 깊이별 합성곱이 상대적 자기 주의와 하나의 Transformer 스타일 블록으로 결합된 하이브리드 블록을 채택한다(사전 정규화된 상대 주의와 전역적이고 노이즈가 있는 정적 커널 포함).
- 모든 위치 쌍 i-j에 대해 스칼라 상대 커널 w로 표현하여 추가 매개변수 없이도 효율적인 전역 수용 필드를 가능하게 한다.
- 다양한 수직 레이아웃(컨볼루션 중심 단계 대 트랜스포머 중심 단계)을 가진 네트워크 설계를 비교하여 일반화와 용량을 연구한다.
- 다양한 로컬 패턴을 조기에 포착하고 이후 글로벌 컨텍스트를 반영하기 위해 다단계 레이아웃(S0 stem, S1 MBConv, S2 MBConv, S3 Transformer Rel, S4 Transformer Rel)을 사용한다.
- ViT 및 ConvNets에 비해 데이터와 계산 효율 이점을 보여주기 위해 대규모 프리트레이닝(ImageNet-21K, JFT-300M/3B)과 파인튜닝을 평가한다.
실험 결과
연구 질문
- RQ1컨볼루션과 자기 주의를 과도한 비용 없이 하나의 계산 유닛으로 어떻게 결합할 수 있는가?
- RQ2제한된 데이터에서의 일반화 최적, 풍부한 데이터에서의 용량 최적을 보이는 컨볼루션과 어텐턴트 블록의 수직 레이아웃은 무엇인가?
- RQ3상대 주의가 비전 작업에서 표준 주의보다 일반화와 전달성 향상에 기여하는가?
- RQ4하이브리드 ConvNet-Transformer 모델이 ImageNet-1K, ImageNet-21K, JFT 데이터 체계 전반에서 최첨단 성능을 달성할 수 있는가?
주요 결과
| 모델 | 평가 크기 | 매개변수 수 | FLOPs | ImageNet Top-1 정확도 |
|---|---|---|---|---|
| CoAtNet-2 | 224x224 | 75M | 15.7B | 84.1% |
| CoAtNet-3 | 224x224 | 168M | 34.7B | 84.5% |
| CoAtNet-2 | 384x384 | 75M | 49.8B | 85.7% |
| CoAtNet-3 | 384x384 | 168M | 107.4B | 85.8% |
| CoAtNet-4 | 384x384 | 275M | 189.5B | - |
| CoAtNet-7 | 512x512 | 2.44B | 2586B | 90.88% |
- 전처 규화된 상대 주의 블록은 깊이별 합성곱과 자기 주의를 효과적으로 하나의 계산 단위로 통합하고 두 가지의 바람직한 속성을 보존한다.
- 컨벌루션 스테이지가 Transformer 스테이지에 앞서는 수직 쌓기(C-C-T-T 등)는 더 나은 일반화와 경쟁력 있는 용량을 제공하며 더 많은 트랜스포머 중심 배치보다 우수하다.
- 상대 주의는 표준 주의에 비해 일반화를 향상시키며 특히 전이 시나리오(ImageNet-21K에서 ImageNet-1K로)의 성능 향상에 기여한다.
- CoAtNet은 1K 데이터만으로도 ImageNet-1K에서 상위 1위(86.0% top-1)를 달성하고, ImageNet-21K에서 사전 학습 후 미세 조정 시 88.56% top-1에 도달하여 더 큰 데이터 크기에서 학습된 ViT-Huge와 일치하는 성능을 보인다.
- 대규모 사전 학습(JFT-3B)에서 CoAtNet은 ImageNet에서 90.88% top-1 정확도를 달성하며 비교 가능한 계산 하에서 새로운 최첨단 성능을 확립한다.
- 변수 제거(ablation) 실험은 더 많은 컨벌루션 스테이지가 일반화를 향상시키며, 최적의 레이아웃은 S2 MBConv와 S3 Transformer 블록의 균형을 이루어 전달성과 효율성을 높인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.