[논문 리뷰] ConTNet: Why not use convolution and transformer at the same time?
ConTNet은 표준 트랜스포머 인코더와 합성곱 층을 혼합하여 수용영역(receptive field)을 확대합니다; DeiT보다 적은 컴퓨트로 ImageNet 정확도를 높이고 다운스트림 밀집 예측 작업을 개선합니다.
Although convolutional networks (ConvNets) have enjoyed great success in computer vision (CV), it suffers from capturing global information crucial to dense prediction tasks such as object detection and segmentation. In this work, we innovatively propose ConTNet (ConvolutionTransformer Network), combining transformer with ConvNet architectures to provide large receptive fields. Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that are sensitive to hyper-parameters and extremely dependent on a pile of data augmentations when trained from scratch on a midsize dataset (e.g., ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and preserve an outstanding robustness. It is also worth pointing that, given identical strong data augmentations, the performance improvement of ConTNet is more remarkable than that of ResNet. We present its superiority and effectiveness on image classification and downstream tasks. For example, our ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B with less than 40% computational complexity. ConTNet-M also outperforms ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%) on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for CV tasks and bring new ideas for model design
연구 동기 및 목표
- 데이터-소모적이고 하이퍼파라미터에 민감한 트랜스포머 없이 장거리 의존성을 포착하는 백본을 만드는 것을 목표로 합니다.
- 3x3 컨볼루션과 트랜스포머 인코더를 교차로 배치하는 ConTNet 아키텍처를 소개합니다.
- ConTNet이 표준 ConvNet 파이프라인과 데이터 증강으로 학습될 수 있음을 보여줍니다.
- 이미지 분류 및 다운스트림 밀집 예측 작업에서 개선을 입증합니다.
제안 방법
- 각 블록에 두 개의 표준 트랜스포머 인코더(STE)와 3x3 컨볼루션이 포함된 ConT 블록 스택으로 ConTNet을 도입합니다.
- 패치 단위로 특징 맵을 분할하고, 시퀀스로 평탄화한 뒤 위치 인코딩을 적용한 STE를 적용하고, 다시 특징 맵으로 형태를 재구성합니다.
- 전역 특징과 국소 특징을 함께 포착하기 위해 교대로 STE와 Conv 층을 사용하고 잔차 연결을 포함합니다.
- 점진적으로 더 깊고 넓은 네 가지 아키텍처 변형(ConT-Ti, S, M, B)과 패치 크기(7x7 및 14x14)를 구성 가능하게 제공합니다.
- 패치 단위 STE 연산 정의: y^p_{mn} = STE(x^p_{mn}) 이때 STE = FFN(MHSA(x^p_{mn} + PE)).
- ConTNet이 표준 ConvNets(예: ResNet)과 유사한 학습 방식과 데이터 증강 기법으로 최적화될 수 있음을 보여주는 훈련 체계를 논의합니다.
실험 결과
연구 질문
- RQ1유사한 학습 조건에서 순수 ConvNets와 순수 Vision Transformer를 능가하는 컨볼루션–트랜스포머 하이브리드 백본이 가능합니까?
- RQ2ConvNet 아키텍처 내에 STE를 임베딩하는 것이 대규모 사전학습이 필요하지 않으면서 강인성과 밀집 예측 작업으로의 전이성을 향상시키나요?
- RQ3패치 크기, 학습률, 그룹화가 ConTNet의 성능과 효율성에 어떤 영향을 미치나요?
주요 결과
| 네트워크 | FLOPs (G) | Params (M) | Top-1 (%) |
|---|---|---|---|
| Res-18 | 1.8 | 11.7 | 71.5 |
| ConT-S | 1.5 | 10.1 | 74.9 |
| Res-50 | 4.0 | 25.6 | 77.1 |
| ConT-M | 3.1 | 19.2 | 77.6 |
| Res-101 | 7.6 | 44.5 | 78.2 |
| ConT-B | 6.4 | 39.6 | 77.9 |
- ConTNet은 ImageNet에서 ConT-B로 81.8% top-1 정확도를 달성하며 DeiT-B와 일치하는 동안 FLOPs는 약 40% 더 적게 필요합니다.
- 추가 트릭 없이 ImageNet에서 ConTNet 변형들이 유사 예산에서 ResNet을 능가합니다(예: ConT-M이 ResNet-50을 상회; ConT-B가 ResNet-101을 0.3% 포인트 초과).
- 강력한 데이터 증강으로 ConTNet은 예산 전반에서 일관되게 ResNet 베이스라인을 능가합니다(예: ConT-B 81.8% 대 Res-101 80.0%).
- 객체 검출/분할의 백본으로서 ConT-M은 Faster-RCNN, FCOS, RetinaNet을 개선합니다(예: 작업에 따라 AP가 +2.6에서 +4.3포인트 증가).
- 인스턴스 분할 및 의미론적 분할도 이점이 있습니다(Mask-RCNN: bbox MAP +2.3, seg MAP +3.4; Cityscapes mIOU: PSPNet+ConT-M +1.16%).
- Ablation은 패치 단위 위치 인코딩이 유익함을 보여주며, 7 및 14의 패치 크기와 교대 구성에서 가장 좋은 성능을 보입니다(표 9).
- 그룹 컨볼루션은 표준 컨볼루션에 비해 정확도를 감소시키며, 깊이별 분리 가능한 컨볼루션은 효율/정확도 트레이드오프에 유리한 것을 제공합니다(표 11).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.