QUICK REVIEW

[논문 리뷰] VOLO: Vision Outlooker for Visual Recognition

Yuan, Li, Qibin Hou|arXiv (Cornell University)|2021. 06. 24.

Advanced Neural Network Applications참고 문헌 79인용 수 23

한 줄 요약

이 논문은 세밀한 특징을 더 잘 인코딩할 수 있도록 표준 자기주의(self-attention)를 대체하는 경량이고 효율적인 뷰잉 어텐션(Outlook Attention) 메커니즘을 도입한 새로운 비전 트랜스포머 아키텍처인 VOLO(Vision Outlooker)를 제안한다. 세밀한 수준의 특징 인코딩과 글로벌 종속성 모델링을 결합함으로써, 추가 데이터 없이 ImageNet-1K에서 87.1%의 top-1 정확도를 달성하여 새로운 SOTA를 수립하였으며, 기존의 CNN과 이전 트랜스포머보다 뛰어난 성능을 보였다.

ABSTRACT

Visual recognition has been dominated by convolutional neural networks (CNNs) for years. Though recently the prevailing vision transformers (ViTs) have shown great potential of self-attention based models in ImageNet classification, their performance is still inferior to that of the latest SOTA CNNs if no extra data are provided. In this work, we try to close the performance gap and demonstrate that attention-based models are indeed able to outperform CNNs. We find a major factor limiting the performance of ViTs for ImageNet classification is their low efficacy in encoding fine-level features into the token representations. To resolve this, we introduce a novel outlook attention and present a simple and general architecture, termed Vision Outlooker (VOLO). Unlike self-attention that focuses on global dependency modeling at a coarse level, the outlook attention efficiently encodes finer-level features and contexts into tokens, which is shown to be critically beneficial to recognition performance but largely ignored by the self-attention. Experiments show that our VOLO achieves 87.1% top-1 accuracy on ImageNet-1K classification, which is the first model exceeding 87% accuracy on this competitive benchmark, without using any extra training data In addition, the pre-trained VOLO transfers well to downstream tasks, such as semantic segmentation. We achieve 84.3% mIoU score on the cityscapes validation set and 54.3% on the ADE20K validation set. Code is available at \url{https://github.com/sail-sg/volo}.

연구 동기 및 목표

비전 트랜스포머와 최신 CNN 간의 성능 격차를 해소하기 위해 이미지 분류에서 성능을 향상시키는 것.
비전 트랜스포머가 토큰 표현에 세밀한 수준의 특징을 인코딩하는 데에 한계가 있음을 해결하는 것.
계산 복잡도를 증가시키지 않으면서도 특징 표현력을 향상시킬 수 있는 파라미터 효율적이고 경량의 어텐션 메커니즘을 설계하는 것.
세밀한 공간적 및 문맥적 특징이 효과적으로 인코딩될 경우 어텐션 기반 모델이 CNN을 능가할 수 있음을 보여주는 것.
ImageNet-1K에서 새로운 SOTA를 확립하고, 세분화 분류와 같은 후속 작업으로의 전이 능력을 입증하는 것.

제안 방법

학습 가능한 선형 투영을 통해 이웃하는 특징을 집계하여 토큰 표현을 계산하는 뷰잉 어텐션 메커니즘을 도입하여, 비용이 많이 드는 도트곱 어텐션을 피하는 방식.
이중 단계 아키텍처를 활용: 먼저 이미지를 작은 $8\times8$ 패치로 토큰화하고, 여러 개의 아웃룩어(Outlookers)를 통해 세밀한 수준의 특징 인코딩을 수행.
그 후, 더 큰 $14\times14$ 토큰에서 표준 자기주의 어텐션을 통해 글로벌 종속성을 모델링하여 세밀한 표현과 글로벌 표현을 통합.
복잡한 하이브리드 설계나 외부 데이터 증강 기법 없이도 단순하고 가벼운 아키텍처(VOLO)를 사용.
성능 향상을 위해 토큰 레이블링과 지식 distillation을 추가적인 학습 기법으로 활용.
진행적 스케일링 전략을 적용하여 먼저 작은 모델을 학습하고, 점차 VOLO-D5와 같은 더 큰 변종으로 확장.

실험 결과

연구 질문

RQ1추가 학습 데이터 없이 비전 트랜스포머가 최신 CNN보다 ImageNet 분류에서 뛰어난 성능을 낼 수 있는가?
RQ2비전 트랜스포머가 CNN에 비해 세밀한 시각적 특징을 포착하는 데에서 어떤 한계를 지닌다?
RQ3계산 비용을 증가시키지 않으면서도 새로운 어텐션 메커니즘이 국소적이고 세밀한 수준의 특징을 토큰 표현에 효율적으로 인코딩할 수 있는가?
RQ4세밀한 수준의 특징 인코딩과 글로벌 자기주의 어텐션을 조합하면 표준 ViT나 CNN보다 더 나은 인식 성능을 낼 수 있는가?
RQ5제안된 아키텍처는 세분화 분류와 같은 후속 작업으로 일반화될 수 있는가?

주요 결과

VOLO-D5는 추가 학습 데이터 없이 ImageNet-1K에서 87.1%의 top-1 정확도를 달성하여, 87%를 초과한 첫 번째 모델이다.
ImageNet-ReaL에서는 90.6%의 top-1 정확도, ImageNet-V2에서는 78.0%의 정확도를 기록하여, 세 가지 벤치마크 모두에서 새로운 SOTA를 수립했다.
296M 파라미터만을 사용한 VOLO-D5는 NFNet-F6와 CaiT-M48보다 더 큰 모델임에도 불구하고 파라미터 수가 더 적다.
세분화 분석에서 VOLO는 Cityscapes에서 84.3%의 mIoU, ADE20K에서는 54.3%를 기록하여 강력한 전이 능력을 입증했다.
26.6M 파라미터를 가진 더 작은 VOLO 모델은 ImageNet에서 84.2%의 top-1 정확도를 달성했으며, $384\times384$ 해상도로 확장하면 85.2%로 향상되었다.
뷰잉 어텐션 메커니즘은 자기주의보다 더 효율적으로 국소적 특징을 조밀하고 동적 방식으로 집계하여 특징 표현력을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.