[논문 리뷰] Understanding The Robustness in Vision Transformers
이 논문은 Self-attention이 Vision Transformers(ViTs)의 강건성에 어떻게 기여하는지 분석하고, attentional channel 처리를 갖춘 Fully Attentional Networks(FANs)를 도입하여 ImageNet-C 및 다운스트림 태스크에서 강건성을 크게 개선하고 최첨단 성능을 달성합니다.
Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state-of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code is available at: https://github.com/NVlabs/FAN.
연구 동기 및 목표
- ViTs의 학습에서 self-attention의 역할을 조사합니다.
- 시각적 그룹화 및 중간 수준 표현이 강건성과 어떻게 관련되는지 이해합니다.
- 강건성을 강화하기 위한 attentional channel 처리를 갖춘 완전 주의적 백본(FAN)을 제안합니다.
제안 방법
- 정보 병목(IB) 렌즈를 통해 self-attention을 해석하고 이를 토큰 표현의 클러스터링/그룹화와 연결합니다.
- self-attention 파이프라인에 채널 주의(CA)를 추가하고 포스트-MLP 투영을 제거하여 완전 주의적 설계를 형성하는 FAN 블록을 도입합니다.
- 효율성을 위한 Efficient Channel Self-attention(ECA)을 개발하여 토큰 프로토타입 및 시그모이드 정규화를 통해 채널의 가중치를 재조정합니다.
- 백본 계열과 깊이에 따라 FAN 변형(FAN-T/S/B/L)을 ImageNet-1K 및 강건성 벤치마크(ImageNet-C, Cityscapes-C, COCO-C)에서 비교합니다.
- 훈련 트릭, 주의 메커니즘 및 다운샘플링이 강건성에 미치는 영향을 분리하기 위한 변인 실험(ablation)을 수행합니다.
실험 결과
연구 질문
- RQ1Self-attention이 ViTs에서 개선된 중간 수준 표현과 그룹화를 통해 강건성에 기여하는가?
- RQ2참여 기반 채널 처리를 가진 완전 주의적 설계가 비용 없이 강건성을 추가로 높일 수 있는가?
- RQ3 FAN이 깨끗한 정확도와 잡음 강건성 측면에서 CNN 및 다른 ViTs와 비교했을 때 어떤 차이가 있는가?
- RQ4효율적 채널 주의와 다양한 아키텍처 변형이 강건성 이득에 어떤 영향을 미치는가?
- RQ5강건성 이득이 시맨틱 세그멘테이션(Cityscapes-C) 및 물체 탐지(COCO-C) 같은 다운스트림 태스크로 전달되는가?
주요 결과
- FANs은 크기에 상관없이 깨끗한 정확도와 잡음 강건성을 모두 향상시키고, ImageNet-C에서 보유 및 mCE 측면에서Baseline을 능가합니다.
- FAN-S, FAN-B, FAN-L은 높은 강건성을 달성합니다. 예: FAN-S-ViT의 보유 76, mCE 51.4%; FAN-B-ViT의 보유 78, mCE 47.7%(여러 구성).
- Efficient Channel Attention(ECA)와 채널 Self-attention(CSA)이 SE와 비교해 유사한 메모리 사용으로 최상의 강건성을 제공합니다; CSA는 IN-C, Retention, mCE 테스트에서 가장 강한 강건성을 제공합니다.
- FAN 블록은 ViT 및 Swin 백본의 강건성을 향상시키며, FAN-Hybrid 및 FAN-SWIN 변형은 비-FAN 대비 상당한 강건성 이점을 보여줍니다.
- 다운스트림 태스크 전반에서 FAN-Hybrid는 시맨틱 세그멘테이션(Cityscapes-C) 및 물체 탐지(COCO-C)에서 경쟁력 있는 강건성을 보여줍니다.
- SOTA CNN 및 Transformer과 비교할 때, FAN 모델은 충분한 깨끗한 정확도 유지와 함께 잡음 하에서도 우수한 강건성을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.