[논문 리뷰] Intriguing Properties of Vision Transformers
본 논문은 Vision Transformers (ViTs)가 결손/도메인 시프트 및 순열에 대해 매우 강인하고, CNN에 비해 형태 편향(shape-bias)이 강하며, shape tokens를 통해 픽셀 감독 없이 자동으로 분할을 수행할 수 있고, 다양한 태스크에 걸친 미리 학습된(off-the-shelf) 특징의 전이 가능성을 제공한다는 것을 보여준다. 이는 유연한 self-attention 기반 수용 영역 때문이라는 점을 강조한다.
Vision transformers (ViT) have demonstrated impressive performance across various machine vision problems. These models are based on multi-head self-attention mechanisms that can flexibly attend to a sequence of image patches to encode contextual cues. An important question is how such flexibility in attending image-wide context conditioned on a given patch can facilitate handling nuisances in natural images e.g., severe occlusions, domain shifts, spatial permutations, adversarial and natural perturbations. We systematically study this question via an extensive set of experiments encompassing three ViT families and comparisons with a high-performing convolutional neural network (CNN). We show and analyze the following intriguing properties of ViT: (a) Transformers are highly robust to severe occlusions, perturbations and domain shifts, e.g., retain as high as 60% top-1 accuracy on ImageNet even after randomly occluding 80% of the image content. (b) The robust performance to occlusions is not due to a bias towards local textures, and ViTs are significantly less biased towards textures compared to CNNs. When properly trained to encode shape-based features, ViTs demonstrate shape recognition capability comparable to that of human visual system, previously unmatched in the literature. (c) Using ViTs to encode shape representation leads to an interesting consequence of accurate semantic segmentation without pixel-level supervision. (d) Off-the-shelf features from a single ViT model can be combined to create a feature ensemble, leading to high accuracy rates across a range of classification datasets in both traditional and few-shot learning paradigms. We show effective features of ViTs are due to flexible and dynamic receptive fields possible via the self-attention mechanism.
연구 동기 및 목표
- ViTs의 강인성과 일반화에 대한 연구를, 결손, 도메인 이동 및 교란과 같은 노이즈 하에서 CNN과 비교해 탐구한다.
- self-attention과 동적 수용 영역이 강인성과 표현 품질에 어떻게 기여하는지 특징지어 본다.
- ViT에서 형상 대 질감 편향을 탐구하고 이것이 성능과 분할 능력에 미치는 영향을 평가한다.
- shape 정보 인코딩을 위한 구조적 아이디어(shape token)를 제안하고 오프더쉘프 ViT 특징의 전이 가능성을 평가한다.
- 단일 모델의 특징 앙상블을 사용한 소수 샷 및 다양한 다운스트림 태스크에서 ViTs의 실용적 이점을 입증한다.
제안 방법
- ViT, DeiT, T2T 등 ViT 계열 변형을 15개 비전 데이터셋에서 광범위하게 실험한다.
- PatchDrop를 사용해 Random, Salient, Non-salient 마스크로 차단 시나리오를 적용해 강인성을 테스트한다.
- 스타일화된 ImageNet에서 훈련하고 Dedicated shape token을 도입해 질감 편향과 형상 편향을 분석한다.
- 이미지 패치를 섞고 패치의 세분화 정도를 변화시키며 위치 인코딩의 역할을 조사한다.
- 적대적 공격 및 일반적 열화에 대한 강인성을 증강 여부와 함께 평가한다.
- 다른 블록의 클래스 토큰을 앙상블하고 다운스트림 분류와 소수 샷 태스크를 테스트해 오프더쉘프 ViT 특징의 전이를 시연한다.]
실험 결과
연구 질문
- RQ1ViTs가 심각한 결손과 패치 수준 교란에서 CNN에 비해 여전히 강인한가?
- RQ2ViTs는 질감 혹은 형상 어느 쪽으로 편향되어 있으며, 형상 기반 신호를 정확성을 희생하지 않고도 인코딩할 수 있는가?
- RQ3ViTs가 픽셀 수준의 감독 없이도 형상 정보를 이용해 자동으로 전경 분할을 달성할 수 있는가?
- RQ4오프더쉘프 ViT 특징이 다양한 다운스트림 태스크와 설정에서 CNN 특징보다 더 잘 전이되는가?
- RQ5위치 인코딩과 수용 영역이 ViT의 강인성과 일반화에 어떤 역할을 하는가?
주요 결과
- ViTs는 심한 결손 하에서도 높은 정확도를 유지하며, 예를 들어 DeiT는 80%의 랜덤 차단 콘텐츠로 ImageNet에서 top-1 약 60%에 도달할 수 있는 반면 CNN은 거의 0%로 수렴한다.
- ViTs는 CNN보다 텍스처 편향이 적고 형상 편향이 더 강하게 나타나며, 형상을 강조하도록 학습될 때 인간과 유사한 형상 인식을 달성한다.
- 형상 중심의 학습 및 shape token은 ViTs가 픽셀 수준의 감독 없이 자동으로 전경 분할을 수행하도록 한다.
- 오프더쉘프 ViT 특징은 다양한 데이터셋으로 잘 전이되며 하나의 모델에서 강력한 앙상블을 가능하게 하며, 전이 태스크와 소수 샷 학습에서 CNN 기반 대비 종종 우수한 성능을 보인다.
- ViTs는 패치 순서에 대한 순열 불변성을 보이며, 강인성을 위해 위치 인코딩 대신 동적이고 콘텐츠 의존적인 수용 영역에 의존한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.