QUICK REVIEW

[논문 리뷰] Do Vision Transformers See Like Convolutional Neural Networks?

Maithra Raghu, Thomas Unterthiner|arXiv (Cornell University)|2021. 08. 19.

Domain Adaptation and Few-Shot Learning참고 문헌 50인용 수 109

한 줄 요약

이 논문은 Vision Transformer(ViT)와 CNN을 분석하여 ViT가 시각 정보를 어떻게 표현하는지 이해하고, 표현 구조, 주의 동작, 스킵 연결, 공간 로컬라이제이션, 데이터 규모가 전이 학습에 미치는 영향에서 주요 차이를 밝힙니다.

ABSTRACT

Convolutional neural networks (CNNs) have so far been the de-facto model for visual data. Recent work has shown that (Vision) Transformer models (ViT) can achieve comparable or even superior performance on image classification tasks. This raises a central question: how are Vision Transformers solving these tasks? Are they acting like convolutional networks, or learning entirely different visual representations? Analyzing the internal representation structure of ViTs and CNNs on image classification benchmarks, we find striking differences between the two architectures, such as ViT having more uniform representations across all layers. We explore how these differences arise, finding crucial roles played by self-attention, which enables early aggregation of global information, and ViT residual connections, which strongly propagate features from lower to higher layers. We study the ramifications for spatial localization, demonstrating ViTs successfully preserve input spatial information, with noticeable effects from different classification methods. Finally, we study the effect of (pretraining) dataset scale on intermediate features and transfer learning, and conclude with a discussion on connections to new architectures such as the MLP-Mixer.

연구 동기 및 목표

ViTs가 CNN과 비교하여 시각 정보를 어떻게 표현하는지 이해한다.
ViTs와 CNN 전반의 내부 표현 구조를 특징화한다.
셀프 어텐션과 스킵 연결이 정보 전달에 어떠한 영향을 미치는지 조사한다.
ViT가 입력의 공간 정보를 어떻게 보존하는지와 로컬라이제이션에 미치는 영향을 검토한다.
중간 표현과 전이 학습에 대한 데이터 규모의 영향을 평가한다.

제안 방법

Center Kernel Alignment(CKA)를 사용해 ViT와 CNN 간 및 층 간 표현 유사성을 정량화한다.
ViT-B/32, ViT-B/16, ViT-L/16, ViT-H/14와 ResNet-50x1, ResNet-152x2를 JFT-300M 또는 ImageNet에서 학습시켜 비교한다.
ViT 셀프 어텐션 헤드의 주의 거리 분석을 통해 지역적 정보 통합과 글로벌 정보 통합을 평가한다.
representation 전달에서 스킵 연결의 역할을 테스트하기 위해 스킵 연결 제거로 개입한다.
CKA를 통해 최종 토큰 표현과 입력 패치를 비교하고 선형 프로브를 사용해 로컬라이제이션 능력을 평가하여 공간 로컬라이제이션을 분석한다.
모델 규모에 따른 선형 프로브를 사용해 사전학습 데이터 규모가 중간 표현에 미치는 영향을 연구한다.

실험 결과

연구 질문

RQ1ViT가 CNN보다 층 간 표현 구조가 더 균일하게 발달하는가?
RQ2셀프 어텐션과 스킵 연결이 ViT와 CNN에서 정보 전달 및 특징 표현에 어떤 영향을 미치는가?
RQ3ViT가 상위 층에서 입력의 공간 정보를 보존하고 이는 로컬라이제이션 과제에 어떤 영향을 주는가?
RQ4사전학습 데이터 규모가 ViT의 중간 표현 품질과 전이 학습에 어떤 영향을 미치는가?
RQ5ViT의 표현이 향후 객체 탐지와 같은 작업 및 아키텍처에 어떤 시사점을 제공하는가?

주요 결과

ViTs는 층 간 표현이 매우 균일한 반면, CNN은 명확한 단계 기반 유사성 패턴을 보인다.
하위 ViT 층은 로컬 정보와 글로벌 정보를 모두 접근하는 반면, 상위 ViT 층은 글로벌 정보에 의존하는 반면 CNN은 고정된 로컬 수용대역과 다르다.
ViT의 스킵 연결은 층 간 표현 전달을 강하게 확산시키며, 더 깊은 층에서 CLS 토큰에서 공간 토큰 전달로의 위상 전이(phased transition)가 나타난다.
ViT는 상위 층에서 입력의 공간 정보를 보존하며, CLS 기반 분류에 의해 로컬라이제이션이 영향을 받는다; GAP 풀링은 로컬라이제이션을 감소시킨다.
데이터 규모(JFT-300M 등)의 확대는 특히 큰 ViT 모델에서 고수준/중간 표현을 크게 향상시킨다.
ViT의 하위 층은 로컬 헤드를 가진 ResNet 특성과 유사한 경향을 보일 수 있지만, 전반적으로 주의가 집중된 헤드는 다른 표현을 계산한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.