QUICK REVIEW

[논문 리뷰] What do Vision Transformers Learn? A Visual Exploration

Amin Ghiasi, Hamid Kazemi|arXiv (Cornell University)|2022. 12. 13.

Advanced Neural Network Applications인용 수 20

한 줄 요약

이 논문은 Vision Transformers(ViT)를 시각화하여 ViT가 무엇을 학습하는지 이해하게 해주며, 언어 감독으로 학습된 ViT가 의미 개념에 반응하고, 마지막 층까지 공간 정보를 보존하며, CNN보다 배경 단서에 더 의존하고, 마지막 층 토큰 혼합이 학습된 풀링처럼 작용한다는 것을 보여준다.

ABSTRACT

Vision transformers (ViTs) are quickly becoming the de-facto architecture for computer vision, yet we understand very little about why they work and what they learn. While existing studies visually analyze the mechanisms of convolutional neural networks, an analogous exploration of ViTs remains challenging. In this paper, we first address the obstacles to performing visualizations on ViTs. Assisted by these solutions, we observe that neurons in ViTs trained with language model supervision (e.g., CLIP) are activated by semantic concepts rather than visual features. We also explore the underlying differences between ViTs and CNNs, and we find that transformers detect image background features, just like their convolutional counterparts, but their predictions depend far less on high-frequency information. On the other hand, both architecture types behave similarly in the way features progress from abstract patterns in early layers to concrete objects in late layers. In addition, we show that ViTs maintain spatial information in all layers except the final layer. In contrast to previous works, we show that the last layer most likely discards the spatial information and behaves as a learned global pooling operation. Finally, we conduct large-scale visualizations on a wide range of ViT variants, including DeiT, CoaT, ConViT, PiT, Swin, and Twin, to validate the effectiveness of our method.

연구 동기 및 목표

개선된 특징 시각화 기법을 통해 ViTs가 무엇을 학습하는지 조사한다.
공간 정보 유지 및 배경 대 전경 단서에 대한 의존성 측면에서 ViTs를 CNN과 비교한다.
언어 감독 ViTs(예: CLIP)가 표준 이미지 분류 ViT의 특징 표현과 어떻게 다른지 평가한다.
ViTs의 마지막 층이 정보를 전역화하는 방식과 층을 거치며 공간 정보가 지속되는 양상을 조사한다.

제안 방법

고차원 피드포워드 특징의 해석 가능한 시각화를 가능하게 하는 ViT 맞춤의 그래디언트 기반 활성화 최대화 프레임워크를 개발한다.
키, 쿼리, 값, 피드포워드 출력 등을 시각화하고 계층 간 해석 가능성을 평가한다.
증강 앙상블, 총변동 정규화, 그리고 특정 이미지 증강(Jitter, ColorShift, Gaussian smoothing)을 사용해 시각화 품질을 향상시킨다.
패치 단위 활성화 맵을 분석해 공간 정보 보존 및 CLS 토큰의 동작과 비 CLS 토큰의 차이를 평가한다.
ViT-변형(ViT-B16, DeiT, CoaT, ConViT, PiT, Swin, Twin) 전반에 걸친 대규모 시각화를 수행해 방법의 강건성을 검증한다.

실험 결과

연구 질문

RQ1ViTs는 계층 간 내부 표현을 어떻게 시각화하고 해석하는가?
RQ2패치 차원에서 공간 정보를 보존하는가, 마지막 층에서 이 보존은 어떻게 달라지는가?
RQ3마지막 ViT 층이 토큰을 혼합하는 방식은 풀링이나 세계화와 유사한가?
RQ4ViTs는 배경 정보 vs 전경 정보 사용에 있어 CNN과 비교해 어떤 차이가 있는가?
RQ5언어 감독(CLIP)이 ViT의 특징 표현에 미치는 영향은 무엇인가?

주요 결과

아키텍처	전체 이미지	전경	배경
ViT-B32	98.44	93.91	28.10
ViT-L16	99.57	96.18	33.69
ViT-L32	99.32	93.89	31.07
ViT-B16	99.22	95.64	31.59
ResNet-50	98.00	89.69	18.69
DenseNet121	96.55	89.58	17.53
MobileNetv2	96.09	86.84	15.94

ViTs의 피드포워드 표현이 가장 해석 가능성이 높아지는 반면, 주의 구성요소들(키/쿼리/값)은 고차원적이며 다중 모달링 같은 코딩으로 인해 해석이 더 어렵다.
ViT의 패치 단위 활성화 맵은 대개 시각 주의도처럼 보이며, 마지막 층을 제외하고는 층 간에 패치 수준의 공간 관계를 보존한다.
마지막 ViT 층은 토큰 혼합을 평균 풀링과 유사하게 수행하여 CLS 토큰에 대한 전역 정보 집계를 가능하게 한다(개별 패치에 대해서도 적용될 때도 마찬가지).
ViTs는 CNN보다 배경 정보를 더 효과적으로 활용해 올바른 클래스를 식별하는 경향이 있으며, 배경이 제거되면 성능 저하가 덜하지만 CNN은 고주파 텍스처 정보에 더 의존한다.
CLIP로 학습된 ViTs는 객체 탐지 이상의 의미 및 개념적 특징(예: 병적 개념, 음악 관련 개념)을 나타내며, 언어 감독이 표현 형성에 영향을 준다.
ViTs는 층 전체에서 공간 정보를 유지하고, 텍스처에서 부품으로, 객체로의 진행을 CNN과 유사하게 보여주며, 언어 감독은 추상적 개념 쪽으로의 방향을 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.