QUICK REVIEW

[논문 리뷰] Vision Transformers Need Registers

Timothée Darcet, Maxime Oquab|arXiv (Cornell University)|2023. 09. 28.

Domain Adaptation and Few-Shot Learning참고 문헌 32인용 수 48

한 줄 요약

논문은 고-노름 이상치 토큰이 비전 트랜스포머의 피처 맵에 인공물을 일으킨다고 지적하고, 입력 시퀀스에 학습 가능한 레지스터 토큰을 추가하면 이러한 인공물이 제거되고 감독, 텍스트-감독, 자기지도 ViT 전반에서 Dense prediction 및 객체 발견이 개선된다는 것을 보인다.

ABSTRACT

Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.

연구 동기 및 목표

감독 학습 및 자기지도 모델 전반에서 ViT 피처 맵의 인공물 식별.
고-노름 이상치 토큰의 특성과 위치를 규명한다.
인공물을 완화하기 위해 register tokens를 사용하는 간단한 아키텍처 수정책을 제안한다.
조밀한 예측 성능과 더 매끄러운 피처/어텐션 맵을 입증한다.

제안 방법

어텐션 맵 인공물을 분석하고 고-노름 토큰을 이상치로 정의한다(노름 > 150).
훈련 중 언제 어디에서 이상치가 나타나는지, 모델 크기에 걸쳐 언제 어디에 나타나는지 조사한다.
패치 임베딩에 대한 선형 모델을 통해 고-노름 토큰의 정보 내용을 탐색한다.
패치 임베딩 뒤에 추가로 N개의 학습 가능한 입력 토큰(registers)을 도입하여 이상치를 흡수한다.
레이저를 사용한 경우와 사용하지 않은 경우의 선형 프로빙, 제로샷 분류, 객체 발견 등 다운스트림 작업에 미치는 영향을 평가한다.
레지스터 수를 변화시키며 성능 및 인공물 감소를 연구한다.

실험 결과

연구 질문

RQ1감독 방식에 따라 ViT 어텐션 맵에 인공물이 나타나는 원인은 무엇인가?
RQ2고-노름 이상치 토큰은 로컬 정보를 담고 있는가, 글로벌 정보를 담고 있는가, 그리고 조밀한 예측 작업에 어떤 영향을 미치는가?
RQ3학습 패러다임 전반에 걸쳐 레지스터 토큰의 추가가 인공물을 제거하고 다운스트림 성능을 해치지 않는가?
RQ4레지스터의 수가 인공물 억제와 다운스트림 작업 성능에 어떤 영향을 미치는가?

주요 결과

인공물은 노름이 훨씬 큰 토큰의 소량(~2%)에 해당하며(약 10배), 대형 ViT를 상당히 학습시킨 후 중간 층에서 나타난다.
고-노름 토큰은 패치 위치와 픽셀에 대한 로컬 정보는 적게 담고, 이미지에 대한 더 큰 글로벌 정보를 담고 있다.
패치 임베딩 뒤에 학습 가능한 register 토큰을 추가하면 고-노름 이상치를 제거하고 피처/어텐션 맵을 부드럽게 한다.
레지스터로 학습된 모델은 ImageNet 선형 프로빙, ADE20k 세분화, NYUd 깊이 추정에서 성능 저하 없이 오히려 약간 향상되는 경우가 있다.
레지스터 기반 모델은 DeiT-III, OpenCLIP, DINOv2 백본에서 비지도 객체 발견(예: LOST)을 개선하고, 하나의 레지스터로 인공물을 제거하는 데 충분하며, 더 많은 레지스터가 조밀한 작업에 도움이 될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.