QUICK REVIEW

[논문 리뷰] Efficient Self-supervised Vision Transformers for Representation Learning

Chunyuan Li, Jianwei Yang|arXiv (Cornell University)|2021. 06. 17.

Domain Adaptation and Few-Shot Learning참고 문헌 72인용 수 83

한 줄 요약

EsViT는 다단계 ViT 아키텍처와 비대조(region-matching) 프리-트레이닝 태스크를 결합하여, 이전 SSL 방법들보다 훨씬 높은 처리량과 매개변수 효율성으로 ImageNet 선형 프로브 정확도를 달성합니다.

ABSTRACT

This paper investigates two techniques for developing efficient self-supervised vision transformers (EsViT) for visual representation learning. First, we show through a comprehensive empirical study that multi-stage architectures with sparse self-attentions can significantly reduce modeling complexity but with a cost of losing the ability to capture fine-grained correspondences between image regions. Second, we propose a new pre-training task of region matching which allows the model to capture fine-grained region dependencies and as a result significantly improves the quality of the learned vision representations. Our results show that combining the two techniques, EsViT achieves 81.3% top-1 on the ImageNet linear probe evaluation, outperforming prior arts with around an order magnitude of higher throughput. When transferring to downstream linear classification tasks, EsViT outperforms its supervised counterpart on 17 out of 18 datasets. The code and models are publicly available: https://github.com/microsoft/esvit

연구 동기 및 목표

자기감독 학습에서 단일형(monolithic) 대비 다단계(multi-stage) Vision Transformer(ViTs)의 효율성 한계를 조사한다.
다단계 아키텍처에서 잃어버린 미세한 영역 대응 관계를 회복하기 위한 영역 기반(pre-training) 프리-트레이닝 태스크를 제안한다.
다단계 아키텍처와 영역 매칭을 결합하면 다운스트림 전이 및 선형 프로브 성능이 향상됨을 보여준다.
EsViT가 이전 SSL 방법들보다 현저히 향상된 처리량과 매개변수 효율성으로 높은 정확도를 달성한다는 근거를 제공한다.

제안 방법

SSL을 위한 희소 자기-어텐션이 있는 다단계 ViT 아키텍처의 트레이드오프를 연구한다.
증강 뷰 간 로컬 특징에서 작동하는 비대조적(non-contrastive) 영역 매칭 손실 L_R을 도입한다.
L_R을 뷰-수준의 비대조적 손실 L_V와 결합하여 합동 목적 함수 L = L_R + L_V를 구성한다.
SSL 학습을 위해 EMA 매개변수 업데이트를 사용하는 teacher-student 구성방식을 사용한다.
정성적 시각화와 차등 실험(ablation)을 통해 영역 매칭 및 어텐션 동작을 평가한다.

실험 결과

연구 질문

RQ1효율성과 정확도 측면에서 다단계 ViT가 단일 ViT에 비해 자기지도 표현 학습에서 어떤 차이를 보이는가?
RQ2다단계 아키텍처에서 잃어버린 미세한 영역 대응 관계를 영역 매칭 프리-트레이닝 태스크가 회복하고 표현을 개선할 수 있는가?
RQ3L_R과 L_V의 결합이 ImageNet 선형 프로브 성능과 전이 학습에 미치는 영향은 무엇인가?
RQ4아키텍처 전반에 걸친 영역 매칭 객체의 설계 선택과 한계는 무엇인가?
RQ5EsViT 표현이 다운스트림 과제에서 감독(supervised) 대비 더 잘 일반화되는가?

주요 결과

EsViT는 ImageNet 선형 프로빙에서 81.3% top-1 정확도를 달성하여, 이전 SSL 방법들보다 처리량이 크게 높고 매개변수 수가 더 적은 상태에서 기존 방법들을 능가한다.
EsViT는 다운스트림 분류 데이터셋 18개 중 17개에서 감독형 대응보다 더 나은 전이를 보인다.
영역 매칭 손실 L_R은 다단계 ViT에서 미세한 영역 대응 관계의 손실을 완화하고 표현 품질을 향상시킨다.
L_R이 L_V와 결합되어 k-NN 및 선형 프로브 성능을 향상시키고 다단계 아키텍처의 효율성 이점을 유지한다.
ImageNet에서 영역 매칭을 갖춘 EsViT는 이전 SOTA SSL 방법들에 비해 처리량이 눈에 띄게 높고(최대 약 10배) 매개변수 효율성도(최대 약 3.5배) 높은 것을 보여준다.
정성적 분석은 L_R이 사용될 때 EsViT가 의미 있는 영역 대응 관계와 어텐션 패턴을 학습함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.