QUICK REVIEW

[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision

Maxime Oquab, Timothée Darcet|arXiv (Cornell University)|2023. 04. 14.

Multimodal Machine Learning Applications참고 문헌 131인용 수 1,011

한 줄 요약

DINOv2는 큐레이션된 다양 데이터셋에서 대규모 자가감독 비전 트랜스포머를 학습시켜 이미지- 및 픽셀 수준 작업에서 약한 감독 모델에 필적하는 즉시 사용 가능한 일반화 가능한 시각 특징을 생성한다.

ABSTRACT

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels.

연구 동기 및 목표

비전에서 NLP 기초 모델에 상응하는 태스크-무관한 기초적 시각 표현의 기초를 마련하는 것을 목표로 한다.
큐레이션되고 다양한 데이터에서의 자가감독 사전학습이 재조정 없이 전이 가능한 특성을 낳을 수 있음을 보인다.
대규모 모델 자가감독을 가능하게 하는 확장 가능한 학습 기법과 데이터 파이프라인을 개발한다.
지식 증류가 대규모에서 작은 모델로 지식을 전이하면서도 품질을 유지하는지 시연한다.

제안 방법

DINO와 iBOT 손실을 Sinkhorn-Knopp 중심화 및 KoLeo 정규화와 결합해 판별적 자가감독 모델을 학습한다.
ViT 백본에서 특징을 학습하기 위해 이미지- 및 패치 수준 목표를 사용한다.
텍스트나 메타데이터에 의존하지 않는 검색 기반 데이터 증가 파이프라인으로 LVD-142M를 다채롭고 큐레이션된 사전학습 데이터셋으로 구성한다.
데이터 효율적 학습 강화(시퀀스 패킹, 효율적 어텐션, FSDP, 확률적 깊이)로 1B 파라미터 ViT 모델로 확장한다.
지식 증류를 적용한다: 고정된 큰 교사로부터 작은 모델을 학습시켜 소형 모델 성능을 개선한다.
학습 끝 무렵에 해상도를 짧게 높여 픽셀 수준 작업의 비용 없이도 성능을 높인다.

실험 결과

연구 질문

RQ1큐레이션된 대규모 이미지 데이터셋에서의 자가감독 사전학습이 다양한 작업에서 즉시 사용 가능한 일반 목적의 시각 특징을 잘 만들어낼 수 있는가?
RQ2데이터 큐레이션, 모델 확장, 학습 최적화가 자가감독 시각 특징의 질과 전이성에 어떤 영향을 미치는가?
RQ3대규모 자가감독 교사로부터의 증류가 소형 모델의 비전 벤치마크 성능을 향상시키는가?
RQ4 late-stage 고해상도 미세조정이 픽셀 수준 작업에 어떤 영향을 미치는가?
RQ5이미지- 및 패치 수준 목표가 글로벌 및 로컬 비전 작업 모두를 지원하도록 어떻게 상호 작용하는가?

주요 결과

DINOv2는 다수의 벤치마크에서 고정된 특징에 대해 이전 자가감독 방법들보다 상당히 개선되었다.
LVD-142M에서 학습된 ViT-g 1B 파라미터 모델이 ImageNet-1k 성능에 상응하고 ImageNet-22k에서 학습된 모델보다 다른 벤치마크에서 더 나은 성능을 보인다.
대형 DINOv2 교사로부터의 지식 증류는 처음부터 학습하는 것보다 ViT-L 성능을 더 좋게 만든다.
큐레이션된 데이터셋(LVD-142M)을 사용하는 것이 비큐레이션 데이터보다 다양한 도메인으로의 전이에서 더 나은 성능을 낳고, 비이미지넷 도메인에 대해 ImageNet-22k 기준선보다 종종 상회한다.
학습 말미의 고해상도 학습은 전체 고해상도 학습 비용의 일부로 픽셀 수준 작업에서 대부분의 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.