QUICK REVIEW

[논문 리뷰] iBOT: Image BERT Pre-Training with Online Tokenizer

Jinghao Zhou, Wei Chen|arXiv (Cornell University)|2021. 11. 15.

Multimodal Machine Learning Applications인용 수 209

한 줄 요약

iBOT은 자기 증류를 통해 마스킹된 이미지 모델링을 위한 온라인 비주얼 토크나이저를 도입하여 ImageNet에서 최첨단 성과를 달성하고 고밀도 다운스트림 태스크에서도 강한 성능을 보입니다.

ABSTRACT

The success of language Transformers is primarily attributed to the pretext task of masked language modeling (MLM), where texts are first tokenized into semantically meaningful pieces. In this work, we study masked image modeling (MIM) and indicate the advantages and challenges of using a semantically meaningful visual tokenizer. We present a self-supervised framework iBOT that can perform masked prediction with an online tokenizer. Specifically, we perform self-distillation on masked patch tokens and take the teacher network as the online tokenizer, along with self-distillation on the class token to acquire visual semantics. The online tokenizer is jointly learnable with the MIM objective and dispenses with a multi-stage training pipeline where the tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by achieving an 82.3% linear probing accuracy and an 87.8% fine-tuning accuracy evaluated on ImageNet-1K. Beyond the state-of-the-art image classification results, we underline emerging local semantic patterns, which helps the models to obtain strong robustness against common corruptions and achieve leading results on dense downstream tasks, eg., object detection, instance segmentation, and semantic segmentation.

연구 동기 및 목표

의미적으로 의미 있는 시각 토큰을 활용하여 비전을 위한 BERT 유사 사전 학습 패러다임을 촉진한다.
모델과 함께 온라인으로 토크나이저를 학습하여 미리 학습된 오프라인 토크나이저의 필요성을 제거한다.
온라인 토크나이저에서 유래된 교사 토크나이저를 이용한 지식 증류를 통해 마스크드 이미지 모델링(MIM)을 개선한다.
토큰 의미를 공동으로 학습하는 것이 분류 및 밀집 작업 전반에서 강인성 및 다운스트림 성능을 어떻게 향상시키는지 탐구한다.

제안 방법

온라인 토크나이저를 교사로, 비전 트랜스포머를 학생으로 두고 마스크드 이미지 모델링을 지식 증류로 공식화한다.
시각 의미를 얻기 위한 교차 뷰 [CLS] 자기 증류 손실과 교사 출력을 이용한 마스크된 패치 토큰을 재구성하는 MIM 손실의 두 가지 손실을 사용한다.
[CLS]와 패치 토큰 사이의 프로젝션 헤드를 공유하여 의미 정보를 전파한다.
학생과 모멘텀으로 업데이트되는 온라인 토크나이저를 구현하여 토크나이저의 오프라인 사전 학습 필요성을 제거한다.
교차 뷰 [CLS] 토큰에 대한 자기 증류를 이용해 의미 있는 시각 의미를 부트스트랩하고, 감독으로 하드 원-핫 토큰 대신 소프트맥스 토큰 분포를 사용한다.
ViT와 Swin 백본으로 평가하고, ImageNet-1K 및 ImageNet-22K에서 사전 학습한 뒤 선형 프로빙, k-NN, 파인튜닝을 수행한다.

실험 결과

연구 질문

RQ1온라인으로 공동 학습된 시각 토크나이저를 가진 마스크드 이미지 모델링이 오프라인 토크나이저 방식을 능가하여 비전 트랜스포머의 자가지도 사전 학습에서 더 좋은 성능을 낼 수 있는가?
RQ2[CLS] 토큰과 패치 수준 MIM 신호에서의 자기 증류 메커니즘이 다운스트림 태스크를 위한 더 강한 의미 표현과 강건성을 가져오는가?
RQ3[CLS]와 패치 토큰 간 프로젝션 헤드 공유가 학습된 의미와 성능에 어떤 영향을 미치는가?
RQ4온라인 토크나이저 의미론이 선형 프로빙, 파인튜닝, 그리고 밀집 비전 태스크로의 전이성에 미치는 영향은 무엇인가?

주요 결과

iBOT은 ImageNet-1K에서 여러 평가 설정에서 최첨단 결과를 달성하며, ImageNet-22K에서 ViT-L/16으로 사전 학습한 경우 선형 프로빙 82.3%, 파인튜닝 87.8%의 정확도를 달성한다.
표준 ImageNet-1K에서 ViT-S/16, ViT-B/16, ViT-L/16을 가진 iBOT은 더 큰 사전 학습 데이터에서 파인튜닝 최고 정확도 84.8%, 선형 평가 82.3%에 도달하여 기존의 SSL 방법을 능가한다.
iBOT은 패치 토큰에서 부분 수준의 의미가 나타나는 것을 발견하여 손상에 대한 강인성을 향상시키고 객체 탐지, 인스턴스 분할, 시맨틱 분할과 같은 밀집 태스크에서 더 나은 성능에 기여한다.
DINO와 비교하여 iBOT은 더 큰 모델에서 더 큰 이득을 보이며 온라인 토크나이저 접근법의 더 강한 확장성을 시사한다.
작은 데이터셋(CIFAR, Flowers, Cars)과 더 큰 도메인 데이터셋(iNaturalist 18/19)에서의 전이 학습 벤치마크 전반에서 iBOT은 BEiT 및 DINO 베이스라인을 일관되게 능가하며 특히 더 큰 백본 모델과 함께 그렇다.
강력한 베이스라인에 비해 배경 변화, 가려짐 및 분포 외 데이터에 대한 강인성이 향상되었음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.