QUICK REVIEW

[논문 리뷰] BEiT: BERT Pre-Training of Image Transformers

Hangbo Bao, Dong Li|arXiv (Cornell University)|2021. 06. 15.

Multimodal Machine Learning Applications참고 문헌 52인용 수 922

한 줄 요약

BEiT는 이산 시각 토큰 토크나이저를 이용한 마스킹된 이미지 모델링으로 비전 트랜스포머를 사전학습하고 ImageNet과 ADE20K에서 파인튜닝 성능을 강하게 달성합니다.

ABSTRACT

We introduce a self-supervised vision representation model BEiT, which stands for Bidirectional Encoder representation from Image Transformers. Following BERT developed in the natural language processing area, we propose a masked image modeling task to pretrain vision Transformers. Specifically, each image has two views in our pre-training, i.e, image patches (such as 16x16 pixels), and visual tokens (i.e., discrete tokens). We first "tokenize" the original image into visual tokens. Then we randomly mask some image patches and fed them into the backbone Transformer. The pre-training objective is to recover the original visual tokens based on the corrupted image patches. After pre-training BEiT, we directly fine-tune the model parameters on downstream tasks by appending task layers upon the pretrained encoder. Experimental results on image classification and semantic segmentation show that our model achieves competitive results with previous pre-training methods. For example, base-size BEiT achieves 83.2% top-1 accuracy on ImageNet-1K, significantly outperforming from-scratch DeiT training (81.8%) with the same setup. Moreover, large-size BEiT obtains 86.3% only using ImageNet-1K, even outperforming ViT-L with supervised pre-training on ImageNet-22K (85.2%). The code and pretrained models are available at https://aka.ms/beit.

연구 동기 및 목표

비전 트랜스포머의 훈련 데이터 필요성을 자기지도 사전학습으로 감소시키려는 동기 부여.
이미지에 대한 BERT와 유사한 마스킹된 이미지 모델링 목표를 도입합니다.
픽셀 값이 아닌 토큰을 예측하기 위해 이산 시각 토크나이저를 사용합니다.
BEiT 사전학습이 파인튜닝 속도와 수렴을 개선하는지 보여줍니다.
BEiT가 레이블이 없는 상태에서 의미 영역을 학습한다는 것을 입증합니다.

제안 방법

사전학습된 이미지 토크나이저(dVAE)를 사용하여 이미지를 이산 시각 토큰으로 토큰화합니다.
이미지를 14x14 패치로 분할하고 이를 Transformer 입력(패치 임베딩)으로 사용합니다.
약 40%의 패치를 마스킹하고 토큰 어휘에 대한 소프트맥스을 통해 대응하는 시각 토큰을 예측합니다.
MIM 목표를 사용하여 ViT 유사 트랜스포머를 프리트레인하고, 로컬성을 개선하기 위해 블록 단위 마스킹을 활용합니다.
다운스트림 작업에 대해 프리트레인된 인코더를 파인튜닝하고 작업별 헤드(분류, 세분화 등)를 추가합니다.
선행 작업 파인튜닝 전에 데이터세트에 대해 중간 파인튜닝을 선택적으로 수행합니다(예: ImageNet).

실험 결과

연구 질문

RQ1비전 트랜스포머에 대해 효과적인 자기지도 사전학습을 가능하게 하는 BERT 스타일의 마스킹된 이미지 모델링 목표가 있는가?
RQ2dVAE에서 얻은 이산 시각 토큰이 픽셀 수준 재구성보다 더 나은 프리트레이닝 병목을 제공하는가?
RQ3블록 단위 마스킹이 다운스트림 비전 작업에 대한 프리트레이닝 효율성을 향상시키는가?
RQ4BEiT가 감독 사전학습과 보완적이며 중간 파인튜닝과 함께 유익한가?
RQ5BEiT 사전학습 후에 나오는 표현(예: 어텐션 맵)은 의미 영역에 대해 어떤 모습을 보이는가?

주요 결과

BEiT는 ImageNet에서 파인튜닝 후 처음부터 학습하거나 다수의 이전 자기지도 방식들보다 우수한 성능을 보였다.
BEiT-L은 ImageNet-22K로 사전학습된 감독사전학습보다 더 잘 확장되며, BEiT-384-L은 BEiT-384보다 약 1.7 포인트 높다.
BEiT는 BEiT-B에서 83.2% Top-1, BEiT-384-L에서 86.3%를 달성한다(표 1).
이미지넷에서의 중간 파인튜닝은 BEiT의 ImageNet 및 다운스트림 작업에 추가 이득을 제공합니다.
ADE20K 시맨틱 세분화에서 BEiT은 45.6 mIoU에 도달하고, 중간 파인튜닝을 적용하면 47.7에 도달합니다(표 3).
블록 단위 마스킹과 시각 토큰 예측이 중요하며, 픽셀 수준 재구성은 토큰 기반 예측보다 성능이 떨어짐을 보여주는 제거 분석이 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.