QUICK REVIEW

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners

Kaiming He, Xinlei Chen|arXiv (Cornell University)|2021. 11. 11.

Domain Adaptation and Few-Shot Learning참고 문헌 59인용 수 190

한 줄 요약

이 논문은 Masked Autoencoders (MAE)를 도입한다. 이는 이미지 패치의 큰 부분을 마스킹하고 누락된 픽셀을 재구성하여 비전 트랜스포머를 사전학습시키며, 비대칭 인코더-디코더 설계를 사용해 확장 가능한 자체감독 학습을 가능하게 하고 ImageNet-1K에서 감독 사전학습을 능가하며 다운스트림 태스크로 잘 이전된다.

ABSTRACT

This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we accelerate training (by 3x or more) and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.

연구 동기 및 목표

라벨링된 데이터에 의존하지 않고 대형 모델까지 확장될 수 있는 확장 가능한 자체감독 사전학습을 비전 분야에 동기 부여한다.
인코더가 보이는 패치만 처리하고 경량 디코더가 전체 이미지를 재구성하는 비대칭 MAE 아키텍처를 개발한다.
높은 마스킹 비율(약 75%)이 의미 있는 자체 감독을 제공하고 더 빠르고 메모리 효율적인 사전학습을 가능하게 한다는 것을 입증한다.
감독 학습 사전학습과 비교하여 MAE 사전학습이 객체 탐지, 분할 및 분류 태스크에서 전이 성능을 향상시킨다는 것을 보여준다.

제안 방법

입력 이미지에서 무작위 패치를 비중첩 패치로 분할하고 큰 부분(예: 75%)을 마스킹한다.
마스킹 토큰이 없는 보이는 패치만 처리하는 인코더를 사용하여 잠재 표현を 형성한다.
인코딩된 보이는 패치와 마스크 토큰을 입력으로 받아 원본 이미지를 픽셀 단위로 재구성하는 경량 디코더를 연결한다.
마스킹된 패치에 대해서만 계산되는 재구성 손실(평균 제곱 오차)로 학습하되, 필요에 따라 패치별 픽셀 값 정규화를 적용한다.
모든 토큰에 위치 임베딩을 적용한다; 계산량을 줄이기 위해 디코더는 작고 인코더와는 분리되어 있다.
사전 학습 후 전체 이미지에서 인식 태스크를 위해 인코더를 미세 조정하여 평가하고 감독기반 기준선과 비교한다.

Figure 1 : Our MAE architecture . During pre-training, a large random subset of image patches ( e.g . , 75%) is masked out. The encoder is applied to the small subset of visible patches . Mask tokens are introduced after the encoder, and the full set of encoded patches and mask tokens is processed b

실험 결과

연구 질문

RQ1높은 마스킹 비율로 마스크된 오토인코딩이 확장 가능한 자체감독 비전 표현을 제공할 수 있는가?
RQ2비대칭 인코더-디코더 설계가 표현 품질을 유지하거나 향상시키면서 계산량을 줄일 수 있는가?
RQ3MAE 사전학습이 모델 크기에 따라 어떻게 확장되고 감독 학습 사전학습과 비교해 다운스트림 비전 태스크로의 전이가 어떻게 되는가?
RQ4재구성 타깃(픽셀 vs 토큰) 및 마스크 전략이 어떤 것이 최상의 전이 성능을 내는가?

주요 결과

MAE가 높은 마스킹(약 75%)으로 강력한 자체감독 표현을 생성하여 대형 ViT 모델이 미세 조정 시 ImageNet-1K에서 감독 기반 사전학습을 능가하도록 한다.
보이는 패치에만 인코더를 두고 재구성을 처리하는 작은 디코더를 갖는 비대칭 설계는 학습 FLOPs와 메모리를 크게 줄여 3배 이상의 속도를 제공한다.
디코더의 깊이와 폭은 선형 프로빙에 더 큰 영향을 미치며 미세 조정보다 선형 프로빙에 더 도움이 된다; 더 깊은 디코더는 선형 프로빙에 도움이 되고, 아주 작은 디코더로도 미세 조정이 충분하다.
픽셀 기반 재구성(정규화 포함)이 전이 태스크에서 토큰 기반 타깃보다 성능이 좋고, 강한 성능을 위해 토큰화는 필요하지 않다.
MAE는 객체 탐지, 인스턴스 분할 및 의미론적 분할에 대해 견고한 전이를 보여주며 종종 감독 학습 사전학습을 능가하고 모델 크기가 커질수록 이득이 더 커진다.

Figure 2 : Example results on ImageNet validation images. For each triplet, we show the masked image (left), our MAE reconstruction † (middle), and the ground-truth (right). The masking ratio is 80%, leaving only 39 out of 196 patches. More examples are in the appendix. † As no loss is computed on v

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.