[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners
이 논문은 Masked Autoencoders (MAE)를 도입한다. 이는 이미지 패치의 큰 부분을 마스킹하고 누락된 픽셀을 재구성하여 비전 트랜스포머를 사전학습시키며, 비대칭 인코더-디코더 설계를 사용해 확장 가능한 자체감독 학습을 가능하게 하고 ImageNet-1K에서 감독 사전학습을 능가하며 다운스트림 태스크로 잘 이전된다.
This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we accelerate training (by 3x or more) and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.
연구 동기 및 목표
- 라벨링된 데이터에 의존하지 않고 대형 모델까지 확장될 수 있는 확장 가능한 자체감독 사전학습을 비전 분야에 동기 부여한다.
- 인코더가 보이는 패치만 처리하고 경량 디코더가 전체 이미지를 재구성하는 비대칭 MAE 아키텍처를 개발한다.
- 높은 마스킹 비율(약 75%)이 의미 있는 자체 감독을 제공하고 더 빠르고 메모리 효율적인 사전학습을 가능하게 한다는 것을 입증한다.
- 감독 학습 사전학습과 비교하여 MAE 사전학습이 객체 탐지, 분할 및 분류 태스크에서 전이 성능을 향상시킨다는 것을 보여준다.
제안 방법
- 입력 이미지에서 무작위 패치를 비중첩 패치로 분할하고 큰 부분(예: 75%)을 마스킹한다.
- 마스킹 토큰이 없는 보이는 패치만 처리하는 인코더를 사용하여 잠재 표현を 형성한다.
- 인코딩된 보이는 패치와 마스크 토큰을 입력으로 받아 원본 이미지를 픽셀 단위로 재구성하는 경량 디코더를 연결한다.
- 마스킹된 패치에 대해서만 계산되는 재구성 손실(평균 제곱 오차)로 학습하되, 필요에 따라 패치별 픽셀 값 정규화를 적용한다.
- 모든 토큰에 위치 임베딩을 적용한다; 계산량을 줄이기 위해 디코더는 작고 인코더와는 분리되어 있다.
- 사전 학습 후 전체 이미지에서 인식 태스크를 위해 인코더를 미세 조정하여 평가하고 감독기반 기준선과 비교한다.

실험 결과
연구 질문
- RQ1높은 마스킹 비율로 마스크된 오토인코딩이 확장 가능한 자체감독 비전 표현을 제공할 수 있는가?
- RQ2비대칭 인코더-디코더 설계가 표현 품질을 유지하거나 향상시키면서 계산량을 줄일 수 있는가?
- RQ3MAE 사전학습이 모델 크기에 따라 어떻게 확장되고 감독 학습 사전학습과 비교해 다운스트림 비전 태스크로의 전이가 어떻게 되는가?
- RQ4재구성 타깃(픽셀 vs 토큰) 및 마스크 전략이 어떤 것이 최상의 전이 성능을 내는가?
주요 결과
- MAE가 높은 마스킹(약 75%)으로 강력한 자체감독 표현을 생성하여 대형 ViT 모델이 미세 조정 시 ImageNet-1K에서 감독 기반 사전학습을 능가하도록 한다.
- 보이는 패치에만 인코더를 두고 재구성을 처리하는 작은 디코더를 갖는 비대칭 설계는 학습 FLOPs와 메모리를 크게 줄여 3배 이상의 속도를 제공한다.
- 디코더의 깊이와 폭은 선형 프로빙에 더 큰 영향을 미치며 미세 조정보다 선형 프로빙에 더 도움이 된다; 더 깊은 디코더는 선형 프로빙에 도움이 되고, 아주 작은 디코더로도 미세 조정이 충분하다.
- 픽셀 기반 재구성(정규화 포함)이 전이 태스크에서 토큰 기반 타깃보다 성능이 좋고, 강한 성능을 위해 토큰화는 필요하지 않다.
- MAE는 객체 탐지, 인스턴스 분할 및 의미론적 분할에 대해 견고한 전이를 보여주며 종종 감독 학습 사전학습을 능가하고 모델 크기가 커질수록 이득이 더 커진다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.