[논문 리뷰] MILAN: Masked Image Pretraining on Language Assisted Representation
MILAN은 CLIP으로부터 얻은 언어 보조 이미지 표현을 재구성 대상으로 하는 마스킹 자동인코더로 비전 트랜스포머를 사전 학습시키며, 프롬프트 디코더와 의미 인식 패치 샘플링을 활용해 ImageNet 파인튜닝 및 다운스트림 전이에서 우수한 성능을 달성한다.
Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more effective prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN achieves a top-1 accuracy of 85.4% on ViT-Base, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-Base on ADE20K dataset, outperforming previous masked pretraining results by 4 points.
연구 동기 및 목표
- 대규모 라벨링 데이터에 대한 의존성을 줄이기 위해 마스킹된 이미지 사전 학습에서 언어 감독을 활용한다.
- 원시 픽셀 대신 CLIP에서 파생된 이미지 특징을 재구성하여 의미가 풍부한 표현을 학습한다.
- 효율적인 프롬프트 디코더와 의미 인식 패치 샘플링으로 사전 학습 효율성을 개선한다.
- 객체 탐지, 인스턴스 분할 및 의미 분할과 같은 다운스트림 태스크로의 강한 전이 성능을 입증한다.
제안 방법
- CLIP 이미지 인코더의 출력이 마스킹된 패치의 재구성 대상이 되는 마스킹 자동인코더를 사용한다.
- 인코더 출력을 고정 프롬프트로 사용하여 마스킹된 패치 특징을 재구성하는 프롬프트 디코더를 채택해 디코딩 업데이트를 줄인다.
- 마스킹된 패치와 비마스킹된 패치의 정규화된 특징에 대해 평균 제곱 오차로 재구성 손실을 계산한다.
- CLIP 마지막 레이어 어텐션을 기반으로 비마스킹 패치를 선택하는 의미 인식 샘플링 전략을 구현해 의미적으로 중요한 영역을 강조한다.
- ImageNet-1K에서 ViT-Base 및 ViT-Large를 400 에폭 사전 학습하고 파인튜닝, 선형 프로빙, 다운스트림 태스크로 평가한다.
- 타깃, 디코더 설계, 샘플링의 영향을 고립하기 위해 MAE 및 언어-이미지 사전학습 베이스라인과 비교한다.
실험 결과
연구 질문
- RQ1언어 보조 CLIP 특징을 재구성하는 것이 픽셀 기반 타깃보다 파인튜닝과 선형 프로브 성능을 향상시키는가?
- RQ2CLIP 표현을 대상으로 할 때 프롬프트 디코더가 효율성과 정확도에 어떤 영향을 미치는가?
- RQ3의미 인식 패치 샘플링이 사전 학습 효율성과 다운스트림 전이 성능을 향상시키는가?
- RQ4이전의 마스킹 사전 학습 방법에 비해 COCO 탐지/분할 및 ADE20K 의미 분할과 같은 다운스트림 태스크에서 MILAN의 성능 향상은 어느 정도인가?
주요 결과
- MILAN은 ViT-Base로 ImageNet-1K에서 86.4% 상위 1위, ViT-Large로 88.3%를 기록했다(400 에폭 사전 학습, 224×224 이미지로 파인튜닝).
- MILAN은 선형 프로빙에서 기존의 마스킹 사전 학습 및 언어-이미지 방법을 능가했고, 최첨단 대조학습(constrastive) 방법에 필적하거나 이를 상회했다.
- COCO에서 MILAN은 ViT-Base 기준 감독 학습 사전 학습 대비 VPxAPbox 및 VPxAPmask를 각각 약 4.7포인트와 2.6포인트 상승시켰다.
- ADE20K에서 MILAN은 ViT-Base로 52.7 mIoU를 달성했고 MAE보다 4.6포인트 앞섰다.
- MILAN은 ImageNet-Adversarial, ImageNet-Rendition, ImageNet-Sketch에서 견고성 우위를 보여주며 기존 모델들보다 상당한 차이로 앞섰다.
- 애블레이션 연구는 CLIP 기반 타깃, 프롬핑 디코더, 의미 샘플링 각각이 정확도 향상에 기여함을 확인했고, 전체 MILAN 구성이 최상의 결과를 낳았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.