QUICK REVIEW

[논문 리뷰] DeepMIM: Deep Supervision for Masked Image Modeling

Sucheng Ren, Fangyun Wei|arXiv (Cornell University)|2023. 03. 15.

Advanced Neural Network Applications인용 수 11

한 줄 요약

DeepMIM은 마스킹된 이미지 모델링(MIM)을 위한 심층 감독을 재검토하고, 중간 ViT 블록에 가벼운 디코더를 추가하는 것이 표현 학습, 수렴성, 그리고 MAE 및 CLIP 기반 설정 전반의 다운스트림 성능을 향상시킨다는 것을 보여준다.

ABSTRACT

Deep supervision, which involves extra supervisions to the intermediate features of a neural network, was widely used in image classification in the early deep learning era since it significantly reduces the training difficulty and eases the optimization like avoiding gradient vanish over the vanilla training. Nevertheless, with the emergence of normalization techniques and residual connection, deep supervision in image classification was gradually phased out. In this paper, we revisit deep supervision for masked image modeling (MIM) that pre-trains a Vision Transformer (ViT) via a mask-and-predict scheme. Experimentally, we find that deep supervision drives the shallower layers to learn more meaningful representations, accelerates model convergence, and expands attention diversities. Our approach, called DeepMIM, significantly boosts the representation capability of each layer. In addition, DeepMIM is compatible with many MIM models across a range of reconstruction targets. For instance, using ViT-B, DeepMIM on MAE achieves 84.2 top-1 accuracy on ImageNet, outperforming MAE by +0.6. By combining DeepMIM with a stronger tokenizer CLIP, our model achieves state-of-the-art performance on various downstream tasks, including image classification (85.6 top-1 accuracy on ImageNet-1K, outperforming MAE-CLIP by +0.8), object detection (52.8 APbox on COCO) and semantic segmentation (53.1 mIoU on ADE20K). Code and models are available at https://github.com/OliverRensu/DeepMIM.

연구 동기 및 목표

자기지도 학습된 MIM 맥락에서 심층 감독을 재조명하도록 동기를 부여한다.
심층 감독이 얕은 층 표현, 수렴성, 그리고 주의 집중 다양성을 향상시킨다는 것을 입증한다.
DeepMIM이 다양한 MIM 타깃과 토크나이저 선택과 호환됨을 보여준다.
다양한 사전 학습 구성에서 ImageNet 분류, 객체 탐지, 의미적 분할 성능의 향상을 정량화한다.

제안 방법

ViT-B 인코더의 중간 ViT 블록(6, 8, 10)에 세 개의 가벼운 디코더를 부착하여 MIM 사전 학습 중 심층 감독을 가능하게 한다.
중간 블록의 타깃으로 원시 이미지와 MAE 재구성을 혼합한 점진적 하이브리드 타깃 생성기를 선택적으로 사용한다.
다수의 디코더 재구성 손실과 최종 디코더 손실의 합으로 학습하여 다층 깊이에서의 감독을 보장한다.
사전 학습 스케줄(300 및 1600 에포크) 전반에 걸쳐 MAE, MAE 변형, CLIP 기반 타깃과의 DeepMIM 호환성을 입증한다.
재구성 손실, 계층 간 CKA 유사성, 주의 헤드 다양성으로 표현을 평가한다.

실험 결과

연구 질문

RQ1중간 ViT 블록에 재구성 감독을 적용하는 것이 MIM 사전 학습에서 표현 학습을 개선하는가?
RQ2심층 감독, 하이브드 타깃, 타깃 유형이 재구성 손실, 특징 유사성, 다운스트림 전이 성능에 어떤 영향을 미치는가?
RQ3DeepMIM은 픽셀, HOG, DINO 특징, CLIP 등 다양한 재구성 타깃과 MIM 프레임워크와 호환되는가?
RQ4ImageNet 분류, COCO 탐지, ADE20K 세그먼트화, Kinetics 비디오 분류와 같은 다운스트림 작업에 대한 DeepMIM의 영향은 무엇인가?

주요 결과

DeepMIM은 여러 타깃과 스케줄에 걸쳐 MAE 대비 성능을 일관되게 향상시키며(예: ViT-B/MAE에서 ImageNet top-1 +0.8).
DeepMIM은 표준 MAE보다 학습 및 검증 재구성 손실이 더 낮아 보다 강한 최적화를 시사한다.
CKA 분석은 DeepMIM의 중간 블록이 더 판별적이고 최종 표현과 더 잘 정렬됨을 보여준다.
DeepMIM은 주의 헤드 다양성을 증가시켜 얕은 블록에서 더 풍부한 다중-헤드 표현을 시사한다.
강력한 토크나이저(예: CLIP)와 결합될 때 DeepMIM은 ImageNet 분류, COCO 탐지, ADE20K 세그먼테이션에서 최첨단 결과를 달성한다(예: DeepMIM-MAE-CLIP으로 ImageNet-1K에서 top-1 85.6).
DeepMIM은 MAE와 비교하여 ImageNet-A, ImageNet-R, ImageNet-C에서 강건성과 외부 도메인 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.