Skip to main content
QUICK REVIEW

[논문 리뷰] ConvMAE: Masked Convolution Meets Masked Autoencoders

Peng Gao, Teli Ma|arXiv (Cornell University)|2022. 05. 08.
Advanced Neural Network Applications인용 수 52
한 줄 요약

ConvMAE는 다중 규모 하이브리드 컨볼루션–트랜스포머 인코더를 마스킹된 컨볼루션 및 블록 단위 마스킹과 통합하여 효율적인 마스크드 오토인코딩 및 다중 스케일 특징 학습을 가능하게 하여 분류, 검출, 분할 및 비디오 작업 전반의 성능을 향상시킵니다.

ABSTRACT

Vision Transformers (ViT) become widely-adopted architectures for various vision tasks. Masked auto-encoding for feature pretraining and multi-scale hybrid convolution-transformer architectures can further unleash the potentials of ViT, leading to state-of-the-art performances on image classification, detection and semantic segmentation. In this paper, our ConvMAE framework demonstrates that multi-scale hybrid convolution-transformer can learn more discriminative representations via the mask auto-encoding scheme. However, directly using the original masking strategy leads to the heavy computational cost and pretraining-finetuning discrepancy. To tackle the issue, we adopt the masked convolution to prevent information leakage in the convolution blocks. A simple block-wise masking strategy is proposed to ensure computational efficiency. We also propose to more directly supervise the multi-scale features of the encoder to boost multi-scale features. Based on our pretrained ConvMAE models, ConvMAE-Base improves ImageNet-1K finetuning accuracy by 1.4% compared with MAE-Base. On object detection, ConvMAE-Base finetuned for only 25 epochs surpasses MAE-Base fined-tuned for 100 epochs by 2.9% box AP and 2.2% mask AP respectively. Code and pretrained models are available at https://github.com/Alpha-VL/ConvMAE.

연구 동기 및 목표

  • 하이브리드 컨볼루션–트랜스포머 백본을 활용한 마스크드 오토인코딩을 위한 자기지도 학습 프레임워크를 동기 부여하고 개발한다.
  • 다중 스케일 특징 학습을 가능하게 하면서 MAE의 효율성을 유지하는 효율적인 마스킹 전략을 설계한다.
  • 엔코더 출력이 검출 및 분할과 같은 다운스트림 작업과 더 잘 일치하도록 다중 스케일 디코더와 감독 신호를 제공한다.
  • 이미지 분류, 객체 검출, 의미론 분할 및 비디오 이해 전반에서 ConvMAE의 효과를 입증한다.

제안 방법

  • 첫 두 단계는 합성곱(5x5 depthwise convs)이고 세 번째 단계는 트랜스포머 기반인 세 단계로 구성된 하이브리드 컨볼루션–트랜스포머 인코더를 제안하여 다중 스케일 임베딩 E1, E2, E3를 생성한다.
  • 후기 스테이지 토큰을 마스킹하고(약 25% 가시 토큰) 마스크를 점진적으로 앞쪽 스테이지로 업샘플링하는 블록 단위 마스킹 전략을 도입하여 마스킹된 컨볼루션이 정보 누출을 방지하도록 한다.
  • 초기 스테이지에서 마스크된 컨볼루션을 적용해 누출을 피하고 예비 학습과 미세조정 간의 일관된 격차를 유지한다.
  • 스트라이드 컨볼루션을 통해 E1, E2, E3를 집계하고 선형 융합을 수행하여 다중 스케일 디코더에 입력으로 삼아 마스킹된 패치 재구성을 위한 디코더 입력을 형성하도록 다중 스케일 인코더 특징을 업샘플링하고 융합한다.
  • 동일한 MAE-유사 재구성 목표(마스킹된 패치를 재구성)를 사용하되 다중 스케일 디코더와 검출/분할 헤드에 대한 작업 지향적 미세조정 적응을 적용한다.
  • Mask-RCNN에서 다중 스케일 특징(E1–E4)으로 미세조정하여 객체 검출 및 UperNet에서 의미론적 분할에 대한 다운스트림 작업에 대한 적응을 제공하고, 효율성 개선(예: stage-3의 글로벌 어텐션 제한)도 포함한다.

실험 결과

연구 질문

  • RQ1마스크된 컨볼루션과 블록 단위 마스킹을 갖춘 하이브리드 컨볼루션–트랜스포머 백본이 MAE보다 더 나은 자기지도 표현을 생성할 수 있는가?
  • RQ2다중 스케일 특징 감독 및 디코딩이 검출 및 분할과 같은 다운스트림 작업의 성능을 향상시키는가?
  • RQ3마스킹 전략, 마스크된 컨볼루션, 커널 크기가 예비 학습 효율성과 다운스트림 전이성에 어떤 영향을 미치는가?
  • RQ4ConvMAE가 MAE의 효율성을 유지하면서 예비 학습-미세조정 간의 차이를 줄이고 수렴 속도를 높일 수 있는가?

주요 결과

  • ConvMAE-Base는 MAE-Base보다 ImageNet-1K 미세조정 정확도를 1.4% 향상시킨다.
  • Mask-RCNN으로 COCO 2017에서 25 에폭으로 미세조정한 ConvMAE-Base는 53.2% APbox와 47.1% APmask를 달성하여 더 긴 훈련으로 MAE-Base(50.3% APbox, 44.9% APmask)를 능가한다.
  • ADE20K에서 UperNet으로 ConvMAE-Base는 51.7% mIoU를 달성했고 MAE-Base보다 3.6个百分点 더 높다.
  • 블록 단위 마스킹과 마스크된 컨볼루션을 갖춘 ConvMAE는 MAE-효율성을 유지하면서 다중 스케일 표현을 가능하게 한다.
  • ConvMAE는 MAE보다 수렴이 빠르며 비슷한 학습 예산 하에서 ImageNet 미세조정은 58 에폭에서 MAE를 능가하고 COCO 검출은 16 에폭에서 MAE를 능가한다.
  • VideoConvMAE 확장은 Kinetics-400 및 Something-Something-v2 예산에서 VideoMAE보다 향상된 미세조정 정확도를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.