QUICK REVIEW

[논문 리뷰] ConvMAE: Masked Convolution Meets Masked Autoencoders

Peng Gao, Teli Ma|arXiv (Cornell University)|2022. 05. 08.

Advanced Neural Network Applications인용 수 52

한 줄 요약

ConvMAE는 다중 규모 하이브리드 컨볼루션–트랜스포머 인코더를 마스킹된 컨볼루션 및 블록 단위 마스킹과 통합하여 효율적인 마스크드 오토인코딩 및 다중 스케일 특징 학습을 가능하게 하여 분류, 검출, 분할 및 비디오 작업 전반의 성능을 향상시킵니다.

ABSTRACT

Vision Transformers (ViT) become widely-adopted architectures for various vision tasks. Masked auto-encoding for feature pretraining and multi-scale hybrid convolution-transformer architectures can further unleash the potentials of ViT, leading to state-of-the-art performances on image classification, detection and semantic segmentation. In this paper, our ConvMAE framework demonstrates that multi-scale hybrid convolution-transformer can learn more discriminative representations via the mask auto-encoding scheme. However, directly using the original masking strategy leads to the heavy computational cost and pretraining-finetuning discrepancy. To tackle the issue, we adopt the masked convolution to prevent information leakage in the convolution blocks. A simple block-wise masking strategy is proposed to ensure computational efficiency. We also propose to more directly supervise the multi-scale features of the encoder to boost multi-scale features. Based on our pretrained ConvMAE models, ConvMAE-Base improves ImageNet-1K finetuning accuracy by 1.4% compared with MAE-Base. On object detection, ConvMAE-Base finetuned for only 25 epochs surpasses MAE-Base fined-tuned for 100 epochs by 2.9% box AP and 2.2% mask AP respectively. Code and pretrained models are available at https://github.com/Alpha-VL/ConvMAE.

연구 동기 및 목표

하이브리드 컨볼루션–트랜스포머 백본을 활용한 마스크드 오토인코딩을 위한 자기지도 학습 프레임워크를 동기 부여하고 개발한다.
다중 스케일 특징 학습을 가능하게 하면서 MAE의 효율성을 유지하는 효율적인 마스킹 전략을 설계한다.
엔코더 출력이 검출 및 분할과 같은 다운스트림 작업과 더 잘 일치하도록 다중 스케일 디코더와 감독 신호를 제공한다.
이미지 분류, 객체 검출, 의미론 분할 및 비디오 이해 전반에서 ConvMAE의 효과를 입증한다.

제안 방법

첫 두 단계는 합성곱(5x5 depthwise convs)이고 세 번째 단계는 트랜스포머 기반인 세 단계로 구성된 하이브리드 컨볼루션–트랜스포머 인코더를 제안하여 다중 스케일 임베딩 E1, E2, E3를 생성한다.
후기 스테이지 토큰을 마스킹하고(약 25% 가시 토큰) 마스크를 점진적으로 앞쪽 스테이지로 업샘플링하는 블록 단위 마스킹 전략을 도입하여 마스킹된 컨볼루션이 정보 누출을 방지하도록 한다.
초기 스테이지에서 마스크된 컨볼루션을 적용해 누출을 피하고 예비 학습과 미세조정 간의 일관된 격차를 유지한다.
스트라이드 컨볼루션을 통해 E1, E2, E3를 집계하고 선형 융합을 수행하여 다중 스케일 디코더에 입력으로 삼아 마스킹된 패치 재구성을 위한 디코더 입력을 형성하도록 다중 스케일 인코더 특징을 업샘플링하고 융합한다.
동일한 MAE-유사 재구성 목표(마스킹된 패치를 재구성)를 사용하되 다중 스케일 디코더와 검출/분할 헤드에 대한 작업 지향적 미세조정 적응을 적용한다.
Mask-RCNN에서 다중 스케일 특징(E1–E4)으로 미세조정하여 객체 검출 및 UperNet에서 의미론적 분할에 대한 다운스트림 작업에 대한 적응을 제공하고, 효율성 개선(예: stage-3의 글로벌 어텐션 제한)도 포함한다.

실험 결과

연구 질문

RQ1마스크된 컨볼루션과 블록 단위 마스킹을 갖춘 하이브리드 컨볼루션–트랜스포머 백본이 MAE보다 더 나은 자기지도 표현을 생성할 수 있는가?
RQ2다중 스케일 특징 감독 및 디코딩이 검출 및 분할과 같은 다운스트림 작업의 성능을 향상시키는가?
RQ3마스킹 전략, 마스크된 컨볼루션, 커널 크기가 예비 학습 효율성과 다운스트림 전이성에 어떤 영향을 미치는가?
RQ4ConvMAE가 MAE의 효율성을 유지하면서 예비 학습-미세조정 간의 차이를 줄이고 수렴 속도를 높일 수 있는가?

주요 결과

ConvMAE-Base는 MAE-Base보다 ImageNet-1K 미세조정 정확도를 1.4% 향상시킨다.
Mask-RCNN으로 COCO 2017에서 25 에폭으로 미세조정한 ConvMAE-Base는 53.2% APbox와 47.1% APmask를 달성하여 더 긴 훈련으로 MAE-Base(50.3% APbox, 44.9% APmask)를 능가한다.
ADE20K에서 UperNet으로 ConvMAE-Base는 51.7% mIoU를 달성했고 MAE-Base보다 3.6个百分点 더 높다.
블록 단위 마스킹과 마스크된 컨볼루션을 갖춘 ConvMAE는 MAE-효율성을 유지하면서 다중 스케일 표현을 가능하게 한다.
ConvMAE는 MAE보다 수렴이 빠르며 비슷한 학습 예산 하에서 ImageNet 미세조정은 58 에폭에서 MAE를 능가하고 COCO 검출은 16 에폭에서 MAE를 능가한다.
VideoConvMAE 확장은 Kinetics-400 및 Something-Something-v2 예산에서 VideoMAE보다 향상된 미세조정 정확도를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.