QUICK REVIEW

[論文レビュー] ConvMAE: Masked Convolution Meets Masked Autoencoders

Peng Gao, Teli Ma|arXiv (Cornell University)|May 8, 2022

Advanced Neural Network Applications被引用数 52

ひとこと要約

ConvMAE は、マスク付き畳み込みとブロック単位マスキングを用いたマルチスケールのハイブリッド畳み込み–トランスフォーマーエンコーダを統合し、効率的なマスク付き自己符号化とマルチスケール特徴学習を実現し、分類・検出・セグメンテーション・動画タスク全体の性能を向上させます。

ABSTRACT

Vision Transformers (ViT) become widely-adopted architectures for various vision tasks. Masked auto-encoding for feature pretraining and multi-scale hybrid convolution-transformer architectures can further unleash the potentials of ViT, leading to state-of-the-art performances on image classification, detection and semantic segmentation. In this paper, our ConvMAE framework demonstrates that multi-scale hybrid convolution-transformer can learn more discriminative representations via the mask auto-encoding scheme. However, directly using the original masking strategy leads to the heavy computational cost and pretraining-finetuning discrepancy. To tackle the issue, we adopt the masked convolution to prevent information leakage in the convolution blocks. A simple block-wise masking strategy is proposed to ensure computational efficiency. We also propose to more directly supervise the multi-scale features of the encoder to boost multi-scale features. Based on our pretrained ConvMAE models, ConvMAE-Base improves ImageNet-1K finetuning accuracy by 1.4% compared with MAE-Base. On object detection, ConvMAE-Base finetuned for only 25 epochs surpasses MAE-Base fined-tuned for 100 epochs by 2.9% box AP and 2.2% mask AP respectively. Code and pretrained models are available at https://github.com/Alpha-VL/ConvMAE.

研究の動機と目的

ハイブリッド畳み込み–トランスフォーマーのバックボーンを活用したマスク付き自己符号化のための自监督学習フレームワークを動機づけ、開発する。
MAEの効率性を維持しつつ、マルチスケール Feature 学習を可能にする効率的なマスキング戦略を設計する。
検出やセグメンテーションなどの下流タスクとエンコーダの出力をより良く整合させるためのマルチスケールデコーダと監視を提供する。
ConvMAEの有効性を画像分類、物体検出、セマンティックセグメンテーション、動画理解の領域で実証する。

提案手法

最初の2つのステージが畳み込み（5x5 デプスワイズ畳み込み）で、3つ目のステージがトランスフォーマーに基づくハイブリッド畳み込み–トランスフォーマーエンコーダを提案し、マルチスケール埋め込み E1、E2、E3 を生成する。
遅い段階のトークンをマスクするブロック単位マスキング戦略を導入し（約25%の可視トークン）、マスクを前段階へと段階的にアップサンプルして、情報漏洩を防ぐためにマスク付き畳み込みを可能にする。
早期の段階でマスク付き畳み込みを適用して情報漏洩を回避し、事前学習とファインチューニングのギャップを一定に保つ。
ストライド畳み込みと線形融合を介して E1、E2、E3 を統合するマルチスケールデコーダで、マルチスケールエンコーダ特徴をアップサンプルおよび融合し、マスクされたパッチ再構成のデコーダ入力を形成する。
同じ MAE に類似した再構成目的（マスクされたパッチを再構成）を使用するが、マルチスケールデコーダと検出/セグメンテーションヘッド向けのタスク指向のファインチューニング適応を適用する。
Mask-RCNNでの物体検出、UperNetでのセマンティックセグメンテーションにおいて、マルチスケール特徴（E1–E4）でファインチューニングすることで下流タスクへの適応を提供し、効率のための調整（例：ステージ-3のグローバルアテンションを制限）を行う。

実験結果

リサーチクエスチョン

RQ1マスク付き畳み込みとブロック単位マスキングを備えたハイブリッド畳み込み–トランスフォーマー・バックボーンは、MAEより優れた自己教師付き表現を生み出すことができるのか。
RQ2マルチスケールの特徴監視とデコードは、検出やセグメンテーションなどの下流タスクの性能を向上させるのか。
RQ3マスキング戦略、マスク付き畳み込み、カーネルサイズが事前学習の効率と下流の転移にどのように影響するのか。
RQ4ConvMAEは事前学習–ファインチューニングのずれを縮小し、MAEの効率性を維持しつつ収束を加速できるのか。

主な発見

ConvMAE-Base は MAE-Base より ImageNet-1K のファインチューニング精度を 1.4% 向上させる。
COCO 2017 で Mask-RCNN を用いた場合、ConvMAE-Base は 25 エポックのファインチューニングで 53.2% APbox と 47.1% APmask を達成し、長期学習で MAE-Base（50.3% APbox、44.9% APmask）を上回る。
ADE20K で UperNet を用いた場合、ConvMAE-Base は 51.7% mIoU を達成し、MAE-Base を 3.6 ポイント上回る。
ブロック単位マスキングとマスク付き畳み込みを備えた ConvMAE は MAE の効率性を維持しつつ、マルチスケール表現を可能にする。
ConvMAE は MAE より収束が速く、ImageNet ファインチューニングで 58 エポック、同程度のトレーニング予算下で COCO 検出では 16 エポックで MAE を上回る。
VideoConvMAE の拡張は Kinetics-400 および Something-Something-v2 の予算で VideoMAE よりファインチューニング精度の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。