[論文レビュー] MILAN: Masked Image Pretraining on Language Assisted Representation
MILANは、CLIPからの言語支援画像表現を再構成対象とするマスクドオートエンコーダを用いてビジョントランスフォーマーを事前学習し、プロンプトデコーダと意味的認識パッチサンプリングを採用して、ImageNetのファインチューニングと下流転送で優れた性能を実現します。
Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more effective prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN achieves a top-1 accuracy of 85.4% on ViT-Base, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-Base on ADE20K dataset, outperforming previous masked pretraining results by 4 points.
研究の動機と目的
- マスク付き画像の事前学習において言語監督を活用することにより、大規模なラベル付きデータセットへの依存を低減する。
- 生のピクセルではなく、CLIP由来の画像特徴を再構成することによって意味的に豊かな表現を学ぶ。
- 効率的なプロンプティングデコーダとセマンティック認識パッチサンプリングによって事前学習の効率を向上させる。
- 物体検出・インスタンスセグメンテーション・セマンティックセグメンテーションなどの下流タスクへの高い転移性能を示す。
提案手法
- CLIP画像エンコーダの出力をマスクされたパッチの再構成ターゲットとして用いるマスクドオートエンコーダを使用する。
- エンコーダの出力を凍結して固定プロンプトとして再構成に用い、デコーダの更新を抑制するプロンプティングデコーダを採用する。
- マスク済みと未マスクのパッチの正規化特徴量に対して平均二乗誤差で再構成ロスを計算する。
- CLIPの最終層アテンションに基づいて未マスクのパッチを選択し、意味的に重要な領域を強調するセマンティック認識サンプリング戦略を実装する。
- ImageNet-1K上でViT-BaseおよびViT-Largeを400エポック事前学習し、ファインチューニング、リニアプロービング、下流タスクで評価する。
- ターゲット、デコーダ設計、およびサンプリングの影響を切り分けるため、MAEおよび言語画像プリトレーニングのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1言語支援を受けたCLIP特徴を再構成することは、ピクセルベースのターゲットに比べてファインチューニングおよびリニアプローブの性能を向上させるか?
- RQ2CLIP表現をターゲットにする際、プロンプティングデコーダは効率と精度にどう影響するか?
- RQ3セマンティック認識パッチサンプリングは事前学習の効率と下流転移を改善するか?
- RQ4従来のマスクド前処理法と比較して、COCO検出/セグメンテーションやADE20Kセマンティックセグメンテーションなどの下流タスクにおけるMILANの性能向上はどの程度か?
主な発見
- MILANは、400エポックで事前学習し224x224の画像でファインチューニングした場合、ViT-BaseでImageNet-1Kのトップ1が86.4%、ViT-Largeで88.3%を達成した。
- MILANはリニアプロービングで従来のマスクド前処理および言語画像法を上回り、最先端の対照学習法と同等かそれ以上を達成した。
- COCOでは、ViT-Baseに対して教師あり事前学習と比較してVPxAPboxを約4.7ポイント、VPxAPmaskを約2.6ポイント改善した。
- ADE20KではViT-Baseで52.7 mIoUを達成し、MAEを4.6ポイント上回った。
- MILANはImageNet-Adversarial、ImageNet-Rendition、ImageNet-Sketchで堅牢性の利点を示し、従来モデルを大幅に上回った。
- アブレーション研究は、CLIPベースのターゲット、プロンプティングデコーダ、セマンティックサンプリングのそれぞれが精度向上に寄与することを確認し、 MILANの全体設定が最良の結果を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。