[論文レビュー] SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders
SemMAEは、意味的パーツを作成する自己監督型の意味的パーツ学習段階を導入し、意味的ガイド付きマスキング戦略を用いてマスクドオートエンコーダを訓練することで、画像表現を改善し、いくつかのビジョンタスクで最先端の結果を達成します。
Recently, significant progress has been made in masked image modeling to catch up to masked language modeling. However, unlike words in NLP, the lack of semantic decomposition of images still makes masked autoencoding (MAE) different between vision and language. In this paper, we explore a potential visual analogue of words, i.e., semantic parts, and we integrate semantic information into the training process of MAE by proposing a Semantic-Guided Masking strategy. Compared to widely adopted random masking, our masking strategy can gradually guide the network to learn various information, i.e., from intra-part patterns to inter-part relations. In particular, we achieve this in two steps. 1) Semantic part learning: we design a self-supervised part learning method to obtain semantic parts by leveraging and refining the multi-head attention of a ViT-based encoder. 2) Semantic-guided MAE (SemMAE) training: we design a masking strategy that varies from masking a portion of patches in each part to masking a portion of (whole) parts in an image. Extensive experiments on various vision tasks show that SemMAE can learn better image representation by integrating semantic information. In particular, SemMAE achieves 84.5% fine-tuning accuracy on ImageNet-1k, which outperforms the vanilla MAE by 1.4%. In the semantic segmentation and fine-grained recognition tasks, SemMAE also brings significant improvements and yields the state-of-the-art performance.
研究の動機と目的
- マスクドイメージモデリングとマスクド言語モデリングのギャップを動機づけ、語の視覚的類推物(意味的パーツ)を発見することによってそれを埋める。
- ImageNetのような多クラスデータセットで意味のあるパーツマップを生み出す自己監督型意味的パーツ学習法を開発する。
- MAEをパーツ内情報からパーツ間情報へと段階的に訓練する意味的ガイド付きマスキング戦略を提案する。
- 意味情報を組み込むことが分類・セグメンテーション・細分類タスクを含む表現学習の改善を実証する。
提案手法
- セマンティック・パーツ学習とセマンティック・ガイド付きマスキングの2段階フレームワークを設計する。
- ViTクラス・トークンをN個のパート・トークンに埋め込んで意味的パーツを取得し、パッチ-パーツ相関を計算し、ぼかしとTexture転送のためのAdaINを用いたStyleGANベースのデコーダで精錬されたアテンションマップを生成する。
- アテンションマップのargmaxを用いてパートセグメンテーションを取得し、パーツ内のパッチをマスキングすることからパーツ全体をマスキングする MAE マスキングを誘導する。
- StyleGANベースのデコーダとアテンション多様性損失を用いた再構成目的を導入して、空間的なパーツ構造を学ぶ(L_rec, L_div, total L)。
- 補間パラメータalphaを介して、トレーニングの反復を通じてパーツレベルとパッチレベルのマスキングのバランスを取る適応的マスキングスケジュールを実装する。
実験結果
リサーチクエスチョン
- RQ1自己監督型で学習した意味的パーツは、MAE訓練に有意義な指針を提供できるか。
- RQ2意味的パーツに基づくマスキング(パーツ内・パーツ間の指針)は、MAEにおけるランダムマスキングより表現を改善するか。
- RQ3パッチサイズとマスキング戦略がSemMAEの線形評価、ファインチューニング、下流タスクの性能に与える影響は何か。
主な発見
| Method | Pre-train dataset | Pre-train epochs | Linear probing | Fine-tuning |
|---|---|---|---|---|
| SemMAE | ImageNet-1K | 800 | 68.7 | 84.5 |
| MAE [19] | ImageNet-1K | 1600 | 68.0 | 83.6 |
| SimMIM [37] | ImageNet-1K | 800 | 56.7 | 83.8 |
- SemMAEは線形プロービングでImageNet-1Kのトップ1精度84.5%を達成し、ベースのMAEより1.4%高い。
- 8x8パッチによる意味的パーツ学習はパーツ分割を改善し、ベースラインと比較して線形プロービング精度を1.3–1.9ポイント向上させる。
- gamma=2の適応的マスキング戦略(パーツあたり75%パッチからパーツ75%へ変化)で最良の線形プロービング結果(68.7%)を達成。
- セマンティックセマンテーションADE20KでSemMAEは46.3 mIoUを達成し、MAEの46.1と監督あり事前学習の45.3を上回る。
- 細分類転移では、iNaturalistで82.1対81.8、CUB Birdsで87.1対86.5、Stanford Carsで94.4対94.2など、SemMAEがMAEを上回る。
- 表の比較は、線形プロービング、ファインチューニング、下流タスクのいずれでもSemMAEが最先端または競争力のある性能を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。