[論文レビュー] MST: Masked Self-Supervised Transformer for Visual Representation
MSTは、Transformerの局所的およびグローバルな視覚表現を学習するための注意機構を導入したマスキング戦略を提案し、空間構造を保持するためのグローバル画像デコーダを補助として活用することで、ImageNet線形評価で強力な性能を発揮し、密集予測タスクで競争力のある結果を達成します。
Transformer has been widely used for self-supervised pre-training in Natural Language Processing (NLP) and achieved great success. However, it has not been fully explored in visual self-supervised learning. Meanwhile, previous methods only consider the high-level feature and learning representation from a global perspective, which may fail to transfer to the downstream dense prediction tasks focusing on local features. In this paper, we present a novel Masked Self-supervised Transformer approach named MST, which can explicitly capture the local context of an image while preserving the global semantic information. Specifically, inspired by the Masked Language Modeling (MLM) in NLP, we propose a masked token strategy based on the multi-head self-attention map, which dynamically masks some tokens of local patches without damaging the crucial structure for self-supervised learning. More importantly, the masked tokens together with the remaining tokens are further recovered by a global image decoder, which preserves the spatial information of the image and is more friendly to the downstream dense prediction tasks. The experiments on multiple datasets demonstrate the effectiveness and generality of the proposed method. For instance, MST achieves Top-1 accuracy of 76.9% with DeiT-S only using 300-epoch pre-training by linear evaluation, which outperforms supervised methods with the same epoch by 0.4% and its comparable variant DINO by 1.0\%. For dense prediction tasks, MST also achieves 42.7% mAP on MS COCO object detection and 74.04% mIoU on Cityscapes segmentation only with 100-epoch pre-training.
研究の動機と目的
- 局所パッチの文脈を捉えつつグローバルな意味論を保持して、視覚自己教師付き学習の転移効果を向上させる動機付け。
- マスキングスキームをマルチヘッド自己注意に基づくガイド付きに開発し、重要領域を破壊せずにパッチを選択的にマスキングする。
- グローバル画像デコーダを組み込んで空間情報を回復し、下流の密集予測タスクでの性能を向上させる。
- ImageNet分類と対象物検出・意味セグメンテーションなどの下流タスクにおける手法の有効性を実証する。
提案手法
- 教師ネットワークの自己注意マップに由来する注意Guidedマスキング戦略を用いるマスクド自己教師付きトランスフォーマーFramworkとしてMSTを提案する。
- 注意に基づく閾値条件付きのベルヌーイ過程を用いて、重要領域を保持しつつ低注意のパッチに対応するトークンをマスクする。
- グローバル画像デコーダでマスク済みおよび未マスクのトークンを回復し、元の画像を再構成して空間的忠実度を促進する。
- 自己教師付きのクロスエントロピー損失(コントラスト様の目的)と画像再構成の復元損失を組み合わせ、モメンタム教師-生徒設定と標準的な自己教師付き拡張を導きとして訓練する。
- 下流の密集予測タスクと互換性を確保するため、マスクされたトランスフォーマー表現から画像ピクセルを復元するCNNベースのデコーダを使用する。
- DeiT-SおよびSwin-Tのバックボーンを用いてImageNet上で線形およびk-NNプローブで評価し、MS COCO物体検検出とCityscapes意味セグメンテーションへの転移可能性を評価する。
実験結果
リサーチクエスチョン
- RQ1自己教師付き事前学習中に、注意 guided マスキング戦略は、情報量が少ないパッチをマスクしつつ重要な領域を保持することができるのか?
- RQ2空間情報を再構成するグローバル画像デコーダを導入することは、トレーニング時間を増加させることなく密集予測タスクでの性能を向上させるのか?
- RQ3MSTはImageNet線形精度および下流の密集予測ベンチマークにおいて、最先端の自己教師付き手法と比較してどのような性能を示すのか?
- RQ4方法は異なるトランスフォーマーアーキテクチャ(例:DeiT-S、Swin-T)および訓練予算に対して頑健か?
主な発見
- MSTは300エポック時のDeiT-SでImageNet線形評価においてTop-1精度76.9%を達成し、DINOを上回り、長期間訓練の結果に近づく。
- MS COCO物体検出では、100エポックで42.7%のbbox mAPおよび38.8%のマスクmAPを達成し、ImageNetで supervisd-baseline を上回る。
- Cityscapes意味セグメンテーションでは、MSTは74.04%のmIoUと82.35%のmAccを示し、比較設定下で supervised および DINO 事前学習ベースラインを凌駕する。
- 注意-guidedマスク戦略は線形プローブの性能を著しく改善(73.7%対 random maskingの63.2%)し、マスク超パラメータに対して頑健であることを示す。
- アブレーションでは、適切な設定を持つ注意ガイド付きマスク戦略を使用すると100/300エポックを通じて強力な性能を維持し、投影ヘッドのBN取り扱いのニュアンスが利益に影響する可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。