[論文レビュー] WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation
WeakTr は適応的アテンションフュージョンを用いた平凡な Vision Transformer をエンドツーエンドで活用し、高品質な CAMs を生成し、オンライン再学習のための勾配クリッピングデコーダを採用して、VOC 2012 および COCO 2014 で最先端の WSSS 結果を達成します。
Transformer has been very successful in various computer vision tasks and understanding the working mechanism of transformer is important. As touchstones, weakly-supervised semantic segmentation (WSSS) and class activation map (CAM) are useful tasks for analyzing vision transformers (ViT). Based on the plain ViT pre-trained with ImageNet classification, we find that multi-layer, multi-head self-attention maps can provide rich and diverse information for weakly-supervised semantic segmentation and CAM generation, e.g., different attention heads of ViT focus on different image areas and object categories. Thus we propose a novel method to end-to-end estimate the importance of attention heads, where the self-attention maps are adaptively fused for high-quality CAM results that tend to have more complete objects. Besides, we propose a ViT-based gradient clipping decoder for online retraining with the CAM results efficiently and effectively. Furthermore, the gradient clipping decoder can make good use of the knowledge in large-scale pre-trained ViT and has a scalable ability. The proposed plain Transformer-based Weakly-supervised learning method (WeakTr) obtains the superior WSSS performance on standard benchmarks, i.e., 78.5% mIoU on the val set of PASCAL VOC 2012 and 51.1% mIoU on the val set of COCO 2014. Source code and checkpoints are available at https://github.com/hustvl/WeakTr.
研究の動機と目的
- 平凡な ViT で畳み込み誘導バイアスなしに WSSS の CAM 品質を改善する動機づけ。
- ViT のヘッドをウェイト付けする適応的アテンションフュージョンモジュールを提案し、CAM 生成を改善する。
- 分類信号を介して CAM 品質を最適化するエンドツーエンドの CAM 訓練戦略を導入する。
- 勾配クリッピングデコーダを用いたオンライン再学習アプローチを開発し、セグメンテーションモデルの更新を効率化する。
- VOC 2012 および COCO 2014 ベンチマークで最先端の WSSS 性能を示す。
提案手法
- パッチトークンを N^2 個、クラストークンを C 個を入力とする平凡な ViT バックボーンをトランスフォーマーエンコーダへ渡す。
- パッチトークン上の畳み込みで粗い CAM を生成し、自己アテンションマップの適応的アテンションフュージョンで精練する。
- attention マップをプーリングし FFN を通して動的ヘッドウェイト W を計算し W' を得て、クロスアテンションとパッチアテンションマップにウェイトを掛けて CAM_fine を作成する。
- ヘッドウェイト付けを監督するため、L = L_Fine-CAM + L_CLS-token + L_Coarse-CAM の結合損失でエンドツーエンド訓練を行う。
- グローバル/ローカル勾配統計に基づいて勾配の流れを制約するオンライン再学習用の勾配クリッピングデコーダを導入する。
- 推論時には CRF を適用してセグメンテーションマップを refin す。
実験結果
リサーチクエスチョン
- RQ1平凡な Vision Transformer の自己アテンションマップを適応的にフュージョンして、WSSS のための高品質な CAM を作出するにはどうすればよいか。
- RQ2適応ヘッドウェイト付けを用いたエンドツーエンドの CAM 訓練は CAM の refining フェーズなしで疑似ラベルの質を向上させるか。
- RQ3勾配クリッピングデコーダを用いたオンライン再学習は、従来の CAM refining パイプラインと比べて WSSS の効率と精度を改善するか。
- RQ4ViT バックボーンを用いた標準的な WSSS ベンチマーク(VOC 2012 および COCO 2014)で WeakTr の性能影響はどの程度か。
- RQ5WeakTr は CAM 品質と最終的なセグメンテーションの mIoU の両方の点で、最先端の WSSS 手法とどう比較されるか。
主な発見
- WeakTr は VOC 2012 val および COCO 2014 val ベンチマークで最先端の WSSS 結果を達成する。
- VOC 2012 val では ViT-S を用いた WeakTr が 78.4% mIoU、test で 79.0% を達成し、従来の手法を上回る。
- VOC 2012 の train では CAM の改善(Fine-CAM)が複数の prior CAM 手法(例: MCTformer, ViT-PCM など)を上回る。
- 勾配クリッピングデコーダによるオンライン再学習は学習時間を大幅に削減(全体で約 2.6 倍高速)し、高い mIoU を維持する。
- 適応的アテンションフュージョン(AAF)は、CRF ポスト処理が用いられる場合に、平均和集計より高い CAM 精度/再現率と mIoU を提供する。
- アブレーション研究は、勾配パッチサイズとクリッピング開始閾値が最終性能に影響を与え、提案デコーダから意味のある改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。