[論文レビュー] Token Contrast for Weakly-Supervised Semantic Segmentation
論文は Vision Transformers を用いた WSSS のための Token Contrast (ToCo) を提案し、ViT のオーバーソ smoothing を抑制するために (1) Patch Token Contrast (PTC) により最終パッチトークンを中間層の意味論と整列させ、(2) Class Token Contrast (CTC) により不確かな領域と全体オブジェクト間の局所-グローバル表現の一貫性を強制する。VOCとCOCOで単段WSSSの強力な結果を達成。
Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels typically utilizes Class Activation Map (CAM) to generate the pseudo labels. Limited by the local structure perception of CNN, CAM usually cannot identify the integral object regions. Though the recent Vision Transformer (ViT) can remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the final patch tokens incline to be uniform. In this work, we propose Token Contrast (ToCo) to address this issue and further explore the virtue of ViT for WSSS. Firstly, motivated by the observation that intermediate layers in ViT can still retain semantic diversity, we designed a Patch Token Contrast module (PTC). PTC supervises the final patch tokens with the pseudo token relations derived from intermediate layers, allowing them to align the semantic regions and thus yield more accurate CAM. Secondly, to further differentiate the low-confidence regions in CAM, we devised a Class Token Contrast module (CTC) inspired by the fact that class tokens in ViT can capture high-level semantics. CTC facilitates the representation consistency between uncertain local regions and global objects by contrasting their class tokens. Experiments on the PASCAL VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other single-stage competitors and achieve comparable performance with state-of-the-art multi-stage methods. Code is available at https://github.com/rulixiang/ToCo.
研究の動機と目的
- CAM の WSSS における制約を ViT で解決し、グローバルなオブジェクト領域を捉える。
- 中間層の意味信号で最終パッチトークンを監督して ViT のオーバーソ smoothing を緩和する(PTC)。
- 不確かな CAM 領域をクラス・トークンを用いた局所-グローバルな対比で区別する(CTC)。
- 単段 WSSS フレームワークを開発し、マルチステージ手法と競争力のある性能を達成する。
提案手法
- 中間 ViT 層から導出された擬似トークン関係を用いて最終パッチトークンを監督する Patch Token Contrast (PTC) を導入する。
- 中間層からの補助分類機で補助 CAM を導出し、それを PTC の信頼できるトークンラベル形成に使用する。
- Global クラス・トークンを不確かな領域のローカルクロップと対比し、Background クロップと InfoNCE 損失で対比する Class Token Contrast (CTC) を定義する。
- L_cls、L_cls^m、L_ptc、L_ctc を segmentation loss L_seg と組み合わせてエンドツーエンドの ToCo 目的関数で訓練する。
- CTC で局所-グローバルなトークン整合性を安定化させるためにグローバル投影ヘッドの EMA ベース更新を適用する。
- ToCo を PAR 改善と単純なデコーダを持つ単段 WSSS フレームワークに統合し、ピクセルレベルの予測を実現する。

実験結果
リサーチクエスチョン
- RQ1中間の ViT 表現は最終パッチトークンのオーバーソ smoothing に対抗する意味論的多様性を提供できるか。
- RQ2中間層 CAM で最終パッチトークンを監督すると CAM の品質と WSSS の擬似ラベルは改善されるか。
- RQ3グローバルとローカル視点間のクラス・トークンレベルの対比は CAM の不確かな領域の活性化を改善するか。
- RQ4ToCo は VOC および COCO において最先端の単段およびマルチステージ WSSS 手法と比較してどの程度性能を発揮するか。
主な発見
| 補助 | ネットワーク | VOC val | VOC test | COCO val |
|---|---|---|---|---|
| ToCo | ViT-B | 69.8 | 70.5 | 41.3 |
| ToCo† | ViT-B† | 71.1 | 72.2 | 42.3 |
- ToCo は ViT ベースラインに対して CAM の品質と下流のセグメンテーション性能を大幅に向上させる。
- PTC はパッチ・トークンのオーバーソ smoothing を低減し、VOC val での最終 CAM を 27.9% から 62.5% mIoU に改善。
- CTC は CAM の品質と半教師あり的な局所-グローバルの一貫性をさらに 4.7% の mIoU 向上に寄与。
- VOC で ViT-B のとき val で 70.5% mIoU、バリアント全体で 68.1–70.5 範囲を達成; pretrained weights によって VOC test で 72.3–72.2% mIoU の範囲に。
- COCO val で 42.3% mIoU を達成し、ViT-B† バックボーンでは val 71.1%、test 72.2% mIoU(画像レベル監督)に達する。
- ToCo の単段成果は多くの単段競合を上回り、画像レベルラベルのみを用いたいくつかのマルチステージ手法に近づく。
![Figure 2 : The average pairwise cosine similarity of patch tokens in each Transformer block. The cosine similarity is computed on the VOC train set. Here we use the ViT-Base (ViT-B) [ 12 ] architecture which includes 12 Transformer blocks.](https://ar5iv.labs.arxiv.org/html/2303.01267/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。