[論文レビュー] Language-driven Semantic Segmentation
LSeg はテキストエンコーダ(例:CLIP)を用いて任意のラベル説明を埋め込み、密な画像エンコーダを訓練してピクセルごとの埋め込みをこれらのテキスト埋め込みと一致させる。これにより、再訓練なしでゼロショット意味的セグメンテーションと柔軟なラベル集合を実現。
We present LSeg, a novel model for language-driven semantic image segmentation. LSeg uses a text encoder to compute embeddings of descriptive input labels (e.g., "grass" or "building") together with a transformer-based image encoder that computes dense per-pixel embeddings of the input image. The image encoder is trained with a contrastive objective to align pixel embeddings to the text embedding of the corresponding semantic class. The text embeddings provide a flexible label representation in which semantically similar labels map to similar regions in the embedding space (e.g., "cat" and "furry"). This allows LSeg to generalize to previously unseen categories at test time, without retraining or even requiring a single additional training sample. We demonstrate that our approach achieves highly competitive zero-shot performance compared to existing zero- and few-shot semantic segmentation methods, and even matches the accuracy of traditional segmentation algorithms when a fixed label set is provided. Code and demo are available at https://github.com/isl-org/lang-seg.
研究の動機と目的
- 意味的セグメンテーションにおける固定ラベル集合の制限を、柔軟で言語駆動のラベル表現を可能にすることで解決する。
- 説明的なラベルを埋め込むためにテキストエンコーダを活用し、ピクセル埋め込みをこれらのラベル埋め込みと整列させるよう画像エンコーダを訓練する。
- 追加の訓練データなしでゼロショットおよびfew-shotセグメンテーションの能力を実証する。
- 言語空間の意味的類似性が見たことのないクラスにも視覚領域へ転移することを示す。
提案手法
- ラベルを事前学習済みのテキストエンコーダ(CLIP など)で埋め込み、ラベルの数や順序に関係なく埋め込み集合を作成する。
- 入力画像に対して密な予測トランスフォーマー画像エンコーダを用いてピクセルごとの埋め込みを作成する。
- ピクセル埋め込みとラベル埋め込みの内積からピクセル単位の相関テンソルを計算し、ピクセル単位のソフトマックス交差エントロピー損失でグラウンドトゥルースピクセルをラベルと整列させる。
- ラベルの順序同値性を保ちながら予測をアップサンプル・精練するための空間正則化ブロック(DepthwiseBlock または BottleneckBlock)を組み込む。
- 訓練中はテキストエンコーダを固定し、画像エンコーダのみ更新して、任意のラベル集合に対してゼロショットセグメンテーションマップを柔軟に合成できるようにする。
実験結果
リサーチクエスチョン
- RQ1言語埋め込みラベル空間は新しいクラスに対する再訓練なしで高精度なゼロショット意味的セグメンテーションを実現できるか?
- RQ2テスト時にラベル集合を置換・拡張すると、セグメンテーション品質と柔軟性にどのような影響があるか?
- RQ3言語駆動のラベル埋め込みは、犬とペットのような意味的に関連する概念をピクセルラベリングの指示にどの程度整列させるか?
- RQ4異なるテキストエンコーダとバックボーンがゼロショットセグメンテーションの性能に与える影響はどの程度か?
- RQ5LSeg は標準ベンチマーク上で、固定ラベルおよび少数-shot セグメンテーションのベースラインと比較してどうか?
主な発見
| モデル | バックボーン | 手法 | 5^0 | 5^1 | 5^2 | 5^3 | 平均 | FB-IoU |
|---|---|---|---|---|---|---|---|---|
| OSLSM | 1-shot | 33.6 | 55.2 | 40.9 | 33.5 | 40.8 | 61.3 | |
| co-FCN | VGG16 | 1-shot | 36.7 | 50.6 | 44.9 | 32.4 | 41.1 | 60.1 |
| AMP-2 | 1-shot | 41.9 | 50.2 | 46.7 | 34.7 | 43.4 | 61.9 | |
| PANet | ResNet50 | 1-shot | 44.0 | 57.5 | 50.8 | 44.0 | 49.1 | - |
| PGNet | 1-shot | 56.0 | 66.9 | 50.6 | 50.4 | 56.0 | 69.9 | |
| FWB | ResNet101 | 1-shot | 51.3 | 64.5 | 56.7 | 52.2 | 56.2 | - |
| PPNet | 1-shot | 52.7 | 62.8 | 57.4 | 47.7 | 55.2 | 70.9 | |
| DAN | 1-shot | 54.7 | 68.6 | 57.8 | 51.6 | 58.2 | 71.9 | |
| PFENet | 1-shot | 60.5 | 69.4 | 54.4 | 55.9 | 60.1 | 72.9 | |
| RePRI | 1-shot | 59.6 | 68.6 | 62.2 | 47.2 | 59.4 | - | |
| HSNet | 1-shot | 67.3 | 72.3 | 62.0 | 63.1 | 66.2 | 77.6 | |
| SPNet | ResNet101 | zero-shot | 23.8 | 17.0 | 14.1 | 18.3 | 18.3 | 44.3 |
| ZS3Net | zero-shot | 39.1? | 39.4 | 39.3 | 33.6 | 38.3 | 57.7 | |
| LSeg | ResNet101 | zero-shot | 52.8 | 53.8 | 44.4 | 38.5 | 47.4 | 64.1 |
| LSeg | ViT-L/16 | zero-shot | 61.3 | 63.6 | 43.1 | 41.0 | 52.3 | 67.0 |
- LSeg はベンチマーク全体で既存のゼロショットおよび少数-shot 手法と競合するゼロショット性能を達成する。
- より大きなバックボーン(ViT-L/16)を用いると、LSeg は強力なゼロショット結果を得て、いくつかのfew-shot手法に匹敵する。
- ラベルを固定した場合でも、テキスト埋め込みは固定ラベルセグメンテーションに比べてわずかな性能低下のみをもたらす。
- LSeg は入力ラベル集合を変えるだけで再訓練なしにゼロショットセグメンテーションモデルをその場で合成できる。
- 空間正則化モジュールはラベル柔軟性を崩さずにピクセルごとの予測を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。