[論文レビュー] ReCo: Retrieve and Co-segment for Zero-shot Transfer
ReCoはCLIPベースの画像検索を用いて概念特異的な画像アーカイブを編成し、アーカイブ全体を共セグメント化してオープンバージョン語彙のセグメンターを作成。ピクセルラベルなしでゼロショットセグメンテーションを実行し、任意の教師なし適応(ReCo+)が可能。
Semantic segmentation has a broad range of applications, but its real-world impact has been significantly limited by the prohibitive annotation costs necessary to enable deployment. Segmentation methods that forgo supervision can side-step these costs, but exhibit the inconvenient requirement to provide labelled examples from the target distribution to assign concept names to predictions. An alternative line of work in language-image pre-training has recently demonstrated the potential to produce models that can both assign names across large vocabularies of concepts and enable zero-shot transfer for classification, but do not demonstrate commensurate segmentation abilities. In this work, we strive to achieve a synthesis of these two approaches that combines their strengths. We leverage the retrieval abilities of one such language-image pre-trained model, CLIP, to dynamically curate training sets from unlabelled images for arbitrary collections of concept names, and leverage the robust correspondences offered by modern image representations to co-segment entities among the resulting collections. The synthetic segment collections are then employed to construct a segmentation model (without requiring pixel labels) whose knowledge of concepts is inherited from the scalable pre-training process of CLIP. We demonstrate that our approach, termed Retrieve and Co-segment (ReCo) performs favourably to unsupervised segmentation approaches while inheriting the convenience of nameable predictions and zero-shot transfer. We also demonstrate ReCo's ability to generate specialist segmenters for extremely rare objects.
研究の動機と目的
- セマンティックセグメンテーションの高いアノテーションコストと柔軟性の制限に対処する。
- ピクセルレベルのラベルなしでオープン語彙・ゼロショットのセグメンテーションを可能にする。
- リトリーバルと共セグメンテーションを活用してCLIPの大規模語彙とゼロショット機能を継承する。
提案手法
- CLIPを用いてテキストクエリに最も近い近傍を取得し、概念特異の画像アーカイブをキュレーションする。
- dense featuresを用いたアーカイブ全体で種子ベースの共セグメンテーションを実行し、概念の参照埋め込みを取得する。
- DenseCLIPの顕著性ガイダンスとPNewと顕著性マップのHadamard積による統合で新しい画像でのセグメンテーションを洗練し、任意でCRF後処理を適用する。
- 言語ガイド付きフィルタリングとコンテキスト除去で共セグメンテーションを強化し、 Distractorsを抑制する。
- 任意でReCo+へ拡張し、ReCo生成の疑似ラベルを用いてターゲット分布へセグメンテーションモデル(例:DeepLabv3+)を訓練する。
実験結果
リサーチクエスチョン
- RQ1取得ベースの例示選定と共セグメンテーションを組み合わせることで、ピクセルレベルの監視なしでオープン語彙セグメンテーションは可能か。
- RQ2DenseCLIP推論と言語ガイド付き共セグメンテーションは、ベースラインの無監督手法よりゼロショットセグメンテーション品質を改善するか。
- RQ3標準ベンチマークにない珍しい概念をこのアプローチはセグメンテーションできるか。
- RQ4ターゲット分布データが利用可能な場合、無監督適応(ReCo+)はさらなる利得をもたらすか。
主な発見
- ReCoは標準ベンチマークでのゼロショット転送において従来の無監督セグメンテーション手法を上回る。
- 推論時にDenseCLIPを取り入れることで、セグメンテーション品質に大幅な向上をもたらす。
- 言語ガイド付き共セグメンテーションとコンテキスト除去がさらに性能を向上させる。
- ReCo+は無監督適応下で強力な結果を達成し、特にCityscapesとKITTI-STEPで顕著。
- ReCoは珍しい概念(例:消火器)や珍しいアーティファクト(Antikythera機構)を共セグメントする能力を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。