[論文レビュー] CLUSTSEG: Clustering for Universal Segmentation
ClustSeg は、トランスフォーマーベースの普遍的なセグメンテーションフレームワークを提示し、セグメンテーションを反復的クラスタリングとして再定義します。タスク固有のノンパラメトリックで再帰的なクロスアテンションを用いて、単一のアーキテクチャ内でスーパーピクセル、セマンティック、インスタンス、パンオプティックのセグメンテーションを処理します。
We present CLUSTSEG, a general, transformer-based framework that tackles different image segmentation tasks (i.e., superpixel, semantic, instance, and panoptic) through a unified neural clustering scheme. Regarding queries as cluster centers, CLUSTSEG is innovative in two aspects:1) cluster centers are initialized in heterogeneous ways so as to pointedly address task-specific demands (e.g., instance- or category-level distinctiveness), yet without modifying the architecture; and 2) pixel-cluster assignment, formalized in a cross-attention fashion, is alternated with cluster center update, yet without learning additional parameters. These innovations closely link CLUSTSEG to EM clustering and make it a transparent and powerful framework that yields superior results across the above segmentation tasks.
研究の動機と目的
- タスク固有のアーキテクチャを必要とせず、複数のセグメンテーションパラダイムを処理できる普遍的なセグメンテーションフレームワークを提案する。
- セグメンテーションをクラスタリング問題として再定義し、異なるセグメンテーションタスクを統一する。
- タスクに応じた初期化(Dreamy-Start)を導入して、タスクに応じてクラスタ中心を初期化する。
- ノンパラメトリックで再帰的なクロスアテンション機構を開発し、反復的なEM風クラスタリングを実現する。
- 主要なセグメンテーションのベンチマークで優れた性能を示す。
提案手法
- クエリをクラスタ中心として扱い、タスクに応じた意味を用いて初期化する。セマンティック/ stuffにはクラス中心のシード、インスタンス/ thing には画像由来のシード、スーパーピクセルにはグリッドベースのシード。
- 学習可能なパラメータを追加せず、クロスアテンションがクラスタ所属(Eステップ)と中心(Mステップ)を更新する、EM風の反復手法を採用する。
- 再帰的クロスアテンションを実装して、複数のEM-like反復を効率的に実行する(複雑さは O(TKHW D) 対 naive cross-attention の O(HW D))。
- セマンティック初期化にはメモリーバンク支援の Dreamy-Start を用いてグローバルなクラス統計を符号化する。インスタンス分割には画像文脈適応のシードを用い、スーパーピクセル分割にはグリッドベースのシードを用いる。
- 解像度とタスクを跨いでクラスタリングを精練するため、RCross_Attention デコーダの階層を活用する。

実験結果
リサーチクエスチョン
- RQ1Can a single transformer-based framework unify superpixel, semantic, instance, and panoptic segmentation by formulating segmentation as clustering?
- RQ2How should cluster centers be initialized to respect task-specific semantics (semantic vs. instance vs. superpixel) without changing architecture?
- RQ3Can an EM-inspired, nonparametric, recurrent cross-attention strategy efficiently converge to high-quality segmentations across tasks?
- RQ4What is the impact of Dreamy-Start initialization on segmentation performance across benchmarks?
- RQ5How does ClustSeg perform relative to task-specific and other universal segmentation models on standard datasets?
主な発見
| Algorithm | Backbone | Epoch | PQ ↑ | PQ^Th ↑ | PQ^St ↑ | AP^Th_pan ↑ | mIoU_pan ↑ |
|---|---|---|---|---|---|---|---|
| ClustSeg (ours) | ResNet-50 | 50 | 54.3 ±0.20 | 60.4 ±0.22 | 45.8 ±0.23 | 42.2 ±0.18 | 63. |
- ClustSeg achieves high segmentation performance across four core tasks, including 59.0 PQ on COCO panoptic segmentation, 49.1 AP on COCO instance segmentation, 57.4 mIoU on ADE20K semantic segmentation, and top ASA/CO on BSDS500 superpixel segmentation.
- Introduces task-aware query initialization (Dreamy-Start) that provides informative clustering seeds for different tasks without architectural changes.
- Presents a nonparametric recurrent cross-attention module that emulates EM clustering with iterative E- and M-steps, improving clustering quality without adding learnable parameters.
- Demonstrates that clustering-based segmentation within a unified transformer framework can outperform specialized and prior universal models on key benchmarks.
- Shows that the ClustSeg design yields strong results on Panoptic COCO (PQ and AP metrics) and semantic/instance/panoptic quality measures across established datasets.

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。