[論文レビュー] Semantic-SAM: Segment and Recognize Anything at Any Granularity
Semantic-SAMは、意味論的に認識可能な出力を備え、複数の粒度でオブジェクトをセグメント・認識できる普遍的なセグメンテーションモデルであり、オープンボキャブラリと多粒度セグメンテーションを実現するために7つのデータセットで共同学習されています。多対多のマッチングとオブジェクト/パート分類の分離により、意味認識と粒度の豊富さを達成します。
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.
研究の動機と目的
- 意味認識と粒度の豊富さを備えた普遍的なセグメンテーションモデルを構築することを目指す。
- 複数のデータセットから意味論レベルと粒度レベルをまたぐ学習データを統合する。
- 多対多のマッチング方式を用いて、1回のクリックから複数粒度の出力を可能にする。
- オブジェクトとパートの概念を分離し、パートの知識をオブジェクト間で転送できるようにする。
- SA-1Bとの共同学習を通じて、パンオプティックおよびパートセグメンテーションの改善を実証する。
提案手法
- クエリベースのマスクデコーダを用いて多粒度マスクを生成する。
- 各ユーザクリックを、異なる粒度レベルに対応する複数のクエリ(K=6)で表現する。
- ポイント/ボックスプロンプトをアンカーボックスに変換し、それらを位置埋め込みとともに変形可能デコーダに入力する。
- 1クリックあたりの複数の予測マスクを複数のグラウンドトゥーマスクと整列させるために多対多のハンガリーマッチングを用いる。
- 共通のテキストエンコーダを用いてオブジェクトとパートの分類を分離し、データセット間でのオブジェクト/パートの共同セグメンテーションを可能にする。
- SA-1B、COCOパンオプティック、ADE20kパンオプティック、Pascal Part、PACO、PartImageNet、Objects365の7データセットで訓練し、目的に合わせてデータ形式を再編成する。
実験結果
リサーチクエスチョン
- RQ1オープンボキャブラリを用いて、多様なデータセット全体で複数の粒度でセグメント化・認識できる単一モデルは実現できるか?
- RQ2意味論と粒度豊富なデータの共同訓練は、汎用セグメンテーションと細粒度パートセグメンテーションの両方を改善するか?
- RQ3多対多マッチング戦略は、単一クリックからの多粒度出力を改善するか?
- RQ4分離されたオブジェクト/パート分類は、パート概念のオブジェクト間の知識伝達を効果的に可能にするか?
- RQ5SA-1Bおよび他のセグメンテーションデータがパンオプティックおよびパートセグメンテーション課題に与える影響は何か?
主な発見
- Semantic-SAMは、7つのデータセットの共同訓練により意味認識と粒度の豊富さを実現する。
- SA-1BとCOCOパンオプティックおよび他データの結合は、対話的セグメンテーションにおいてボックスAP(+2.3)とマスクAP(+1.2)の改善をもたらす。
- クリックごとの多粒度出力は、SAMなどの従来手法より豊かで高品質であり、1-IoU@All Granularityがより良い。
- 多対多マッチングは、多対一マッチングと比較して1-IoU@All Granularityスコアを大幅に改善する。
- SA-1Bデータでの訓練は、COCO評価における小物体の性能(APs、APm)を特に改善する。
- Semantic-SAMは、一般的およびパートセグメンテーションタスク全般でオープンボキャブラリと多粒度機能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。