QUICK REVIEW

[論文レビュー] Semantic-SAM: Segment and Recognize Anything at Any Granularity

Feng Li, Hao Zhang|arXiv (Cornell University)|Jul 10, 2023

Advanced Neural Network Applications被引用数 51

ひとこと要約

Semantic-SAMは、意味論的に認識可能な出力を備え、複数の粒度でオブジェクトをセグメント・認識できる普遍的なセグメンテーションモデルであり、オープンボキャブラリと多粒度セグメンテーションを実現するために7つのデータセットで共同学習されています。多対多のマッチングとオブジェクト/パート分類の分離により、意味認識と粒度の豊富さを達成します。

ABSTRACT

In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.

研究の動機と目的

意味認識と粒度の豊富さを備えた普遍的なセグメンテーションモデルを構築することを目指す。
複数のデータセットから意味論レベルと粒度レベルをまたぐ学習データを統合する。
多対多のマッチング方式を用いて、1回のクリックから複数粒度の出力を可能にする。
オブジェクトとパートの概念を分離し、パートの知識をオブジェクト間で転送できるようにする。
SA-1Bとの共同学習を通じて、パンオプティックおよびパートセグメンテーションの改善を実証する。

提案手法

クエリベースのマスクデコーダを用いて多粒度マスクを生成する。
各ユーザクリックを、異なる粒度レベルに対応する複数のクエリ（K=6）で表現する。
ポイント/ボックスプロンプトをアンカーボックスに変換し、それらを位置埋め込みとともに変形可能デコーダに入力する。
1クリックあたりの複数の予測マスクを複数のグラウンドトゥーマスクと整列させるために多対多のハンガリーマッチングを用いる。
共通のテキストエンコーダを用いてオブジェクトとパートの分類を分離し、データセット間でのオブジェクト/パートの共同セグメンテーションを可能にする。
SA-1B、COCOパンオプティック、ADE20kパンオプティック、Pascal Part、PACO、PartImageNet、Objects365の7データセットで訓練し、目的に合わせてデータ形式を再編成する。

実験結果

リサーチクエスチョン

RQ1オープンボキャブラリを用いて、多様なデータセット全体で複数の粒度でセグメント化・認識できる単一モデルは実現できるか？
RQ2意味論と粒度豊富なデータの共同訓練は、汎用セグメンテーションと細粒度パートセグメンテーションの両方を改善するか？
RQ3多対多マッチング戦略は、単一クリックからの多粒度出力を改善するか？
RQ4分離されたオブジェクト/パート分類は、パート概念のオブジェクト間の知識伝達を効果的に可能にするか？
RQ5SA-1Bおよび他のセグメンテーションデータがパンオプティックおよびパートセグメンテーション課題に与える影響は何か？

主な発見

Semantic-SAMは、7つのデータセットの共同訓練により意味認識と粒度の豊富さを実現する。
SA-1BとCOCOパンオプティックおよび他データの結合は、対話的セグメンテーションにおいてボックスAP(+2.3)とマスクAP(+1.2)の改善をもたらす。
クリックごとの多粒度出力は、SAMなどの従来手法より豊かで高品質であり、1-IoU@All Granularityがより良い。
多対多マッチングは、多対一マッチングと比較して1-IoU@All Granularityスコアを大幅に改善する。
SA-1Bデータでの訓練は、COCO評価における小物体の性能（APs、APm）を特に改善する。
Semantic-SAMは、一般的およびパートセグメンテーションタスク全般でオープンボキャブラリと多粒度機能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。