QUICK REVIEW

[論文レビュー] Personalize Segment Anything Model with One Shot

Renrui Zhang, Zhengkai Jiang|arXiv (Cornell University)|May 4, 2023

Visual Attention and Saliency Detection被引用数 65

ひとこと要約

PerSAM は SAM のトレーニング不要のワンショット個人化を正例–負例の位置 pri or とターゲット意味論を使用して提供; PerSAM-F は改善されたセグメンテーションのためのスケール認識のファインチューニングを二つの学習可能ウェイトで追加、最先端の個人化オブジェクトセグメンテーションを達成し、DreamBooth を支援。

ABSTRACT

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM

研究の動機と目的

ユーザー指定の視覚概念を手動プロンプトなしで個別セグメンテーションを動機付け。
SAM に高レベルなターゲット意味論を個人化マスクへ注入するトレーニング不要の機構を開発。
マスクスケールの曖昧さを解決する軽量なスケール認識ファインチューニング variante (PerSAM-F) を導入。
PerSeg データセットを作成し、個人化オブジェクトセグメンテーションを評価。
ワンショットビデオ/意味論/パートセグメンテーションへの適用性を示し、個人化画像合成の DreamBooth を支援。

提案手法

参照画像とテスト画像からの特徴を用いて、テスト画像のターゲットの位置信頼度マップを計算。
信頼度マップから正–負の位置 pri を抽出して SAM にプロンプトを与える。
Target-guided Attention を適用し、位置マップを介して全てのクロスアテンション層を前景領域へ偏らせる。
Target-semantic Prompting を適用し、グローバルなターゲット埋め込みを全 Decoder 入力トークンに追加。
軽量デコーダプロンプトでマスク品質を反復的に改善するカスケード後処理を実行。
PerSAM-F の場合、SAM を凍結し、三段階スケールの SAM 出力を最終のスケール認識マスクへ結合する2つのマスクウェイトを学習（2つの学習可能パラメータ、A100で10秒）。
任意で PerSAM を使って DreamBooth を改善し、拡散モデルのファインチューニング時に背景領域をマスキング。

実験結果

リサーチクエスチョン

RQ1SAM をわずか1つの参照画像と粗いマスクから特定のオブジェクトに対して個人化できるか。
RQ2再トレーニングなしで高レベルのターゲット意味論を効率的に SAM に注入するには？
RQ3ワンショットデータのみが利用可能な場合、軽量なスケール認識ファインチューニング戦略はセグメンテーションを改善するか？
RQ4PerSAM は背景妨害を緩和して個人化テキスト-to-画像合成 (DreamBooth) を促進できるか？

主な発見

Method	mIoU	bIoU	Param.
PerSAM	89.3	71.7	0
PerSAM-F	95.3	77.9	2
VP	65.9	25.5	383M
SEEM*	87.1	55.7	341M
SegGPT*	94.3	76.5	354M

PerSAM は PerSeg の複数のベースラインより個人化オブジェクトセグメンテーションを大幅に改善し、トレーニング不要のプロンプトよりも顕著な向上を示した。
PerSAM-F は 2 つの学習可能パラメータだけで 2 の学習可能パラメータで、PerSeg で最良の総合性能を達成、mIoU 95.3、bIoU 77.9。
PerSAM は PerSeg ベンチマークで VP, Painter, SEEM, SegGPT のようなトレーニング不要競合を上回る。
2段階の後処理と Target-guided attention は性能向上に顕著に寄与（ refinement のみで最大 +11.4% mIoU）。
Scale-aware fine-tuning (PerSAM-F) はスケールウェイトを学習することで堅牢な改善を提供し、他のパラメータ効率的手法（Prompt, Tuning, Adapter, LoRA）を上回る。
PerSAM-assisted DreamBooth yields higher-quality personalized text-to-image synthesis by focusing training on foreground regions.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。