[論文レビュー] Segment Anything in High Quality
HQ-SAM は軽量な High-Quality Output Token とグローバル-ローカル機能融合を SAM に追加し、ほとんどオーバーヘッドなしで高品質なゼロショットセグメンテーションを実現し、44k-mask dataset で訓練される。
The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 10 diverse segmentation datasets across different downstream tasks, where 8 out of them are evaluated in a zero-shot transfer protocol. Our code and pretrained models are at https://github.com/SysCV/SAM-HQ.
研究の動機と目的
- SAM の粗い境界を超える多様なオブジェクトのマスク品質向上を促す。
- 最小限のアダプターを追加しつつ、SAM のゼロショット一般化とプロンプト可能な設計を維持する。
- コンパクトで高度にアノテーションされたデータセットでデータ効率的な訓練を実演する。
- ゼロショット設定で複数の画像・動画セグメンテーションベンチマークにおいて堅牢な性能を示す。
提案手法
- SAM のマスクデコーダへ注入された学習可能な HQ-Output Token を導入する。
- 初期層と最終的な ViT エンコーダ層およびマスク特徴量から導出された HQ-Features を融合し、詳細を向上させる。
- SAM をフリーズしたまま、HQ-Output Token、3層の MLP、および融合ブロックのみを訓練する。
- 高品質なマスク予測のために動的カーネルを生成する3層MLPを使用する。
- 最終マスクのために HQ-Output Token の予測と SAM の出力を要素ごとの和で結合する。
- データ効率的な訓練を可能にする6つのソースからなる 44k-mask dataset(HQSeg-44K)を開発する。
実験結果
リサーチクエスチョン
- RQ1HQ-SAM は SAM のゼロショット性能を損なうことなく、マスクの詳細と境界の精度を向上させることができるか。
- RQ2HQ-SAM の訓練はデータ効率的で、最小限の追加パラメータで高品質なマスクを達成できるか?
- RQ3グローバル-ローカル特徴量の融合と HQ-Output Token は、多様なデータセットとプロンプト全体で測定可能な向上をもたらすか?
- RQ4ゼロショット設定において、HQ-SAM は完全なファインチューニングやポストリファインメント手法とどう比較されるか?
主な発見
- HQ-SAM は 10 件の多様なデータセットに渡って SAM より高品質なマスクを提供し、ゼロショット機能を保持する。
- HQSeg-44K で HQ-SAM を訓練するには、8 RTX 3090 GPU でわずか 4 時間、パラメータオーバーヘッドは 0.5% 未満。
- HQ-SAM は境界に焦点を当てた指標で顕著な改善を達成(例:いくつかの細粒度データセットでの mBIoU の改善)
- 初期および最終の ViT エンコーダ特徴とマスク特徴のグローバル-ローカル融合は、SAM の特徴のみを用いる場合よりセグメンテーションの詳細を改善する。
- ファインチューニングやポストリファインメントのベースラインと比較して、HQ-SAM はより小さなパラメータ更新量でより良いゼロショット性能を提供。
- MobileSAM の小型エンコーダに基づく軽量 HQ-SAM は、控えめなオーバーヘッドで 41.2 FPS を達成し、COCO open-set 指標を改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。