[論文レビュー] Segment Anything Meets Point Tracking
SAM-PT は Segment Anything Model (SAM) を長期ポイント追跡と組み合わせ、疎なクエリポイントを用いたゼロショットのインタラクティブ動画セグメンテーションを実現。訓練中に動画データを使わずに、複数の VOS/VIS ベンチマークで高い成果を達成。
The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, enabled by efficient point-centric annotation and prompt-based models. While click and brush interactions are both well explored in interactive image segmentation, the existing methods on videos focus on mask annotation and propagation. This paper presents SAM-PT, a novel method for point-centric interactive video segmentation, empowered by SAM and long-term point tracking. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. Our experiments on popular video object segmentation and multi-object segmentation tracking benchmarks, including DAVIS, YouTube-VOS, and BDD100K, suggest that a point-based segmentation tracker yields better zero-shot performance and efficient interactions. We release our code that integrates different point trackers and video segmentation benchmarks at https://github.com/SysCV/sam-pt.
研究の動機と目的
- SAM を基盤とした画像セグメンテーションモデルを活用し、疎なポイントプロンプトでゼロショットのインタラクティブ動画セグメンテーションを推進する。
- クエリポイントを動画フレーム間で追跡してセグメンテーションを導く、ポイント中心の伝播フレームワークを開発する。
- 長い動画シーケンス全体で精度を維持するためのマスクの精練と時折の再初期化を可能にする。
- 半教師あり、オープンワールド、完全にインタラクティブな VOS および VIS 設定で SAM-PT を diverse benchmarks で評価する。
- 実用的なインタラクティブ注釈の利点と、動画訓練データなしのゼロショット一般化を強調する。
提案手法
- SAM を長期ポイントトラッカー(例: PIPS,CoTracker)で拡張し、正のクエリポイントと負のクエリポイントをフレーム間に伝播させる。
- 最初のフレームから K-Medoids、Shi-Tomasi、ランダムまたは混合サンプリングなどの手法を用いて初期の正のポイントと負のポイントをサンプリングする;アブレーションで各オブジェクトにつき 8 個の正のポイントが推奨される。
- フレームごとに2回のパスで SAM にプロンプトする:最初は正のポイントのみでオブジェクトを局在化し、次に正のポイントと負のポイントの両方と前のマスクを用いて精練する。
- ハリゾンごとに(h = 8 フレーム)最新の予測マスクから新しいポイントをサンプリングしてクエリポイントを再初期化し、追跡誤差や遮蔽からの回復を図る。
実験結果
リサーチクエスチョン
- RQ1疎なポイント伝播と SAM を組み合わせることで、動画セグメンテーションのトレーニングデータなしで競争力のあるゼロショット動画セグメンテーションを達成できるか?
- RQ2さまざまなポイントサンプリング戦略とトラッカーが、標準ベンチマークにおけるゼロショット VOS の性能にどう影響するか?
- RQ3正負のポイントを用いた二パスの SAM プロンプト方式は、動画フレームのマスク品質を改善するか?
- RQ4長いシーケンスや遮蔽のような難しいシナリオにおけるポイントの再初期化の影響は何か?
主な発見
| 手法 | 動画マスク | ゼロショット | フレーム初期化 | 伝播 | DAVIS 2016 | DAVIS 2017 | YTVOS 2018 |
|---|---|---|---|---|---|---|---|
| SAM-PT (ours) | - | ✓ | Points | Points Prompting | 84.3 | 79.4 | 76.2 |
- SAM-PT は DAVIS 2017 (J&F = 79.4) および DAVIS 2016 (84.3) でゼロショット VOS の最先端性能を達成。
- YouTube-VOS 2018 では、他手法中で最高のゼロショットスコアを達成し、J&F = 76.2。
- SAM-PT はいくつかのゼロショットベースラインを上回り、UVO のいくつかの完全監視型 VIS 手法にも勝る。
- アブレーションにより、オブジェクトごとに8個の正のポイントが1個と比較して性能を大幅に向上させ、負のポイントの追加と反復的な精練により結果がさらに改善されることが示された。
- 8 フレームごとにポイントを再初期化し、更新されたマスクからサンプリングすることで、トラッカーの誤りや遮蔽からの回復を助け、データセット全体での堅牢性を向上させる。
- SAM-PT はデータセットを横断した強い汎化性能を示し、ゼロショットまたはインタラクティブ設定で DAVIS、YouTube-VOS、MOSE、BDDD100K で良好な性能を発揮。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。