Skip to main content
QUICK REVIEW

[論文レビュー] Track Anything: Segment Anything Meets Videos

Jinyu Yang, Mingqi Gao|arXiv (Cornell University)|Apr 24, 2023
Visual Attention and Saliency Detection被引用数 95
ひとこと要約

TAM は SAM と XMem を統合し、最小限のユーザー入力で高性能のワンパス対話型追跡とセグメンテーションを動画で実現します。時間的メモリと SAM ベースの改良を活用して、画像セグメンテーションの基盤を動画へ拡張します。

ABSTRACT

Recently, the Segment Anything Model (SAM) gains lots of attention rapidly due to its impressive segmentation performance on images. Regarding its strong ability on image segmentation and high interactivity with different prompts, we found that it performs poorly on consistent segmentation in videos. Therefore, in this report, we propose Track Anything Model (TAM), which achieves high-performance interactive tracking and segmentation in videos. To be detailed, given a video sequence, only with very little human participation, i.e., several clicks, people can track anything they are interested in, and get satisfactory results in one-pass inference. Without additional training, such an interactive design performs impressively on video object tracking and segmentation. All resources are available on {https://github.com/gaomingqi/Track-Anything}. We hope this work can facilitate related research.

研究の動機と目的

  • フレームごとの SAM 使用を超えた、対話的で低監視の動画追跡とセグメンテーションを促進する。
  • 時系列対応とマスクの Refinement を活用したワンパスの対話型パイプラインを開発する。
  • 複雑なシーンや長編動画を扱いながら、手動注釈の労力を削減する。

提案手法

  • クリックベースの SAM マスクでターゲットを初期化する。
  • 時空間対応を用いて XMem で後続フレームを予測する。
  • XMem の出力を SAM へのプロンプトとして投影し、SAM で XMem マスクを改善する。
  • さらに精度を向上させるために、任意で最小限の人手修正を許可する。

実験結果

リサーチクエスチョン

  • RQ1SAM enabled initialization plus memory-based tracking (XMem) を用いた少数のクリックで競合的な動画セグメンテーションを達成できるか。
  • RQ2ワンパスの対話型パイプラインは、複雑で長い動画における頑健な VOS および VOT に十分か。
  • RQ3SAM ベースの改良は時間を追ってマスク品質を維持するのにどれほど有効か。
  • RQ4最小限のユーザー修正が全体の性能に与える影響は。

主な発見

  • TAM は one-pass clicked initialization で DAVIS-2016-val J&F of 88.4 および DAVIS-2017-test-dev J&F of 73.1 を達成する競合的な性能を示す。
  • XMem は TAM が SAM のプロンプトで改良された強力な半教師あり VOS の基準を提供する。
  • SAM による改良(プローブ/アフィニティの点プロンプトとしての投影)は、XMem のみでは不十分な場合により精密な時間的マスクを生み出す。
  • 任意のユーザー修正を追加することで、難易度の高い長期動画における性能がさらに向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。