[論文レビュー] Segment and Track Anything
SAM-Trackは、SAM、DeAOT、Grounding-DINOを組み合わせることで、フレーム間で複数の物体を対話的マルチモーダルおよび自動追跡をサポートするよう、ビデオのセグメンテーションと追跡を統合します。
This report presents a framework called Segment And Track Anything (SAMTrack) that allows users to precisely and effectively segment and track any object in a video. Additionally, SAM-Track employs multimodal interaction methods that enable users to select multiple objects in videos for tracking, corresponding to their specific requirements. These interaction methods comprise click, stroke, and text, each possessing unique benefits and capable of being employed in combination. As a result, SAM-Track can be used across an array of fields, ranging from drone technology, autonomous driving, medical imaging, augmented reality, to biological analysis. SAM-Track amalgamates Segment Anything Model (SAM), an interactive key-frame segmentation model, with our proposed AOT-based tracking model (DeAOT), which secured 1st place in four tracks of the VOT 2022 challenge, to facilitate object tracking in video. In addition, SAM-Track incorporates Grounding-DINO, which enables the framework to support text-based interaction. We have demonstrated the remarkable capabilities of SAM-Track on DAVIS-2016 Val (92.0%), DAVIS-2017 Test (79.2%)and its practicability in diverse applications. The project page is available at: https://github.com/z-x-yang/Segment-and-Track-Anything.
研究の動機と目的
- ビデオセグメンテーションのための統一フレームワークを提供し、複数の対話モードとフレーム間の物体追跡を処理する。
- SAMを用いた対話的キーフレームセグメンテーションと、DeAOTを用いた高速な多-object追跡を活用する。
- Grounding-DINOを組み込み、自然言語ベースの物体選択とオープンセット検出を可能にする。
- 対話的および自動の2つの追跡モードと、現実世界の柔軟な利用ケースに対応する融合モードを有効にする。
提案手法
- SAMとDeAOTを統合し、マルチオブジェクト設定においてフレーム間でセグメンテーションとIDを伝播する。
- Grounding-DINOを使用して言語駆動の物体プロンプトを提供し、セグメンテーションの境界ボックスを取得する。
- 自動モードで新しい物体を初期化・検出するためにSegment EverythingとObject of Interest Segmentationを導入する。
- CMR(Comparing Mask Results)メカニズムを定義し、真に新しい物体を検出し、追跡中のID衝突を回避する。
- 対話的および自動追跡モードを組み合わせる融合追跡モードを提供する。
- DAVIS-2016-ValおよびDAVIS-2017-Testで、定量的に最先端手法と比較して評価する。
実験結果
リサーチクエスチョン
- RQ1SAM-Trackは対話的なプロンプトの下でビデオ内の任意の物体を高い精度で追跡・セグメンテーションできるか。
- RQ2DeAOTを用いたフレーム間の時間的一貫性を持つマルチオブジェクト追跡はどのように機能するか。
- RQ3Grounding-DINOはこのセグメンテーション-追跡パイプラインで効果的な言語ベースの物体選択を可能にするか。
- RQ4自動モードは後から登場する新しい物体を既存のIDを乱さずに検出・取り込むことができるか。
- RQ5標準ベンチマークで既存のVOS手法に対する比較的利益はどれくらいか。
主な発見
| 手法 | 初期化 | 平均 | J | F | 平均 | J | F |
|---|---|---|---|---|---|---|---|
| CFBI | Mask | 89.4 | 88.3 | 90.5 | 75.6 | 71.6 | 79.6 |
| CFBI+ | Mask | 89.9 | 88.7 | 91.1 | 78.0 | 74.4 | 81.6 |
| MiVOS | Scribble | 91.0 | 89.6 | 92.4 | 78.6 | 74.9 | 82.2 |
| STCN | Mask | 91.6 | 90.8 | 92.5 | 76.1 | 72.7 | 79.6 |
| R50-AOT-L | Mask | 91.1 | 90.1 | 92.1 | 79.6 | 75.9 | 83.3 |
| XMem | Mask | 92.0 | 90.7 | 93.2 | 81.2 | 77.6 | 84.7 |
| R50-DeAOT-L | Mask | 92.3 | 90.5 | 94.0 | 80.7 | 76.9 | 84.5 |
| SwinB-DeAOT-L | Mask | 92.9 | 91.1 | 94.7 | 82.8 | 78.9 | 86.7 |
| SAM-Track(Ours) | Click | 92.0 | 90.3 | 93.6 | 79.2 | 75.3 | 83.1 |
- SAM-TrackはDAVIS-2016-Valで92.0の平均、90.3のJ、93.6のFを、対話的クリックを用いて達成した。
- DAVIS-2017-Testでは同様の設定で79.2の平均、75.3のJ、83.1のFを記録。
- 本手法は複数のベースラインを上回り、マルチオブジェクト追跡タスクで最近のDeAOTベースの変種と同等か上回る。
- 対話的および自動の2つの柔軟な追跡モードと融合モードにより、スポーツ分析、医用画像、自動運転などの分野での適用性が広がる。
- Grounding-DINOの統合により自然言語プロンプトで物体選択を導くことが可能となり、オープンセット検出能力が拡大する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。