QUICK REVIEW

[論文レビュー] Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking

Xin Chen, Kang, Ben|arXiv (Cornell University)|Apr 27, 2023

Video Surveillance and Tracking Methods被引用数 16

ひとこと要約

SeqTrackは視覚追跡を自回帰的なシーケンス生成タスクとして扱い、単純な encoder-decoder トランスフォーマーを用いることで複雑なヘッドや損失を排除する；複数のベンチマークで最先端の結果を達成する。

ABSTRACT

In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.

研究の動機と目的

単純で統一された追跡フレームワークを、多頭分類/回帰や複雑な損失関数なしで動機づける。
bounding-box トークンを自回帰的に生成するシーケンス-to-シーケンスの定式化を提案する。
プレーンな encoder-decoder トランスフォーマーが最先端の追跡性能に匹敵する、またはそれを超えることができることを示す。
テンプレート検索の特徴抽出とトークンベースの境界ボックス出力を共同で利用する利点を探る。

提案手法

境界ボックスを [x, y, w, h] を表す離散トークン列へ変換する。
ViT ベースのエンコーダを用いてテンプレートと検索領域の特徴を結合して抽出する。
因果トランスフォーマーのデコーダを用いて境界ボックス・トークン列を自回帰的に生成する。
入力フレームに条件付けしたトークン列上のクロスエントロピー損失で訓練する。
4つの境界ボックス・トークンが生成されるまでトークンを自動生成して推論する。
推論時にはオンラインテンプレート更新やウィンドウペナルティを事前情報として統合することも可能。

実験結果

リサーチクエスチョン

RQ1専門のヘッドを用いずに視覚追跡をシーケンス生成問題として効果的に定式化できるか？
RQ2 plain encoder–decoder トランスフォーマーはベ benchmark 全体で競争力ある、または最先端の追跡性能を達成できるか？
RQ3エンコーダ入力設計（ jointly 用のテンプレート-検索 vs 別個の設計）と境界ボックス・トークン順序が性能に与える影響は？
RQ4オンラインテンプレート更新とウィンドウペナルティは SeqTrack フレームワーク内で実質的な利得をもたらすか？

主な発見

Method	LaSOT AUC	LaSOT P Norm	LaSOT P	LaSOT ext AUC	LaSOT ext P Norm	LaSOT ext P	TrackingNet AUC	TrackingNet P Norm	TrackingNet P	GOT-10k AO	GOT-10k SR 0.5	GOT-10k SR 0.75
SeqTrack-L384	72.5	81.5	79.3	50.7	61.6	57.5	85.5	89.8	85.8	74.8	81.9	72.2
SeqTrack-L256	72.1	81.7	79.0	50.5	61.5	57.2	85.0	89.5	84.9	74.5	83.2	72.0
SeqTrack-B384	71.5	81.1	77.8	50.5	61.6	57.5	83.9	88.8	83.6	74.5	84.3	71.4
SeqTrack-B256	69.9	79.7	76.3	49.5	60.8	56.3	83.3	88.3	82.2	74.7	84.7	71.8

SeqTrack 系は主要なベンチマーク（LaSOT、TrackingNet、GOT-10k）で競争力のある、あるいは最先端に近い結果を達成。
SeqTrack-L384 は aligned 設定下で LaSOT 72.5% AUC、GOT-10k 74.8% AO を達成し、いくつかの強力なベースラインを上回る。
SeqTrack-B256 with ViT-B エンコーダは GOT-10k で 74.7% AUC、LaSOT AUC 72.1 を達成し、他の競合よりも高速な場合がある。
SeqTrack-L384 は LaSOT における AUC で従来の最高追跡器を 1.2% 上回り、変形や背景雑音といった属性処理の堅牢性を示す。
自回帰的シーケンス生成と因果マスキングが重要で、双方向のトークン予測は自回帰生成と比較して性能を低下させる。
テンプレートと検索特徴をエンコーダで jointly 処理する方が separate なエンコーダより良い結果を生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。