QUICK REVIEW

[論文レビュー] SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Liting Lin, Heng Fan|arXiv (Cornell University)|Dec 2, 2021

Video Surveillance and Tracking Methods参考文献 37被引用数 48

ひとこと要約

SwinTrackは、Swin Transformerを用いた完全にアテンショナルな Siamese トラッカーを提案し、軽量なモーション tokenで時間的文脈を提供し、複数の追跡ベンチマークで最先端の結果を達成しつつリアルタイム速度を維持します。

ABSTRACT

Recently Transformer has been largely explored in tracking and shown state-of-the-art (SOTA) performance. However, existing efforts mainly focus on fusing and enhancing features generated by convolutional neural networks (CNNs). The potential of Transformer in representation learning remains under-explored. In this paper, we aim to further unleash the power of Transformer by proposing a simple yet efficient fully-attentional tracker, dubbed SwinTrack, within classic Siamese framework. In particular, both representation learning and feature fusion in SwinTrack leverage the Transformer architecture, enabling better feature interactions for tracking than pure CNN or hybrid CNN-Transformer frameworks. Besides, to further enhance robustness, we present a novel motion token that embeds historical target trajectory to improve tracking by providing temporal context. Our motion token is lightweight with negligible computation but brings clear gains. In our thorough experiments, SwinTrack exceeds existing approaches on multiple benchmarks. Particularly, on the challenging LaSOT, SwinTrack sets a new record with 0.713 SUC score. It also achieves SOTA results on other benchmarks. We expect SwinTrack to serve as a solid baseline for Transformer tracking and facilitate future research. Our codes and results are released at https://github.com/LitingLin/SwinTrack.

研究の動機と目的

CNNベースやハイブリッドフレームワークを超えるSiamese追跡のための、完全なTransformerベースの表現学習と融合の活用を動機づける。
歴史的なターゲット軌跡を埋め込み、時間的頑健性を得る軽量なモーション token を導入する。
Swin Transformerを基盤とする、シンプルで効率的な完全アテンショナル追跡フレームワークを開発する。
効率的な推論とともに、複数の大規模ベンチマークで高い性能を示す。

提案手法

Swin Transformerバックボーンを用いてテンプレートと検索領域の特徴を抽出する（T-tokensとS-tokens）。
テンプレートと検索トークンを結合して共同処理する、連結ベースの融合エンコーダを実装し、クロスアテンション相互作用を行う。
ターゲット軌跡の履歴をエンコードするモーション token (E_motion) を導入し、クロスアテンションベースのデコーダに統合して視覚-運動表現を生成する。
IoU認識分類損失（varifocal loss）と回帰のための一般化IoU lossを用いたヘッドを採用し、推論時にはHanning window後処理を行う。
LaSOT、TrackingNet、GOT-10k、COCOで学習し、AdamWと慎重な学習率スケジューリングで訓練を安定化させる。

実験結果

リサーチクエスチョン

RQ1完全なアテンショナル（Transformerベース）のトラッカーは、Siamese追跡における表現学習と特徴融合で、CNNベースおよびハイブリッドのトラッカーを上回ることができるか？
RQ2歴史的軌跡をエンコードするモーション token の導入は、混乱要因への頑健性と時間的一貫性を改善するか？
RQ3Swin Transformerバックボーンを用いた単純な連結ベースの融合で、多様なベンチマークで最先端の結果を達成できるか？
RQ4アーキテクチャの選択（位置エンコーディング、損失関数、デコーダ戦略）が追跡性能と効率に与える影響は？

主な発見

SwinTrack-T-224はLaSOTで0.672 SUCを達成し、約98 fps、他のTransformerトラッカーに匹敵。
SwinTrack-B-384はLaSOTで0.713 SUCを記録し、LaSOT_ext、TrackingNet、GOT-10k、TNL2kで強力な結果を達成。
モーション token は、LaSOT_ext および GOT-10k を中心にデータセット全体で性能を大幅に向上させ、モーション-token を有効にしたバリアントはモーション token なしと比べて上回る。
軽量なモーション token は計算量がほとんど増えず頑健性を提供し、アブレーションは、埋め込みベースの軌跡表現が単純な学習可能トークンより効果的であることを示す。
Resnetバックボーンと比べて、Swin TransformerバックボーンはSUCスコアを大幅に向上させ、連結ベースの融合はこの設定でクロスアテンションベースの融合より優れている。
SwinTrackは競争力のある速度を維持しつつ（軽量版は最大98 fps）、複数のベンチマークで最先端の精度を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。