QUICK REVIEW

[論文レビュー] Deformable Siamese Attention Networks for Visual Object Tracking

Yuechen Yu, Yilei Xiong|arXiv (Cornell University)|Apr 14, 2020

Video Surveillance and Tracking Methods参考文献 44被引用数 25

ひとこと要約

本論文では、自己注意とクロス注意をシアンズアーキテクチャ内で統合的にモデル化することで、視覚的オブジェクト追跡を向上させる可変的シアンズ注意ネットワーク、SiamAttnを提案する。自己注意により空間的およびチャネル別コンテキストを学習し、テンプレートとサーチ特徴間の相互依存性をクロス注意で集約することで、識別性の高い特徴表現を向上させ、6つのベンチマークでリアルタイム推論を実現しながら最先端の性能を達成する。

ABSTRACT

Siamese-based trackers have achieved excellent performance on visual object tracking. However, the target template is not updated online, and the features of the target template and search image are computed independently in a Siamese architecture. In this paper, we propose Deformable Siamese Attention Networks, referred to as SiamAttn, by introducing a new Siamese attention mechanism that computes deformable self-attention and cross-attention. The self attention learns strong context information via spatial attention, and selectively emphasizes interdependent channel-wise features with channel attention. The cross-attention is capable of aggregating rich contextual inter-dependencies between the target template and the search image, providing an implicit manner to adaptively update the target template. In addition, we design a region refinement module that computes depth-wise cross correlations between the attentional features for more accurate tracking. We conduct experiments on six benchmarks, where our method achieves new state of-the-art results, outperforming the strong baseline, SiamRPN++ [24], by 0.464->0.537 and 0.415->0.470 EAO on VOT 2016 and 2018. Our code is available at: https://github.com/msight-tech/research-siamattn.

研究の動機と目的

固定されたターゲットテンプレートの制限を解消し、外見の変化や隠蔽に適応できない問題に対処する。
複雑な背景や干渉要因からのコンテキスト情報を統合することで、特徴の識別性を向上させる。
標準的なシアンズネットワークにおける独立的特徴抽出を克服し、テンプレート特徴とサーチ特徴間のクロス注意を可能にする。
困難なベンチマークで顕著な追跡精度向上を達成しながらも、リアルタイム推論速度を維持する。
深層畳み込みによるクロス相関を用いて注意特徴を精錬する領域精錬モジュールを設計する。

提案手法

可変的自己注意（空間的およびチャネル別）とテンプレートとサーチ特徴間のクロス注意を統合した新規なシアンズ注意メカニズムを導入する。
空間的に変化する特徴をより良く捉え、特徴の整合性を向上させるために、可変的畳み込みおよびプーリング層を適用する。
注意強化特徴上での深層畳み込みによるクロス相関を計算することで、境界ボックスおよびマスク予測を精錬する領域精錬モジュールを実装する。
LaSOT、TrackingNet、COCO、YouTube-VOSなど、マスクアノテーションを含む大規模な動画データセットを用いて、ネットワークをエンドツーエンドで訓練する。
リアルタイム推論速度を保証するため、バックボーンネットワークにResNet-50を採用する（OTB-2015では45 fps、VOTでは回転ボックスを含めて33 fps）。
クロス注意を活用し、サーチ画像からのコンテキスト的依存性を集約することで、ターゲットテンプレートを暗黙的に更新し、耐障害性と識別性を向上させる。

実験結果

リサーチクエスチョン

RQ1独立的特徴抽出と比較して、シアンズネットワーク内で自己注意とクロス注意を統合することで、視覚的オブジェクト追跡のための特徴表現が向上するか？
RQ2クロス注意による背景コンテキストの統合は、干渉要因や複雑な背景に対して識別性をどのように向上させるか？
RQ3深層畳み込みによるクロス相関を用いた領域精錬モジュールは、局所化精度をどの程度向上させるか？
RQ4提案された可変的注意メカニズムは、最先端の結果を達成しながらもリアルタイム性能を維持できるか？
RQ5本手法は、隠蔽、変形、背景のごみの度合いが異なる多様なベンチマークに対して、どの程度頑健か？

主な発見

VOT 2016では、EAOが0.537という新たな最先端記録を達成し、SiamRPN++の0.464から0.073向上した。
VOT 2018では、EAOが0.470を記録し、SiamRPN++の0.415から0.055向上した。
アブレーションスタディにより、クロス注意が自己注意よりも顕著に寄与しており、ベースライン比でEAOが+4.9%向上した。
領域精錬モジュール単体でも、ベースライン比でEAOが+2.2%向上し、両方の注意メカニズムと組み合わせることで最高の性能が得られた。
可変的レイヤーがなくても、モデルは強力な性能（EAO = 0.516）を維持しており、注意モジュールと精錬モジュールが主な向上要因であることが示された。
OTB-2015では45 fps、VOTベンチマークでは33 fpsで実行され、高精度を維持しながらリアルタイム推論能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。