QUICK REVIEW

[論文レビュー] SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

Bo Li, Wei Wu|arXiv (Cornell University)|Dec 31, 2018

Video Surveillance and Tracking Methods参考文献 49被引用数 139

ひとこと要約

SiamRPN++ は ResNet をバックボーンとする深い Siamese トラッカーを空間認識サンプリングを用いて翻訳不変性を回復させ、層ごとの特徴統合と深さ方向のクロス相関を組み合わせることで、主要ベンチマークで最先端の追跡性能をリアルタイムスピードで達成します。

ABSTRACT

Siamese network based trackers formulate tracking as convolutional feature cross-correlation between target template and searching region. However, Siamese trackers still have accuracy gap compared with state-of-the-art algorithms and they cannot take advantage of feature from deep networks, such as ResNet-50 or deeper. In this work we prove the core reason comes from the lack of strict translation invariance. By comprehensive theoretical analysis and experimental validations, we break this restriction through a simple yet effective spatial aware sampling strategy and successfully train a ResNet-driven Siamese tracker with significant performance gain. Moreover, we propose a new model architecture to perform depth-wise and layer-wise aggregations, which not only further improves the accuracy but also reduces the model size. We conduct extensive ablation studies to demonstrate the effectiveness of the proposed tracker, which obtains currently the best results on four large tracking benchmarks, including OTB2015, VOT2018, UAV123, and LaSOT. Our model will be released to facilitate further studies based on this problem.

研究の動機と目的

深いバックボーンを可能にすることで、Siamese トラッカーと最先端トラッカー間の精度ギャップを埋めることを動機付ける。
深い Siamese アーキテクチャが直面する課題（翻訳不変性）を特定し、解決策を提案する。
精度と効率を向上させる深い特徴を備えたエンドツーエンドで学習可能な Siamese トラッカーを開発する。
追跡のために多層表現を活用する層ごとの特徴統合を提案する。
パラメータ削減とトレーニングの安定化のため、軽量なクロス相関機構を導入する。

提案手法

Siamese トラッキングにおける厳密な翻訳不変性を分析し、パディングによるバイアスを示す。
空間認識サンプリングを用いて、ResNet ベースの Siamese トラッカーをエンドツーエンドで訓練する。
密な予測のため、ストライド調整と膨張畳み込みを備えたResNet-50バックボーンを採用する。
conv3, conv4, conv5 からの特徴を重み付き融合で結合する層ごとの集約を導入する。
パラメータのバランスとマルチチャネルの類似マップを可能にする深さ方向クロス相関 (DW-XCorr) を提案する。

実験結果

リサーチクエスチョン

RQ1適切なデータサンプリングでエンドツーエンドに訓練した場合、深いネットワーク（例：ResNet）は Siamese 視覚トラッキングを改善できるか？
RQ2深いバックボーンでパディングを使用する際、翻訳不変性をどのように維持または補償できるか？
RQ3層ごとの集約（多層特徴の結合）は、追跡の局所化と意味表現を改善するか？
RQ4深さ方向クロス相関アプローチは、パラメータを削減しつつ追跡精度を維持または向上させるか？

主な発見

空間認識サンプリングでの訓練により、ResNet ベースの Siamese トラッキングが大幅な性能向上を実現。
conv3–conv5 に跨る層ごとの特徴統合は、多層表現を活用して精度と頑健性を向上させる。
深さ方向クロス相関はパラメータを削減し、トレーニングを安定させつつ、効果的なマルチチャネル類似マップを生成する。
SiamRPN++ は OTB2015、VOT2018、UAV123、LaSOT、TrackingNet のデータセットで最先端の成果を達成している。
軽量バックボーンを用いたモバイル版は、精度を大きく犠牲にすることなく競争力のある速度（最大70 FPS）を達成する。
ResNet-50 を用いて実時間リアルで 35 FPS で動作し、多様なベンチマークで強力な性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。