[論文レビュー] Deeper and Wider Siamese Networks for Real-Time Visual Tracking
本論文は、パディングによる位置バイアスを除去する cropping-inside residual (CIR) ユニットを導入し、SiamFCとSiamRPNのためのより深く・より広いSiameseバックボーン(CIResNetファミリー、CIResInception、CIResNeXt)を構築し、リアルタイム速度を保ちながら精度を大幅に向上させる。
Siamese networks have drawn great attention in visual tracking because of their balanced accuracy and speed. However, the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet [18], which does not fully take advantage of the capability of modern deep neural networks. In this paper, we investigate how to leverage deeper and wider convolutional neural networks to enhance tracking robustness and accuracy. We observe that direct replacement of backbones with existing powerful architectures, such as ResNet [14] and Inception [33], does not bring improvements. The main reasons are that 1)large increases in the receptive field of neurons lead to reduced feature discriminability and localization precision; and 2) the network padding for convolutions induces a positional bias in learning. To address these issues, we propose new residual modules to eliminate the negative impact of padding, and further design new architectures using these modules with controlled receptive field size and network stride. The designed architectures are lightweight and guarantee real-time tracking speed when applied to SiamFC [2] and SiamRPN [20]. Experiments show that solely due to the proposed network architectures, our SiamFC+ and SiamRPN+ obtain up to 9.8%/5.7% (AUC), 23.3%/8.8% (EAO) and 24.4%/25.0% (EAO) relative improvements over the original versions [2, 20] on the OTB-15, VOT-16 and VOT-17 datasets, respectively.
研究の動機と目的
- バックボーンの深さと幅がSiameseトラッカーの性能にどう影響するかを分析する。
- より深いネットワークを用いた際に性能低下を引き起こす要因を特定する。
- パディングによる位置バイアスを取り除く残差モジュールを提案する。
- 受容野とストライドを制御した上で、より深く・広い CIR ベースのバックボーンを設計する。
- 標準ベンチマークで改善された精度とリアルタイム追跡性能を示す。
提案手法
- 残差和の後にパディング影響を受けた特徴を切り取る cropping-inside residual (CIR) ユニットを導入する。
- SiamFCとSiamRPNでパディングを含むバックボーンを CIR ベースのバックボーン(CIResNet、CIResInception、CIResNeXt)に置換する。
- 受容野サイズとネットワークストライドを制御して、エクザンプルサイズに対するRF比を60-80%に維持する。
- CIR ユニットを用いて、局所化の精度と特徴表現の豊富さを両立させるべく、より深く・広いネットワークを構築する。
- ImageNet事前学習でトレーニングし、段階的なアンフリーズでSiamFC/SiamRPNフレームワークに微調整を行う。
- 標準追跡ベンチマーク(OTB、VOT)で評価し、AlexNetをベースラインとした手法や最先端トラッカーと比較する。
実験結果
リサーチクエスチョン
- RQ1深さ、幅、受容野、ストライド、そしてパディングがSiamese追跡の精度と局在化にどう影響するか?
- RQ2パディングによる位置バイアスがSiamese追跡の劣化をもたらすか、そしてそれをどう緩和できるか?
- RQ3CIRベースのより深いまたはより広いバックボーンは、リアルタイム速度を維持しつつSiamFC、SiamRPNの精度を改善するか?
- RQ4Siamese特徴埋め込みの堅牢性と識別性を最大化する設計指針は何か?
主な発見
- 深いバックボーンを用いる場合、Siameseトラッカーはより小さなストライド(4または8)から恩恵を受ける。
- 最後の層ニューロンの最適な受容野は標本サイズの約60-80%で、最大RFは標本を超えてはいけない。
- 全結合畳み込みSiameseネットワークにおけるパディングは位置バイアスを生み出し、画像端近くの局在化を劣化させる。
- CIRユニット(およびその広い派生 CIR-Inception、CIR-NeXt)はパディングの影響を受けた特徴を除去し、識別性を向上させ、AlexNetベースラインより大幅な利得をもたらす。
- CIResNet-22は顕著な利得をもたらし:OTB-15で最大+9.8%(AUC)、VOT-17で+23.3%(EAO)(SiamRPN/SiamFC変種)を達成、リアルタイム速度(設定によって約70〜150 FPS)。
- SiamFC+およびSiamRPN+(CIResNet-22使用)はOTB-2015およびVOT-17で従来のSiameseトラッカーを上回り、SiamRPN+は GTX 1080で約150 FPSを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。