[論文レビュー] SiamVGG: Visual Tracking using Deeper Siamese Networks
SiamVGG は改良された VGG-16 を基盤としたより深い Siamese ネットワークを用いたリアルタイムビジュアル追跡を提案し、約50 FPS で最先端の精度を達成し、オンライン微調整なしで OTB と VOT ベンチマーク全般で強力な結果を示す。
Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG}. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16 with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.
研究の動機と目的
- 標準的なGPU上でリアルタイムに動作しつつ高精度な視覚追跡を動機付ける。
- オンライン微調整なしで識別性能を向上させるため、より深く追跡に最適化された Siamese バックボーンを活用する。
- パディングのないアーキテクチャを備えた完全畳み込みの Siamese トラッカーを設計し、スコアマップを改善する。
- リアルタイム速度を維持しつつ、OTB および VOT データセットで最先端の性能を示す。
提案手法
- 例示画像と探索画像の共有特徴抽出器として、修正された VGG-16 バックボーンを用いた完全畳み込み Siamese ネットワークを採用する。
- クロス相関出力 f(z, x) = φ(z) ∗ φ(x)(バイアス項を除去)を定義し、ターゲット位置推定のスコアマップを生成する。
- 特徴マップのノイズを避けるためにパディングを削除し、マップサイズを維持するようネットワーク深さを慎重に設定する。
- SoftMargin 損失と SGD 最適化を用いて、ILSVRC と Youtube-BB データの混合でエンドツーエンドに学習する(地上真のスコアマップ)。
- トレーニングのグラウンドトゥルースを、中心からのマンハッタン距離に基づく正/負ラベルを持つ 17×17 のスコアマップとして生成する(R 半径)。
- 探索画像に対する小さなランダムなスケールジッターによるデータ拡張を用い、回転/反転/カラー変換には依存しない。
実験結果
リサーチクエスチョン
- RQ1より深い Siamese バックボーン(SiamVGG)は、SiamFC などの従来の Siamese トラッカーをリアルタイム速度を維持したまま精度で上回ることができるのか。
- RQ2パディングを削除し VGG-16 バックボーンを使用することで、追跡の識別性とスコアマップの品質が向上するか。
- RQ3標準ベンチマーク(OTB, VOT)で、他のリアルタイム Siamese トラッカーと比べて SiamVGG の性能はどうか。
- RQ4オフライン学習で大規模分類データセット(ILSVRC)と Youtube-BB を組み合わせることが、追跡性能に与える影響は何か。
主な発見
| tracker | OTB-2013 | OTB-50 | OTB-100 |
|---|---|---|---|
| SiamFC-3s | 0.607 | 0.516 | 0.582 |
| CFNet | 0.611 | 0.530 | 0.568 |
| RASNet | 0.670 | - | 0.642 |
| SA-Siam | 0.677 | 0.610 | 0.657 |
| DSiam | 0.656 | - | - |
| SiamRPN | - | - | 0.637 |
| SiamVGG | 0.665 | 0.610 | 0.654 |
- SiamVGG は、OTB-100 (0.654 AUC) でリアルタイム Siamese トラッカー中の最先端精度を達成し、OTB-50 (0.610) および OTB-2013 (0.665) で競合的な結果を示す。
- VOT ベンチマークでは、VOT2015 (0.373) および VOT2016 (0.351) の EAO で首位、重なりの強さを維持し、VOT2017 (EAO 0.286) でも競争力のある結果。
- SiamVGG はリアルタイム性能を提供し、GTX 1080Ti で追跡タスク約50 FPS を達成;別個のリアルタイム評価では 33.15 FPS を示す。
- アブレーション研究では、VGG-16 バックボーンでのバッチ正規化を削除し、Youtube-BB データと ILSVRC を併用することで性能が大幅に向上(OTB-100 AUC が 0.637 から 0.654 に)することを示す。
- SiamFC と比較して、SiamVGG は VOT2017 のリアルタイム比較で約 51% の EAO 改善を提供しつつ、速度は同等に維持。
- OTB データセットにおける表ベースの比較(AUC):SiamVGG 0.665(OTB-2013)、0.610(OTB-50)、0.654(OTB-100)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。