Skip to main content
QUICK REVIEW

[論文レビュー] Real-Time MDNet

Ilchae Jung, Jeany Son|arXiv (Cornell University)|Aug 27, 2018
Video Surveillance and Tracking Methods参考文献 34被引用数 18
ひとこと要約

本稿では、特徴抽出の高速化と高解像度特徴マップ、および新しいドメインに依存しない対照的損失を用いることで、ほぼ同一の精度を維持しながら推論速度を約25倍高速化した、MDNet視覚追跡アルゴリズムの高速化版であるReal-Time MDNetを提案する。この手法により、データセット固有のチューニングを必要とせず、多様なオブジェクトドメインにわたる識別的特徴学習が向上する。

ABSTRACT

We present a fast and accurate visual tracking algorithm based on the multi-domain convolutional neural network (MDNet). The proposed approach accelerates feature extraction procedure and learns more discriminative models for instance classification; it enhances representation quality of target and background by maintaining a high resolution feature map with a large receptive field per activation. We also introduce a novel loss term to differentiate foreground instances across multiple domains and learn a more discriminative embedding of target objects with similar semantics. The proposed techniques are integrated into the pipeline of a well known CNN-based visual tracking algorithm, MDNet. We accomplish approximately 25 times speed-up with almost identical accuracy compared to MDNet. Our algorithm is evaluated in multiple popular tracking benchmark datasets including OTB2015, UAV123, and TempleColor, and outperforms the state-of-the-art real-time tracking methods consistently even without dataset-specific parameter tuning.

研究の動機と目的

  • MDNet、最先端のCNNベースのトラッカーの計算効率の低さを是正し、リアルタイムでの展開を可能にする。
  • 大きな受容 field を有する高解像度特徴マップを維持することで、特徴表現の質を向上させる。
  • 意味的に意味のある埋め込みを学習することで、多様な視覚ドメインにわたる識別力を強化する。
  • 精度を損なわず、データセット固有のハイパーパramータチューニングを必要とせずにリアルタイム性能を実現する。

提案手法

  • MDNetのバックボーンネットワークおよび特徴処理パイプラインの最適化により、特徴抽出を高速化する。
  • 活性化毎の有効な受容 field を拡大しながらも、空間的詳細を保持する高解像度特徴マップを維持する。
  • 異なるドメインにおける前景インスタンスを分離するよう促進すると同時に、意味的類似性を保持する新しい対照的損失項を導入する。
  • 改善された特徴学習と損失を元のMDNetトラッキングフレームワークに統合し、エンドツーエンドの学習を実現する。
  • ドメインに依存しない特徴埋め込みを活用し、多様な視覚的外観およびオブジェクトカテゴリにわたる一般化性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1MDNetを、顕著な精度の低下を伴わずにリアルタイム推論に高速化できるか?
  • RQ2大きな受容 field を有する高解像度特徴マップを維持することで、追跡性能にどのような影響を与えるか?
  • RQ3ドメインに依存しない対照的損失が、多様な視覚ドメインにわたる特徴の識別性を向上させられるか?
  • RQ4提案手法は、データセット固有のチューニングを要せず、どの程度ベンチマーク全体に一般化可能か?

主な発見

  • 提案されたReal-Time MDNetは、元のMDNetと比べて約25倍の高速な推論を達成しながら、ほぼ同一の追跡精度を維持している。
  • OTB2015、UAV123、TempleColorを含む複数のベンチマークデータセットにおいて、最先端のリアルタイム追跡アルゴリズムを上回っている。
  • 高解像度特徴マップと新しい対照的損失の統合により、特徴表現と識別力が顕著に向上している。
  • データセット固有のハイパーパramータチューニングを必要とせず、多様な追跡シナリオにおいて一貫した性能向上が得られている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。