QUICK REVIEW

[論文レビュー] FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Peng Chu, Haibin Ling|arXiv (Cornell University)|Apr 10, 2019

Video Surveillance and Tracking Methods参考文献 55被引用数 27

ひとこと要約

FAMNetは、オンラインマルチオブジェクトトラッキングのためのエンドツーエンドのディーブラーニングフレームワークを提案する。特徴抽出、アフィニティ推定、多次元割り当てを同時に最適化する。すべてのモジュールを微分可能にし、アノテーション付きアサインメントを用いてエンドツーエンドで学習することで、MOT2015、MOT2017、KITTI-Car、UA-DETRACで最先端の性能を達成。MOTAスコアはそれぞれ45.2%（MOT2015）、65.8%（MOT2017）、77.1%（KITTI-Car）、19.8%（UA-DETRAC）を記録した。

ABSTRACT

Data association-based multiple object tracking (MOT) involves multiple separated modules processed or optimized differently, which results in complex method design and requires non-trivial tuning of parameters. In this paper, we present an end-to-end model, named FAMNet, where Feature extraction, Affinity estimation and Multi-dimensional assignment are refined in a single network. All layers in FAMNet are designed differentiable thus can be optimized jointly to learn the discriminative features and higher-order affinity model for robust MOT, which is supervised by the loss directly from the assignment ground truth. We also integrate single object tracking technique and a dedicated target management scheme into the FAMNet-based tracking system to further recover false negatives and inhibit noisy target candidates generated by the external detector. The proposed method is evaluated on a diverse set of benchmarks including MOT2015, MOT2017, KITTI-Car and UA-DETRAC, and achieves promising performance on all of them in comparison with state-of-the-arts.

研究の動機と目的

検出ベーストラッキングにおけるモジュラーで微分不能なデータアソシエーションパイプラインの限界を解消する。これらは多くのハイパーパramータチューニングを要し、学習と推論の間で分布シフトを引き起こす。
特徴抽出、アフィニティ推定、多次元割り当てを統合した微分可能なディープネットワークとして統合し、タスク固有の事前知識を同時に学習する。
高次元の時間的および運動的コンテキストを組み込むことで、遮蔽、高速移動、類似外観といった困難な状況でのロバスト性を向上させる。
単一オブジェクトトラッキング（SOT）の予測と専用のターゲット管理モジュールを統合することで、誤検出と誤検出を低減し、トラッキング性能を向上させる。

提案手法

FAMNetは、エンドツーエンドで微分可能な統合アーキテクチャであり、アノテーション付きトラジェクトリを教師として用い、特徴表現、アフィニティ推定、多次元割り当て（MDA）を同時に最適化する。
アフィニティサブネットワークは、複数フレームにわたる外観および運動特徴を統合し、2フレーム間の関係を超える高次元のアフィニティスコアを計算することで、識別能を向上させる。
微分可能なMDAサブネットワークは、ℓ1正則化付きのパワー反復を用いた修正版ランク1テンソル近似を採用し、グローバルな割り当てプロセス全体をバックプロパゲーション可能にする。
専用のCNNベースのボクシングボックス推定器（CNN_BBE）は、外部検出器からのノイズの多い候補を低減するために検出品質を向上させる。
単一オブジェクトトラッキング（SOT）の予測は検出器出力と統合され、MDAを介して同時に最適化され、見逃されたターゲットの回復と誤検出の抑制が行われる。
モデルは、限られたMOTデータセットでの過学習を避けるために、ImageNet-ILSVRC15で事前学習された重みを微調整して訓練される。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドで特徴、アフィニティ、割り当てを統合的に学習することで、モジュラーかつ別々に最適化されたパイプラインと比較して、オンラインマルチオブジェクトトラッキングの性能が向上するか？
RQ2微分可能なMDA層を介して高次元の時間的および運動的コンテキストを統合することで、混雑した場面や高速移動シーンにおけるロバスト性がどのように向上するか？
RQ3SOT予測と専用のターゲット管理モジュールを統合することで、誤検出と誤検出の低減はどの程度達成されるか？
RQ4微分可能なMDAを介してアノテーション付きアサインメントを直接学習することで、ヒューリスティックなアフィニティサンプリングに依存する従来手法と比較して、一般化性能が向上するか？
RQ5統合的で微分可能なアーキテクチャは、歩行者および車両トラッキングデータセットを含む多様なベンチマークで、最先端の手法を上回る性能を発揮できるか？

主な発見

MOT2015ベンチマークでは、微調整済み重みを用いたFAMNetはMOTA 45.2%を達成し、学習から再初期化した場合（44.1%）やCNN_BBEを除いたアブレーション（40.5%）を大きく上回った。
KITTI-Carでは、FAMNetはMOTA 77.1%を達成し、以前の最先端手法R1TA（71.2%）を上回り、オンライン設定でもNOMT（78.1%）というオフライン手法を上回った。
UA-DETRACでは、FAMNetはMOTA 19.8%を達成し、次に良い手法（GOG：14.2%）を上回り、プライベート検出器を用いたIOUトラッカーでさえも上回った。
アブレーションスタディでは、SOTモジュールを削除すると誤検出が300以上増加し、IDSが12増加した。これは、見逃されたターゲットの回復にSOTが果たす役割を示している。
CNN_BBEによるボクシングボックスの精錬を導入することで、誤検出が減少し、トラッキングの安定性が向上した。このモジュールを削除すると、誤検出が20%減少した。
ImageNet-ILSVRC15で事前学習された重みからの微調整は、一般化性能を向上させ、ランダム初期化からの学習と比較してMOTAを10%以上向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。