QUICK REVIEW

[論文レビュー] How To Train Your Deep Multi-Object Tracker

Yihong Xu, Aljoša Ošep|arXiv (Cornell University)|Jun 15, 2019

Video Surveillance and Tracking Methods参考文献 69被引用数 24

ひとこと要約

本稿では、深層多対象トラッカーのエンドツーエンド学習を可能にする微分可能フレームワークを提案する。MOTA および MOTP の微分可能代理指標を導入し、ハンガリアンマッチングアルゴリズムを近似する Deep Hungarian Net (DHN) を用いる。この手法により、標準的なトラッキング評価指標を直接最適化することで、MOTChallengeベンチマークで最先端の性能を達成した。

ABSTRACT

The recent trend in vision-based multi-object tracking (MOT) is heading towards leveraging the representational power of deep learning to jointly learn to detect and track objects. However, existing methods train only certain sub-modules using loss functions that often do not correlate with established tracking evaluation measures such as Multi-Object Tracking Accuracy (MOTA) and Precision (MOTP). As these measures are not differentiable, the choice of appropriate loss functions for end-to-end training of multi-object tracking methods is still an open research problem. In this paper, we bridge this gap by proposing a differentiable proxy of MOTA and MOTP, which we combine in a loss function suitable for end-to-end training of deep multi-object trackers. As a key ingredient, we propose a Deep Hungarian Net (DHN) module that approximates the Hungarian matching algorithm. DHN allows estimating the correspondence between object tracks and ground truth objects to compute differentiable proxies of MOTA and MOTP, which are in turn used to optimize deep trackers directly. We experimentally demonstrate that the proposed differentiable framework improves the performance of existing multi-object trackers, and we establish a new state of the art on the MOTChallenge benchmark. Our code is publicly available from https://github.com/yihongXU/deepMOT.

研究の動機と目的

MOTA や MOTP といった標準的な評価指標が非微分可能であるため、深層多対象トラッカーのエンドツーエンド学習に生じるギャップを埋める。
最適なデータアソシエーションに不可欠なが、非微分可能なハンガリアンアルゴリズムの勾配逆伝播の課題を克服する。
ハンガリアンマッチングプロセスを近似する微分可能なモジュールを構築し、トラッカーの重みを、トラッキング性能と直接整合する指標に基づいて勾配ベースで最適化可能にする。
提案された損失関数を用いた学習が、特に誤検出とIDスイッチの低減に寄与し、標準ベンチマーク上でのトラッカー性能を向上させることを実証する。

提案手法

予測値と正例との距離行列から、バイディレクショナルRNNである Deep Hungarian Net (DHN) を用いて、ソフトアサインメント行列を計算することで、ハンガリアンアルゴリズムの微分可能近似を提案する。
ソフトアサインメント行列と距離行列を用いて、MOTA および MOTP の微分可能代理指標を定式化し、トラッキング性能指標からの勾配計算を可能にする。
微分可能な MOTA および MOTP 代理指標を統合した DeepMOT 損失を、Tracktor や SiamRPN、GOTURN といった既存のトラッカーの学習パイプラインに統合する。
バックプロパゲーションを用いてエンドツーエンドでトレーニングを行い、DeepMOT 損失からの勾配がネットワーク重みを更新することで、トラッキング精度の向上と誤差の低減を実現する。
DHN において、変動する行列サイズにわたるマッチング精度と一般化性能の向上を図るため、シーケンスベースのGRUバージョン（seq_gru）を採用する。
勾配可視化とアブレーションスタディを通じて、フレームワークの微分可能性および有効性を検証し、アサインメント精度と指標相関性の観点から評価する。

実験結果

リサーチクエスチョン

RQ1多対象トラッキングの標準評価指標である MOTA および MOTP を、エンドツーエンド学習を可能にするように微分可能にできるか？
RQ2非微分可能なハンガリアンアルゴリズムを、勾配伝播を可能にする微分可能な方法でどのように近似できるか？
RQ3MOTA および MOTP に基づく損失関数を用いた学習が、標準ベンチマーク上でのトラッキング性能を向上させるか？
RQ4提案された Deep Hungarian Net (DHN) は、代替の微分可能なマッチングモジュールと比較して、アサインメント精度および一般化性能において優れているか？
RQ5提案されたトレーニングフレームワークは、実世界のトラッキングシナリオにおいて、誤検出と ID スイッチをどの程度低減できるか？

主な発見

提案された DeepMOT フレームワークは、MOT15 ベンチマークで 44.1 の新しい最良 MOTA を達成し、元の Tracktor と同等の性能を示したが、評価指標への学習の整合性が向上した。
DeepMOT-SiamRPN は、ベースラインの SiamRPN と比較して、MOTA が +2.3%、MOTP が +0.7%、IDF1 が +2.0% 向上し、誤検出を 2,416 個、ID スイッチを 143 個削減した。
seq_gru を搭載した Deep Hungarian Net (DHN) は、アサインメント精度で行方向に 92.71%、列方向に 92.36% を達成し、MA が 13.17%（行）および 12.21%（列）、SA が 9.70%（行）および 3.69%（列）と低く抑えられており、最適アサインメントの強力な近似であることが示された。
勾配可視化により、DeepMOT 損失からの負の勾配が、予測ボクシングボックスをその関連する正例オブジェクトに向け導くことが確認され、損失関数のトラッキング精度最適化への有効性が裏付けられた。
MOT15 データセットでは、DeepMOT-Tracktor は競争力のある性能を維持しているが、MOTP が +0.3% 向上し、誤検出が 392 個減少した。
フレームワークはさまざまな行列サイズに良好に一般化されるが、行列サイズが大きくなるとわずかにアサインメント精度が低下し、非常に小さな行列（≤6×6）では、トレーニングのアンバランスのため性能が低下する傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。