QUICK REVIEW

[論文レビュー] Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking

Laura Leal-Taixé, Anton Milan|arXiv (Cornell University)|Apr 10, 2017

Video Surveillance and Tracking Methods参考文献 50被引用数 94

ひとこと要約

この論文は MOT15 および MOT16 を標準化されたマルチオブジェクト追跡ベンチマークとして紹介し、MOT15 で 32 個のトラッカー、MOT16 で 16 個を分析し、評価指標と性能予測因子を調査します。

ABSTRACT

Standardized benchmarks are crucial for the majority of computer vision applications. Although leaderboards and ranking tables should not be over-claimed, benchmarks often provide the most objective measure of performance and are therefore important guides for research. We present a benchmark for Multiple Object Tracking launched in the late 2014, with the goal of creating a framework for the standardized evaluation of multiple object tracking methods. This paper collects the two releases of the benchmark made so far, and provides an in-depth analysis of almost 50 state-of-the-art trackers that were tested on over 11000 frames. We show the current trends and weaknesses of multiple people tracking methods, and provide pointers of what researchers should be focusing on to push the field forward.

研究の動機と目的

マルチターゲット追跡手法の公正な評価のための標準化されたベンチマーク（MOT15 と MOT16）を導入する。
MOT15 および MOT16 で最先端トラッカーの大規模な性能を分析する。
評価指標を人間の評価者と検討して、認識品質との整合性を評価する。
現在のトラッカーの主な弱点を特定し、今後の研究のガイダンスを提供する。

提案手法

12 クラスにわたる厳密な注釈プロトコルを適用した MOT15（22 系列、10万件以上の境界ボックス）と MOT16（14 系列、29万2千件以上のボックス）を組み立てる。
検出（MOT15 は ACF、MOT16 は DPM/市販）を提供し、これらの検出に対してトラッカーを動作させることを求める。
公正で一貫した指標計算を保証し、テスト系列への過適合を防ぐための中央集権的評価サーバを設置。
MOT15 で 32 トラッカー、MOT16 で 16（2017 年以前の公開論文）を評価。
トラッカーの FP/FN を検出器の性能と比較してエラー源を理解するためのエラー分析を実施。
特徴と単純な SVM 予測子を用いて、特定の系列またはスニペットでどのトラッカーが最も良いかを予測する実験を行う。

実験結果

リサーチクエスチョン

RQ1MOT15 および MOT16 において、最先端のマルチオブジェクトトラッカーの現状の強みと弱点は何か。
RQ2異なるアフィニティモデルと外観手が追跡性能にどのように影響するか。
RQ3評価指標は人間の視覚判断を追跡品質としてどの程度反映しているか。
RQ4系列ごとまたはスニペットごとに最良のトラッカーを選択して“スーパートラッカー”を形成できるか。
RQ5標準化ベンチマークが示す限界と潜在的な改善点は何か。

主な発見

Method	MOTA	MOTP	FAF	MT	ML	FP	FN	IDsw	Frag
NOMT [ 8 ]	46.4 ± 9.9	76.6	1.6	18.3	41.4	9753	87565	359 (6.9)	504 (9.7)
JMC [ 56 ] & 46.3 ± 9.0	75.7	1.1	15.5	39.7	6373	90914	657 (13.1)	1114 (22.2)
MDPNN16 [ 50 ]	43.8 ± 7.3	75.5	0.6	12.4	40.7	3501	98193	723 (15.7)	2036 (44.1)
oICF [ 28 ]	43.2 ± 10.2	74.3	1.1	11.3	48.5	6651	96515	381 (8.1)	1404 (29.8)
MHT_DAM [ 29 ]	42.9 ± 8.9	76.6	1.0	13.6	46.9	5668	97919	499 (10.8)	659 (14.2)
LINF1 [ 18 ]	41.0 ± 9.5	74.8	1.3	11.6	51.3	7896	99224	430 (9.4)	963 (21.1)
EAMTT_pub [ 51 ]	38.8 ± 8.5	75.1	1.4	7.9	49.1	8114	102452	965 (22.0)	1657 (37.8)
OVBT [ 5 ]	38.4 ± 8.8	75.4	1.9	7.5	47.3	11517	99463	1321 (29.1)	2140 (47.1)
LTTSC-CRF [ 33 ]	37.6 ± 9.9	75.9	2.0	9.6	55.2	11969	101343	481 (10.8)	1012 (22.8)
LP2D [ 36 ]	35.7 ± 10.1	75.8	0.9	8.7	50.7	5084	111163	915 (23.4)	1264 (32.4)
TBD [ 21 ]	33.7 ± 9.2	76.5	1.0	7.2	54.2	5804	112587	2418 (63.2)	2252 (58.9)
CEM [ 41 ]	33.2 ± 7.9	75.8	1.2	7.8	54.4	6837	114322	642 (17.2)	731 (19.6)
DP_NMS [ 46 ]	32.2 ± 9.8	76.4	0.2	5.4	62.1	1123	121579	972 (29.2)	944 (28.3)
GMPHD_HDA [ 55 ]	30.5 ± 6.9	75.4	0.9	4.6	59.7	5169	120970	539 (16.0)	731 (21.7)
SMOT [ 11 ]	29.7 ± 7.3	75.2	2.9	5.3	47.7	17426	107552	3108 (75.8)	4483 (109.3)
JPDA_m [ 48 ]	26.2 ± 6.1	76.3	0.6	4.1	67.5	3689	130549	365 (12.9)	638 (22.5)

トップトラッカー（例：NOMT、JMC、MDPNN16、oICF、MHT_DAM、LINF1）は MOTA が 40% を超え、Mostly Tracked が 10% を超える。
性能は主にアフィニティ / 外観モデルによって左右され、深層学習を用いた手法が強力な結果を示す。
ほとんどの手法は検出器からの偽陽性を減らすが、偽陰性を減らしきれず、FN 主導の MOTA の課題となる。
ビデオ間の相関が高く、系列または断片全体で同様の性能を示す傾向がある。
MOTA は人間の視覚評価と最も整合する代表的な指標のひとつとして残る一方、MT および Recall も知覚品質と相関する。
“スーパートラッカー”を作成するために、分割ごとにトラッカーを選択する試みは、オラクル導 guiding による場合 MOT15 で 5.5 ポイント、MOT16 で 2.9 ポイントの控えめな改善を生み、実際の予測はより小さな利得。
人間の評価者は全体的なトラッカー品質の最良の単一指標として MOTA に概ね同意している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。