QUICK REVIEW

[論文レビュー] Multi-Object Tracking with Siamese Track-RCNN

Bing Shuai, Andrew Berneshawi|arXiv (Cornell University)|Apr 16, 2020

Video Surveillance and Tracking Methods参考文献 59被引用数 24

ひとこと要約

本稿では、検出、動きの追跡、再識別を1つのエンドツーエンドネットワークに統合した統合的2段階検出・追跡フレームワーク、Siamese Track-RCNNを提案する。共有バックボーンブランチを備えた1つのネットワークとして、検出、動きの追跡、再識別を統合し、共同学習と推論により高い効率を維持しながら、MOT16（59.8 MOTA）およびMOT17（59.6 MOTA）で最先端の性能を達成した。

ABSTRACT

Multi-object tracking systems often consist of a combination of a detector, a short term linker, a re-identification feature extractor and a solver that takes the output from these separate components and makes a final prediction. Differently, this work aims to unify all these in a single tracking system. Towards this, we propose Siamese Track-RCNN, a two stage detect-and-track framework which consists of three functional branches: (1) the detection branch localizes object instances; (2) the Siamese-based track branch estimates the object motion and (3) the object re-identification branch re-activates the previously terminated tracks when they re-emerge. We test our tracking system on two popular datasets of the MOTChallenge. Siamese Track-RCNN achieves significantly higher results than the state-of-the-art, while also being much more efficient, thanks to its unified design.

研究の動機と目的

検出、追跡、再識別に分離された計算コストの高いコンponentsに依存する従来のマルチオブジェクト追跡（MOT）システムの限界を解消すること。
Tracktorの欠点（外見モデルの欠如、一時的遮蔽や消失後の再識別不能）を克服すること。
検出、動き推定、再識別を統合的に最適化する、エンドツーエンドで学習可能な統合フレームワークを設計すること。
再出現時に終了したトラックを再活性化するシアンプスベースの再識別ブランチを組み込むことで、長期追跡の耐性を向上させること。
低計算コストとメモリ使用量を維持しながら、標準的なMOTベンチマークで優れた性能を示すこと。

提案手法

検出、シアンプスベースの追跡、再識別という3つの共有ブランチ構成を持つ2段階フレームワークを提案し、共通のバックボーンを共有する。
トラックブランチでシアンプスネットワークを用い、基準フレームと検索領域からの特徴を比較することで、オブジェクトの動きと可視性を推定する。
再識別ブランチを学習させ、候補となる検出結果と既存のトラック間の埋め込み差を計算することで、長期的なトラック再活性化を実現する。
埋め込み差と動き特徴の学習済み閾値を用いたオンラインソルバーを実装し、終了したトラックを再活性化するかどうかを決定する。
動きの変動に強い耐性を高めるために、可変時間窓δ（最適化で30フレーム、約1秒）内でフレームペアをサンプリングすることでトレーニングデータを拡張する。
すべての3ブランチを共同で最適化するエンドツーエンド学習を適用し、タスク間で特徴を共有し、相互に向上させる。

実験結果

リサーチクエスチョン

RQ1統合的ディープラーニングフレームワークが、検出、動きの追跡、再識別を共同で最適化することで、モジュール型のマルチコンponent MOTシステムを上回る性能を達成できるか？
RQ2シアンプスベースのトラッキングブランチを組み込むことで、単一フレーム回帰ベースラインと比較して、動き推定の精度と遮蔽に対する耐性がどのように向上するか？
RQ3再識別埋め込みのヒューリスティック閾値設定と比較して、学習可能なトラック再活性化メカニズムが、長期追跡性能にどの程度向上効果をもたらすか？
RQ4動き推定と再識別ブランチのトレーニングに最適な時間的サンプリング範囲δは何か？多様性と一貫性のバランスを取るには？
RQ5検出、追跡、再識別ブランチの共同学習が、全体の追跡精度と効率にどのように影響を与えるか？

主な発見

Siamese Track-RCNNは、MOT16とMOT17ベンチマークでそれぞれ59.8 MOTAおよび59.6 MOTAを達成し、先行する最先端手法を上回る最先端の性能を示した。
JTAデータセットにおけるアブレーションスタディでは、全コンponentsを備えたモデルが39.7 AP50および18.5 AP75を達成し、アブレーションバージョンを著しく上回った。
トラックブランチにシアンプス構造を採用することで、非シアンプス代替手法と比較して4.5 AP50ポイントの向上（29.3 vs 24.8）が得られ、設計選択の有効性が裏付けられた。
最適なトレーニングサンプリング範囲δ = 30フレーム（約1秒）が、最高の性能（39.7 AP50）をもたらした。δ=8（小さい）またはδ=45（大きい）の範囲では、動きの変動が不足または過剰になるため、性能が低下した。
トラック再活性化のための軽量なオンライン分類器を学習させることで、単純な閾値設定よりもAP50が8.9ポイント向上し、学習された意思決定の価値が示された。
オフライン版のトラック再活性化モデルは、さらに1.6 AP50の向上をもたらし、将来のフレームへのアクセスが長期的な一貫性を向上させられることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。