QUICK REVIEW

[論文レビュー] Joint Flow: Temporal Flow Fields for Multi Person Tracking

Andreas Doering, Umar Iqbal|arXiv (Cornell University)|May 11, 2018

Human Pose and Action Recognition参考文献 16被引用数 28

ひとこと要約

この論文では、連続するフレーム間の関節の動きを示すベクトル場（時間的フローフィールド：TFF）を予測する軽量畳み込みニューラルネットワーク（CNN）を用いた、オンラインで多人数のポーズをトラッキングする新規手法JointFlowを提案する。TFFをグリーディな二部グラフマッチングフレームワークに統合することで、PoseTrack検証セットでSOTAのMOTA 59.1、テストセットで53.1を達成。ネットワークアーキテクチャが小さいにもかかわらず、オプティカルフローおよび先行SOTA手法を上回る性能を発揮した。

ABSTRACT

In this work we propose an online multi person pose tracking approach which works on two consecutive frames $I_{t-1}$ and $I_t$. The general formulation of our temporal network allows to rely on any multi person pose estimation approach as spatial network. From the spatial network we extract image features and pose features for both frames. These features serve as input for our temporal model that predicts Temporal Flow Fields (TFF). These TFF are vector fields which indicate the direction in which each body joint is going to move from frame $I_{t-1}$ to frame $I_t$. This novel representation allows to formulate a similarity measure of detected joints. These similarities are used as binary potentials in a bipartite graph optimization problem in order to perform tracking of multiple poses. We show that these TFF can be learned by a relative small CNN network whilst achieving state-of-the-art multi person pose tracking results.

研究の動機と目的

大規模な動き、隠蔽、外観の変化が生じる状況下でのオンライン多人数ポーズトラッキングの課題に対処すること。
タスク固有の動き表現を学習することで、連続する動画フレーム間の人物関連付けを改善すること。
複雑な空間的・時間的最適化に依存することを減らし、軽量でエンドツーエンドで学習可能な時間的フローフィールドネットワークを導入すること。
高価なバッチ処理やグローバル最適化を回避することで、効率的かつリアルタイムのトラッキングを実現すること。
画像およびポーズ特徴から得られる構造的知識が、時間的フローフィールド予測の質を顕著に向上させることを示すこと。

提案手法

空間ネットワークが連続するフレーム $I_{t-1}$ および $I_{t}$ に対して多人数ポーズ推定を実行し、画像特徴およびポーズ特徴を抽出する。
時間ネットワークが、$I_{t-1}$ から $I_{t}$ への関節の位置変位を示す2次元ベクトル場（TFF）を予測する。このTFFは、小さなCNNによって学習される。
TFFを用いて、グリーディな二部グラフマッチング定式化において、検出された関節間の類似度スコアを計算する。
類似度エネルギー関数は $E_{TFF}^{T}(p_{j,m}^{t-1},p_{j,n}^{t}) = e^{-\frac{\|p_{j,n}^{t} - (p^{t-1}_{j,m} + \text{TFF}(p^{t-1}_{j,m}))\|^2}{\sigma^2}}$ で定義され、ここでTFFは予想される関節位置を予測する。
本手法は任意の市販のポーズ推定モデルと統合可能であり、オンライン推論によりリアルタイムで動作する。
7フレーム未満の短いトラックをプルーニングすることで、検証セットのMOTAが59.1から59.8に向上した。

実験結果

リサーチクエスチョン

RQ1一般的な指標（PCKh や IoU）とは異なり、タスク固有で学習可能な関節の動き表現は、一般的な指標に比べてオンライン多人数ポーズトラッキングの性能を向上させるか？
RQ2オプティカルフローと比較して、軽量なCNNベースの時間的フローフィールド（TFF）表現は、トラッキング性能と効率性においてどのように差をつけるか？
RQ3TFFを用いることで、複雑なグローバル最適化や長距離時間的モデリングを回避しても、高いトラッキング性能を達成できるか？
RQ4空間ネットワークから得られる画像およびポーズ特徴は、予測されたTFFの品質をどの程度向上させるか？
RQ5TFFを用いたグリーディな二部グラフマッチング戦略は、PoseTrackのような標準ベンチマークでSOTAの結果を達成できるか？

主な発見

JointFlowはPoseTrack検証セットでMOTA 59.1を達成し、公式リーダーボードで2位となり、テストセットでは最終的にMOTA 53.1を記録した。
ネットワークがはるかに小さいにもかかわらず、オプティカルフローに基づくトラッキング（MOTA 58.5）を上回り、TFFがタスク固有の表現として有効であることを示した。
7フレーム未満のトラックをプルーニングすることで、検証セットのMOTAが59.8に向上し、TFFが誤検出のフィルタリングに寄与していることが示された。
TFFベースのマッチングは、ProTracker（55.2 MOTA）およびPoseFlow（58.3 MOTA）を上回り、精度（87.1）と再現率（71.9）の両面で優れた関連付け性能を示した。
TFFが持つ構造的インダクティブバイアスのおかげで、大規模な動き、隠蔽、スケール変化を含む多様な状況においても、良好な一般化性能を発揮した。
アブレーションスタディにより、画像およびポーズ特徴が高品質なTFF予測に不可欠であることが確認され、それらを除去すると性能が著しく低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。