QUICK REVIEW

[論文レビュー] Detect-and-Track: Efficient Pose Estimation in Videos

Rohit Girdhar, Georgia Gkioxari|arXiv (Cornell University)|Dec 26, 2017

Human Pose and Action Recognition被引用数 27

ひとこと要約

本論文では、動画内の効率的な人体ポーズ推定とトラッキングのための2段階手法であるDetect-and-Trackを提案する。3DマスクR-CNNを用いて短いクリップ内での時間的文脈を活用し、フレーム単位のキーポイント予測を強化した後、軽量なハンガリアンマッチングによるトラッキングを実行する。この手法は、PoseTrack検証セットで55.2%のMOTA、テストセットで51.8%のMOTAを達成し、最先端の性能を発揮するとともに、従来のIPベース手法よりも237倍高速に動作する。

ABSTRACT

This paper addresses the problem of estimating and tracking human body keypoints in complex, multi-person video. We propose an extremely lightweight yet highly effective approach that builds upon the latest advancements in human detection and video understanding. Our method operates in two-stages: keypoint estimation in frames or short clips, followed by lightweight tracking to generate keypoint predictions linked over the entire video. For frame-level pose estimation we experiment with Mask R-CNN, as well as our own proposed 3D extension of this model, which leverages temporal information over small clips to generate more robust frame predictions. We conduct extensive ablative experiments on the newly released multi-person video pose estimation benchmark, PoseTrack, to validate various design choices of our model. Our approach achieves an accuracy of 55.2% on the validation and 51.8% on the test set using the Multi-Object Tracking Accuracy (MOTA) metric, and achieves state of the art performance on the ICCV 2017 PoseTrack keypoint tracking challenge.

研究の動機と目的

複雑で多人数が登場し、遮蔽や動きがある動画において、正確で効率的な人体キーポイントトラッキングを実現すること。
2DマスクR-CNNの3D CNN拡張を用いて、短い動画クリップからの時間的文脈を統合することで、フレーム単位のキーポイント推定を向上させること。
複雑な最適化を必要とせず、時間軸に跨る予測を効率的にリンクできる、スケーラブルで高速なトラッキングパイプラインを開発すること。
フレーム単位の予測とハンガリアンマッチングを組み合わせた、今後の研究の強力で単純なベースラインを確立すること。
キーポイント推定における時間的モデリングが、トラッキング精度を顕著に向上させることを示すこと。

提案手法

本手法は2段階のパイプラインを採用する：まず、短い動画クリップ（T=3フレーム）に対して3DマスクR-CNNを用いてキーポイント推定を行い、次に中心フレームの出力に対して軽量なハンガリアンマッチングによるトラッキングを実行する。
3DマスクR-CNNは、2DのResNet-18およびマスクR-CNNの重みを「平均」または「中央」初期化法を用いて時間的整合性を確保するように膨張させることで構築される。
モデルはスライディングウィンドウ方式で処理を行い、各フレームにおけるキーポイント位置を含むスパatiotemporalな人体インスタンスチューブを出力する。
フレーム単位の予測は、最小限の計算量でトラッキングコストを最小化する最適な割り当てを実現するハンガリアンアルゴリズムを用いて時間軸に跨ってリンクされる。
複雑な整数プログラミングやグラフィカルモデルを回避することで、動画長に比例して線形にスケーリング可能な高効率性を維持する。
本手法はPoseTrackベンチマークで評価され、主にmAPとMOTAを指標として、異なるバリアント間の性能を比較する。

実験結果

リサーチクエスチョン

RQ1短い動画クリップからの時間的文脈は、多人数が登場する動画におけるフレーム単位のキーポイント推定精度を向上させることができるか？
RQ2検出とトラッキングを分離する2段階アプローチは、エンドツーエンド最適化に基づく手法と比較して、より高い効率性とスケーラビリティを達成できるか？
RQ3同じベースアーキテクチャと解像度を用いた場合、3DマスクR-CNNは2Dバージョンと比較してキーポイントmAPおよびMOTAでどのように差をつけるか？
RQ4強力なフレーム単位の予測と組み合わせた場合、ハンガリアンマッチングのような軽量なトラッキングモジュールは、複雑な最適化に基づくトラッカーを上回ることができるか？
RQ5長時間の動画に対して、提案手法は最先端のIPベースの定式化と比較して、計算効率がどの程度向上するか？

主な発見

同じResNet-18アーキテクチャと256px入力解像度を用いた場合、3DマスクR-CNNは2Dベースラインに比べてキーポイントmAPを2%、MOTAを1%向上させる。
2DベースラインにResNet-101を適用し、入力解像度を800pxに引き上げた場合、より高い解像度とモデル容量のおかげで最先端の性能を達成し、より深い3Dモデルを上回る。
完全なDetect-and-Trackパイプラインは、PoseTrack検証セットで55.2%のMOTA、テストセットで51.8%のMOTAを達成し、ICCV 2017コンテストで新たな最先端性能を樹立した。
100フレームの動画に対して本手法は5.2分で処理可能であり、同様のタスクを16時間かけて処理する従来のIPベース手法と比較して237倍高速である。
実行時間は動画長に比例して線形にスケーリングされ、長時間の動画に対しても非常にスケーラブルである。これは、非線形にスケーリングするIPベースのソルバーとは対照的である。
アブレーションスタディの結果、検出段階での時間的モデリングが、遮蔽や運動ブラーに対する耐性を顕著に向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。