[論文レビュー] FastPose: Towards Real-time Pose Estimation and Tracking via Scale-normalized Multi-task Networks
FastPoseは、人間検出、姿勢推定、Re-IDを同時に実行するエンドツーエンドのマルチタスクネットワークを提示し、リアルタイムの姿勢推定と遮蔽対応の追跡を可能にするスケール正規化画像/特徴ピラミッドと組み合わせています。さまざまなバックボーンでリアルタイムの速度と競争力のある精度を達成し、遮蔽対応のRe-IDによってIDスイッチを低減します。
Both accuracy and efficiency are significant for pose estimation and tracking in videos. State-of-the-art performance is dominated by two-stages top-down methods. Despite the leading results, these methods are impractical for real-world applications due to their separated architectures and complicated calculation. This paper addresses the task of articulated multi-person pose estimation and tracking towards real-time speed. An end-to-end multi-task network (MTN) is designed to perform human detection, pose estimation, and person re-identification (Re-ID) tasks simultaneously. To alleviate the performance bottleneck caused by scale variation problem, a paradigm which exploits scale-normalized image and feature pyramids (SIFP) is proposed to boost both performance and speed. Given the results of MTN, we adopt an occlusion-aware Re-ID feature strategy in the pose tracking module, where pose information is utilized to infer the occlusion state to make better use of Re-ID feature. In experiments, we demonstrate that the pose estimation and tracking performance improves steadily utilizing SIFP through different backbones. Using ResNet-18 and ResNet-50 as backbones, the overall pose tracking framework achieves competitive performance with 29.4 FPS and 12.2 FPS, respectively. Additionally, occlusion-aware Re-ID feature decreases the identification switches by 37% in the pose tracking process.
研究の動機と目的
- 実用的な映像アプリケーションに適したリアルタイムのマルチ人ポーズ推定と追跡を動機づける。
- 検出、ポーズ推定、Re-IDを同時に扱うエンドツーエンドのマルチタスクネットワーク(MTN)を提案する。
- スケール正規化された画像と特徴ピラミッド(SIFP)を導入し、マルチスケール検証なしでスケール変動を緩和する。
- 遮蔽を考慮したRe-ID戦略を開発し、遮蔽下でのポーズ追跡の安定性を向上させる。
- バックボーン全体でFastPoseの速度と精度のトレードオフと頑健性を示す。
提案手法
- 検出(境界ボックス)、姿勢推定(キーポイント熱マップ)、Re-ID特徴(128次元)をRoIAlignベースのプーリングで統合する3つのタスク専用ヘッドを持つ統一バックボーンの設計。
- SIFPを導入して物体をスケールと特徴マップに分散させ、マルチスケール検証を高コストにすることなくスケール変動を減らす。
- 姿勢のキーポイントを用いて遮蔽を推定し、Re-ID特徴を検証して追跡の結合を堅牢にする遮蔽対応のRe-ID戦略。
- IoUベースの位置手掛かりと外観類似性を統合した類似度指標を用いて検出を既存のトラックに関連付ける。
- COCOを箱とキーポイント、MPII/PoseTrackを姿勢、Re-IDにはSSM、PRWなどのデータセットを用いた訓練スキーム;単一イメージ訓練で独立したタスク損失。
- RPNの後にトップ検出を選択し、MTNの出力を遮蔽対応の追跡に適用する推論フロー。
実験結果
リサーチクエスチョン
- RQ1単一のエンドツーエンドネットワークがリアルタイム速度で検出、キーポイント推定、Re-IDを同時に処理できるか。
- RQ2SIFPによるスケール正規化はマルチスケール検証なしでスケール変動下のポーズ推定と追跡を改善するか。
- RQ3遮蔽対応のRe-IDはIDスイッチを減らし、混雑または遮蔽された場面でのポーズ追跡の安定性を向上させるか。
- RQ4PoseTrackとCOCOデータセットでFastPoseを用いる際、バックボーンごとの速度と精度のトレードオフはどうなるか。
主な発見
- FastPose-18はPoseTrackで ResNet-18-FPN バックボーンを用いて29.4 FPS、mAP 63.1、MOTA 56.8を達成。
- FastPose-50はPoseTrackで ResNet-50-FPN バックボーンを用いて12.2 FPS、mAP 69.7、MOTA 62.8を達成。
- SIFPはバックボーンを問わずポーズ推定と追跡を一貫して改善(たとえば特定のバックボーンでAP kpが約2.4ポイント向上)を示す。
- 遮蔽対応のRe-ID特徴は姿勢追跡におけるIDスイッチを37%削減(243.1から153.9へ)した。
- IoUをRe-ID特徴に置換することで1つのアブレーションでIDスイッチを大幅に削減(41.6%)した。
- 本手法はリアルタイム追跡を可能にしつつ競争力のある姿勢推定性能を維持し、いくつかの最先端手法より速度面で優れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。