[論文レビュー] Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views
本論文は、ビュー間で検出された2Dポーズを凸多方向マッチングとサイクル整合性でクラスタリングし、高速で頑健なマルチビューパイプラインを提案する。次に、各クラスタごとに3Dポーズを3D pictorial structuresまたは三角測量で再構成する。外観特徴と幾何的手がかりを活用してクロスビューマッチングを改善し、評価データセット Campusと Shelf上で訓練データを用いずSOTAの PCP を達成する。
This paper addresses the problem of 3D pose estimation for multiple people in a few calibrated camera views. The main challenge of this problem is to find the cross-view correspondences among noisy and incomplete 2D pose predictions. Most previous methods address this challenge by directly reasoning in 3D using a pictorial structure model, which is inefficient due to the huge state space. We propose a fast and robust approach to solve this problem. Our key idea is to use a multi-way matching algorithm to cluster the detected 2D poses in all views. Each resulting cluster encodes 2D poses of the same person across different views and consistent correspondences across the keypoints, from which the 3D pose of each person can be effectively inferred. The proposed convex optimization based multi-way matching algorithm is efficient and robust against missing and false detections, without knowing the number of people in the scene. Moreover, we propose to combine geometric and appearance cues for cross-view matching. The proposed approach achieves significant performance gains from the state-of-the-art (96.3% vs. 90.6% and 96.9% vs. 88% on the Campus and Shelf datasets, respectively), while being efficient for real-time applications.
研究の動機と目的
- 多視点設定における複数人の3Dポーズ推定の計算量を削減するため、全員の関節3D推定を行わず。
- 外観特徴と幾何的手がかりの両方を用いて、2Dポーズのクロスビュー対応をサイクル整合性として確立する。
- 頑健な2Dポーズマッチングの後、個人ごとに効率的に3Dポーズを推定し、リアルタイムまたはほぼリアルタイムの性能を実現する。
- 未知人数の人や欠損・不完全な検出を、凸最適化フレームワークを用いて扱う。
提案手法
- 各ビューで既存の検出器(Cascaded Pyramid Network)を用いて2Dポーズを検出する。
- 外観特徴(re-ID記述子)と幾何的一貫性(エピポーラ制約)を組み合わせて、ビュー間のバウンディングボックス間の親和性を構築する。
- サイクル整合性を持つ凸最適化として多方向マッチングを定式化する:核ノルム緩和とADMMを用いて -<A,P> + lambda*rank(P) を最小化し、跨視点対応を示すPを出力する。
- 全ビューに跨る単一のグローバルマッチングを用いてサイクル整合性を強制し、誤検出を削除し、実際の人数を事前に知らなくてもよい。
- 対応した2Dポーズから3Dポーズを再構成する。3D Pictorial Structures (3DPS) を骨格事前情報付きで使用するか、利点がある場合は単純な三角測量を用いる;クラスタリングにより3DPSの状態空間を削減する。
実験結果
リサーチクエスチョン
- RQ1ノイズの多い/不完全な検出を用いた場合、複数ビュー間で2Dポーズのクロスビュー対応をどのように堅牢に確立できるか。
- RQ2幾何的制約だけでなく外観手掛かりを組み合わせることは、マルチビュー3Dポーズ推定におけるクロスビューマッチングを改善するか。
- RQ3サイクル整合性制約と低ランク緩和により、人数を知らずとも検出の大規模なマルチビュークラスタリングが可能か。
- RQ4マッチング主導のクラスタリングは、3DPSまたは三角測量による3Dポーズ再構成の効率と精度にどのような影響を与えるか。
主な発見
| Dataset | Actor 1 | Actor 2 | Actor 3 | Average |
|---|---|---|---|---|
| Campus | 97.6 | 93.3 | 98.0 | 96.3 |
| Shelf | 98.8 | 94.1 | 97.8 | 96.9 |
- 提案された多方向マッチング法とサイクル整合性は、クロスビュー対応と頑健性を大幅に向上させ、3Dポーズ推定を改善する。
- 外観と幾何の手掛かりを組み合わせた親和性スコアは、特に遮蔽や同様の外観を持つ人がいる場合に、いずれか単独よりも優れたマッチングをもたらす。
- マッチングを用いた2Dポーズのクラスタリングは3DPSの状態空間を削減し、カメラ数が少ない場合の推論を加速し頑健性を向上させる。
- Campus (平均96.3)とShelf (平均96.9) データセットで、複数のベースラインと比較して最先端の PCP を達成する。
- リアルタイム性能が現実的である:4-5視点では3DPSモデルなしで>20 fps、再ID付けに約25 ms、マッチングに約20 ms、3Dポーズ推定に約60 ms が実機テストで実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。