[論文レビュー] Towards Accurate Markerless Human Shape and Pose Estimation over Time
MuVS は SMPLify を拡張して、2D 関節とシルエットへ適合させることで、マルチビューおよびモノ視点動画に対して 3D SMPL ボディモデルを適合させ、DCT ベースの時系列前提情報を用いて、背景要件なしで正確な姿勢と現実的なボディメッシュを実現します。
Existing marker-less motion capture methods often assume known backgrounds, static cameras, and sequence specific motion priors, which narrows its application scenarios. Here we propose a fully automatic method that given multi-view video, estimates 3D human motion and body shape. We take recent SMPLify \cite{bogo2016keep} as the base method, and extend it in several ways. First we fit the body to 2D features detected in multi-view images. Second, we use a CNN method to segment the person in each image and fit the 3D body model to the contours to further improves accuracy. Third we utilize a generic and robust DCT temporal prior to handle the left and right side swapping issue sometimes introduced by the 2D pose estimator. Validation on standard benchmarks shows our results are comparable to the state of the art and also provide a realistic 3D shape avatar. We also demonstrate accurate results on HumanEva and on challenging dance sequences from YouTube in monocular case.
研究の動機と目的
- 複数視点ビデオからの完全自動のマーカーレスな3D人間の姿勢と形状推定を提供する。
- coherent body shape and pose representation をSMPLを活用して確保する。
- fitting の精度を高めるためにCNN ベースの2D関節とシルエットを導入する。
- DCT ベースの時系列前提情報で左右の曖昧さや時系列不整合を解決する。
- 単一視点シーケンスや現実世界の難しい映像への適用可能性を示す。
提案手法
- SMPLモデルで人体を表現し、マルチビューの2D関節に整合するように姿勢と形状を最適化する。
- 各ビューでCNNを用いて2D関節を検出し、身体シルエットをセグメントする。
- フレームごとにビュー間でSMPLを独立に適合させ、次にシルエットを用いて形状を精緻化する(E_S term)。
- 時系列を低次元の DCT 時系列前提情報で結合し、関節軌道を制約する(E_T terms)とロバストな関節再投影誤差を最小化する。
- 階層的な最適化戦略を採用する:まず関節に適合し、次にシルエットと時系列正則化を組み込み、残差にはロバストな Geman-McClure 誤差を用いる。
- シルエット、時系列前提情報、多視点データの影響を定量化するアブレーション研究を提供し、限定的な時系列手掛かりを持つモノ視点の能力を示す。
実験結果
リサーチクエスチョン
- RQ1背景 subtraction やユーザー介入なしに、完全自動のマルチビューシステムが正確な3D人間姿勢とボディ形状を推定できるか。
- RQ2シルエット情報と時系列 DCT 前提情報を統合することで、フレームごとのフィットより姿勢と形状の精度が向上するか。
- RQ3マルチビューは左右の入れ替えや姿勢の曖昧さ解決において、モノ視点データとどのように比較されるか。
- RQ4単なる関節推定を越えて、アニメーションに適した現実的な3Dボディメッシュを生成できるか。
- RQ5HumanEva 以外のデータセット、Human3.6M や YouTube の sequences のような難しいモノ視点動画にも一般化できるか。
主な発見
- MuVS は HumanEva および Human3.6M のベンチマークにおいて、姿勢誤差が最先端と同程度である。
- シルエット適合は3D姿勢・形状の精度とメッシュの現実感を大幅に向上させる。
- DCT ベースの時系列前提情報はフレーム間の誤差を低減し、脚の入れ替えやその他の 時系列アーチファクトを緩和する。
- 複数視点を用いることで、特に方位と姿勢の精度において、単一視点の SMPLify より大きな改善をもたらす。
- SMPL モデルを用いた現実的なボディメッシュを生成でき、信じられるアバター生成とアニメーションが可能になる。
- モノ視点シーケンスは時系列の整合性があり、深度情報が限定的な場合でも reasonable な再構成が可能であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。