QUICK REVIEW

[論文レビュー] MonoPerfCap: Human Performance Capture from Monocular Video

Weipeng Xu, Avishek Chatterjee|arXiv (Cornell University)|Aug 7, 2017

Human Pose and Action Recognition参考文献 80被引用数 42

ひとこと要約

MonoPerfCap は、一貫性のある時間的変化を伴う3次元人体パフォーマンスキャプチャを、マーカーレスで単眼動画ベースで実現する最初の手法である。スパarsityな2D/3Dジョイント検出と低次元の軌道部分空間、およびシルエットに基づく表面精錬を組み合わせることで、単一のRGB動画から関節運動および中程度の非剛性変形を、最先端の精度で再構築することを実現した。

ABSTRACT

We present the first marker-less approach for temporally coherent 3D performance capture of a human with general clothing from monocular video. Our approach reconstructs articulated human skeleton motion as well as medium-scale non-rigid surface deformations in general scenes. Human performance capture is a challenging problem due to the large range of articulation, potentially fast motion, and considerable non-rigid deformations, even from multi-view data. Reconstruction from monocular video alone is drastically more challenging, since strong occlusions and the inherent depth ambiguity lead to a highly ill-posed reconstruction problem. We tackle these challenges by a novel approach that employs sparse 2D and 3D human pose detections from a convolutional neural network using a batch-based pose estimation strategy. Joint recovery of per-batch motion allows to resolve the ambiguities of the monocular reconstruction problem based on a low dimensional trajectory subspace. In addition, we propose refinement of the surface geometry based on fully automatically extracted silhouettes to enable medium-scale non-rigid alignment. We demonstrate state-of-the-art performance capture results that enable exciting applications such as video editing and free viewpoint video, previously infeasible from monocular video. Our qualitative and quantitative evaluation demonstrates that our approach significantly outperforms previous monocular methods in terms of accuracy, robustness and scene complexity that can be handled.

研究の動機と目的

深度の曇りや強い隠蔽が生じる単眼RGB動画からの時間的整合性のある3次元人体パフォーマンス再構築の課題に対処する。
時間的整合性と運動の事前知識を活用することで、単眼再構築に内在する不適切な定式化を克服する。
マーカーやマルチビュー設定を一切使用せずに、関節運動と中程度の非剛性表面変形の高精細なキャプチャを可能にする。
単一のRGBカメラのみを用いて、屋外や一般的な背景環境を含む複雑なシーンでも、堅牢なパフォーマンスキャプチャを実現する。
従来、単眼入力からのみでは実現が困難であった自由視点動画や動画編集への応用を示す。

提案手法

動画フレーム全体にわたるスパースな2Dおよび3D人体関節位置を検出するため、畳み込みニューラルネットワーク（CNN）を用いたバッチベースのポーズ推定戦略を採用する。
3次元ポーズ推定の正則化と、単眼再構築に内在する深度の曇りの解消のため、低次元の軌道部分空間を用いる。
2次元関節検出結果をランドマークとして統合し、3次元スケルトンを画像に登録することで、隠蔽に対する耐性を向上させる。
単眼画像から直接3次元関節位置を回帰するための2番目のCNNを活用し、関節における「前後反転」の曇りを低減する。
完全自動で抽出されたシルエットを活用して表面幾何を精錬し、中程度の非剛性変形の整合性を実現する。
関節的スケルトンと中程度の変形場を備えた人物固有のテンプレートメッシュを用いて、変形表面をパラメータライズし、正確な動的表面再構築を実現する。

実験結果

リサーチクエスチョン

RQ1マーカーやマルチビュー情報なしに、単眼動画からの時間的整合性のある3次元人体パフォーマンスキャプチャが可能かどうか。
RQ2単眼動画における深度の曇りと強い隠蔽を、正確な3次元再構築のために効果的に解消する方法は何か。
RQ3時間領域における低次元の運動事前知識が、単眼3次元ポーズ推定の堅牢性と精度をどの程度向上できるか。
RQ4明示的な深度情報やマルチビュー入力なしに、シルエットベースの精錬が中程度の非剛性表面変形の回復を正確に可能にするか。
RQ5ステレオベースやマルチビュー性能キャプチャと比較して、本手法の再構築品質とシーンの複雑さの観点での性能はいかなるものか。

主な発見

MonoPerfCap は、単眼人体パフォーマンスキャプチャ分野で最先端の性能を達成し、従来手法と比較して精度、耐性、シーンの複雑さの面で顕著に優れている。
本手法は、一般背景を有する複雑なシーンでさえも、完全な関節運動と中程度の非剛性表面変形を、単眼動画から正確に再構築できた。
低次元の軌道部分空間の使用により、単眼再構築に内在する深度の曇りが効果的に解消され、3次元ポーズ推定の安定性が向上した。
シルエットベースの精錬により表面幾何の精度が顕著に向上し、平均シルエットオーバーラップ精度（AO）が真値と強い一致を示した。
従来、単眼入力からのみでは実現が困難であった自由視点動画や動画編集の応用が、本手法によって可能となった。
足の追跡や衣類のトポロジー変化の制限が存在するが、堅牢な2次元関節検出のおかげで、遮蔽後も即座に回復した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。