QUICK REVIEW

[論文レビュー] General Automatic Human Shape and Motion Capture Using Volumetric Contour Cues

Helge Rhodin, Nadia Robertini|arXiv (Cornell University)|Jul 28, 2016

Human Pose and Action Recognition参考文献 65被引用数 22

ひとこと要約

本稿では、背景差分処理や手動初期化を必要とせず、ボリュメトリックな輪郭特徴を用いてマルチビュー動画から3次元人体形状とモーションを完全自動で捉える手法を提示する。解析的で微分可能なレイトレーシングモデルを用い、ガウス密度場と統計的ボディモデルを組み合わせ、2台以上のカメラからの入力でポーズ、形状、外観を同時に最適化する。ポーズ推定において最先端の精度を達成するとともに、riggedアニメーション対応のモデルを完全自動で再構築可能である。

ABSTRACT

Markerless motion capture algorithms require a 3D body with properly personalized skeleton dimension and/or body shape and appearance to successfully track a person. Unfortunately, many tracking methods consider model personalization a different problem and use manual or semi-automatic model initialization, which greatly reduces applicability. In this paper, we propose a fully automatic algorithm that jointly creates a rigged actor model commonly used for animation - skeleton, volumetric shape, appearance, and optionally a body surface - and estimates the actor's motion from multi-view video input only. The approach is rigorously designed to work on footage of general outdoor scenes recorded with very few cameras and without background subtraction. Our method uses a new image formation model with analytic visibility and analytically differentiable alignment energy. For reconstruction, 3D body shape is approximated as Gaussian density field. For pose and shape estimation, we minimize a new edge-based alignment energy inspired by volume raycasting in an absorbing medium. We further propose a new statistical human body model that represents the body surface, volumetric Gaussian density, as well as variability in skeleton shape. Given any multi-view sequence, our method jointly optimizes the pose and shape parameters of this model fully automatically in a spatiotemporal way.

研究の動機と目的

マーカーレスモーションキャプチャにおける手動または準自動初期化を排除することで、実世界の環境における実用性を向上させること。
制御不能な環境下で、スパarsなマルチビュー動画から、個人に合わせた3次元人体形状、スケルトン、外観、モーションを同時に推定すること。
背景セグメンテーションを必要とせず、輪郭ベースの整合性を保つための微分可能な解析的画像形成モデルを構築すること。
表面、ボリューム密度、スケルトン寸法のばらつきを低次元空間に統合的に表現する統計的ボディモデルを構築すること。
ジョイント検出と画像勾配を併用して、ポーズと形状を完全に自動で空間的・時間的に最適化すること。

提案手法

人体をキネマティックスケルトンに接続されたガウス密度場として表現し、滑らかで微分可能な形状表現を可能にする。
吸収媒質におけるボリュームレイトレーシングを基にした、新規の解析的可視性モデルと微分可能な整合性エネルギーを導入する。
RAW RGB画像におけるモデルの輪郭との整合性を測るため、画像勾配を用いてリッジ型の輪郭エネルギーを定義する。
第I段階でConvNetベースのジョイント検出システムを用いて初期ポーズ推定を行い、第II段階で輪郭の最適化を実施する。
ジョイント検出と輪郭特徴を併用した、空間的・時間的最適化フレームワークを適用し、ポーズと形状パラメータを同時に精緻化する。
表面、ボリューム密度、スケルトン寸法のばらつきを符号化する統計的ボディモデルを学習し、一般化性能を高める。

実験結果

リサーチクエスチョン

RQ1背景差分処理を不要とし、最小限のマルチビュー動画入力から、完全自動で3次元人体形状、ポーズ、外観を同時に推定できるか？
RQ2ガウス密度の和によるボリューム表現内において、微分可能な輪郭整合性エネルギーを定式化でき、形状最適化に高い耐性を示せるか？
RQ31つの統計的ボディモデルが、表面、ボリューム密度、スケルトン寸法のばらつきを効果的に表現でき、多様な被験者に一般化可能か？
RQ4スキャンデータや手動セグメンテーションを一切不要とし、動画映像からのみriggedアニメーションモデルの正確な初期化が可能か？
RQ5少数のカメラと複雑な背景を有する実世界の制御不能なシーンにおいて、本手法の性能はどの程度か？

主な発見

HumanEva-Iデータセットにおいて、平均ポーズ誤差は74.9 mm（±21.9 mm）であり、手動初期化を要する最先端手法と同等の精度を達成した。
ジョイントオフセット補正を適用した場合、平均ポーズ誤差は3〜5 cmにまで低下し、完全自動初期化にもかかわらず高い精度を示した。
2台以上のカメラを用いて、屋内・屋外問わず、正確な3次元形状とポーズを再構築できた。
実行時間はフレーム数とカメラ数に線形に比例し、1視点あたりの輪郭最適化にわずか3秒（50フレーム×6視点で15分）で処理が可能であった。
一般の衣料品、特にスカートやゆとりのある服に対しても良好に一般化したが、顔の特徴や手の関節の微細構造は再構築できなかった。
2台以上のカメラからの入力で完全自動再構築が可能であり、1枚の画像からの半自動形状推定も可能となり、人的作業の大幅な削減が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。