QUICK REVIEW

[論文レビュー] Video Based Reconstruction of 3D People Models

Thiemo Alldieck, Marcus Magnor|arXiv (Cornell University)|Mar 13, 2018

3D Shape Modeling and Analysis参考文献 73被引用数 26

ひとこと要約

本論文では、動く人物の単一のモノクロムRGB動画から、衣服、髪、テクスチャを含む詳細で個人に合わせた3次元人体モデルを再構築する新規手法を提示する。動的なシルエット光線を標準的なTポーズフレームに「アンポーズ」し、それらを統合してコンSENSUS視覚ハルを生成することで、4.5mmの再構築精度を達成する。この手法により、専用ハードウェアを必要とせず、アニメーション可能でテクスチャ付きのアバターが得られる。

ABSTRACT

This paper describes how to obtain accurate 3D body models and texture of arbitrary people from a single, monocular video in which a person is moving. Based on a parametric body model, we present a robust processing pipeline achieving 3D model fits with 5mm accuracy also for clothed people. Our main contribution is a method to nonrigidly deform the silhouette cones corresponding to the dynamic human silhouettes, resulting in a visual hull in a common reference frame that enables surface reconstruction. This enables efficient estimation of a consensus 3D shape, texture and implanted animation skeleton based on a large number of frames. We present evaluation results for a number of test subjects and analyze overall performance. Requiring only a smartphone or webcam, our method enables everyone to create their own fully animatable digital double, e.g., for social VR applications or virtual try-on for online fashion shopping.

研究の動機と目的

単一のモノクロムRGB動画から、衣服や髪を含む完全な人体形状の正確な3次元再構築を可能にすること。
モノクロム深度の曖昧さと3次元人体再構築における動的運動の制限を克服すること。
VR、バーチャルトライアウト、バイオメトリクスに適した、骨格とテクスチャを埋め込んだ完全にアニメーション可能な3次元モデルを生成すること。
動的シルエットを共通の標準フレームに変換することで、視覚ハル手法をモノクロム動画に一般化すること。
マルチビューカメラ、深度センサ、事前スキャン済みテンプレートを一切必要としない高幾何的忠実度を達成すること。

提案手法

本手法はSMPLパラメトリック人体モデルを基本とし、自由形式の頂点変位を追加することで、衣服や人体の詳細な幾何を捉える。
2次元キーポイント検出にSMPLをフィッティングすることで、各フレームごとに2次元ポーズと形状を推定し、画像のシルエットと3次元モデル点の対応を可能にする。
各シルエット光線は、対応する3次元点の逆変形モデルを介して処理され、これを「アンポーズ」と呼ぶ。これにより、動的シルエットが標準的なTポーズ基準フレームに整列する。
全フレームのアンポーズ光線が統合され、コンセンサス視覚ハルが生成され、標準空間における3次元形状が制約される。
共同最適化により、3次元モデル頂点とアンポーズ光線との距離を最小化し、1つのモデルのみをメモリに保持しながら、形状パラメータと変位場を効率的に精緻化する。
最終的なモデルにはリグジングされた骨格とテクスチャが含まれており、ポーズ依存スキンニングとアニメーションが可能になる。

実験結果

リサーチクエスチョン

RQ1事前スキャンや深度センサを一切使用せず、単一のモノクロムRGB動画から衣服や髪を含む正確な3次元人体モデルを再構築できるか？
RQ2動的な人体シルエットを、視覚ハル統合を可能にする共通の基準フレームに変換する方法は何か？
RQ3パラメトリック人体モデルに変位場を追加した場合、RGB動画のみでどの程度の幾何的精度が達成できるか？
RQ4実世界の動画シーケンスにおけるノイズの多い3次元ポーズ推定に対して、この手法はどの程度のロバストネスを示すか？
RQ5再構築されたモデルは、バーチャルトライアウトやVRなどの応用において、リアルなアニメーションと正確な画像アライメントをサポートできるか？

主な発見

本手法は、実世界のデータセットにおいてもモノクロム深度の曖昧さが存在する状況でも、平均再構築精度4.5mmを達成した。
正確なポーズが与えられた場合、再構築精度は3.1mmまで向上し、高い幾何的忠実度を示した。
本手法は、シルエット制約のみで、衣服のしわや身体の輪郭といった詳細な表面幾何を効果的に再構築できた。
再構築モデルが入力画像と正確に一致しており、オリジナルフレームに再ポーズしたモデルを重ね合わせた結果、ほぼ完全なシルエットマッチングが得られた。
RGB入力のみを用いるにもかかわらず、KinectCapのような深度ベースのアプローチに比べ、モノクロム再構築の不適切な性質に対してよりロバストであることが示された。
形状からシャドー（形状から明るさを推定）による表面精錬により、しわや生地のしわといった微細なディテールがさらに向上し、初期のモデルと画像のアライメントの正確性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。