QUICK REVIEW

[論文レビュー] Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Donglai Xiang, Hanbyul Joo|arXiv (Cornell University)|Dec 4, 2018

Human Pose and Action Recognition参考文献 56被引用数 25

ひとこと要約

本稿では、3次元可動人体モデルを用いた統合最適化フレームワークと、新規の3次元パーツ方向場（POFs）表現を用いて、野生の環境下で顔、体、手の3次元総合モーションキャプチャを単眼で行う初の手法を提示する。ベンチマークにおいて最先端の性能を達成し、テクスチャベースのトラッキングにより、野生の動画から時間的に整合性のある再構成を実現する。

ABSTRACT

We present the first method to capture the 3D total motion of a target person from a monocular view input. Given an image or a monocular video, our method reconstructs the motion from body, face, and fingers represented by a 3D deformable mesh model. We use an efficient representation called 3D Part Orientation Fields (POFs), to encode the 3D orientations of all body parts in the common 2D image space. POFs are predicted by a Fully Convolutional Network (FCN), along with the joint confidence maps. To train our network, we collect a new 3D human motion dataset capturing diverse total body motion of 40 subjects in a multiview system. We leverage a 3D deformable human model to reconstruct total body pose from the CNN outputs by exploiting the pose and shape prior in the model. We also present a texture-based tracking method to obtain temporally coherent motion capture output. We perform thorough quantitative evaluations including comparison with the existing body-specific and hand-specific methods, and performance analysis on camera viewpoint and human pose changes. Finally, we demonstrate the results of our total body motion capture on various challenging in-the-wild videos. Our code and newly collected human motion dataset will be publicly shared.

研究の動機と目的

制約のない環境下で、単一のモノクロナル画像または動画から顔、体、手のエンドツーエンド3次元総合モーションキャプチャを可能にすること。
可動人体モデルからの強力な3次元形状および運動の事前知識を活用することで、モノクロナル3次元ポーズ推定における根本的な深度の曖昧さを解消すること。
単一のビュー入力から、体、顔、手の3次元ポーズを統合的に推定するフレームワークを構築すること。
テクスチャ空間におけるフォトメトリック整合性最適化を活用して、動画シーケンスにおける時間的整合性を向上させること。
訓練および評価のための多様な全身、手、顔の動きを含む、大規模な新規3次元人体モーションドメインを収集・公開すること。

提案手法

本手法は、3次元パーツ方向場（POFs）を用いて、体の部位（例：四肢、指）の3次元方向を2次元画像空間に符号化し、単一ビューからの効率的な3次元ポーズ回帰を可能にする。
完全畳み込みネットワーク（FCN）が、入力画像からPOFsと2次元関節信頼度マップを予測する。体、手、顔それぞれに別個のネットワークを用いる。
統合最適化フレームワークを用いて、CNNの出力を3次元可動人体モデルに適合させ、すべての身体部位にわたる幾何的・運動的整合性を強制する。
本手法は3次元メッシュ表現を活用し、テクスチャ空間におけるフォトメトリック誤差を最小化することで、時間的経過に伴う動き推定の精錬を図り、時間的整合性を向上させる。
3次元モデルからの形状および運動の事前知識をフレームワークに組み込むことで、深度の曖昧さや自己遮蔽状況下での予測の安定化と曖昧さの低減を実現する。
多様なポーズと視点を想定した訓練および評価のため、40名の被験者を含む新規マルチビュー3次元人体モーションドメインを収集した。

実験結果

リサーチクエスチョン

RQ1単一のモノクロナル入力により、制約のない野生の環境下で、顔、体、手の3次元総合モーションを同時に正確に再構成できるか？
RQ2既存の2次元ヒートマップベース手法と比較して、提案手法の3次元ポーズ推定における精度および耐障害性はどの程度優れているか？
RQ33次元可動人体モデルの統合が、深度の曖昧さや自己遮蔽状況下でのポーズ推定にどの程度寄与するか？
RQ4テクスチャベースのトラッキング手法は、動画シーケンスにおける動きのジャイブを低減し、時間的整合性を確保するのにどの程度有効か？
RQ5本手法は、カメラの視点の変化や複雑な人体ポーズに対して、特に深刻な遮蔽や短縮（フォアショートニング）状況下でもどの程度一般化性能を示すか？

主な発見

本手法は、より現実的な深度アライメント評価設定下で、3次元手のポーズベンチマークにおいてAUC 0.84を達成し、先行研究の最良手法（AUC=0.70）を上回り、一部のRGB-D手法（AUC=0.81）でさえも上回った。
3次元体ポーズベンチマークでは、深度アライメント後の平均MPJPEが6.30 cmであった。背面および高角度視点では、自己遮蔽やフォアショートニングの影響により、やや高い誤差が観察された。
本手法はYouTubeの野生の動画からも、複雑な背景や照明条件を伴う多様な現実世界のシナリオにおいて、3次元モーションを成功裏に再構成した。
フォトメトリック整合性に基づく時間的リファインメントにより、運動のなめらかさが顕著に向上し、トラッキングなしの結果と比較して、再構成された肩の軌道における関節のジャイブが著しく低減された。
自己遮蔽や肢の短縮が顕著なポーズにおいても、クラスタベースの誤差解析により、本手法は多様な身体ポーズに強く一般化していることが確認された。
40名の被験者を含む新規に収集された3次元人体モーションドメインは、今後の単眼総合モーションキャプチャ分野の研究における貴重なベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。