[論文レビュー] Detailed, accurate, human shape estimation from clothed 3D scan sequences
本論文では、時間的整合性と頑健な目的関数を活用して、衣装を着た3Dスキャンシーケンスから詳細で個人に特化した人体形状を直接的に推定する新規手法を提案する。この目的関数は、体の外側に衣装の頂点を配置し、可視皮膚部分に密着させるように制約を課す。本手法は、Pose推定および形状推定の両面で最先端の手法を上回り、公開された高品質な4Dデータセット(BUFF)において平均登録誤差が3mm未塔を達成した。
We address the problem of estimating human pose and body shape from 3D scans over time. Reliable estimation of 3D body shape is necessary for many applications including virtual try-on, health monitoring, and avatar creation for virtual reality. Scanning bodies in minimal clothing, however, presents a practical barrier to these applications. We address this problem by estimating body shape under clothing from a sequence of 3D scans. Previous methods that have exploited body models produce smooth shapes lacking personalized details. We contribute a new approach to recover a personalized shape of the person. The estimated shape deviates from a parametric model to fit the 3D scans. We demonstrate the method using high quality 4D data as well as sequences of visual hulls extracted from multi-view images. We also make available BUFF, a new 4D dataset that enables quantitative evaluation (http://buff.is.tue.mpg.de). Our method outperforms the state of the art in both pose estimation and shape estimation, qualitatively and quantitatively.
研究の動機と目的
- 衣装を着た人物の3Dスキャンシーケンスから、詳細で最小限の衣装を着た人体形状を推定する課題に対処すること。
- 顔の特徴などの局所的個体差を捉えられない、滑らかすぎる形状を生じる統計的ボディモデルの限界を克服すること。
- 最小限の衣装でのスキャンが現実的でない応用分野(バーチャルトライアル、健康モニタリング、アバター作成など)において、正確なポーズおよび形状推定を可能にすること。
- 複数のポーズにわたる制約を活用することで、衣装による隠蔽に強く耐えうる手法を開発すること。
- 定量的評価のための公開可能な高解像度4Dデータセット(BUFF)を提供すること。
提案手法
- 統計的ボディモデルのパラメータの調整にとどまらず、標準的なTポーズテンプレートの6,890個の頂点を直接最適化することで、局所的形状の詳細を捉える。
- 各フレームごとに単一フレームの目的関数を最小化し、以下の制約を課す:(i) 衣装の頂点が推定された身体形状の外側に位置すること、(ii) 可視皮膚部に密着すること、(iii) 頂点に近接する衣装頂点に頑健な関数を用いてスナップさせること。
- 最適化された頂点が統計的形状事前分布に近づくように保つために、SMPLを正則化子として用いる。
- 時間的情報を活用するため、まずすべてのスキャンを特別なケースの目的関数を用いて共通の未ポーズ空間に登録し、すべての点を皮膚とみなして「ファージョンスキャン」を形成する。
- その後、ファージョンスキャンを用いて、全目的関数を最小化することで「ファージョン形状」を計算し、頑健でグローバルな形状事前分布を生成する。
- 最後に、ファージョン形状を正則化子として用い、同じ目的関数をシーケンス全体にわたって最適化することで、ポーズと時間的に変化する形状の詳細を精緻化する。
実験結果
リサーチクエスチョン
- RQ1衣装を着た人物の3Dスキャンシーケンスから、パrametricモデルの最適化に依存せずに、詳細で個人に特化した人体形状を正確に推定できるか?
- RQ2頂点ベースの最適化アプローチは、顔の特徴やボディの輪郭といった細粒度の個体差を捉える点で、従来の統計的ボディモデル手法を上回る性能を示せるか?
- RQ3衣装が体の大部分を隠蔽している場合、本手法は正確なポーズおよび形状を回復できるか?
- RQ4複数のポーズを統合することで、単一フレーム手法と比較して形状推定の正確性がどの程度向上するか?
- RQ5視覚ハルなど、不完全な皮膚/衣装セグメンテーションを伴う実世界のデータに対しても、本手法は一般化可能か?
主な発見
- 本手法は、完全な皮膚/衣装セグメンテーションが利用可能な場合、BUFFデータセットにおいて平均登録誤差が約2.5 mmに達し、従来の最先端手法を著しく上回った。
- 皮膚セグメンテーションが行われない「全衣装」ラベルのスキャンに対しても、平均誤差が約3 mmに留まり、セグメンテーション誤差に対して頑健であることを示した。
- 視覚的結果では、特にダンサーのシーケンスにおいて、肘や肩といった複雑な体部の推定で、先行手法に比べ優れた性能を示した。
- ファージョン形状はグローバルなボディ形状を正確に回復しており、詳細形状は顔の特徴やボディの輪郭といった局所的特徴を捉えており、真値に非常に近い視覚的品質を示した。
- 本手法は、INRIAデータセットおよび新たに導入されたBUFFデータセットの両方で、定量的および定性的に、最先端の手法を上回った。
- 公開されたBUFFデータセットには、6名の被験者(男性3名、女性3名)がさまざまな衣装を着た11,054枚の高解像度3Dスキャンが含まれており、最小限の衣装を着た形状が真値として提供されており、厳密な定量的評価を可能にした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。