Skip to main content
QUICK REVIEW

[論文レビュー] Learning Implicit 3D Representations of Dressed Humans from Sparse Views

Pierre Zins, Yuanlu Xu|arXiv (Cornell University)|Apr 16, 2021
Human Pose and Action Recognition被引用数 23
ひとこと要約

本稿では、スパARSEなマルチビュー入力から着衣した人の暗黙的3D表現を学習するエンドツーエンド手法を提案する。アテンションベースの統合層とマルチビュー文脈下での局所的3Dパターン符号化機構を導入し、標準ベンチマークで最先端の性能を達成するとともに、大幅に少ないビュー数でマルチビューステレオと同等の高品質な再構築を実現した。

ABSTRACT

Recently, data-driven single-view reconstruction methods have shown great progress in modeling 3D dressed humans. However, such methods suffer heavily from depth ambiguities and occlusions inherent to single view inputs. In this paper, we address such issues by lifting the single-view input with additional views and investigate the best strategy to suitably exploit information from multiple views. We propose an end-to-end approach that learns an implicit 3D representation of dressed humans from sparse camera views. Specifically, we introduce two key components: first an attention-based fusion layer that learns to aggregate visual information from several viewpoints; second a mechanism that encodes local 3D patterns under the multi-view context. In the experiments, we show the proposed approach outperforms the state of the art on standard data both quantitatively and qualitatively. Additionally, we apply our method on real data acquired with a multi-camera platform and demonstrate our approach can obtain results comparable to multi-view stereo with dramatically less views.

研究の動機と目的

  • 着衣した人の単一ビュー3D再構築における深度の曖昧さと隠蔽を解消すること。
  • 単一の入力ビューに依存せず、複数のスパARSEなビューを活用することで3D再構築品質を向上させること。
  • 限られたカメラアングルから暗黙的3D着衣人間形状を学習するエンドツーエンドフレームワークを構築すること。
  • 従来のマルチビューステレオ手法と比較してはるかに少ないビュー数で高精細な3D再構築を可能にすること。

提案手法

  • 複数の視点からの視覚特徴を動的に統合するアテンションベースの統合層を導入する。
  • 複数のビューからの特徴を用いて、マルチビュー文脈に適応した局所的3Dパターンを符号化するメカニズムを採用する。
  • エンドツーエンドで訓練されたニューラルネットワークを用いて、人体および衣類の暗黙的3D表現を学習する。
  • マルチビューの監視に対して、微分可能なレンダリングと監視戦略を用いて暗黙的表現を最適化する。
  • マルチビュー特徴と幾何的整合性を組み合わせることで、深度推定を改善し、曖昧さを低減する。
  • マルチビューの監視と暗黙的形状正則化の組み合わせによりモデルを訓練する。

実験結果

リサーチクエスチョン

  • RQ1スパARSEなマルチビュー入力からの視覚的手がかりを、アテンションベースの統合によって着衣した人の3D再構築に効果的に統合できるか?
  • RQ2学習された暗黙的表現は、隠蔽や深度の曖昧さがある状況下でも、衣類やボディシェイプの細部をどれほど正確に捉えることができるか?
  • RQ3本手法は、著しく少ないビュー数でマルチビューステレオと同等の性能を達成できるか?
  • RQ4マルチビュー文脈の統合は、暗黙的表現における局所的3Dパターン符号化を向上させるか?
  • RQ5本モデルは、マルチカメラプラットフォームで撮影された実世界データにも一般化可能か?

主な発見

  • 本手法は、着衣した人の3D再構築の標準ベンチマークで最先端の定量的結果を達成した。
  • 既存の単一ビューおよびマルチビューベースラインと比較して、定性的に優れた再構築結果を生成した。
  • マルチカメラプラットフォームで得られた実世界データにおいて、本手法は著しく少ない入力ビュー数でマルチビューステレオと同等の結果を達成した。
  • アテンションベースの統合層は、情報を効果的に複数のビュー間で統合し、ノイズと曖昧さを低減した。
  • 局所的3Dパターン符号化機構により、特に隠蔽領域や複雑な衣類領域でのディテール保持が向上した。
  • 本手法は、実世界のスパARSEビューデータに対して頑健で一般化能力に優れており、実用的応用の有効性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。