[論文レビュー] Capturing and Animation of Body and Clothing from Monocular Video
SCARFは、メッシュベースのボディモデルと衣類用のニューラルレイトランスフィールド(NeRF)を組み合わせたハイブリッド3Dアバター表現を提案する。これにより、モノクロナルビデオからの高精細な再構成とアニメーションが可能になり、顔の表情、手の関節、衣類の移動を制御可能となる。本手法は、バーチャルトライオンやVRアプリケーションにおける視覚的品質と柔軟性において、既存手法を上回る性能を発揮する。
While recent work has shown progress on extracting clothed 3D human avatars from a single image, video, or a set of 3D scans, several limitations remain. Most methods use a holistic representation to jointly model the body and clothing, which means that the clothing and body cannot be separated for applications like virtual try-on. Other methods separately model the body and clothing, but they require training from a large set of 3D clothed human meshes obtained from 3D/4D scanners or physics simulations. Our insight is that the body and clothing have different modeling requirements. While the body is well represented by a mesh-based parametric 3D model, implicit representations and neural radiance fields are better suited to capturing the large variety in shape and appearance present in clothing. Building on this insight, we propose SCARF (Segmented Clothed Avatar Radiance Field), a hybrid model combining a mesh-based body with a neural radiance field. Integrating the mesh into the volumetric rendering in combination with a differentiable rasterizer enables us to optimize SCARF directly from monocular videos, without any 3D supervision. The hybrid modeling enables SCARF to (i) animate the clothed body avatar by changing body poses (including hand articulation and facial expressions), (ii) synthesize novel views of the avatar, and (iii) transfer clothing between avatars in virtual try-on applications. We demonstrate that SCARF reconstructs clothing with higher visual quality than existing methods, that the clothing deforms with changing body pose and body shape, and that clothing can be successfully transferred between avatars of different subjects. The code and models are available at https://github.com/YadiraF/SCARF.
研究の動機と目的
- バーチャルトライオンなどの応用を妨げる、ボディと衣類を同時にモデル化するための統合的表現の限界を解消すること。
- 大規模な3Dスキャンデータセットの必要性を克服し、3Dの教師信号を必要とせず、モノクロナルビデオからのエンドツーエンド最適化を可能にすること。
- ボディポーズ、顔の表情、手の関節、衣類の外観を別々に制御可能な詳細でアニメーション可能なアバターを実現すること。
- 衣類の変形と新規視点の再構築において高い視覚的忠実度を達成するとともに、幾何学的整合性を維持すること。
- 異なる被験者同士のアバター間での衣類の移動を可能にし、実用的なバーチャルトライオン応用を実現すること。
提案手法
- ポーズとスケールパラメータを備えたパラメトリックメッシュベースボディモデル(例:SMPL-X)を用いて、基礎となる人体を表現する。
- ポーズの変化に応じた形状、色、外観を暗黙的に表現するニューラルレイトランスフィールド(NeRF)を用いて衣類をモデル化する。
- 微分可能ラスタライザーを介してメッシュをボリュメトリックレンダリングパイプラインに統合し、モノクロナルビデオからのエンドツーエンド最適化を可能にする。
- ポーズに依存する変形モデルを適用し、ポーズ変更時の現実的な衣類の動きをシミュレートする。
- トレーニング中に体と衣類のセグメンテーションを向上させるために、時間的整合性とオプティカルフローを活用する。
- ビデオフレーム間の光度および幾何学的損失を最小化する微分可能レンダリング目的関数を用いて、ハイブリッドモデルを最適化する。
実験結果
リサーチクエスチョン
- RQ1メッシュベースのボディと衣類用のニューラルレイトランスフィールドを組み合わせたハイブリッド表現は、モノクロナルビデオからの高精細かつ分離可能な3Dアバター再構築を可能にするか?
- RQ2このようなモデルは、顔の表情、手の関節、ボディポーズの変化を詳細にアニメートしつつ、衣類のリアルさを維持できるか?
- RQ3この分離表現を用いて、異なる被験者同士のアバター間で衣類を高精度に移動させることができるか?
- RQ4本手法は、3Dの教師信号を必要とせず、未知のポーズや新規視点に一般化できるか?
- RQ5視覚的品質と幾何学的忠実度の観点から、統合的NeRFやメッシュオンativeベースラインと比較して、ハイブリッドモデルはどのように優れているか?
主な発見
- SCARFは、ゆったりしたドレスや重ね着の衣類といった複雑な衣類において、既存手法に比べて優れた視覚的品質を達成した。
- PIXIEから得られるポーズ推定を活用することで、顔の表情と手の関節のアニメーションが成功裏に実現され、表現力豊かなアバター制御が可能になった。
- 異なるボディシェイプとポーズを持つアバター間で、高精度な衣類の移動が実現され、実用的なバーチャルトライオン応用が可能になった。
- 未知のポーズや視点に一般化でき、最小限のアーチファクトで、未学習のカメラアングルからもリアルな画像が合成された。
- アブレーションスタディの結果、顔、手、複雑な衣類の再構築において、ハイブリッドメッシュ-NeRF表現が、統合的NeRFおよびメッシュオンリーベースラインを上回ることが確認された。
- 微分可能レンダリングパイプラインにより、3Dの真値や大規模な3Dスキャンを必要とせず、モノクロナルビデオからのエンドツーエンド最適化が実現された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。