[論文レビュー] The Virtual Tailor: Predicting Clothing in 3D as a Function of Human Pose, Shape and Garment Style
TailorNet は、ポーズ、ボディシェイプ、衣類スタイルを統合的にモデル化することで、詳細な3D衣類の変形を予測するニューラルモデルであり、変形を低周波数および高周波数成分に分解する。物理ベースのシミュレーションの1000倍以上速く、リアルなしわを保持した結果を得るとともに、微分可能かつ時間的に整合性のある動きのシーケンスに対しても対応可能である。
In this paper, we present TailorNet, a neural model which predicts clothing deformation in 3D as a function of three factors: pose, shape and style (garment geometry), while retaining wrinkle detail. This goes beyond prior models, which are either specific to one style and shape, or generalize to different shapes producing smooth results, despite being style specific. Our hypothesis is that (even non-linear) combinations of examples smooth out high frequency components such as fine-wrinkles, which makes learning the three factors jointly hard. At the heart of our technique is a decomposition of deformation into a high frequency and a low frequency component. While the low-frequency component is predicted from pose, shape and style parameters with an MLP, the high-frequency component is predicted with a mixture of shape-style specific pose models. The weights of the mixture are computed with a narrow bandwidth kernel to guarantee that only predictions with similar high-frequency patterns are combined. The style variation is obtained by computing, in a canonical pose, a subspace of deformation, which satisfies physical constraints such as inter-penetration, and draping on the body. TailorNet delivers 3D garments which retain the wrinkles from the physics based simulations (PBS) it is learned from, while running more than 1000 times faster. In contrast to PBS, TailorNet is easy to use and fully differentiable, which is crucial for computer vision algorithms. Several experiments demonstrate TailorNet produces more realistic results than prior work, and even generates temporally coherent deformations on sequences of the AMASS dataset, despite being trained on static poses from a different dataset. To stimulate further research in this direction, we will make a dataset consisting of 55800 frames, as well as our model publicly available at this https URL.
研究の動機と目的
- ポーズ、ボディシェイプ、衣類スタイルの多様な組み合わせにおいて、細かなしわを保持しつつ高精細な3D衣類変形を学習する課題に対処すること。
- 従来のモデルが詳細性に欠ける、またはスタイルやボディシェイプの変化に一般化できないという限界を克服すること。
- コンピュータビジョンおよびアニメーションのパイプラインで利用可能な、高速で微分可能かつ時間的に整合性のある3D衣類予測を可能にすること。
- 低周波数および高周波数の変形成分を分離してモデル化することで、高周波数のしわの詳細を保持する手法の開発
提案手法
- 3D衣類変形を低周波数成分と高周波数成分に分解し、細かなしわを別々にモデル化できるようにする。
- ポーズ、ボディシェイプ、スタイルパラメータに基づいて低周波数成分を予測するために、マルチレイヤーパーセプトロン(MLP)を用いる。
- ボディシェイプおよびスタイル固有のポーズモデルの混合を用い、同様の高周波数パターンのみをカーネルベースの重み付けで組み合わせる。
- 物理的制約(相互透過の禁止、適切な垂れ下がりなど)を満たすキャノニカル空間における変形部分空間を構築する。
- 多様なデータセットから得た静的3D衣類ポーズ上でエンドツーエンドに学習させることで、未観測のポーズ・ボディシェイプ・スタイルの組み合わせに対しても一般化可能にする。
- 微分可能性を活用して最適化パイプラインに統合可能であり、静的データで学習したにもかかわらず、動きのシーケンスにおいて時間的に整合性のある変形を生成可能である。
実験結果
リサーチクエスチョン
- RQ1深層学習モデルは、多様なポーズ、ボディシェイプ、衣類スタイルの下で、細かなしわの詳細を保持しながら3D衣類変形を統合的に予測できるか?
- RQ2変形を低周波数および高周波数成分に分離してモデル化することで、エンドツーエンド学習に比べてしわのような高周波数特徴のモデリングが向上するか?
- RQ3静的ポーズで学習したモデルが、動きのシーケンスに対して時間的に整合性のある変形を生成できるか?
- RQ4物理ベースのシミュレーションと比較して、本手法のリアルさ、速度、微分可能性の観点での性能はどの程度か?
主な発見
- TailorNet は、訓練に用いられた物理ベースのシミュレーションから得たしわの詳細を保持したリアルな3D衣類を生成する。
- 物理ベースのシミュレーションの1000倍以上速く、高い視覚的忠実度を維持している。
- 静的ポーズで学習したにもかかわらず、AMASSデータセットのシーケンスに適用した際、時間的に整合性のある変形を生成している。
- ボディシェイプおよびスタイル固有の高周波数モデルのカーネル重み付き混合を用いることで、正確で局所的なしわ予測が可能である。
- モデルは完全に微分可能であり、最適化ベースのコンピュータビジョンパイプラインへの統合に適している。
- 未観測のポーズ・ボディシェイプ・スタイルの組み合わせに対しても、実用性の高い一般化性能を示しており、従来のスタイル特化型またはボディシェイプ一般化型モデルを凌駆するリアルさを実現している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。