QUICK REVIEW

[論文レビュー] SCALE: Modeling Clothed Humans with a Surface Codec of Articulated Local Elements

Qianli Ma, Shunsuke Saito|arXiv (Cornell University)|Jan 1, 2021

3D Shape Modeling and Analysis参考文献 83被引用数 2

ひとこと要約

SCALEは、798個のアーティキュレーテッドな局所的表面要素を用いて衣服付きの人体をモデル化するニューラル表面コーデックを提案する。全身のアーティキュレーションと局所的な衣服変形を明示的に分離することで、局所的特徴からの幾何形状の回帰とポーズに依存する埋め込みの学習により、トポロジーに強く、高精度な衣服再構築と現実的な運動、ニューラルレンダリングを実現し、再構築精度と推論速度の両面でSOTAを上回る。

ABSTRACT

Learning to model and reconstruct humans in clothing is challenging due to articulation, non-rigid deformation, and varying clothing types and topologies. To enable learning, the choice of representation is the key. Recent work uses neural networks to parameterize local surface elements. This approach captures locally coherent geometry and non-planar details, can deal with varying topology, and does not require registered training data. However, naively using such methods to model 3D clothed humans fails to capture fine-grained local deformations and generalizes poorly. To address this, we present three key innovations: First, we deform surface elements based on a human body model such that large-scale deformations caused by articulation are explicitly separated from topological changes and local clothing deformations. Second, we address the limitations of existing neural surface elements by regressing local geometry from local features, significantly improving the expressiveness. Third, we learn a pose embedding on a 2D parameterization space that encodes posed body geometry, improving generalization to unseen poses by reducing non-local spurious correlations. We demonstrate the efficacy of our surface representation by learning models of complex clothing from point clouds. The clothing can change topology and deviate from the topology of the body. Once learned, we can animate previously unseen motions, producing high-quality point clouds, from which we generate realistic images with neural rendering. We assess the importance of each technical contribution and show that our approach outperforms the state-of-the-art methods in terms of reconstruction accuracy and inference time. The code is available for research purposes at https://qianlim.github.io/SCALE .

研究の動機と目的

複雑でトポロジーが変化する衣服をアーティキュレーテッドな人体にリアルに再現する課題に対処すること。
既存の表面要素手法が、しわやたるみなどの微細な局所的詳細を捉えられていないという限界を克服すること。
登録済みの訓練データや固定トポロジーを必要とせずに、未学習のポーズや衣服タイプに一般化できること。
ニューラルレンダリングや既存のボディモデルと互換性のある微分可能で効率的な表現を開発すること。

提案手法

最小限の衣服付きボディモデルに基づいて表面要素を変形することで、大規模なアーティキュレーションと局所的衣類変形を明示的に分離する。
局所的特徴コードを用いて詳細な局所的幾何形状を回帰し、グローバルな潜在コードを超える表現力を向上させる。
2次元パラメータ化空間におけるポーズ埋め込みを学習することで、ボディポーズを符号化し、非局所的な誤った相関を低減する。
最終出力を、予測された法線とテクスチャを備えた高密度な点群として表現し、ニューラルレンダリングやメッシュ化を可能にする。
最小限に衣服が着られた3Dスキャンデータ上でエンドツーエンドに学習し、データ登録なしにポーズシーケンスから衣服を予測する。
可学習なトライアングル化を用いてパッチの接続性をモデル化するが、これは今後の課題として残す。

実験結果

リサーチクエスチョン

RQ1表面要素ベースの表現は、衣服付き人体におけるしわやたるみなどの微細な局所的変形を捉えられるか？
RQ2グローバルなアーティキュレーションと局所的衣類変形をどのように分離することで、未学習のポーズへの一般化を向上させられるか？
RQ3局所的特徴に基づくデコードが、グローバル潜在コードデコードに比べて再構築精度を向上させられるか？
RQ42次元パラメータ化空間でポーズ埋め込みを学習することで、誤った相関が低減され、一般化性能が向上するか？
RQ5固定テンプレートに依存せずに、ロングドレスやスカートのようなトポロジー変化を伴う衣類に対処できるか？

主な発見

CAPEデータセットにおいて、SCALEは1.28 × 10⁻⁴ m²のSOTAモデル（CAPE）および4.08 × 10⁻⁴ m²のNASAを上回る、0.93 × 10⁻⁴ m²のChamfer-L2誤差を達成した。
ロングドレスベンチマークでは、SCALEは8.41 × 10⁻⁴ m²のChamfer-L2誤差を達成し、グローバルコードを用いたAtlasNetおよびPCNベースの手法を顕著に上回った。
本手法は、多様なポーズにおいて一貫性があり、高品質な点群と予測された法線・テクスチャを生成し、リアルなニューラルレンダリングを可能にした。
誤差解析の結果、パッチの縁よりも中心部に比べてChamfer誤差がわずかに4%高いにとどまり、局所的詳細の保持が優れていることが示された。
定性的な結果では、トポロジーの変化があっても、一貫した全体的な運動と、しわやエッジといった現実的な局所的構造が再現された。
本手法は、トップロジーが複雑な衣類（例：ロングドレス）を含む、未学習の動きや衣服タイプに対しても良好に一般化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。