QUICK REVIEW

[論文レビュー] Generating 3D faces using Convolutional Mesh Autoencoders

Anurag Ranjan, Timo Bolkart|arXiv (Cornell University)|Jul 26, 2018

Face recognition and analysis参考文献 40被引用数 27

ひとこと要約

本稿では、階層的サンプリングを用いたメッシュ上のスペクトル畳み込みを用いた非線形3次元顔表現である畳み込みメッシュオートエンコーダー（CoMA）を提案する。20,466枚の高解像度顔メッシュと極端な表情を含むデータセットで学習させたCoMAは、最先端のPCAベースのモデルと比較して50%低い再構成誤差を達成するとともに、パrameter数を75%も削減した。また、FLAMEの表現空間を置き換えることで再構成精度が向上した。

ABSTRACT

Learned 3D representations of human faces are useful for computer vision problems such as 3D face tracking and reconstruction from images, as well as graphics applications such as character generation and animation. Traditional models learn a latent representation of a face using linear subspaces or higher-order tensor generalizations. Due to this linearity, they can not capture extreme deformations and non-linear expressions. To address this, we introduce a versatile model that learns a non-linear representation of a face using spectral convolutions on a mesh surface. We introduce mesh sampling operations that enable a hierarchical mesh representation that captures non-linear variations in shape and expression at multiple scales within the model. In a variational setting, our model samples diverse realistic 3D faces from a multivariate Gaussian distribution. Our training data consists of 20,466 meshes of extreme expressions captured over 12 different subjects. Despite limited training data, our trained model outperforms state-of-the-art face models with 50% lower reconstruction error, while using 75% fewer parameters. We also show that, replacing the expression space of an existing state-of-the-art face model with our autoencoder, achieves a lower reconstruction error. Our data, model and code are available at http://github.com/anuragranj/coma

研究の動機と目的

極端な表情を含む非線形顔の変形を捉えることができない線形モデルの限界を克服すること。
未観測の表情に一般化できる、メモリ効率の良いディープラーニングベースの3次元顔表現を開発すること。
新しいメッシュサンプリングおよび畳み込み演算を用いて、階層的で多スケールの顔の形状と表情のモデリングを可能にすること。
変分サンプリングにより多様で現実的な3次元顔を生成できる、コンactかつトレーニング可能なモデルを作成すること。
研究利用を目的として、20,466枚の高解像度3次元顔メッシュと極端な表情を含む大規模データセットを公開すること。

提案手法

メッシュラプラシアンに基づく高速チェビシェフフィルタを用いたスペクトル畳み込みにより、非ユークリッド的表面における局所的かつパラメータ効率の良い畳み込みを実現する。
スケール間でトポロジー構造を保持する新しいメッシュのダウンサンプリングおよびアップサンプリング演算を導入する。
多変量正規分布事前分布を用いた変分オートエンコーダー枠組みを採用し、潜在空間からの多様な3次元顔の生成を可能にする。
ラプラシアン＝ベルトラミ作用素を用いたスペクトル分解により、周波数ドメインでの畳み込みを実現し、高解像度メッシュに対してメモリ効率の良い処理を可能にする。
12名の被験者が複雑で非対称な表情を12種類行い、顔の組織変形が顕著に現れるデータセットを用いて、モデルをエンドツーエンドで学習する。
メッシュ表面全体にわたって畳み込みフィルタを共有することで、パラメータ数を削減するとともに、局所的不変性を維持する。

実験結果

リサーチクエスチョン

RQ1非線形ディープラーニングモデルは、特に極端な表情下において、線形PCAベースのモデルを上回る3次元顔形状の再構成性能を達成できるか？
RQ2新しいサンプリング操作を用いた階層的メッシュ畳み込みは、顔の形状と表情の多スケール変動を効果的に捉えることができるか？
RQ3限られたデータで学習されたコンパクトでパラメータ効率の良いモデルは、既存の最先端モデルと比較して未観測の表情に一般化しやすいか？
RQ4学習された潜在空間を用いて、変分サンプリングにより多様で現実的な3次元顔メッシュを生成できるか？
RQ5FLAMEのような最先端モデルの表現空間をCoMAに置き換えることで、再構成精度はどの程度向上するか？

主な発見

CoMAは、限られた学習データでも補間タスクにおいてPCAベースのモデルと比較して50%低い再構成誤差を達成した。
線形PCAモデルと比較して、パラメータ数を75%も削減しながら、優れた再構成性能を達成した。
FLAMEの表現空間をCoMAに置き換えることで、全テストされた潜在次元サイズにおいて中央値の再構成誤差が低下し、特に12次元の潜在次元で最大の改善（0.139 mm vs. 0.172 mm）を示した。
変分設定下で、CoMAは潜在空間の標準正規分布から多様で現実的な3次元顔メッシュを効果的にサンプリングできた。
未観測の顔の表情に対しても、非線形変形を捉える能力が高く、線形モデルを上回る一般化性能を示した。
20,466枚の高解像度3次元顔メッシュと極端な表情を含むデータセットを、コードおよびトレーニング済みモデルとともに研究利用可能に公開した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。