[論文レビュー] Multiface: A Dataset for Neural Face Rendering
Multifaceは13識別の高解像度・多視点の顔動画データセット(Mugsy)を公開し、建築的な調整(空間バイアス、ワープフィールド、残差)が神経顔レンダリングと新規視点/表情補間にどう影響するかを分析する。
Photorealistic avatars of human faces have come a long way in recent years, yet research along this area is limited by a lack of publicly available, high-quality datasets covering both, dense multi-view camera captures, and rich facial expressions of the captured subjects. In this work, we present Multiface, a new multi-view, high-resolution human face dataset collected from 13 identities at Reality Labs Research for neural face rendering. We introduce Mugsy, a large scale multi-camera apparatus to capture high-resolution synchronized videos of a facial performance. The goal of Multiface is to close the gap in accessibility to high quality data in the academic community and to enable research in VR telepresence. Along with the release of the dataset, we conduct ablation studies on the influence of different model architectures toward the model's interpolation capacity of novel viewpoint and expressions. With a conditional VAE model serving as our baseline, we found that adding spatial bias, texture warp field, and residual connections improves performance on novel view synthesis. Our code and data is available at: https://github.com/facebookresearch/multiface
研究の動機と目的
- 13識別を横断する同期キャプチャとテクスチャ付きメッシュを備えた、規模が大きく高品質なマルチビュー顔データセットを提供する。
- Codec Avatars向けの神経顔レンダリングと新規視点/表情補間の研究を可能にする。
- 新規視点と表情の補間能力に対するモデルのアーキテクチャの変更の影響を評価する。
提案手法
- Mugsy、最大160台のカラーカメラで同期された4096x2668の動画を提供するマルチカメラ装置を用いて、顔の演技をキャプチャする。
- 全被験者について、未処理画像、展開済みテクスチャ、追跡メッシュ、頭部姿勢、音声、校正メタデータを提供する。
- テクスチャエンコーダとメッシュエンコーダを備え、視点に条件付けられたビューに依存しない潜在コードからアバターレンダリングをモデル化する条件付きVAEをベースラインとして用いる。
- 空間バイアス、テクスチャワープフィールド、残差接続を含むアーキテクチャ変種を実験し、新規ビュー/表情補間への影響を検討する。
- 微分可能レンダリングパイプラインと、眼と口を強調し背景を考慮する前景マスク重み付き損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1Multifaceは高忠実度の神経顔レンダリングに対して堅牢な新規視点合成をどのように実現するのか?
- RQ2建築的変更(空間バイアス、ワープフィールド、残差接続)は、見たことのない視点や表情への補間にどのように影響するのか?
- RQ3新規視点と表情の再構成品質に対する訓練時のカメラカバレッジの影響は何か?
主な発見
- 空間バイアスは、ビューに依存しないテクスチャ情報を符号化することで、正確な新規ビュー合成にとって重要である。
- データが限られている(カメラ数が少ない)場合、残差接続を持つより深いモデルが有用である。
- テクスチャワープフィールドと空間バイアスは、特に新規ビューと新規表情の同時補間タスクで補間性能を向上させる。
- ジョイントタスク(新規ビュー+新規表情)は、それぞれのタスク単独より難しく、最良の性能にはより多くの訓練ビューが必要である。
- 訓練時にカメラカバレッジを増やすと、アーキテクチャを問わず再構成誤差が低減することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。