QUICK REVIEW

[論文レビュー] NeLF: Neural Light-transport Field for Portrait View Synthesis and Relighting

Tiancheng Sun, Kai-En Lin|arXiv (Cornell University)|Jan 1, 2021

Advanced Vision and Imaging参考文献 42被引用数 4

ひとこと要約

この論文では、わずか5枚の入力ポートレート画像から3次元幾何学、外観、照明を同時に推定できるニューラル光輸送フィールド、NeLFを提案する。CNN-MLPアーキテクチャを用い、ドメイン適応を施すことで、光輸送ベクトルと環境マップをモデル化し、合成および実際のポートレートの両方で最先端の結果を達成した。入力が最小限で済む。

ABSTRACT

Human portraits exhibit various appearances when observed from different views under different lighting conditions. We can easily imagine how the face will look like in another setup, but computer algorithms still fail on this problem given limited observations. To this end, we present a system for portrait view synthesis and relighting: given multiple portraits, we use a neural network to predict the light-transport field in 3D space, and from the predicted Neural Light-transport Field (NeLF) produce a portrait from a new camera view under a new environmental lighting. Our system is trained on a large number of synthetic models, and can generalize to different synthetic and real portraits under various lighting conditions. Our method achieves simultaneous view synthesis and relighting given multi-view portraits as the input, and achieves state-of-the-art results.

研究の動機と目的

スパarsな入力画像から人間のポートレートの新規ビュー合成と再照明を同時に実現する課題に取り組む。
多数の画像を必要とし、再照明をサポートできない従来のNeRFベースの手法の限界を克服する。
任意の環境マップに対して制御可能な再照明を可能にするために、外観から照明効果を分離する。
実際のポートレートデータを用いたドメイン適応を組み込むことで、実世界のポートレートへの一般化を向上させる。
マルチビューのポートレートから、幾何学、外観、照明を同時に最適化する微分可能なレイマーチングを実現する。

提案手法

入力ポートレート画像からマルチビューのニューラル特徴を抽出するUNetに類似たCNNを用い、ピクセル単位の幾何学と外観を符号化する。
任意の3次元点に対して、投影を介してマルチビュー特徴を集約し、MLPを用いて体積密度と光輸送ベクトルを回帰する。
光輸送を環境マップの線形関数としてモデル化することで、入力照明を単に変更するだけで再照明が可能になる。
ボトルネック特徴から環境マップを予測するサブネットワークを統合し、照明と外観の分離を支援する。
CelebAMask-HQで訓練されたCNN回帰器を用いたドメイン適応モジュールを適用し、実データに対するロバストネスを向上させる。
レンダリング、照明推定、ドメイン正則化を組み合わせた複合損失を用いてエンドツーエンドで訓練し、すべてのモジュールを同時に最適化する。

実験結果

リサーチクエスチョン

RQ1わずか5枚の入力ポートレート画像から、高品質なビュー合成と再照明を同時に実現できるニューラルレンダリングシステムは存在するか？
RQ2任意の再照明を可能にするために、ニューラルボリュメトリック表現内で光輸送を明示的にモデル化する方法は何か？
RQ3合成データで訓練したモデルは、ファインチューニングなしで実際のポートレート画像に効果的に一般化できるか？
RQ4人間のポートレートのニューラルレンダリングにおいて、外観、幾何学、照明を分離するために必要なアーキテクチャ的要素は何か？
RQ5ドメイン適応は、標準的なNeRFスタイルの手法と比較して、実世界のポートレートデータセットでの性能をどのように向上させるか？

主な発見

NeLFは、合成および実際のポートレートデータセットの両方で、ビュー合成と再照明の両面で最先端のパフォーマンスを達成した。
わずか5枚の入力画像でも、実際の新規ビューと再照明の結果を生成でき、従来の手法と比較してデータ要件を顕著に低減した。
ドメイン適応モジュールにより、実ポートレートのレンダリング品質が向上し、ベースライン手法で見られるアーティファクトや穴あきパターンが減少した。
SIPR+IBRNet や IBRNet+SIPR などのベースライン手法は、分布シフトとモジュールの不整合により、実データで顕著なアーティファクトと穴を発生させた。
一部の制限（わずかな色調のずれやぼやけ）は存在するが、NeLFは実世界データに対して強いロバストネスと一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。