QUICK REVIEW

[論文レビュー] StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis

Jiatao Gu, Lingjie Liu|arXiv (Cornell University)|Oct 18, 2021

Advanced Vision and Imaging参考文献 45被引用数 180

ひとこと要約

StyleNeRFは、スタイル条件付きのNeRFベースのジェネレータと進行的な2Dアップサンプリングを統合し、インタラクティブな速度で高解像度かつ3D一貫性のある画像をレンダリングします。カメラ制御とスタイル編集機能を備えています。

ABSTRACT

We propose StyleNeRF, a 3D-aware generative model for photo-realistic high-resolution image synthesis with high multi-view consistency, which can be trained on unstructured 2D images. Existing approaches either cannot synthesize high-resolution images with fine details or yield noticeable 3D-inconsistent artifacts. In addition, many of them lack control over style attributes and explicit 3D camera poses. StyleNeRF integrates the neural radiance field (NeRF) into a style-based generator to tackle the aforementioned challenges, i.e., improving rendering efficiency and 3D consistency for high-resolution image generation. We perform volume rendering only to produce a low-resolution feature map and progressively apply upsampling in 2D to address the first issue. To mitigate the inconsistencies caused by 2D upsampling, we propose multiple designs, including a better upsampler and a new regularization loss. With these designs, StyleNeRF can synthesize high-resolution images at interactive rates while preserving 3D consistency at high quality. StyleNeRF also enables control of camera poses and different levels of styles, which can generalize to unseen views. It also supports challenging tasks, including zoom-in and-out, style mixing, inversion, and semantic editing.

研究の動機と目的

高解像度出力を強い多視点の一貫性とともに扱う3D対応画像合成を動機づける。
NeRFとスタイルベースのジェネレータを統合してレンダリング効率と3D一貫性を向上させる。
スタイル混合、補間、反転、意味的編集を含む、カメラ姿勢とスタイル属性の明示的な制御を実現する。

提案手法

マッピングネットワークからのスタイルベクトルで特徴が条件付けられたNeRFとして3Dシーンをモデル化する。
視点方向に条件付けられないカラー予測を用い、スタイル条件付きMLPで密度とカラーを予測して一貫性を向上させる。
低解像度のNeRF特徴マップを生成し、3Dの一貫性を維持しつつ2Dで段階的に高解像度へアップサンプリングしてレンダリングする。
学習可能な成分と固定ブラーを組み合わせたアップサンプリング演算子を用いてアーティファクトを低減する。
NeRF経路の正則化を導入し、出力をNeRFレンダリングに一致させ、視線方向依存性とノイズ挿入を抑制する。
低解像度から高解像度へ段階的に訓練を行い、 geometry学習と多視点の一貫性を安定化させる。

実験結果

リサーチクエスチョン

RQ1スタイル条件付きのNeRFベースのジェネレータは、写真のようにリアルで高解像度な画像を、強い多視点の一貫性とともに生成できるか。
RQ2設計されたアップサンプラを用いた段階的な2Dアップサンプリングは、3Dの一貫性を維持しつつインタラクティブなレンダリング速度を実現できるか。
RQ3カラーの視点方向条件を排除し、2Dノイズを緩和することは、3Dの一貫性と品質にどのような影響を及ぼすか。
RQ43D対応の生成モデルにおいて、明示的なカメラ制御とスタイル操作（スタイル混合、補間、反転、編集）がどの程度実現可能か。

主な発見

モデル	FID (FFHQ 64)	KID (FFHQ 64)	FID (FFHQ 128)	KID (FFHQ 128)	FID (FFHQ 256)	KID (FFHQ 256)	64	128	256	512	1024
2D GAN	4	1.1	9	2.3	3	1.6	-	-	46	51	53
HoloGAN	75	68.0	78	59.4	48	39.6	213	215	222	-	-
GRAF	71	57.2	121	83.8	101	86.7	61	246	990	3852	15475
π-GAN	85	90.0	47	29.3	295	328.9	58	198	766	3063	12310
GIRAFFE	35	23.7	31	13.9	32	23.8	8	-	9	-	-
Ours (StyleNeRF)	8	3.7	14	3.5	8	4.3	-	-	65	74	98

StyleNeRFはインタラクティブな速度で高品質な1024^2の画像合成を強い多視点の一貫性とともに実現する。
提案されたアップサンプリング設計とNeRF経路正則化は、単純なアップサンプリングと比較して3Dの一貫性を大幅に向上させる。
カラー予測の視点方向条件を排除することで、視点間での合成の一貫性が向上する。
モデルはスタイル混合、補間、反転、CLIPに基づく編集を含む、明示的なカメラ制御とスタイル操作をサポートする。
高解像度での訓練をスクラッチから行うよりも、段階的な訓練が安定性とジオメトリ学習を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。