QUICK REVIEW

[論文レビュー] StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

Roy Or-El, Xuan Luo|arXiv (Cornell University)|Dec 21, 2021

Advanced Vision and Imaging被引用数 49

ひとこと要約

StyleSDF は SDF ベースの 3D ボリュームレンダラーと 2D StyleGAN2 ジェネレーターを組み合わせて、単一視点 RGB データから 1024x1024 の視点整合画像と詳細なジオメトリを生成します。複数視点の監視なしで高解像度出力と改善された 3D 一貫性を達成します。

ABSTRACT

We introduce a high resolution, 3D-consistent image and shape generation technique which we call StyleSDF. Our method is trained on single-view RGB data only, and stands on the shoulders of StyleGAN2 for image generation, while solving two main challenges in 3D-aware GANs: 1) high-resolution, view-consistent generation of the RGB images, and 2) detailed 3D shape. We achieve this by merging a SDF-based 3D representation with a style-based 2D generator. Our 3D implicit network renders low-resolution feature maps, from which the style-based network generates view-consistent, 1024x1024 images. Notably, our SDF-based 3D modeling defines detailed 3D surfaces, leading to consistent volume rendering. Our method shows higher quality results compared to state of the art in terms of visual and geometric quality.

研究の動機と目的

単一視点 RGB データから高解像度で 3D 一貫性のある画像とジオメトリ生成を実証する。
SDF ベースのボリュームレンダラーを活用して、明示的な 3D ジオメトリと視点整合性機能を提供する。
低解像度の 3D 特徴を 2D StyleGAN2 ジェネレーターと融合して、1024x1024 の出力を実現する。

提案手法

座標ベースの MLP を用いて、低解像度の特徴マップに対する Signed Distance Fields (SDF) と放射場をモデル化する。
ボリュームレンダリングを介して 64x64 の特徴マップと RGB 画像を得る。SDF に由来する密度を、学習されたアルファパラメータで導くことでガイドする。
低解像度の特徴を切り詰められた StyleGAN2 ジェネレーター（64x64 の初期段階）に入力して、高解像度の 1024x1024 画像を生成する。
敵対的損失と Eikonal 損失を用いて有効な SDF ジオメトリと視点整合性を強化する。さらに生成物の全体整合を促す Pose Alignment 損失を含める。

実験結果

リサーチクエスチョン

RQ1単一視点で訓練されたネットワークは、視点を跨いで 3D 一貫性のある高解像度 RGB 画像を生成できるか？
RQ2SDF ベースのボリュームレンダラーと StyleGAN2 ジェネレーターを結合することで、従来の 3D 対応 GAN と比較して幾何学と質感の品質が向上するか？
RQ3ビュー依存の着色が、訓練の安定性と推論時の視点整合性にどのように影響するか？
RQ4提案されたサンプリング戦略がレンダリング品質と訓練効率に与える影響は？
RQ5FFHQ および AFHQ における StyleSDF の画像品質と深度/ジオメトリの一貫性の観点での性能はどうか？

主な発見

データセット	HoloGAN FID	HoloGAN KID	GRAF FID	GRAF KID	PiGAN FID	PiGAN KID	GIRAFFE FID	GIRAFFE KID	Our FID	Our KID
FFHQ	90.9	75.5	79.2	55.0	83.0	85.8	31.2	20.1	11.5	2.65
AFHQ	95.6	77.5	129.5	85.1	52.4	30.7	33.5	15.1	12.8	4.47

StyleSDF は、最先端の 3D 対応 GAN と比較して、深度およびジオメトリ品質を改善した 1024x1024 の視点整合画像を達成する。
FFHQ および AFHQ において、StyleSDF はベースラインモデル（HoloGAN、GRAF、PiGAN、GIRAFFE）よりも優れた FID/KID スコアを得る。
正面視と側面視間の深度一貫性は、PiGAN より StyleSDF の方が著しく優れており、視点整合性の高いジオメトリを示す。
2 段階の訓練（まずボリュームレンダラー、次に StyleGAN2）は、最適化を安定化させ、視点を跨いでもアイデンティティと構造を保持する。
学習した SDF 表面から marching cubes による高品質な 3D メッシュを実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。