QUICK REVIEW

[論文レビュー] GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

Katja Schwarz, Yiyi Liao|arXiv (Cornell University)|Jul 5, 2020

Generative Adversarial Networks and Image Synthesis参考文献 81被引用数 322

ひとこと要約

GRAF は、ポーズを取っていない 2D 画像から高解像度で3D整合性のある画像を合成するための条件付きニューラル放射野を学習し、多スケールのパッチベース識別器を用いて、形状、外観、視点の制御を可能にします。

ABSTRACT

While 2D generative adversarial networks have enabled high-resolution image synthesis, they largely lack an understanding of the 3D world and the image formation process. Thus, they do not provide precise control over camera viewpoint or object pose. To address this problem, several recent approaches leverage intermediate voxel-based representations in combination with differentiable rendering. However, existing methods either produce low image resolution or fall short in disentangling camera and scene properties, e.g., the object identity may vary with the viewpoint. In this paper, we propose a generative model for radiance fields which have recently proven successful for novel view synthesis of a single scene. In contrast to voxel-based representations, radiance fields are not confined to a coarse discretization of the 3D space, yet allow for disentangling camera and scene properties while degrading gracefully in the presence of reconstruction ambiguity. By introducing a multi-scale patch-based discriminator, we demonstrate synthesis of high-resolution images while training our model from unposed 2D images alone. We systematically analyze our approach on several challenging synthetic and real-world datasets. Our experiments reveal that radiance fields are a powerful representation for generative image synthesis, leading to 3D consistent models that render with high fidelity.

研究の動機と目的

2D GAN における3D理解の欠如に対処し、カメラ視点と物体の姿勢を明示的に制御できるようにする。
姿勢のない2D画像から訓練できる生成放射野モデルを開発し、新規の3D整合シーンを合成する。
形状、外観、視点を分離してこれらの要因を独立して操作できるようにする。
多スケールのパッチベース識別器を導入して高解像度の画像合成を達成する。
合成・実データセットで3Dの一貫性と画像忠実度を示す。

提案手法

シーンを条件付き放射野 g_theta として表現し、3D 位置 x、視点方向 d、形状コード z_s、外観コード z_a を色 c と密度 sigma に写像する。
x と d に対して位置エンコードを用い、密度 (sigma) と色 (c) の別々のエンコーダーヘッドを用いる；色ヘッドは view-dependent な外観のために d と z_a に条件づけられる。
レイに沿ってアルファ合成する微分可能な体積レンダリングを用いて2D画像をレンダリングする。
パッチベースの識別器を用いたGAN目的関数で訓練し、様々なスケールでランダムな KxK パッチをサンプリングして生成器を監督する。
放射野を潜在コード z_s（形状）と z_a（外観）で条件付けして、幾何と質感の分離と制御可能な操作を可能にする。
訓練中にランダムなカメラポーズ xi とランダムな2Dパッチパターン nu をサンプリングして視点の多様性と解像度非依存の監督を促進する。

実験結果

リサーチクエスチョン

RQ1未処置の2D画像から学習した生成放射野は、高解像度で3D整合性のある高忠実度画像を生成できるのか。
RQ2潜在コードによる形状と外観の分離が、3D対応生成と信頼できる視点整合性をもつ制御可能性をもたらすのか。
RQ3多スケールのパッチベース識別器は安定した高解像度の3D対応画像合成に不可欠なのか。
RQ4GRAF はボクセルベースの3D対応手法や2D GAN と比較して、画像忠実度と3D一貫性の点でどうなのか。

主な発見

GRAF は未処置の画像から高忠実度・高解像度の3D対応画像合成を達成し、ボクセルベースのベースラインより3D の一貫性が向上する。
条件付き放射野は形状 (z_s) を外観 (z_a) から成功裏に分離し、推論時に幾何と質感を独立して操作できる。
多スケールのパッチベース識別器は、安定したGAN訓練とデータセットや解像度を超えて高品質な出力にとって重要である。
platonic GAN や HoloGAN などのベースラインと比較して、特に視点変動の大きいデータセットでFID/KID および3D再構成指標が有利な結果を示す。
高解像度への一般化が可能で、学習された放射野が任意の視点からレンダリングされつつマルチビューの一貫性を維持するという証拠がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。