QUICK REVIEW

[論文レビュー] Efficient Geometry-aware 3D Generative Adversarial Networks

Eric R. Chan, Connor Z. Lin|arXiv (Cornell University)|Dec 15, 2021

Advanced Vision and Imaging被引用数 46

ひとこと要約

この論文は、高速でジオメトリを意識した 3D GAN を、ハイブリッド tri-plane 表現と pose-conditioned、dual-discriminator 学習を用いて、2D 画像から高解像度で多視点一貫性のある 3D-aware 画像と 3D 形状を生成します。FFHQ および AFHQ Cats で最先端の結果を達成し、実時間レンダリングを高解像度で実現します。

ABSTRACT

Unsupervised generation of high-quality multi-view-consistent images and 3D shapes using only collections of single-view 2D photographs has been a long-standing challenge. Existing 3D GANs are either compute-intensive or make approximations that are not 3D-consistent; the former limits quality and resolution of the generated images and the latter adversely affects multi-view consistency and shape quality. In this work, we improve the computational efficiency and image quality of 3D GANs without overly relying on these approximations. We introduce an expressive hybrid explicit-implicit network architecture that, together with other design choices, synthesizes not only high-resolution multi-view-consistent images in real time but also produces high-quality 3D geometry. By decoupling feature generation and neural rendering, our framework is able to leverage state-of-the-art 2D CNN generators, such as StyleGAN2, and inherit their efficiency and expressiveness. We demonstrate state-of-the-art 3D-aware synthesis with FFHQ and AFHQ Cats, among other experiments.

研究の動機と目的

Unsupervised で高品質な 3D-aware 画像および 3D 形状を 2D 画像コレクションから生成することを動機づける。
表現力と効率のバランスをとるスケーラブルな 3D 表現を開発する。
StyleGAN2 のような強力な 2D CNN ジェネレータを活用しつつ、マルチビューの一貫性を実現する。
特徴生成をニューラルレンダリングから切り離して、3D シーン全体での一般化を向上させる。
訓練と推論の両方で pose-correlated attributes を faithfully reproduce できるよう、カメラ姿勢を条件付けする。

提案手法

三つの直交平面上に特徴を格納し、密度と色を計算する軽量な MLP でデコードする、三平面型のハイブリッド explicit–implicit 3D 表現を導入する。
StyleGAN2 ベースのバックボーンを用いて tri-plane features を生成し、3D 畳み込みなしで高品質な 3D-aware 出力を可能にする。
中程度の解像度でニューラル体積レンダリングを行い、最終的な高解像度 RGB 画像を得るための専用の超解像モジュールを適用する。
dual discrimination を適用する： (i) 低解像度のニューラルレンダリングとアップサンプル出力の一貫性を強制、(ii) カメラ内参/外参を条件として 3D priors を誘導。
生成ネットワークの mapping ネットワークへカメラパラメータを入力して pose conditioning を導入し、訓練時と推論時の pose-correlated attributes を分離する。
-end-to-end training with non-saturating GAN loss and R1 regularization, using a two-stage rendering resolution (e.g., 64^2 then 128^2) to speed training.

実験結果

リサーチクエスチョン

RQ1 hybrid explicit–implicit 3D 表現 (tri-planes) は、2D 画像コレクションから高解像度で多視点一貫性のある 3D-aware 画像合成を効率的に提供できるか。
RQ2 feature generation をニューラルレンダリングから切り離すことで、StyleGAN2 のような 2D CNN ジェネレータを 3D シーン合成に活用して 3D の一貫性を損なわずにできるか。
RQ3 dual discrimination と pose conditioning は、マルチビューの一貫性、姿勢関連のバイアス、画像品質にどのような影響を与えるか。
RQ4 FFHQ および AFHQ Cats における prior 3D-aware GAN よりも、FID、 identity 一致、深度・姿勢精度はどの程度改善されるか。

主な発見

Dataset	Method	FFHQ FID	FFHQ ID	FFHQ Depth	FFHQ Pose	Cats FID	Cats ID	Cats Depth	Cats Pose
FFHQ 256^2	GIRAFFE	31.5	0.64	0.94	.089	16.1	—	—	—
FFHQ 256^2	π-GAN	29.9	0.67	0.44	.021	16.0	—	—	—
FFHQ 256^2	Lift. SG	29.8	0.58	0.40	.023	—	—	—	—
FFHQ 256^2	Ours	4.8	0.76	0.31	.005	3.88	—	—	—
FFHQ 512^2	Ours	4.7	0.77	0.39	.005	2.77	—	—	—

FFHQ および AFHQ Cats において最先端の 3D-aware 合成を達成し、画像品質とビューの一貫性の顕著な改善を示す。
tri-plane 表現を用いて、最終解像度 512^2 のリアルタイムレンダリングを 128^2 のニューラルレンダリング解像度で実現。
基線（GIRAFFE、π-GAN、Lifting StyleGAN）を FID や pose/identity 指標で上回り、Ours 512^2 は FFHQ で FID 4.7、Cats で 2.77 を達成。
dual discrimination はビュー間の表現ドリフトを抑制し、マルチビューの一貫性を向上させる一方、ジェネレータの pose conditioning で補償されない限り FID への影響がある。
このアーキテクチャは、2D in-the-wild 画像から高品質な 3D 幾何を学習し、潜在 PRIORS を用いたスタイル混合および単一視点の 3D 再構成を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。