Skip to main content
QUICK REVIEW

[論文レビュー] EpiGRAF: Rethinking training of 3D GANs

Ivan Skorokhodov, Sergey Tulyakov|arXiv (Cornell University)|Jun 21, 2022
Generative Adversarial Networks and Image Synthesis被引用数 53
ひとこと要約

EpiGRAF は、beta分布のパッチスケールスケジュールと位置/スケール対応の識別器を用いたパッチごとの最適化により、2Dアップサンプラーなしで高解像度の純 NeRF ベースの 3D GAN をトレーニングし、最先端の画像品質と高速な学習を実現します。

ABSTRACT

A very recent trend in generative modeling is building 3D-aware generators from 2D image collections. To induce the 3D bias, such models typically rely on volumetric rendering, which is expensive to employ at high resolutions. During the past months, there appeared more than 10 works that address this scaling issue by training a separate 2D decoder to upsample a low-resolution image (or a feature tensor) produced from a pure 3D generator. But this solution comes at a cost: not only does it break multi-view consistency (i.e. shape and texture change when the camera moves), but it also learns the geometry in a low fidelity. In this work, we show that it is possible to obtain a high-resolution 3D generator with SotA image quality by following a completely different route of simply training the model patch-wise. We revisit and improve this optimization scheme in two ways. First, we design a location- and scale-aware discriminator to work on patches of different proportions and spatial positions. Second, we modify the patch sampling strategy based on an annealed beta distribution to stabilize training and accelerate the convergence. The resulted model, named EpiGRAF, is an efficient, high-resolution, pure 3D generator, and we test it on four datasets (two introduced in this work) at $256^2$ and $512^2$ resolutions. It obtains state-of-the-art image quality, high-fidelity geometry and trains ${\approx} 2.5 imes$ faster than the upsampler-based counterparts. Project website: https://universome.github.io/epigraf.

研究の動機と目的

  • 2D 画像コレクションからのアップサンプリングデコーダなしで、高解像度の 3D対応画像合成を効率的に動機づける。
  • パッチごとのトレーニングを調査し、マルチビューの一貫性と高忠実度ジオメトリを保持する。
  • 識別器とサンプリング戦略を開発し、パッチベースの GAN 訓練を安定化・加速する。
  • 256^2 および 512^2 の解像度で、さまざまなデータセットに対して最先端の画像品質と競争力のあるジオメトリを実証する。

提案手法

  • 2Dアップサンプラーなしで 3D シーンを合成する純 NeRF ベースのジェネレータを tri-plane バックボーンで使用する。
  • パッチ (r x r) 上でランダムスケール s を Beta 分布スケジュール s ~ Beta(1, beta(t)) から取り、[r/R, 1] にスケールする。
  • パッチスケールと位置に基づくフィルター・スケール変調を出力するハイパーネットワークでモジュレートされた位置・スケール対応の識別器を導入する。
  • StyleGAN2 識別器を射影型条件付けで拡張し、リアリズムとポーズ認識を向上させる。
  • 高コストな全画像レンダリングを避け、体積レンダリングを介してピクセルをレンダリングするパッチごとの最適化を採用する。
  • 背景を NeRF++ から分離するなど、NeRF ベースの技術を組み込んで合成性を高める。

実験結果

リサーチクエスチョン

  • RQ1Beta 分布スケジュールを持つパッチごとの学習で、2D アップサンプリングデコーダなしで高品質な 3D対応画像合成を達成できるか。
  • RQ2スケール/位置を考慮したハイパーネットワークでモジュレートされた識別器は、さまざまなサイズと位置のパッチで訓練の安定性と画像忠実度を向上させるか。
  • RQ3純 NeRF ベースのジェネレータは、アップサンプリングを用いた 3D GAN と比べてジオメトリの忠実度、多ビュー一貫性、訓練効率の点でどうなるか。
  • RQ4NeRF 技術(例:背景分離)を 3D GAN パイプラインに統合する利点は何か。
  • RQ5提案手法は、さまざまなジオメトリを持つデータセット(顔、猫、植物、食べ物)に対して、多解像度で一般化できるか。

主な発見

  • EpiGRAF はいくつかの 3D対応ベンチマークで最先端の画像品質を達成し、256^2 および 512^2 の解像度でベースラインと同等または上回る。
  • Beta 分布パッチスケールのサンプリングは、アニール済み一様サンプリングと比較して収束を加速し、訓練を安定化させる。
  • ハイパーネットワークでモデレートされた識別器は標準識別器より約 15%低い FID を実現し、スケール間で効果的なパッチ学習を可能にする。
  • 純 NeRF ベースのジェネレータを使用すると、2D アップサンプラーを必要とせず、多ビューの一貫性を保ちながら高忠実度ジオメトリを提供し、アップサンプリングベースの手法より訓練が約 2.5 倍速い。
  • モデルは背景分離をサポートし、合成性とレンダリング品質を高める NeRF 風の技術の恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。