[論文レビュー] CIPS-3D: A 3D-Aware Generator of GANs Based on Conditionally-Independent Pixel Synthesis
CIPS-3Dは、浅いNeRFを3D形状、深いINRを外観として用い、各ピクセルを独立してレンダリングするスタイルベースの3D-awareジェネレーターを導入し、FFHQで最先端の3D-aware画像品質を達成します。
The style-based GAN (StyleGAN) architecture achieved state-of-the-art results for generating high-quality images, but it lacks explicit and precise control over camera poses. The recently proposed NeRF-based GANs made great progress towards 3D-aware generators, but they are unable to generate high-quality images yet. This paper presents CIPS-3D, a style-based, 3D-aware generator that is composed of a shallow NeRF network and a deep implicit neural representation (INR) network. The generator synthesizes each pixel value independently without any spatial convolution or upsampling operation. In addition, we diagnose the problem of mirror symmetry that implies a suboptimal solution and solve it by introducing an auxiliary discriminator. Trained on raw, single-view images, CIPS-3D sets new records for 3D-aware image synthesis with an impressive FID of 6.97 for images at the $256 imes256$ resolution on FFHQ. We also demonstrate several interesting directions for CIPS-3D such as transfer learning and 3D-aware face stylization. The synthesis results are best viewed as videos, so we recommend the readers to check our github project at https://github.com/PeterouZh/CIPS-3D
研究の動機と目的
- 高忠実度の3D-aware画像合成におけるカメラ姿勢の明示的な制御を動機づける。
- 各ピクセルを独立して合成することでアップサンプリングや畳み込みを回避するジェネレーターを提案する。
- メモリ効率(浅いNeRF)と高容量の外観モデリング(深いINR)とのバランスを取る。
- 補助識別子を用いて3D-aware GANにおける鏡像対称性に対処する。
- FFHQから他ドメインへの転移学習と3D-awareフェーススタイライズを実証する。
提案手法
- ノイズ条件付きModulated SIRENブロックを用いて3D形状を捉える浅いNeRFネットワークを使用する。
- 形状コードz_sをマッピングネットワークを通じてw_sへ写像し、特徴モジュレーションにNeRFを条件付けする。
- 各点から3D特徴ベクトルvと密度sigmaを出力させ、体積レンダリングによりピクセルごとの特徴を生成する。
- 各ピクセルの特徴を独立してRGB値に変換する深い2D INRネットワークを使用(空間的なアップサンプリングはなし)。
- 固定の位置エンコーディングによる鏡像対称性を避けるため、学習可能な位置エンコーディングを組み込み、NeRF出力を正則化する補助識別子を使用する。
- 反復ごとに一部の光線の勾配フローを選択的に有効化して、ハイレゾ画像を効率的に訓練するための部分勾配逆伝播を実装する。
- Appearance modulationを高速化するため、バッチ行列乗算(bmm)によるメモリ効率の良いModFC実装を提供する。
実験結果
リサーチクエスチョン
- RQ1ハイブリッドジェネレーター(浅いNeRF+深いINR)は、明示的な姿勢制御を備えた高品質で3D-awareな画像合成を達成できるか?
- RQ2補助識別子はNeRF+INRの3D-aware GANにおける鏡像対称性を効果的に緩和するか?
- RQ3空間畳み込みやアップサンプリングなしで高解像度の3D-aware GANを効率的に訓練できるか?
- RQ4転移学習は新しいドメインで外観を微調整しつつNeRF形状知識をどれだけ効果的に転送できるか?
- RQ5対称性の問題を軽減する際、学習可能な位置エンコーディングと固定位置エンコーディングの相対的利得はどれか?
主な発見
| 手法 | FID 256x256 ↓ | KID 256x256 ↓ | FID 1024x1024 ↓ | KID 1024x1024 ↓ |
|---|---|---|---|---|
| StyleGAN2 (2D baseline) | 4.30 | 1.07 | 2.86 | 0.53 |
| CIPS (3D-agnostic) | 23.06 | 23.04 | 10.03 | 4.79 |
| GIRAFFE | 63.33 | 50.94 | - | - |
| pi-GAN | 34.56 | 26.58 | 35.97 | 28.09 |
| StyleNeRF | 8.00† | 3.70† | - | - |
| CIPS-3D (ours) | 6.97 | 2.87 | 12.26 | 7.74 |
- CIPS-3DはFFHQにおける3D-aware GANの中で最先端のFID/KIDを達成し、256×256でFID 6.97、KID 2.87、1024×1024でFID 12.26、KID 7.74。
- StyleNeRFと比較して、パラメータ数が多いにもかかわらず256×256でより良いFID/KIDを示し、高解像度でも競争力を維持。
- 補助識別子が座標対称性に起因する鏡像対称性を効果的に除去する。
- 部分的勾配逆伝播によりメモリ使用量を削減しつつ、512×512解像度で訓練を可能にし、全画像識別器の露出を維持。
- NeRF(形状)ネットワークを凍結しINR(外観)をファインチューニングして新しいドメインに適応させる転移学習は効果的(MetFaces、BitmojiFaces、CartoonFaces、AFHQ)。
- 基底FFHQモデルと転移モデルの間の補間により、制御可能な3D-awareスタイリゼーションとドメインブレンディングを実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。