[論文レビュー] Visual Object Networks: Image Generation with Disentangled 3D Representation
VONは画像生成を分離された形状、視点、テクスチャ要因へ分解し、3D priors から現実的な2D画像を生成する。3D対応の編集と視点変更を、2D-3Dデータのペアなしで可能にする。
Recent progress in deep generative models has led to tremendous breakthroughs in image generation. However, while existing models can synthesize photorealistic images, they lack an understanding of our underlying 3D world. We present a new generative model, Visual Object Networks (VON), synthesizing natural images of objects with a disentangled 3D representation. Inspired by classic graphics rendering pipelines, we unravel our image formation process into three conditionally independent factors---shape, viewpoint, and texture---and present an end-to-end adversarial learning framework that jointly models 3D shapes and 2D images. Our model first learns to synthesize 3D shapes that are indistinguishable from real shapes. It then renders the object's 2.5D sketches (i.e., silhouette and depth map) from its shape under a sampled viewpoint. Finally, it learns to add realistic texture to these 2.5D sketches to generate natural images. The VON not only generates images that are more realistic than state-of-the-art 2D image synthesis methods, but also enables many 3D operations such as changing the viewpoint of a generated image, editing of shape and texture, linear interpolation in texture and shape space, and transferring appearance across different objects and viewpoints.
研究の動機と目的
- 分離可能な生成モデルを用いて、3D構造と2D画像合成の橋渡しを促す。
- 3D形状事前知識と、3Dボクセルを2Dスケッチに結びつける微分可能な2.5D投影を開発する。
- 2.5Dスケッチからフォトリアルな画像を生成するテクスチャジェネレータを訓練する。
- 視点変更、形状/テクスチャ編集、テクスチャ転送などの3D操作を可能にする。
- 分離された3D表現が、2DのみのGANベースラインより現実感を向上させることを示す。
提案手法
- 3D-GANとWasserstein-GPを用いてカテゴリ特化の3D形状事前知識を学習し、ボクセルグリッドを生成する。
- サンプル視点からの射影モジュールを介して、微分可能な2.5Dスケッチ(シルエットと深さ)を計算する。
- 非対になる画像データとサイクル整合性対生成的損失を用いて、2.5Dスケッチからリアルな画像を描画するテクスチャネットワークを訓練する。
- 実画像からテクスチャと2.5Dスケッチを復元するエンコーダを使用し、サイクル整合性とKL損失を適用してone-to-many mappingsを促進する。
- 形状、視点、テクスチャを最終画像へ接続する微分可能な部品を用いてエンドツーエンドで訓練する。
- Fréchet Inception Distance (FID)を用いて2D GANsと比較評価し、ヒューマンプレファレンス調査を実施する。
実験結果
リサーチクエスチョン
- RQ1分離された3D表現は、生成画像の現実感を2D GANsと比較して向上させることができるか?
- RQ2視点・テクスチャ/形状編集を可能にする3D対応パイプラインは、実画像のようなデータに対して2Dのみの合成より優れているか?
- RQ3ペアになっていない2Dと3Dデータを効果的に活用して、共同生成モデルを訓練できるか?
- RQ4形状、視点、テクスチャを独立して制御可能にしたとき、どのような3D操作が可能になるか?
主な発見
| モデル | 車 FID | 椅子 FID |
|---|---|---|
| DCGAN | 130.5 | 225.0 |
| LSGAN | 171.4 | 225.3 |
| WGAN-GP | 123.4 | 184.9 |
| VON (voxels) | 81.6 | 58.0 |
| VON (DF) | 83.3 | 51.8 |
- VONは car および chair データセットで、DCGAN、LSGAN、WGAN-GP のベースラインより低い Fréchet Inception Distance (FID) を達成。
- 多数の比較で、人間はVONが生成した画像をベースラインの2D GANより好む傾向を示した。
- VONは高品質な3D形状を生み出し、視点変更、形状/テクスチャ編集、テクスチャ転送などの3D対応操作を促進する。
- 3D形状事前知識の使用は、従来の3D-GANアプローチよりサンプルの現実性を向上させる。
- Distance function (DF) 表現は、ボクセルベースの表現と比べて競争力のある、または優れたFIDを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。