QUICK REVIEW

[論文レビュー] VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids

K Schwarz, Axel Sauer|arXiv (Cornell University)|Jun 15, 2022

Advanced Vision and Imaging被引用数 54

ひとこと要約

VoxGRAFは座標ベースのMLPを疎なボクセルグリッドと3D CNNに置き換え、単一パスで高速かつ3D一貫性のある3D対応画像合成を実現します。前景は3D、背景は2D。

ABSTRACT

State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.

研究の動機と目的

MLPベースの放射場を超えた、より高速で3D一貫性のある3D対応画像合成の動機づけ。
単一のフォワードパスで3Dシーンを生成可能な疎なボクセルグリッド生成器の開発。
高解像度レンダリングのスケーラビリティのために、前景の3Dコンテンツと背景の2Dコンテンツを分離する。
視点を跨いで3D一貫性を維持しつつ、高い視覚的忠実度を達成する。
高速レンダリングに適した疎でシャープな表面を促進するよう正規化と刈り込みを行う。

提案手法

座標ベースのMLP放射場を、疎なボクセルグリッド上で色と密度を出力する3D CNNに置換する。
前景生成器をカメラ姿勢に条件づけ、体積レンダリングのために光線上を三次線形補間でサンプリングする。
3D前景生成器と2D背景GANを組み合わせ、アルファ合成を行って最終画像を取得する。
プログレッシブ成長と密度ベースの刈り込みを用いて、高速レンダリングを可能にする疎なボクセル表現を得る。
シャープな表面を促進する正規化（深度分散損失）を行い、トレーニングの安定性のために追加のTVおよびカバレージ正規化を適用する。
GAN目的とR1正則化で学習し、ディスクリミネータを姿勢で条件づけて3D priorsを強制する。

実験結果

リサーチクエスチョン

RQ1疎なボクセルグリッド生成器は、座標ベースのMLPsと同等の3D忠実度を提供しつつ、より高速な単一パスのシーン生成を実現できるだろうか？
RQ2前景（3D）と背景（2D）を分離することは、視点全体で3Dの一貫性とレンダリング効率を改善するだろうか？
RQ3刈り込みとプログレッシブ成長は、3D対応GANにおける疎性、メモリ使用量、レンダリング速度にどのような影響を与えるか？
RQ4高忠実度・3D一貫性のある結果のための純粋なニューラルレンダリングと固定背景の改良とのトレードオフは何か？

主な発見

単一のフォワードパスで完全な3Dシーンを生成し、マルチビューのレンダリングを高速化する。
深度分散正規化による疎性の促進は、ボクセルの疎性を劇的に高め（74%〜95%）、メモリを削減しレンダリングを高速化する。
VoxGRAFはFFHQ (9.6) と AFHQ (9.6) および Carlaで6.7の競争力のあるFIDスコアを達成し、密なボクセルのベースラインやいくつかの非ニューラルレンダラ法を上回る。
ニューラルレンダリングのベースラインと比較して、VoxGRAFはさまざまな視点で優れたマルチビュー一貫性とアーチファクトの低減を示す。
レンダリング時間はシーン生成と各視点ごとのレンダリングを分離し、新規ビューでリアルタイムに近い性能を実現（例として引用された状況で167 FPS）。
本手法は、姿勢条件付け前景生成と姿勢非依存背景、およびデータセットのバイアスに対処する浅いリファインメントCNNを備え、設計上3D一貫性を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。