[論文レビュー] Deferred Neural Rendering: Image Synthesis using Neural Textures
この論文は Neural Textures と Deferred Neural Renderer を導入し、欠陥のある3D再構成から写真のようにリアルな画像を合成し、3D に埋め込まれたエンドツーエンドのトレーニング可能なパイプライン内で新規ビュー合成と編集を可能にします。
The modern computer graphics pipeline can synthesize images at remarkable visual quality; however, it requires well-defined, high-quality 3D content as input. In this work, we explore the use of imperfect 3D content, for instance, obtained from photo-metric reconstructions with noisy and incomplete surface geometry, while still aiming to produce photo-realistic (re-)renderings. To address this challenging problem, we introduce Deferred Neural Rendering, a new paradigm for image synthesis that combines the traditional graphics pipeline with learnable components. Specifically, we propose Neural Textures, which are learned feature maps that are trained as part of the scene capture process. Similar to traditional textures, neural textures are stored as maps on top of 3D mesh proxies; however, the high-dimensional feature maps contain significantly more information, which can be interpreted by our new deferred neural rendering pipeline. Both neural textures and deferred neural renderer are trained end-to-end, enabling us to synthesize photo-realistic images even when the original 3D content was imperfect. In contrast to traditional, black-box 2D generative neural networks, our 3D representation gives us explicit control over the generated output, and allows for a wide range of application domains. For instance, we can synthesize temporally-consistent video re-renderings of recorded 3D scenes as our representation is inherently embedded in 3D space. This way, neural textures can be utilized to coherently re-render or manipulate existing video content in both static and dynamic environments at real-time rates. We show the effectiveness of our approach in several experiments on novel view synthesis, scene editing, and facial reenactment, and compare to state-of-the-art approaches that leverage the standard graphics pipeline as well as conventional generative neural networks.
研究の動機と目的
- ノイズや穴、過平滑化を含む不完全な3D再構成から写真のように現実的なレンダリングを動機づける。
- 豊富な外観情報を格納するために3Dプロキシに結合された学習済みの2Dマップとして neural textures を提案する。
- neural textures を解釈して最終画像を生成する微分可能でエンドツーエンド学習可能なレンダラを導入する。
- 新規ビュー合成、静的シーン編集、動的シーン再演出への応用を可能にする。
- 純粋に2D生成手法と比較して、時間的一貫性と出力の3D空間制御を示す。
提案手法
- 学習済み neural textures を3Dメッシュプロキシ上の高次元特徴マップとして格納し、より豊かな外観エンコードを可能にする。
- サンプリング時の縮小と拡大のバランスを取るために Neural Texture Hierarchies (multilevel textures) を構築する。
- neural textures の微分可能な bi-linear サンプリングを用いてスクリーン空間の特徴マップを作成する。
- 特徴マップ(および任意のビュー入力)を解釈して最終画像を合成する、Deferred Neural Renderer(U-Netスタイルのエンコーダ-デコーダ)を適用する。
- 最初の9つの特徴チャネルについて球面調和函数を用いてビュー方向により特徴を回転させるよう、レンダラを拡張してビュー依存効果を組み込む。
- 実測画像のクロップに対するL1フォトメトリック損失で、 neural textures とレンダラをエンドツーエンドで訓練する。
- 訓練のために uv-maps を事前計算し、 neural textures を用いてプロキシジオメトリをラスタライズしてレンダラへの入力を生成する。
実験結果
リサーチクエスチョン
- RQ1実データから学習された neural textures は、不完全な3D再構成から写真のようにリアルな再レンダリングを可能にするか?
- RQ2 neural textures を Deferred Neural Renderer とエンドツーエンドで訓練すると、時系列的一貫性のある新規ビューとシーン編集を生み出すか?
- RQ3質と効率の点で、 neural textures は伝統的な IBR(image-based rendering)および画像ベースのレンダリング手法とどう比較されるか?
- RQ4レンダリング精度に対するテクスチャ解像度、階層、およびプロキシジオメトリの品質の影響は何か?
- RQ5このアプローチは静的な新規ビュー合成だけでなく、動的/顔の再演出シナリオにも対応できるか?
主な発見
- Neural Textures と Deferred Neural Renderer は、不完全なジオメトリからリアルタイムに近い速度で写真のように再レンダリングを可能にする。
- 階層型ニューラルテクスチャは品質を向上させ、高解像度で単一テクスチャより低い MSE を達成する(例:階層構造で 2048×2048 で 0.38 MSE)。
- 単一の neural texture は解像度約 256×256 付近が最適解となることがあり、階層化によりより高い解像度で結果をさらに改善できる。
- Pix2Pix ベースの翻訳と比較して、本手法は新規ビューのレンダリングをよりシャープにし、時間的一貫性も向上する。
- 従来の画像ベースのレンダリングのベースラインと比較して、提案手法はテスト時に数百枚の高解像度画像を保存する必要がなく、コンパクトな neural texture (512×512×16) と 16M パラメータのレンダラを使用する。
- このアプローチはジオメトリプロキシ解像度の低下にも頑健で、写真のような出力を生成できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。