QUICK REVIEW

[論文レビュー] RenderNet: A deep convolutional network for differentiable rendering from 3D shapes

Thu Nguyen-Phuoc, Chuan Li|arXiv (Cornell University)|Jun 18, 2018

Computer Graphics and Visualization Techniques参考文献 42被引用数 65

ひとこと要約

RenderNet は、3D ボクセル形状から 2D 画像をレンダリングする新規プロジェクションユニットを備えた微分可能レンダリング CNN を提示し、単一画像から形状・姿勢・照明・質感を推定する等の逆レンダリング課題をサポートします。

ABSTRACT

Traditional computer graphics rendering pipeline is designed for procedurally generating 2D quality images from 3D shapes with high performance. The non-differentiability due to discrete operations such as visibility computation makes it hard to explicitly correlate rendering parameters and the resulting image, posing a significant challenge for inverse rendering tasks. Recent work on differentiable rendering achieves differentiability either by designing surrogate gradients for non-differentiable operations or via an approximate but differentiable renderer. These methods, however, are still limited when it comes to handling occlusion, and restricted to particular rendering effects. We present RenderNet, a differentiable rendering convolutional network with a novel projection unit that can render 2D images from 3D shapes. Spatial occlusion and shading calculation are automatically encoded in the network. Our experiments show that RenderNet can successfully learn to implement different shaders, and can be used in inverse rendering tasks to estimate shape, pose, lighting and texture from a single image.

研究の動機と目的

単一画像からの逆グラフィックスタスクを実現するために、微分可能レンダリングを動機づける。
3D ボクセル入力から 2D 画像をレンダリングするエンドツーエンドで訓練可能な CNN を開発する。
可視性と投影を微分可能な方法で学習する projection ユニットを導入する。
複数のシェーディングスタイルの生成と、ノイズや低解像度入力に対する頑健性を実証する。
姿勢・照明・質感推定などの逆レンダリングへの適用性を示す。

提案手法

ボクセルグリッドを入力として、ワールド座標系からカメラ座標系への剛体変換とトライ線形サンプリングを適用する。
4D ボクセル特徴テンソルを再整形して、深度方向に沿った可視性と投影を学習するために MLP（1x1 畳み込み経由）を適用する projection ユニットを導入する。
3D 畳み込みで3Dデータを処理し、続いて2D畳み込みで最終画像を生成する。
色に対しては MSE、グレースケールに対しては BCE のピクセル空間回帰損失でエンドツーエンドに訓練する。
RenderNet を法線マップ出力に拡張し、テクスチャマッピングやシェーディング方程式（例：Phongモデル）と統合する。
未見カテゴリへの一般化と、破損/低解像度入力に対する頑健性を示す。

実験結果

リサーチクエスチョン

RQ1RenderNet は単一のアーキテクチャ内で異なるシェーディングスタイルをレンダリングすることを学べるか？
RQ2モデルは未見カテゴリのオブジェクトやノイズのある・ダウンサンプリングされた入力ボリュームへ一般化できるか？
RQ3RenderNet は単一画像から形状・姿勢・照明・質感を回復する逆レンダリングタスクに使えるか？
RQ4レンダリング品質と一般化において、RenderNet はエンコーダ–デコーダのベースラインとどう比較されるか？
RQ5フレームワークを拡張してテクスチャマッピングやより複雑な照明シナリオに対応できるか？

主な発見

RenderNet は同一アーキテクチャ内で複数のシェーダ（Phong、コンター、カートゥーン、環境光遮蔽）を学習し、スタイル間で競争力のあるPSNRを達成する。
報告されたPSNRスコアには RenderNet Phong 25.39、EC Phong 24.21、EC-Deep Phong 20.88、RenderNet Contour 19.70、RenderNet Toon 17.77、RenderNet AO 22.37、RenderNet Face 27.43 が含まれる。
この手法は未見カテゴリへ一般化する（椅子を訓練対象としたが、Stanford Bunny と Monkey のレンダリングが可能）。
RenderNet は破損した入力（50% のランダムノイズ）とダウンサンプリングに対しても、妥当で高品質なレンダリングを生成する。
テクスチャマッピングの拡張により、アルベドマップと法線マップのレンダリングが可能となり、テクスチャ付きの陰影レンダリングを実現する。
エンコーダ–デコーダのベースライン（EC、EC-Deep）と比較して、RenderNet は物体のディテールをよりよく保持し、新しいカテゴリへ一般化する。
単一画像再構成では、RenderNet は形状・姿勢・照明・質感の回復をサポートし、再照明・再質感付けの鮮鋭さと制御性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。