QUICK REVIEW

[論文レビュー] RenderNet: A deep convolutional network for differentiable rendering\n from 3D shapes

Thu Nguyen-Phuoc, Chuan Li|arXiv (Cornell University)|Jun 18, 2018

Computer Graphics and Visualization Techniques被引用数 96

ひとこと要約

RenderNet は、3D ボクセルグリッドを 2D 画像にレンダリングする微分可能なレンダリング CNN で、複数のシェーダを学習し、単一画像からの逆レンダリングをサポートします。

ABSTRACT

Traditional computer graphics rendering pipeline is designed for procedurally\ngenerating 2D quality images from 3D shapes with high performance. The\nnon-differentiability due to discrete operations such as visibility computation\nmakes it hard to explicitly correlate rendering parameters and the resulting\nimage, posing a significant challenge for inverse rendering tasks. Recent work\non differentiable rendering achieves differentiability either by designing\nsurrogate gradients for non-differentiable operations or via an approximate but\ndifferentiable renderer. These methods, however, are still limited when it\ncomes to handling occlusion, and restricted to particular rendering effects. We\npresent RenderNet, a differentiable rendering convolutional network with a\nnovel projection unit that can render 2D images from 3D shapes. Spatial\nocclusion and shading calculation are automatically encoded in the network. Our\nexperiments show that RenderNet can successfully learn to implement different\nshaders, and can be used in inverse rendering tasks to estimate shape, pose,\nlighting and texture from a single image.\n

研究の動機と目的

Learnable shading を備えた 3D ボクセルグリッドを 2D 画像にレンダリング可能な CNN アーキテクチャ（RenderNet）を導入する。
差分可能な方法で可視性と投影を近似する projection ユニットを組み込む。
複数のシェーダースタイルでのレンダリングと、ノイズが多い／低解像度の入力に対する頑健性を示す。
単一画像から形状・姿勢・照明・テクスチャを推定するような逆レンダリングタスクの実現性を示す。

提案手法

ボクセルグリッド入力を処理するための 3D CNN を使用し、一貫性を取るために canonical カメラ姿勢へ回転／リサンプリングを適用する。
Learned な可視性を持つ 2D フィーチャーマップを生成するよう、3D フィーチャーティソルを再成形し、MLP（実装は 1x1 異構成の畳み込み）を適用する新奇な projection ユニットを導入する。
その後、2D 畳み込みを用いて画素ごとのシェーディングとカラーを計算し、エンドツーエンドの微分可能なレンダリングを可能にする。
シェーディングとテクスチャマッピングのタスクを補助するための法線マップなどのオプション出力をサポートする。
カラーの MSE、グレースケールの二値交差エントロピーなどのピクセル空間損失を用いて、エンドツーエンドで訓練する。
アルベド／法線マップと照明を組み合わせることで、条件付きレンダリング（例：Phong シェーディング）へ拡張可能とする。

実験結果

リサーチクエスチョン

RQ1RenderNet は複数のシェーダースタイルの下で 3D ボクセル入力を 2D 画像へレンダリングすることを学習できるか？
RQ2RenderNet は unseen なオブジェクトカテゴリへ一般化し、ノイズやダウンサンプリングなどの劣化入力に対処できるか？
RQ3RenderNet をテクスチャーマッピングや法線マップと組み合わせて、テクスチャ付きのシェーディングレンダリングを生成できるか？
RQ4単一画像から形状・姿勢・照明・テクスチャを復元する逆レンダリングタスクに RenderNet を適用することは可能か？

主な発見

RenderNet は同じアーキテクチャを用いて複数のシェーダー（Phong、Contour、Cartoon、Ambient Occlusion）を学習でき、スタイルごとの PSNR が示される（例：RenderNet Phong 25.39、AO 22.37）。
モデルは unseen のオブジェクトカテゴリへ一般化する（椅子で訓練、Stanford Bunny と Monkey の出力を示す）。
RenderNet はノイズ付加などの破損入力やダウンサンプル入力にも頑健で、妥当なレンダリングを維持する。
アーキテクチャはテクスチャマッピングを統合するテクスチャマッピングネットワークと、陰影付き画像のための法線マップブランチを組み込むことでテクスチャマッピングをサポートする。
エンコーダ-デコーダベースラインと比較して、RenderNet はディテールをよりよく保持し、形状間で一般化し、グローバルなオブジェクト記憶化に依存しすぎない。
単一画像再構成へ適用した場合、RenderNet は学習した尤度に基づく MAP 的最適化を用いて姿勢・照明・テクスチャ推定を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。