Skip to main content
QUICK REVIEW

[論文レビュー] Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations

Vincent Sitzmann, Michael Zollhöfer|arXiv (Cornell University)|Jun 4, 2019
Face recognition and analysis被引用数 679
ひとこと要約

SRNs は、連続的で 3D 構造を考慮したニューラルシーン表現と微分可能レンダラを提案し、姿勢付けられた 2D 画像から幾何と外観を学習して、新規ビュー合成と 3D 監督なしの少数ショット再構成を可能にする。

ABSTRACT

Unsupervised learning with generative models has the potential of discovering rich representations of 3D scenes. While geometric deep learning has explored 3D-structure-aware representations of scene geometry, these models typically require explicit 3D supervision. Emerging neural scene representations can be trained only with posed 2D images, but existing methods ignore the three-dimensional structure of scenes. We propose Scene Representation Networks (SRNs), a continuous, 3D-structure-aware scene representation that encodes both geometry and appearance. SRNs represent scenes as continuous functions that map world coordinates to a feature representation of local scene properties. By formulating the image formation as a differentiable ray-marching algorithm, SRNs can be trained end-to-end from only 2D images and their camera poses, without access to depth or shape. This formulation naturally generalizes across scenes, learning powerful geometry and appearance priors in the process. We demonstrate the potential of SRNs by evaluating them for novel view synthesis, few-shot reconstruction, joint shape and appearance interpolation, and unsupervised discovery of a non-rigid face model.

研究の動機と目的

  • 明示的な 3D 監視なしに、2D 画像から豊かな 3D シーン表現を教師なしで発見する動機付け。
  • 幾何と外観を符号化する特徴ベクトルへ 3D 座標をマップする、連続的なシーン表現を導入する。
  • 任意の視点から画像をレンダリングするための、ニューラルレイマーチングを用いた微分可能レンダラを開発する。
  • 新規ビュー合成、少数ショット再構成、および非剛性顔モデルの発見といった応用を示す。

提案手法

  • シーンを Phi: R^3 -> R^n の関数として表現し、世界座標を特徴ベクトルへ写像する。
  • 学習済みのレイマーシャ (RM-LSTM) を含む、微分可能なニューラルレンダラ Theta を使用し、ピクセルごとの MLP カラーマッパを備える。
  • 微分可能なレイマーチングを用いてレイ-シーンの交差を解くことでレンダリングし、RM-LSTM でステップサイズを予測する。
  • 明示的な 3D 監視なしに、 posed 2D 画像からのエンドツーエンド訓練を許可する。
  • 潜在コード z_j をシーンパラメータ phi_j に写像する Hypernetwork Psi を学習して、インスタンス間で共有レンダリングを可能にすることにより、シーン全体にわたる一般化。
  • 画像損失、深度正則化、潜在空間の事前分布を含む結合目的関数を最適化する。

実験結果

リサーチクエスチョン

  • RQ1 posed 2D 画像から学習された連続的で 3D 構造認識を備えたシーン表現は、マルチビューで一貫した新規ビュー合成をサポートできるか。
  • RQ2SRNs はクラス内のインスタンス間で一般化する幾何と外観の事前知識をどの程度学習できるか?
  • RQ33D 監視なしで、少数ショット再構成と潜在的な非剛性変形(例:顔)を発見する SRNs の性能はどの程度か?

主な発見

  • SRNs はマルチビューで一貫した新規ビュー合成を達成し、ベンチマークタスクでいくつかのベースラインを上回る。
  • SRNs は少数ショット再構成を実行し、幾何と外観を再構成し、オブジェクトインスタンス間の潜在空間補間を可能にする。
  • モデルは posed 2D 画像のみから、教師なしで幾何と非剛性変形(例:顔モデル)を発見できる。
  • カメラ姿勢と内部パラメータは見たことのない構成へ一般化され、姿勢外挿とクローズアップレンダリングを可能にする。
  • ピクセルごとのカラーマッパーと微分可能なレイマーチングを組み合わせることで、2D畳込みに依存せずにマルチビューの一貫性を保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。