Skip to main content
QUICK REVIEW

[論文レビュー] Monocular Neural Image Based Rendering with Continuous View Control

Xu Chen, Jie Song|arXiv (Cornell University)|Jan 1, 2019
Advanced Vision and Imaging参考文献 79被引用数 14
ひとこと要約

本論文は、単一の入力画像のみを用いて、細かい6自由度(6-DoF)カメラ制御のもとでリアルタイムかつ連続的な新規視点再構築を可能にするモノクローラルニューラル画像ベースレンダリング手法を提案する。幾何変換(3次元回転、並進、透視投影)を学習可能な変換オートエンコーダーに組み込み、深度誘導付きの外観ワープを用いることで、モデルは暗黙的にコンパクトで意味のある3次元幾何表現を学習し、視点再構築の精度と訓練視点を超えた一般化性能において最先端の性能を達成する。

ABSTRACT

We present an approach that learns to synthesize high-quality, novel views of 3D objects or scenes, while providing fine-grained and precise control over the 6-DOF viewpoint. The approach is self-supervised and only requires 2D images and associated view transforms for training. Our main contribution is a network architecture that leverages a transforming auto-encoder in combination with a depth-guided warping procedure to predict geometrically accurate unseen views. Leveraging geometric constraints renders direct supervision via depth or flow maps unnecessary. If large parts of the object are occluded in the source view, a purely learning based prior is used to predict the values for dis-occluded pixels. Our network furthermore predicts a per-pixel mask, used to fuse depth-guided and pixel-based predictions. The resulting images reflect the desired 6-DOF transformation and details are preserved. We thoroughly evaluate our architecture on synthetic and real scenes and under fine-grained and fixed-view settings. Finally, we demonstrate that the approach generalizes to entirely unseen images such as product images downloaded from the internet.

研究の動機と目的

  • 細かいカメラ制御(例:1°ステップサイズ)のもとで、単一のモノクローラル画像からリアルタイムかつ連続的な新規視点再構築を可能にすること。
  • 従来の手法が訓練視点に過適合し、連続的な視点移動において性能が低下するという限界を克服すること。
  • 明示的な3次元教師信号を用いずに、単一の画像から意味のある3次元幾何表現を暗黙的に学習すること。
  • 単一の物体および自然シーンの両方において、高精細で幾何的に正確な視点再構築を達成すること。

提案手法

  • ユークリッド空間における潜在変数への3次元回転および並進の明示的適用を実装する変換エンコーダデコーダ(TAE)ネットワークを導入し、潜在空間における幾何的整合性を強制する。
  • 変換された潜在変数から、ターゲット視点における深度マップを生成するための微分可能な深度予測ヘッドを用いる。
  • 予測された深度に基づいて、ソース視点とターゲット視点間の密なピクセル対応関係を透視投影を用いて計算する。
  • 予測されたフローマップを用いて微分可能な画像ワープを実行し、最終出力画像を合成する。
  • 最終画像の品質向上と幾何的正確性・詳細の保持を図るために、深度誘導付きの外観マッピングを採用する。
  • 画像ペアとそれに対応するカメラ変換のみを監視信号として、エンドツーエンドでパイプライン全体を訓練する。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークは、明示的な3次元教師信号を用いずに、単一のモノクローラル画像からコンパクトで意味のある3次元幾何表現を学習できるか?
  • RQ2潜在空間に明示的な3次元幾何変換(回転、並進、透視)を組み込むことで、訓練されていない新しい視点への一般化性能が向上するか?
  • RQ3深度誘導付きワープは、連続的な6-DoFカメラ制御下での合成視点の品質と幾何的正確性を顕著に向上させられるか?
  • RQ4視点再構築品質、視点制御の精度、連続運動へのロバストネスという観点から、本手法は最先端のベースラインと比較してどのように差をつけるか?

主な発見

  • KITTIデータセットにおいて、本手法はベースラインと比較して顕著に低いカメラポーズ推定誤差(回転L1: 0.108、並進L1: 0.019)を達成しており、優れた視点制御精度を示している。
  • 再トレーニングなしで高解像度画像(1024²)に対しても一般化が可能であり、Titan X GPU上で1フレームあたり50msの推論時間で実現している。
  • 深度誘導ワープとTAE部はそれぞれ、フローや深度予測の精度向上に寄与しており、フルモデルではShapeNetカーにおいて85.7%のフロー精度、91.1%の深度精度を達成している。
  • 潜在空間の補間および回転の結果から、学習された表現が意味的に意味があり、幾何的に整合的であることが示されており、形状の遷移は滑らかで、視点変更は明確に分離されている。
  • 視覚オドメトリ実験では、本手法を用いて合成された視点から推定された軌道が真値に近く、ベースラインは歪みや誤った運動を生成している。
  • 公開データセットにおいて、本手法は先行する最先端手法を上回っており、特に連続的視点再構築および未観測視点への一般化性能において顕著な優位性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。