QUICK REVIEW

[論文レビュー] Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

Zhengqi Li, Simon Niklaus|arXiv (Cornell University)|Nov 26, 2020

Advanced Vision and Imaging参考文献 76被引用数 32

ひとこと要約

この論文は Neural Scene Flow Fields を導入し、 monocular video の時変的ニューロン表現として、外観、幾何、そして 3D シーン運動を共同でモデル化し、空間と時間の新規ビューを合成します。

ABSTRACT

We present a method to perform novel view and time synthesis of dynamic scenes, requiring only a monocular video with known camera poses as input. To do this, we introduce Neural Scene Flow Fields, a new representation that models the dynamic scene as a time-variant continuous function of appearance, geometry, and 3D scene motion. Our representation is optimized through a neural network to fit the observed input views. We show that our representation can be used for complex dynamic scenes, including thin structures, view-dependent effects, and natural degrees of motion. We conduct a number of experiments that demonstrate our approach significantly outperforms recent monocular view synthesis methods, and show qualitative results of space-time view synthesis on a variety of real-world videos.

研究の動機と目的

動機: 単一の単眼ビデオと既知のカメラ姿勢から新規ビュー合成と時間内補間を可能にする。
目標: 空間と時間の連続関数として動的シーンをモデル化し、3D 運動（シーンフロー）と外観/密度を含む。
狙い: 入力ビューに適合するようニューラル表現を最適化し、ディスオクションと運動境界を処理する。

提案手法

動的シーンを Neural Scene Flow Fields として表現し、カラー、密度、前方・後方の 3D シーンフロー、ディスオクションウェイトを出力する。
(x, d, i) を (c, sigma, F_i, W_i) にマッピングする時系列拡張 MLP を用いる。
予測されるシーンフローを介して隣接する時間ビューをターゲット時間にワープすることによる時系列のフォトメトリック整合性損失で最適化する。
運動境界を処理するためディスオクションウェイトを組み込み、シーンフローに対して L1 正則化とサイクル整合性を適用する。
動的と静的シーン表現を学習されたブレンドウェイト v と組み合わせて、静的領域でのレンダリング品質を向上させる。
時間-空間補間を可能にする splatting ベースの plane-sweep ボリュームレンダリングで、予測された流れを用いて時間 i と i+1 をブレンドする。
COLMAP 起点のカメラパラメータ、初期化のためのオプションのデータ主導事前分布、データ主導の複数項損失や幾何整合性を含む複数項損失でシーンごとに学習する。

実験結果

リサーチクエスチョン

RQ1既知のカメラ姿勢を持つ単眼ビデオから、動的シーンの新規ビューと新規時間の両方を合成できるか。
RQ2ニューラルで密な 3D シーンフローフィールドは、静的または純粋なビュー基準法よりも運動境界とディスオクションをよりよく捉えるか。
RQ3静的シーン表現と動的シーン表現を統合することで、静的領域のレンダリング品質を改善しつつ動的忠実性を維持できるか。
RQ4単純なフレームブレンディングではなく、予測された 3D シーンフローとスプラットレンダリングによって時間補間を達成できるか。

主な発見

提案された動的表現は、Nvidia Dynamic Scenes データセットに対して、新規ビュー合成およびビュー-時間統合の両方で最先端の単眼・マルチビューベースのベースラインを上回る。
静的シーン成分を追加することで静的領域でのレンダリング品質が向上し、最大で約 30% 程度の改善を達成する設定もある。
アブレーション実験では、静的統合とすべての損失を含む完全モデルが、動的・全シーン評価のいずれでも最良の SSIM/PSNR/LPIPS を示す。
シーンフローに基づくワープを用いた時空レンダリングは、単純な 2D フレーム補間や純粋な静的法と比べて中間時刻の結果が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。