QUICK REVIEW

[論文レビュー] Neural Trajectory Fields for Dynamic Novel View Synthesis

Chaoyang Wang, B. Eckart|arXiv (Cornell University)|May 12, 2021

Advanced Vision and Imaging参考文献 49被引用数 25

ひとこと要約

論文はDCT-NeRFを導入します。DCT係数を用いた dense な時空軌道をモデリングする軌跡ベースのニューラル表現を提案し、単眼シーケンスからの安定かつ光測定一貫性のある動的新規ビュー合成を実現します。

ABSTRACT

Recent approaches to render photorealistic views from a limited set of photographs have pushed the boundaries of our interactions with pictures of static scenes. The ability to recreate moments, that is, time-varying sequences, is perhaps an even more interesting scenario, but it remains largely unsolved. We introduce DCT-NeRF, a coordinatebased neural representation for dynamic scenes. DCTNeRF learns smooth and stable trajectories over the input sequence for each point in space. This allows us to enforce consistency between any two frames in the sequence, which results in high quality reconstruction, particularly in dynamic regions.

研究の動機と目的

限られた写真集合から動的な新規ビュー合成を動機づける。
長距離の時空間運動を捕捉する座標ベースのニューラル表現を構築する。
learned な軌跡を介して任意の時刻ペア間でフォトメトリック整合性を強制する。
長時間マスクを過度に用いることなく、遮蔽と時間変化を扱う。
特に動的領域において、いくつかの現代的な動的NVS手法より優れた方法を提供する。

提案手法

シーンを、時間に条件付けた色と透明度、DCT軌道係数を出力するニューラルフィールドとして表現する：(φ_p^t, ω_p^t, σ_p^t) = Ψ(p, t)。
各点の軌道をDCTベースの関数T_p^t(·) = f_DCT^{-1}(·, φ_p^t)としてDenseな時空間運動を得る。
色をc_p^t(t′, d) = f_color(t′, d, ω_p^t)としてモデル化し、時間とともに色が変化することでスペキュラリティや照明変化を捕捉する。
レイに沿ってボリューメトリックなレンダリングを行い、任意のフレームからの放射輝度をT_p^tでワープして時を跨る一貫性を強制する。
軌跡をサイクル整合性、SVS（単一可視表面）制約、および軌跡正則化（空間/時間の滑らかさ、できる限り剛体変形に近づける）で正則化する。
周辺フレーム間および時間的に離れたペア間のフォトメトリック損失で訓練し、局所→全球の時間サンプリング計画を活用する。

実験結果

リサーチクエスチョン

RQ1密なパラメトリック時空間軌道場を用いた場景の単眼シーケンスからの一貫した新規ビュー合成が可能か。
RQ2シーンあたりのDCTベースの軌道を埋め込むことは、フレーム局所ワーピング手法と比べて長距離の時系列整合性とレンダリング品質を改善するか。
RQ3遮蔽と照明変化は動的NVSにどのような影響を与え、学習された透明度/出現モデルはこれらのアーチファクトを緩和できるか。
RQ4さまざまな正則化子（サイクル、SVS、軌道、深度/流れの priors）がレンダリング品質と安定性に与える影響はどれか。
RQ5DCT-NeRFは標準的な動的シーンデータセット上で既存の動的NVS法とどう比較されるか。

主な発見

Method	Full scene (SSIM↑)	Full scene (LPIPS↓)	Dynamic parts only (SSIM↑)	Dynamic parts only (LPIPS↓)
3D Photo [36]	0.614	0.215	0.486	0.217
Luo et al. [21]	0.746	0.141	0.530	0.207
NR-NeRF [43]	0.526	0.307	0.40	0.400
NSFF [18]	0.928	0.045	0.758	0.097
Ours w/o static	0.885	0.077	0.701	0.092
- local only	0.878	0.087	0.689	0.103
- w/o L_cycle	0.881	0.082	0.718	0.103
- w/o L_svs	0.885	0.082	0.711	0.096
- w/o L_traj	0.879	0.085	0.701	0.101
- w/o L_depth	0.892	0.081	0.697	0.108
Ours (w static)	0.915	0.049	0.704	0.089

DCT-NeRFは動的領域で高品質なレンダリングを実現し、すべてのシーン点の長距離軌道をモデリングすることでフレーム間の整合性を維持する。
DCT軌道表現は任意の時刻ペアのサンプリングとマッチングを可能にし、近接フレームを超えたフォトメトリック整合性の強制を実現する。
本手法は複数のベースラインに対して定量的・定性的な改善を示し、動的領域の時系列遮蔽の扱いでもLiら（2020）と同等あるいはそれ以上の性能を示す。
確率的遮蔽項p_occにより、時間を跨いで遮られる可能性のある領域の寄与を下げ、時系列の遮蔽を緩和する。
アブレーションにより、静的背景のモデリング、遮蔽重み付け、複数の正則化が動的領域での時空的コヒーレンスの維持に重要であることが示される。
近い同時代手法（Li et al. 2020; Tretschk et al. 2020; NR-NeRF; NSFF）と比較して、提案手法は動的領域のディテールが鋭く、長距離運動の一貫性が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。