Skip to main content
QUICK REVIEW

[論文レビュー] NVS Machines: Learning Novel View Synthesis with Fine-grained View Control.

Xu Chen, Jie Song|arXiv (Cornell University)|Jan 7, 2019
Advanced Vision and Imaging被引用数 2
ひとこと要約

本論文では、高品質な3Dオブジェクトやシーンの新規ビューを正確な6-DOFの視点制御で合成する自己教師ありニューラルネットワーク、NVSマシンを提案する。変換オートエンコーダと深度誘導ワープ、ピクセル単位の融合マスクを組み合わせることで、深度マップやフローのマップからの直接的教師なしに幾何学的正確性を達成し、未学習の実世界の画像へも効果的に一般化する。

ABSTRACT

We present an approach that learns to synthesize high-quality, novel views of 3D objects or scenes, while providing fine-grained and precise control over the 6-DOF viewpoint. The approach is self-supervised and only requires 2D images and associated view transforms for training. Our main contribution is a network architecture that leverages a transforming auto-encoder in combination with a depth-guided warping procedure to predict geometrically accurate unseen views. Leveraging geometric constraints renders direct supervision via depth or flow maps unnecessary. If large parts of the object are occluded in the source view, a purely learning based prior is used to predict the values for dis-occluded pixels. Our network furthermore predicts a per-pixel mask, used to fuse depth-guided and pixel-based predictions. The resulting images reflect the desired 6-DOF transformation and details are preserved. We thoroughly evaluate our architecture on synthetic and real scenes and under fine-grained and fixed-view settings. Finally, we demonstrate that the approach generalizes to entirely unseen images such as product images downloaded from the internet.

研究の動機と目的

  • 3Dオブジェクトやシーンにおける新規ビュー合成に対して、細かく制御可能な6-DOFの制御を可能にすること。
  • 幾何制約を活用することで、深度マップやフローのマップからの直接的教師なしに、その必要性を排除すること。
  • ソースビューで物体の一部が隠れている場合に、奥行きのない領域を正確に再構築すること。
  • インターネット上の製品画像など、未学習の実世界の画像へ一般化できること。
  • 2D画像とそれに対応する視点変換のみを用いて、高精細なビュー合成を達成すること。

提案手法

  • 本手法は、入力画像から6-DOFの視点変換をモデル化するための変換オートエンコーダを採用する。
  • 予測された深度とカメラ変換に基づき、幾何学的に正確な新規ビューを予測するための深度誘導ワープ手順を用いる。
  • 奥行きのない領域のため、深度誘導ワープと学習ベースの事前分布の予測を融合するピクセル単位のマスクを予測する。
  • 真の深度やフローを必要とせず、2D画像と関連する視点変換のみを用いて自己教師ありで学習する。
  • 合成されたビューの整合性と正確性を保証するため、幾何制約を強制する。
  • 明示的な幾何学的推論と暗黙の生成的事前分布を組み合わせることで、奥行きと細部の保持を適切に処理する。

実験結果

リサーチクエスチョン

  • RQ12D画像と視点変換のみを用いて、自己教師ありネットワークが高精細な新規ビュー合成を正確な6-DOF制御で達成できるか。
  • RQ2深度マップやフローのマップからの直接的教師なしに、幾何制約が新規ビュー合成においてどれほど効果的に機能するか。
  • RQ3本モデルは、インターネット上の製品写真など、未学習の実世界の画像へどれほど一般化できるか。
  • RQ4深度誘導と学習ベースの予測の融合は、奥行き領域に対してどれほど効果的に機能するか。
  • RQ5ピクセル単位のマスクが視覚的品質と幾何的正確性を向上させる影響は何か。

主な発見

  • 本モデルは、真の深度やフローの教師なしに、合成データおよび実際のシーンの両方で高品質な新規ビュー合成を達成した。
  • 幾何制約の活用により、深度マップが利用できない状況でも正確なビュー合成が可能となった。
  • ピクセル単位のマスクは、深度誘導と学習ベースの予測を効果的に統合し、奥行き領域の再構築品質を向上させた。
  • 本手法は、インターネット上の製品画像など、未学習の実世界の画像に対しても良好に一般化した。
  • 多様な6-DOFの視点において、細部を保持するとともに幾何学的整合性を維持した。
  • 自己教師あり学習の枠組みにより、画像と変換データのみを用いた最小限の教師付きで、頑健な性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。