Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Learning of Geometry with Edge-aware Depth-Normal Consistency

Zhenheng Yang, Peng Wang|arXiv (Cornell University)|Nov 10, 2017
Advanced Vision and Imaging参考文献 30被引用数 104
ひとこと要約

この論文は、幾何学的一貫性とエッジ対応の滑らかさを課すことにより、モノキュラビデオから深度と表面法線を同時に推定する教師なしフレームワークを提案し、KITTI 2015で最先端を上回る。

ABSTRACT

Learning to reconstruct depths in a single image by watching unlabeled videos via deep convolutional network (DCN) is attracting significant attention in recent years. In this paper, we introduce a surface normal representation for unsupervised depth estimation framework. Our estimated depths are constrained to be compatible with predicted normals, yielding more robust geometry results. Specifically, we formulate an edge-aware depth-normal consistency term, and solve it by constructing a depth-to-normal layer and a normal-to-depth layer inside of the DCN. The depth-to-normal layer takes estimated depths as input, and computes normal directions using cross production based on neighboring pixels. Then given the estimated normals, the normal-to-depth layer outputs a regularized depth map through local planar smoothness. Both layers are computed with awareness of edges inside the image to help address the issue of depth/normal discontinuity and preserve sharp edges. Finally, to train the network, we apply the photometric error and gradient smoothness for both depth and normal predictions. We conducted experiments on both outdoor (KITTI) and indoor (NYUv2) datasets, and show that our algorithm vastly outperforms state of the art, which demonstrates the benefits from our approach.

研究の動機と目的

  • モノキュラビデオからのシーン幾何学(深度と法線)の教師なし学習を動機づける。
  • 幾何学的一貫性を課すための監視としてビュー合成を活用する。
  • 深度と法線推定を改善する正則化として深度-法線の一貫性を組み込む。
  • エッジ対応の滑らかさと画像勾配項を用いて深度の不連続性と低テクスチャ領域に対処する。

提案手法

  • モノキュラビデオシーケンスからカメラ運動、深度、表面法線を学習するエンドツーエンドのCNN。
  • ソースビューからターゲットビューを合成するための3D逆ワーピングに基づくフォトメトリックワーピング損失。
  • 画像勾配を重視して深度の不連続性を保持するエッジ対応の滑らかさ損失。
  • 深度と画像勾配の整合を促進するための画像勾配整合損失。
  • 深度2法線および法線2深度の層を明示的に設け、深度と法線間の幾何学的一貫性を強制する。

実験結果

リサーチクエスチョン

  • RQ1モノキュラビデオを用いた幾何学的・フォトメトリック制約により、深度と表面法線を教師なしで同時推定できるか?
  • RQ2明示的な深度-法線幾何正則化は深度と法線推定の品質にどのように影響するか?
  • RQ3エッジ対応項は低テクスチャ領域の深度滑らかさと不連続性にどのような影響を与えるか?

主な発見

  • このフレームワークは KITTI 2015 の深度および法線評価指標で最先端の性能を達成した。
  • 深度-法線の一貫性を専用レイヤーを介して組み込むことで、深度と法線マップの品質が向上する。
  • エッジ対応の滑らかさと勾配ベースの損失は、画像エッジに沿った深度不連続性を維持するのに役立つ。
  • ビュー合成監 supervision (photometric warping) はモノキュラビデオから学習する際の強力な幾何学的信号を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。