QUICK REVIEW

[論文レビュー] Self-Supervised Joint Learning Framework of Depth Estimation via Implicit Cues

Jianrong Wang, Ge Zhang|arXiv (Cornell University)|Jun 17, 2020

Advanced Vision and Imaging参考文献 44被引用数 23

ひとこと要約

本稿では、連続する動画フレームからの時間的および空間的ヒントを活用する自己教師付き共同学習フレームワークを提案する。2つの新規モジュール、浅いユニットストリーム特徴量から静的および動的深度信号を抽出するための暗黙的深度ヒント抽出器（IDCE）と、グローバルなポーズ推定を精緻化するための高次元アテンションモジュール（HAM）を導入している。本手法は、特徴最適化における幾何的整合性と耐性の向上により、深度の不連続性や運動アーチファクトを低減することで、KITTIおよびMake3Dベンチマークで最先端の性能を達成した。

ABSTRACT

In self-supervised monocular depth estimation, the depth discontinuity and motion objects' artifacts are still challenging problems. Existing self-supervised methods usually utilize a single view to train the depth estimation network. Compared with static views, abundant dynamic properties between video frames are beneficial to refined depth estimation, especially for dynamic objects. In this work, we propose a novel self-supervised joint learning framework for depth estimation using consecutive frames from monocular and stereo videos. The main idea is using an implicit depth cue extractor which leverages dynamic and static cues to generate useful depth proposals. These cues can predict distinguishable motion contours and geometric scene structures. Furthermore, a new high-dimensional attention module is introduced to extract clear global transformation, which effectively suppresses uncertainty of local descriptors in high-dimensional space, resulting in a more reliable optimization in learning framework. Experiments demonstrate that the proposed framework outperforms the state-of-the-art(SOTA) on KITTI and Make3D datasets.

研究の動機と目的

連続するフレーム間における動的および静的ヒントの不十分な利用に起因する、自己教師付き単眼深度推定における深度の不連続性と運動アーチファクトを解消すること。
動画シーケンスにおける時間的一致性を活用することで、物体境界付近および移動物体の深度推定精度を向上させること。
高次元特徴空間におけるポーズ推定の耐性を高め、不確実性を低減し、視覚再構成品質を向上させること。
既存の自己教師付き深度推定パイプラインにアーキテクチャの見直しを加えずに統合可能な汎用的フレームワークを設計すること。

提案手法

スタックされた連続フレームからのユニットストリーム特徴量を処理する暗黙的深度ヒント抽出器（IDCE）を導入し、段階的なボトルネックブロックを用いて、静的および動的深度ヒントを抽出する。
ユニットストリームにおける畳み込み活性化パターンの統計的分析を用い、動的物体周辺や静的シーンにおける滑らかな遷移でより正確な予測を可能にする深度予測を導くための深度提案を生成する。
畳み込みとガウスカーネルを用いてユニットストリーム特徴量からグローバル変換パターンを抽出する高次元アテンションモジュール（HAM）を提案し、高次元空間における局所的記述子の不確実性を抑制する。
IDCEとHAMをDepthNetとPoseNetに統合した共同学習フレームワークに組み込み、IDCEはDepthNetのデコーダーに接続され、HAMはPoseNetの特徴表現を強化してより良い視覚再構成を実現する。
予測された深度とカメラポーズを用いて、ワープされたソースビューとターゲットビューの画素単位の差異を最小化する視覚再構成損失に基づく自己教師付き学習目的を採用する。
単眼およびステレオ動画入力をサポートし、IDCEはトレーニング時の時間的フレームで有効に働き、静的フレームでの推論に対しても適応可能である。

実験結果

リサーチクエスチョン

RQ1連続する動画フレームから抽出された暗黙的動的および静的ヒントは、特に物体境界付近や移動物体の周辺で、深度推定精度を向上させることができるか？
RQ2ユニットストリーム特徴量におけるグローバル変換をモデル化する高次元アテンション機構は、ポーズ推定における不確実性を低減し、再構成品質を向上させるか？
RQ3提案されたIDCEおよびHAMモジュールは、アーキテクチャの変更なしに他の自己教師付き深度推定ネットワークへ一般化可能か？
RQ4ユニットストリームからの時間的および空間的ヒントの統合は、KITTIやMake3Dといった標準ベンチマークにおける性能にどのように影響を与えるか？

主な発見

提案フレームワークはKITTIデータセットで最先端の性能を達成し、高解像度（320×1024）入力において絶対相対誤差（Abs Rel）が0.101、delta < 1.25の精度が0.898であった。
Make3Dデータセットでは、Abs Relが0.106、delta < 1.25が0.890を達成し、異なるデータセット間での強力な一般化能力を示した。
HAMモジュールは、可視化による特徴統計の滑らかさから、特徴の不確実性を低減しており、特にノイズが多いまたは複雑なユニットストリーム空間においてポーズ推定の耐性を向上させた。
IDCEモジュールは、動きぼけの低減と物体境界における輪郭の鋭さ向上を効果的に実現しており、IDCEを用いた場合の明確な深度マップが、定性的な比較で裏付けられた。
アブレーションスタディでは、HAMがさまざまなPoseNetで一貫して性能を向上させる一方、CAMのような単純なアテンションモジュールは、ノイズの多い特徴に敏感であるため、特定のネットワークでは性能を低下させることが判明した。
高解像度トレーニング（320×1024）は性能を向上させるが、トレーニング時間は約49時間にまで増加し、精度と効率のトレードオフが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。