QUICK REVIEW

[論文レビュー] Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes

Yihong Sun, Bharath Hariharan|arXiv (Cornell University)|Oct 29, 2023

Advanced Vision and Imaging被引用数 11

ひとこと要約

Dynamo-Depth は、 unlabeled videos から単眼深度、3D独立フロー、自己運動、動作分割を共同学習し、動的オブジェクトを分離して移動領域の深度を改善します。

ABSTRACT

Unsupervised monocular depth estimation techniques have demonstrated encouraging results but typically assume that the scene is static. These techniques suffer when trained on dynamical scenes, where apparent object motion can equally be explained by hypothesizing the object's independent motion, or by altering its depth. This ambiguity causes depth estimators to predict erroneous depth for moving objects. To resolve this issue, we introduce Dynamo-Depth, an unifying approach that disambiguates dynamical motion by jointly learning monocular depth, 3D independent flow field, and motion segmentation from unlabeled monocular videos. Specifically, we offer our key insight that a good initial estimation of motion segmentation is sufficient for jointly learning depth and independent motion despite the fundamental underlying ambiguity. Our proposed method achieves state-of-the-art performance on monocular depth estimation on Waymo Open and nuScenes Dataset with significant improvement in the depth of moving objects. Code and additional results are available at https://dynamo-depth.github.io.

研究の動機と目的

動的シーンにおける教師なし単眼深度推定での深度と運動のあいまいさに対処する。
3Dシーンフローの枠組みを用いてカメラの自己運動と独立した物体運動を分離する。
ラベルなしで動作分割をブートストラップするためのモーション初期化戦略を導入する。
Waymo Open および nuScenes で最先端の深度推定を達成し、動く物体で大きな改善を達成する。

提案手法

ラベルなしの単眼ビデオから深度、カメラ自己運動、および3D独立フローを予測する。
完全なフローネットワークと運動マスクを用いて独立運動をモデル化し、残差フローをゲートする。
深度と自己運動からリジッドフローを計算し、独立フローと結合してターゲットフレームを再構成する。
深度更新を早期に凍結させる2段階のモーション初期化を用いて、モーション分割をブートストラップする。
フォトメトリック再構成損失と、エッジ感知平滑性、モーション整合性、スパース性、地盤平面ペナルティを含む正則化項で最適化する。

実験結果

リサーチクエスチョン

RQ1動的オブジェクトが存在する場合でも、監督なしで信頼性の高い単眼深度推定を学習できるのか？
RQ23D独立フローと動作マスクを明示的にモデリングすることは、静的シーンの仮定と比較して動く物体の深度推定を改善しますか？
RQ3深度と運動が再構成を共同で説明する退化解を防ぐために、初期段階のモーション初期化は可能ですか？
RQ4Waymo Open および nuScenes の動く物体に対して、深度の精度とモーション分割でどの程度の改善が得られますか？

主な発見

Sem	D	Error Abs Rel	Error Sq Rel	Error RMSE	Error RMSE log	Accuracy δ<1.25	Accuracy δ<1.25^2	Accuracy δ<1.25^3
	K	0.115	0.882	4.701	0.190	0.879	0.961	0.982
	K	0.101	0.729	4.454	0.178	0.897	0.965	0.983
m	K	0.141	1.026	5.290	0.215	0.816	0.945	0.979
m	K	0.115	0.785	4.698	0.192	0.871	0.959	0.982
b	K	0.114	0.876	4.715	0.191	0.872	0.955	0.981
m	K	0.113	0.835	4.693	0.191	0.879	0.961	0.981
m	K	0.113	0.704	4.581	0.184	0.871	0.961	0.984
	K	0.110	0.719	4.486	0.184	0.878	0.964	0.984
	K	0.120	0.864	4.850	0.195	0.858	0.956	0.982
	N	0.193	2.285	7.357	0.287	0.765	0.885	0.935

Waymo Open および nuScenes データセットで最先端の深度精度を達成。
動く物体で大きな改善を達成し、精度で最大62%の相対改善、誤差で68%の相対的低減。
監督なしでモーション分割のF1スコアは最大71.8%に達する。
動的領域を明示的に扱いながら、全体的な深度推定性能が強いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。