QUICK REVIEW

[論文レビュー] Unsupervised Monocular Depth Learning in Dynamic Scenes

Hanhan Li, Ariel Gordon|arXiv (Cornell University)|Oct 30, 2020

Advanced Vision and Imaging参考文献 43被引用数 57

ひとこと要約

この論文は、動的なシーンを処理する新しい動きの正則化（L_g1 および L_{1/2}）を用い、追加信号なしで単一視点の動画から深度、自己運動、密な3Dオブジェクト変換場を学習し、Cityscapes、KITTI、Waymo Open Dataset、YouTube動画で最先端または競合的な結果を達成します。

ABSTRACT

We present a method for jointly training the estimation of depth, ego-motion, and a dense 3D translation field of objects relative to the scene, with monocular photometric consistency being the sole source of supervision. We show that this apparently heavily underdetermined problem can be regularized by imposing the following prior knowledge about 3D translation fields: they are sparse, since most of the scene is static, and they tend to be constant for rigid moving objects. We show that this regularization alone is sufficient to train monocular depth prediction models that exceed the accuracy achieved in prior work for dynamic scenes, including methods that require semantic input. Code is at https://github.com/google-research/google-research/tree/master/depth_and_motion_learning .

研究の動機と目的

高度に動的なシーンにおける深度推定を、モノ視点動画のみの監督で動機づけ、解決する。
深度、自己運動、および動く物体の密な3D平移場を共同で学習する。
意味情報やセ stereo なしで頑健な深度予測を可能にするため、残差オブジェクトモーションを正則化する。

提案手法

エンコーダ-デコーダ深度ネットワークがフレームごとの深度を予測します。
モーションネットワークは密な3Dオブジェクト平移場 T_obj(u,v) と6Dの自己運動ベクトル M_ego を予測します。
深度ネットワークとモーションネットワークは2フレームを入力として使用します：深度はフレームごとに独立、モーションは両フレームを用い、深度を追加の入力チャネルとして扱います。
モーション正則化 L_reg,mot はグループ平滑性 L_g1 と L_{1/2} のスパ sparsity を組み合わせて、剛体オブジェクト上の階段状（ブロック状）モーションを強制します。
エッジを考慮した深度正則化と整合性損失：L_reg,dep、L_rgb（フォトメトリック）、および L_cyc（モーションサイクル整合性）。
微分可能なビュー・トランスフォーマーが K, R, T を用いてフレーム間をワープさせ、自己教師あり学習を実現します。

実験結果

リサーチクエスチョン

RQ1モノ視点動画のみの監督で、意味情報やセ stereo の手掛かりなしに、深度、自己運動、密な物体運動を学習することは可能か。
RQ2残差モーション場をどのように正則化して、動く物体がある動的シーンでも深度精度を保つことができるのか。
RQ3提案する正則化を用いた場合、標準的な動的シーンのベンチマーク（Cityscapes、KITTI、Waymo）および野外動画での性能向上はどの程度か。
RQ4モーションネットワークに予測深度を追加入力チャネルとして含めると、モーション推定は改善されるか。
RQ5L_{1/2} と L_{1} のスパーシティ正則化の違いは、性能にどのような影響を及ぼすか。

主な発見

Semantics 入力を用いずに、Cityscapes と Waymo Open Dataset で監督なし深度の最先端を達成し、KITTI でも競争力のある結果を示した。
深度はフレームごとに学習され、モーションはフレーム対から3D平移場と自己運動として学習される。
2 段階のモーション正則化（L_g1 および自己正規化の L_{1/2}）は、動く物体内のスパース性と階段状モーションを強制し、動的な環境下でも頑健な深度推定を可能にする。
推論は V100 上で約5.3 ms/フレーム (480x192) で動作し、未最適化で約190 FPS を実現する。
深度入力をモーションネットワークに追加しない場合や L_{1} を L_{1/2" に代えると Cityscapes で性能が低下することを示すアブレーション結果。 pretrained マスクの追加は設定次第で限定的な利得または追加効果なしを示す。
データセット別の結果: Cityscapes アブレーションでは Abs Rel 0.119、Sq Rel 1.29、RMSE 6.98、RMSE log 0.190；KITTI (Eigen 分割) Abs Rel 0.130、Sq Rel 0.950、RMSE 5.138、RMSE log 0.209、δ<1.25 0.843、δ<1.25^2 0.948、δ<1.25^3 0.978；Waymo Open Dataset (マスクなし) Abs Rel 0.162、Sq Rel 1.711、RMSE 7.833、RMSE log 0.223（マスクあり: Abs Rel 0.157、Sq Rel 1.531、RMSE 7.090、RMSE log 0.205）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。