QUICK REVIEW

[論文レビュー] Unsupervised Depth Learning in Challenging Indoor Video: Weak Rectification to Rescue.

Jia-Wang Bian, Huangying Zhan|arXiv (Cornell University)|Jun 4, 2020

Advanced Vision and Imaging参考文献 54被引用数 31

ひとこと要約

この論文は、ハンドヘルドインテリア動画における教師なし深度推定の失敗を、回転が支配的な退化した自己移動（ego-motion）が主な障害要因であると特定し、回転ノイズを抑制し並進の監督信号を保持する弱い画像正規化（weak image rectification）を提案する。これにより、既存の教師なしモデルを用いてNYUv2で0.147のAbsRelという最先端性能を達成した。

ABSTRACT

Single-view depth estimation using CNNs trained from unlabelled videos has shown significant promise. However, the excellent results have mostly been obtained in street-scene driving scenarios, and such methods often fail in other settings, particularly indoor videos taken by handheld devices, in which case the ego-motion is often degenerate, i.e., the rotation dominates the translation. In this work, we establish that the degenerate camera motions exhibited in handheld settings are a critical obstacle for unsupervised depth learning. A main contribution of our work is fundamental analysis which shows that the rotation behaves as noise during training, as opposed to the translation (baseline) which provides supervision signals. To capitalise on our findings, we propose a novel data pre-processing method for effective training, i.e., we search for image pairs with modest translation and remove their rotation via the proposed weak image rectification. With our pre-processing, existing unsupervised models can be trained well in challenging scenarios (e.g., NYUv2 dataset), and the results outperform the unsupervised SOTA by a large margin (0.147 vs. 0.189 in the AbsRel error).

研究の動機と目的

教師あり深度推定手法がドライブシナリオでは成功しているのに対し、ハンドヘルドインテリア動画設定ではなぜ教師なし深度推定手法が失敗するかを調査すること。
回転が並進を支配する退化した自己移動（ego-motion）が、教師なし深度学習における主な失敗要因であることを同定すること。
画像ペアからの回転成分を除去することで、訓練信号を強化する前処理手法を開発すること。
既存の教師なし深度モデルが、NYUv2のような挑戦的なインテリアベンチマークで最先端性能を達成できるようにすること。

提案手法

著者らは、回転がトレーニング中にノイズとして作用するが、並進が有用な監督信号を提供することを示す基礎的分析を実施した。
回転が最小限の画像ペアを特定し、ホモロジーに基づく変換を用いて回転成分を除去する弱い画像正規化手法を提案した。
やや大きな並進を示す画像ペアを選別し、推定された運動に基づいて画像を整合させる正規化処理を実施し、回転歪みを効果的に抑制した。
正規化された画像ペアを用いてトレーニングデータを前処理し、教師なし深度学習における監督信号の質を向上させた。
標準的な教師なし深度モデルのトレーニングの前処理ステップとしてこの手法を適用し、アーキテクチャの変更は一切不要であった。
この手法は、幾何的制約と運動推定に依存しており、真値深度を必要とせずに回転成分を同定・補正できる。

実験結果

リサーチクエスチョン

RQ1教師あり深度推定手法がドライブシナリオでは強く性能を発揮しているのに対し、ハンドヘルドインテリア動画設定ではなぜ教師なし手法が失敗するのか？
RQ2回転による自己移動が、教師なし深度学習の性能をどの程度悪化させるのか？
RQ3回転成分を除去する前処理ステップが、教師なし深度学習における訓練信号を改善できるか？
RQ4既存の教師なし深度モデルが、正規化済みデータで学習させた場合、NYUv2のようなインテリアベンチマークで最先端性能を達成できるか？
RQ5弱い正規化は、並進の監督信号を保持すると同時に回転ノイズを効果的に抑制できるか？

主な発見

ハンドヘルドインテリア動画における回転は、教師なし深度学習のトレーニング中にノイズとして作用し、モデル性能を低下させる。
並進は信頼できる監督信号を提供するが、回転は学習プロセスを混乱させる。
提案された弱い正規化手法は、画像ペアからの回転成分を効果的に除去し、訓練信号の質を向上させた。
正規化済みデータで学習させた場合、既存の教師なしモデルはNYUv2データセットでAbsRel誤差0.147を達成し、前回のSOTAを大きく上回った。
アーキテクチャの変更なしに最先端性能を達成でき、特に挑戦的なインテリア環境において前処理の有効性を示した。
正規化後に並進運動が信頼できる監督信号として保持されたことが、性能向上の要因であると特定された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。