[論文レビュー] Deep Ordinal Regression Network for Monocular Depth Estimation
この論文は、SID spacing-increasing discretization を用い、序数回帰損失を用いたモノキュラー深度推定の Deep Ordinal Regression Network (DORN) を提案し、軽量なマルチスケールアーキテクチャで heavy spatial pooling を回避し、複数のベンチマークで最先端の結果を達成します。
Monocular depth estimation, which plays a crucial role in understanding 3D scene geometry, is an ill-posed problem. Recent methods have gained significant improvement by exploring image-level information and hierarchical features from deep convolutional neural networks (DCNNs). These methods model depth estimation as a regression problem and train the regression networks by minimizing mean squared error, which suffers from slow convergence and unsatisfactory local solutions. Besides, existing depth estimation networks employ repeated spatial pooling operations, resulting in undesirable low-resolution feature maps. To obtain high-resolution depth maps, skip-connections or multi-layer deconvolution networks are required, which complicates network training and consumes much more computations. To eliminate or at least largely reduce these problems, we introduce a spacing-increasing discretization (SID) strategy to discretize depth and recast depth network learning as an ordinal regression problem. By training the network using an ordinary regression loss, our method achieves much higher accuracy and \dd{faster convergence in synch}. Furthermore, we adopt a multi-scale network structure which avoids unnecessary spatial pooling and captures multi-scale information in parallel. The method described in this paper achieves state-of-the-art results on four challenging benchmarks, i.e., KITTI [17], ScanNet [9], Make3D [50], and NYU Depth v2 [42], and win the 1st prize in Robust Vision Challenge 2018. Code has been made available at: https://github.com/hufu6371/DORN.
研究の動機と目的
- 単一の画像からのモノキュラー深度推定の難解な性質に対処する。
- MSE損失を用いた標準回帰よりも訓練収束性と最終精度を向上させる。
- 膨張畳み込みを用いた高解像度のマルチスケールアーキテクチャにより、過度な空間プーリングを回避する。
- spacing-increasing discretization (SID) 戦略と序数回帰損失を導入し、深度ネットワークをエンドツーエンドで訓練する。
- 4つの難易度の高い深度ベンチマークで最先端性能を示し、深度離散化とネットワーク設計に関する実践的ガイドラインを提供する。
提案手法
- 連続的な深度値を区間に離散化する際、均等離散化 (UD) ではなく spacing-increasing discretization (SID) を用いる。
- 深度推定を序数回帰問題として扱い、ラベルの順序を考慮した特別な序数回帰損失で最適化する。
- 解像度を保持する膨張畳み込みベースの密結合特徴抽出器を採用し、空間的詳細の喪失を防ぐために最後のダウンサンプリング層を削除する。
- ASPP(複数の膨張率を用いる)と クロスチャネルブランチ、および軽量な全画像エンコーダを含むマルチスケールのシーン理解モジュールを組み込み、全局的かつマルチスケール情報を捉える。
- 段階的な訓練や反復改良を伴わず、ネットワークをエンドツーエンドで訓練する。
- 最も確からしい序数ラベルの周囲の区間閾値を平均することで、予測された離散深度をデコードする。
実験結果
リサーチクエスチョン
- RQ1SID discretization と序数回帰は、回帰ベースの訓練と比較して深度推定の精度と収束性を改善するか。
- RQ2膨張畳み込みベースのアーキテクチャと重いプーリングの回避が深度マップの品質と計算量に与える影響は何か?
- RQ3提案された全画像エンコーダは、他のグローバルコンテキスト戦略に比べて性能にどのように寄与するか?
- RQ4SID に使用する深度区間の数の感度はどの程度か?
- RQ5屋外および室内のベンチマークデータセット(KITTI、ScanNet、Make3D、NYU Depth v2)全体で利得は一般化するか?
主な発見
- DORN は KITTI、ScanNet、Make3D、NYU Depth v2 ベンチマークで最先端の結果を達成した。
- SID は深度推定の性能において均一離散化 UD を上回る。
- 順序付き深度区間を用いた序数回帰損失は、標準の回帰損失よりも収束と精度を改善する。
- コンパクトな全画像エンコーダはパラメータ数を大幅に削減し、fcベースの全画像アプローチと競合するか、より良い性能を提供する。
- 最後のプーリング層を削除し膨張畳み込みを使用することで、重いマルチスケール融合なしに高解像度の深度マップを得る。
- 本手法は屋内外のデータセットの両方で良好に機能し、オンライン評価サーバーでも有利な順位を獲得する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。