Skip to main content
QUICK REVIEW

[論文レビュー] HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation

Xiaoyang Lyu, Liang Liu|arXiv (Cornell University)|Dec 14, 2020
Advanced Vision and Imaging参考文献 26被引用数 24
ひとこと要約

HR-Depthは、意味的・空間的ギャップを低減するようにスキップ接続を見直し、パラメータ効率の良い特徴統合モジュールである特徴統合Squeeze-and-Excitation(fSE)モジュールを導入することで、高解像度深度推定を向上させる自己教師付きモノクロナルの深度推定ネットワークを提案する。KITTIベンチマークにおいて、顕著に少ないパラメータ数で最先端の性能を達成しており、3.1Mパラメータのみを用いる軽量バージョンでは、高解像度でMonodepth2と同等の精度を達成している。

ABSTRACT

Self-supervised learning shows great potential in monoculardepth estimation, using image sequences as the only source ofsupervision. Although people try to use the high-resolutionimage for depth estimation, the accuracy of prediction hasnot been significantly improved. In this work, we find thecore reason comes from the inaccurate depth estimation inlarge gradient regions, making the bilinear interpolation er-ror gradually disappear as the resolution increases. To obtainmore accurate depth estimation in large gradient regions, itis necessary to obtain high-resolution features with spatialand semantic information. Therefore, we present an improvedDepthNet, HR-Depth, with two effective strategies: (1) re-design the skip-connection in DepthNet to get better high-resolution features and (2) propose feature fusion Squeeze-and-Excitation(fSE) module to fuse feature more efficiently.Using Resnet-18 as the encoder, HR-Depth surpasses all pre-vious state-of-the-art(SoTA) methods with the least param-eters at both high and low resolution. Moreover, previousstate-of-the-art methods are based on fairly complex and deepnetworks with a mass of parameters which limits their realapplications. Thus we also construct a lightweight networkwhich uses MobileNetV3 as encoder. Experiments show thatthe lightweight network can perform on par with many largemodels like Monodepth2 at high-resolution with only20%parameters. All codes and models will be available at https://github.com/shawLyu/HR-Depth.

研究の動機と目的

  • 高解像度モノクロナル深度推定の性能が低いこと、特に物体境界で顕著であることの是正。
  • U-Netベースのネットワークにおけるエンコーダーとデコーダーの特徴間の意味的・空間的ギャップを低減すること。
  • モデルの複雑さを増さずに特徴統合の効率性と精度を向上させること。
  • 実世界のデプロイに適した、最小限のパラメータ数で高い性能を維持する軽量ネットワークの設計。
  • 正確な境界予測が高解像度深度推定の向上に鍵を握ることの実証。

提案手法

  • エンコーダーとデコーダー間の特徴統合を密でマルチスケールにできるように、DepthNetのスキップ接続を見直し、意味的ギャップを低減。
  • パラメータ数を削減しながら特徴統合を強化する特徴統合Squeeze-and-Excitation(fSE)ブロックを提案。
  • 高解像度(1024×320)推論のため、ResNet-18をバックボーンエンコーダーとして使用し、エッジのシャープネスを向上。
  • エンコーダーにMobileNetV3を用いた軽量バージョンを構築し、わずか3.1Mパラメータで高い性能を達成。
  • 教師ネットワーク(Monodepth2)を用いた知識蒸留を適用し、軽量モデルの学習をガイド。
  • モノクロナル動画シーケンスからの幾何的制約を用いて自己教師学習で訓練し、真値深度を必要としない。

実験結果

リサーチクエスチョン

  • RQ1既存の自己教師付き手法では、解像度を向上させてもなぜ深度推定精度が向上しないのか?
  • RQ2高解像度深度推定ネットワークにおいて、意味的および空間的情報をどのようにより効果的に統合できるか?
  • RQ3軽量ネットワークが高解像度深度推定において、大規模モデルと同等の性能を達成できるか?
  • RQ4深度マップにおける境界予測を最も効果的に向上させるアーキテクチャ的要素は何か?
  • RQ5スキップ接続における意味的ギャップを低減することで、よりシャープで正確な深度予測が可能になるか?

主な発見

  • HR-Depthは、高解像度(1024×320)でKITTIベンチマークにおいて最先端の性能を達成し、絶対相対誤差(Abs Rel)が0.104にまで低下し、先行する自己教師付き手法を上回った。
  • 軽量バージョンであるLite-HR-Depthは、1280×384解像度でわずか3.1MパラメータでAbs Relが0.104を達成し、14.84Mパラメータを要するMonodepth2と同等の性能を示した。
  • アブレーションスタディの結果、密なスキップ接続とfSEブロックを組み合わせることで、ベースラインのMonodepth2に比べてAbs Relが0.006低下した。
  • fSEブロックは、標準のSEブロックと比較して、密なスキップ接続に伴うパラメータ増加を15%削減しながら、性能を向上させた。
  • 特徴可視化の結果、密なスキップ接続がエンコーダーとデコーダーの特徴間の意味的ギャップを顕著に低減し、豊富で高解像度の意味的表現を実現していることが確認された。
  • 教師ネットワークを用いた知識蒸留により、軽量モデルの性能が向上し、1024×320解像度でAbs Relが0.105にまで低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。