[論文レビュー] Self-Supervised Monocular Depth Estimation with Internal Feature Fusion
DIFFNet は高解像度 HRNet エンコーダを内部マルチステージ特徴融合と注意機構ベースのデコーダと組み合わせ、自己教師付きモノキュラ深度推定を改善し、特に高解像度で KITTI の結果を最先端に達成します。
Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation network DIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.
研究の動機と目的
- SfM 監督の下で自己教師付き学習フレームワークにおいて単一画像からの深度推定を動機づける。
- 意味情報に富む高解像度特徴をエンコーダ内でどのように融合させ、意味と空間のギャップを埋められるかを探る。
- 内部マルチステージ特徴融合と注意機構ベースのデコーダを備えた DIFFNet を提案し、深度精度を向上させる。
- KITTI で最先端の結果を実証し、難易度の高いケースに関する拡張評価を導入する。
提案手法
- 高解像で意味情報に富む特徴を維持するため、深度エンコーダとして HRNet を採用する。
- HRNet ストリーム間でマルチステージ特徴を連結して内部特徴融合を導入し、意味的多様性と高解像表現を作成する。
- U-Net 風のアーキテクチャでスキップ接続処理のための注意モジュールを組み込んだ注意ベースのデコーダを実装する。
- 3 種類のアテンション戦略(チャネルごと、空間、チャネル空間)を評価し、チャネルごとアテンションを最良として選択する。
- フォトメトリック損失と SSIM ベースの損失、および標準的な深度平滑化正則化を用いて自己教師付きフレームワークを訓練する。
- 事前学習、マルチステージ融合、アテンションの深度精度への影響を分離するアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1意味情報に富む多段階・高解像度特徴の内部融合は自己教師あり学習下のモノ部深度推定をどう改善できるか。
- RQ2デコーダのスキップ接続に対する異なるアテンション機構はどう影響するか。
- RQ3DIFFNet は KITTI で従来の自己教師付き法より優れているか、特に入力解像度が高い場合にはどうか。
- RQ4難易度の高い KITTI ケースに関する拡張評価は意味情報を取り入れた深度推定の頑健性を示すか。
主な発見
| 手法 | 訓練 | WxH | Abs Rel | Sq Rel | RMSE | RMSE log | delta1 | delta2 | delta3 |
|---|---|---|---|---|---|---|---|---|---|
| SfMlearner | M | 640x192 | 0.183 | 1.595 | 6.709 | 0.270 | 0.734 | 0.902 | 0.959 |
| Li | M | 416x128 | 0.130 | 0.950 | 5.138 | 0.209 | 0.843 | 0.948 | 0.978 |
| Chen | M+Se | 512x256 | 0.118 | 0.905 | 5.096 | 0.211 | 0.839 | 0.945 | 0.977 |
| Monodepth2 | M | 640x192 | 0.115 | 0.903 | 4.863 | 0.193 | 0.877 | 0.959 | 0.981 |
| SGDepth | M+Se | 640x192 | 0.113 | 0.835 | 4.693 | 0.191 | 0.879 | 0.961 | 0.981 |
| SAFENet | M+Se | 640x192 | 0.112 | 0.788 | 4.582 | 0.187 | 0.878 | 0.963 | 0.983 |
| VC-Depth | M | 640x192 | 0.112 | 0.816 | 4.715 | 0.190 | 0.880 | 0.960 | 0.982 |
| PackNet | M | 640x192 | 0.111 | 0.785 | 4.601 | 0.189 | 0.878 | 0.960 | 0.982 |
| Mono-Uncertainty | M | 640x192 | 0.111 | 0.863 | 4.756 | 0.188 | 0.881 | 0.961 | 0.982 |
| Fang | M | 640x192 | 0.111 | - | 4.660 | 0.186 | 0.884 | 0.962 | 0.982 |
| HR-depth | M | 640x192 | 0.109 | 0.792 | 4.632 | 0.185 | 0.887 | 0.962 | 0.983 |
| DIFFNet | M | 640x192 | 0.102 | 0.764 | 4.483 | 0.180 | 0.896 | 0.965 | 0.983 |
| Monodepth2 | MS | 640x192 | 0.106 | 0.818 | 4.750 | 0.196 | 0.874 | 0.957 | 0.979 |
| HR-depth | MS | 640x192 | 0.107 | 0.785 | 4.612 | 0.185 | 0.887 | 0.962 | 0.982 |
| Fang | MS | 640x192 | 0.101 | - | 4.512 | 0.188 | 0.881 | 0.961 | 0.981 |
| DIFFNet | MS | 640x192 | 0.101 | 0.749 | 4.445 | 0.179 | 0.898 | 0.965 | 0.983 |
| Monodepth2 | MS | 1024x320 | 0.115 | 0.882 | 4.701 | 0.190 | 0.879 | 0.961 | 0.982 |
| Fang | MS | 1024x320 | 0.109 | - | 4.581 | 0.185 | 0.890 | 0.964 | 0.983 |
| PackNet | MS | 1280x384 | 0.107 | 0.802 | 4.538 | 0.186 | 0.889 | 0.962 | 0.981 |
| SGDepth | MS | 1280x384 | 0.107 | 0.768 | 4.468 | 0.186 | 0.891 | 0.963 | 0.982 |
| SAFENet | MS | 1024x320 | 0.106 | 0.743 | 4.489 | 0.181 | 0.884 | 0.965 | 0.984 |
| HR-depth | MS | 1024x320 | 0.106 | 0.755 | 4.472 | 0.181 | 0.892 | 0.966 | 0.984 |
| Feat-Depth | MS | 1024x320 | 0.104 | 0.729 | 4.481 | 0.179 | 0.893 | 0.965 | 0.984 |
| Guizilini | MS | 1280x384 | 0.100 | 0.761 | 4.270 | 0.175 | 0.902 | 0.965 | 0.982 |
| DIFFNet | MS | 1024x320 | 0.097 | 0.722 | 4.345 | 0.174 | 0.907 | 0.967 | 0.984 |
- DIFFNet は KITTI で最先端または競合的な結果を達成し、標準指標で自己教師付き法を上回る。
- エンコーダを ImageNet で事前学習させることがアブレーション要素の中で最大の性能向上をもたらす。
- チャネルごとアテンションは空間またはチャネル空間アテンションより精度が向上する。
- マルチステージ特徴融合は、アテンション構成を問わず深度予測を一貫して改善する。
- 高解像度(1024x320)では DIFFNet はさらなる精度向上を示し、同程度の手法に対して優位性を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。