[論文レビュー] IEBins: Iterative Elastic Bins for Monocular Depth Estimation
IEBinsは、深度推定を分類-回帰問題として再定義することで、ステージ間で深度探索をエラスティックなターゲットビンで案内し、深度の不確実性に基づいてビンを拡げる反復的エラスティックビン戦略を導入し、KITTI、NYU-Depth-v2、SUN RGB-Dで最先端の結果を達成します。
Monocular depth estimation (MDE) is a fundamental topic of geometric computer vision and a core technique for many downstream applications. Recently, several methods reframe the MDE as a classification-regression problem where a linear combination of probabilistic distribution and bin centers is used to predict depth. In this paper, we propose a novel concept of iterative elastic bins (IEBins) for the classification-regression-based MDE. The proposed IEBins aims to search for high-quality depth by progressively optimizing the search range, which involves multiple stages and each stage performs a finer-grained depth search in the target bin on top of its previous stage. To alleviate the possible error accumulation during the iterative process, we utilize a novel elastic target bin to replace the original target bin, the width of which is adjusted elastically based on the depth uncertainty. Furthermore, we develop a dedicated framework composed of a feature extractor and an iterative optimizer that has powerful temporal context modeling capabilities benefiting from the GRU-based architecture. Extensive experiments on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets demonstrate that the proposed method surpasses prior state-of-the-art competitors. The source code is publicly available at https://github.com/ShuweiShao/IEBins.
研究の動機と目的
- 分類-回帰問題として再定義することで、単眼深度推定の改善を促す。
- IEBins(反復的エラスティックビン)を導入し、対象ビン内で段階的に深度を精緻化する。
- 深度不確実性に基づくエラスティックターゲットビンを用いて誤差蓄積を軽減する。
- ピクセルごとの深度分布を予測するGRUベースの反復オプティマイザと特徴抽出器フレームワークを開発する。
- 屋外および屋内データセットでSOTA性能を実証し、汎化を評価する。
提案手法
- 全深度範囲を離散化するために深度ビンを均一に初期化し、ビン中心を深度候補として計算する。
- 前のステージからターゲットビンを反復的に特定・精査し、そのビン内でより細かな深度探索を行う。
- 分布の分散を用いて深度不確実性を計算し、不確実性に比例してターゲットビンをエラスティックに拡張する。
- エンコーダ-デコーダ型の特徴抽出器(CRFモジュールを備えたSwin Transformerバックボーン)を用いてピクセルごとの予測に豊富な特徴を提供する。
- 隠れ状態を更新しピクセルごとの深度分布を予測するGRUベースの反復オプティマイザを用い、次に深度候補との線形結合を行って最終深度を得る。
実験結果
リサーチクエスチョン
- RQ1単眼深度推定において、反復的エラスティックビニングは固定ビン法や適応ビン法より深度推定精度を向上させることができるか?
- RQ2不確実性に基づくエラスティックターゲティングは、反復的な改良の頑健性と収束性にどう影響するか?
- RQ3強力な特徴抽出器とGRUベースの反復オプティマイザを統合することが、ピクセルごとの確率的深度分布へどのような影響を与えるか?
主な発見
| 手法 | 絶対相対誤差 | 二乗相対誤差 | RMSE | RMSEログ | delta<1.25未満 | delta<1.25^2未満 | delta<1.25^3未満 |
|---|---|---|---|---|---|---|---|
| DORN | 0.072 | 0.307 | 2.727 | 0.120 | 0.932 | 0.984 | 0.994 |
| VNL | 0.072 | - | 3.258 | 0.117 | 0.938 | 0.990 | 0.998 |
| BTS | 0.060 | 0.249 | 2.798 | 0.096 | 0.955 | 0.993 | 0.998 |
| PWA | 0.060 | 0.221 | 2.604 | 0.093 | 0.958 | 0.994 | 0.999 |
| TransDepth | 0.064 | 0.252 | 2.755 | 0.098 | 0.956 | 0.994 | 0.999 |
| AdaBins | 0.058 | 0.190 | 2.360 | 0.088 | 0.964 | 0.995 | 0.999 |
| P3Depth | 0.071 | 0.270 | 2.842 | 0.103 | 0.953 | 0.993 | 0.998 |
| NeWCRFs | 0.052 | 0.155 | 2.129 | 0.079 | 0.974 | 0.997 | 0.999 |
| BinsFormer | 0.052 | 0.151 | 2.098 | 0.079 | 0.974 | 0.997 | 0.999 |
| PixelFormer | 0.051 | 0.149 | 2.081 | 0.077 | 0.976 | 0.997 | 0.999 |
| Ours Swin-Tiny | 0.056 | 0.169 | 2.205 | 0.084 | 0.970 | 0.996 | 0.999 |
| Ours Swin-Large | 0.050 | 0.142 | 2.011 | 0.075 | 0.978 | 0.998 | 0.999 |
- IEBinsは、KITTI、NYU-Depth-v2、SUN RGB-Dのいずれにおいても最先端または競争力のある結果を達成する。
- KITTI Eigen分割で、Our Swin-LargeはAbs Rel 0.050、Sq Rel 0.142、RMSE 2.011、RMSE log 0.075、delta accuracies 0.978/0.998/0.999を達成。
- KITTI Eigen分割で、Our Swin-TinyはAbs Rel 0.056、Sq Rel 0.169、RMSE 2.205、RMSE log 0.084、delta accuracies 0.970/0.996/0.999を達成。
- NYU-Depth-v2では、Our Swin-LargeがBaselineおよびBinベースのバリアントより顕著な改善を示し、室内性能の向上を確認。
- SUN RGB-Dへのゼロショット一般化は競争力のあるまたは上位の性能を示し、データセット間の頑健性が良好であることを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。