[论文解读] IEBins: Iterative Elastic Bins for Monocular Depth Estimation
IEBins 引入了一个迭代弹性区间策略用于基于分类-回归的单目深度估计,在多阶段通过弹性目标区间对深度搜索进行细化,受深度不确定性引导,达到 KITTI、NYU-Depth-v2 和 SUN RGB-D 的 state-of-the-art 结果。
Monocular depth estimation (MDE) is a fundamental topic of geometric computer vision and a core technique for many downstream applications. Recently, several methods reframe the MDE as a classification-regression problem where a linear combination of probabilistic distribution and bin centers is used to predict depth. In this paper, we propose a novel concept of iterative elastic bins (IEBins) for the classification-regression-based MDE. The proposed IEBins aims to search for high-quality depth by progressively optimizing the search range, which involves multiple stages and each stage performs a finer-grained depth search in the target bin on top of its previous stage. To alleviate the possible error accumulation during the iterative process, we utilize a novel elastic target bin to replace the original target bin, the width of which is adjusted elastically based on the depth uncertainty. Furthermore, we develop a dedicated framework composed of a feature extractor and an iterative optimizer that has powerful temporal context modeling capabilities benefiting from the GRU-based architecture. Extensive experiments on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets demonstrate that the proposed method surpasses prior state-of-the-art competitors. The source code is publicly available at https://github.com/ShuweiShao/IEBins.
研究动机与目标
- 通过将单目深度估计重新表述为分类-回归问题来推动改进。
- 引入迭代弹性区间(IEBins)以在有目标区间内逐步细化深度。
- 基于深度不确定性来弹性地扩展目标区间以减缓误差累积。
- 开发基于 GRU 的迭代优化器和特征提取框架以预测每个像素的深度分布。
- 在室外和室内数据集上展示最先进的性能并评估泛化能力。
提出的方法
- 将深度区间初始均匀化以离散化全深度范围,并将深度候选值计算为区间中心。
- 从前一阶段迭代定位并细化目标区间,在该区间内执行更细粒度的深度搜索。
- 通过分布方差来计算深度不确定性,并按不确定性成比例地弹性扩展目标区间。
- 使用编码器-解码器特征提取器(Swin Transformer 主干 + CRF 模块)为逐像素预测提供丰富特征。
- 采用基于 GRU 的迭代优化器更新隐藏状态并预测逐像素深度分布,随后与深度候选值进行线性组合以获得最终深度。
实验结果
研究问题
- RQ1迭代弹性区间是否能在单目深度估计中相对于固定区间或自适应区间方法提高深度估计精度?
- RQ2基于不确定性的弹性目标如何影响迭代细化的鲁棒性和收敛性?
- RQ3将基于 GRU 的迭代优化器与强特征提取器结合对逐像素概率深度分布有何影响?
主要发现
| Method | Abs Rel | Sq Rel | RMSE | RMSE log | delta<1.25 | delta<1.25^2 | delta<1.25^3 |
|---|---|---|---|---|---|---|---|
| DORN | 0.072 | 0.307 | 2.727 | 0.120 | 0.932 | 0.984 | 0.994 |
| VNL | 0.072 | - | 3.258 | 0.117 | 0.938 | 0.990 | 0.998 |
| BTS | 0.060 | 0.249 | 2.798 | 0.096 | 0.955 | 0.993 | 0.998 |
| PWA | 0.060 | 0.221 | 2.604 | 0.093 | 0.958 | 0.994 | 0.999 |
| TransDepth | 0.064 | 0.252 | 2.755 | 0.098 | 0.956 | 0.994 | 0.999 |
| AdaBins | 0.058 | 0.190 | 2.360 | 0.088 | 0.964 | 0.995 | 0.999 |
| P3Depth | 0.071 | 0.270 | 2.842 | 0.103 | 0.953 | 0.993 | 0.998 |
| NeWCRFs | 0.052 | 0.155 | 2.129 | 0.079 | 0.974 | 0.997 | 0.999 |
| BinsFormer | 0.052 | 0.151 | 2.098 | 0.079 | 0.974 | 0.997 | 0.999 |
| PixelFormer | 0.051 | 0.149 | 2.081 | 0.077 | 0.976 | 0.997 | 0.999 |
| Ours Swin-Tiny | 0.056 | 0.169 | 2.205 | 0.084 | 0.970 | 0.996 | 0.999 |
| Ours Swin-Large | 0.050 | 0.142 | 2.011 | 0.075 | 0.978 | 0.998 | 0.999 |
- IEBins 采用迭代弹性区间在 KITTI、NYU-Depth-v2、SUN RGB-D 上达到先进或具竞争力的结果。
- 在 KITTI Eigen 划分上,Our Swin-Large 达到 Abs Rel 0.050、Sq Rel 0.142、RMSE 2.011、RMSE log 0.075,以及 delta 精度 0.978/0.998/0.999。
- 在 KITTI Eigen 划分上,Our Swin-Tiny 达到 Abs Rel 0.056、Sq Rel 0.169、RMSE 2.205、RMSE log 0.084,以及 delta 精度 0.970/0.996/0.999。
- 在 NYU-Depth-v2 上,Our Swin-Large 取得强劲结果,相较基线和基于区间的变体有显著提升,证实室内场景性能提升。
- 对 SUN RGB-D 的零-shot 泛化表现显示具竞争力甚至优越,表明跨数据集的鲁棒性良好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。