[论文解读] EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion
EndoDDC 引入基于扩散的深度完成方法,融合 RGB 图像、稀疏深度和深度梯度特征以生成内镜机器人导航的密集深度图,在两个公开数据集上超越现有方法。
Accurate depth estimation plays a critical role in the navigation of endoscopic surgical robots, forming the foundation for 3D reconstruction and safe instrument guidance. Fine-tuning pretrained models heavily relies on endoscopic surgical datasets with precise depth annotations. While existing self-supervised depth estimation techniques eliminate the need for accurate depth annotations, their performance degrades in environments with weak textures and variable lighting, leading to sparse reconstruction with invalid depth estimation. Depth completion using sparse depth maps can mitigate these issues and improve accuracy. Despite the advances in depth completion techniques in general fields, their application in endoscopy remains limited. To overcome these limitations, we propose EndoDDC, an endoscopy depth completion method that integrates images, sparse depth information with depth gradient features, and optimizes depth maps through a diffusion model, addressing the issues of weak texture and light reflection in endoscopic environments. Extensive experiments on two publicly available endoscopy datasets show that our approach outperforms state-of-the-art models in both depth accuracy and robustness. This demonstrates the potential of our method to reduce visual errors in complex endoscopic environments. Our code will be released at https://github.com/yinheng-lin/EndoDDC.
研究动机与目标
- 使用稀疏深度信息改善内镜机器人导航的密集深度重建。
- 通过将 RGB 输入与深度先验相结合,克服内镜中的无纹理区域和反光光照。
- 利用以深度梯度为引导的扩散模型来细化深度图。
- 在公开的内镜数据集上验证性能,并展示在不同稀疏度下的鲁棒性。
提出的方法
- 使用预训练骨干网络(CompletionFormer)对 RGB 图像和稀疏深度进行多尺度特征编码,产生初始深度提示。
- 通过 ConvGRU 迭代融合深度和深度梯度特征,细化隐藏状态表示和深度梯度。
- 在融合的深度和梯度特征上对条件深度扩散模型进行条件化,以细化初始深度(基于 DDIM 的带几何引导的去噪)。
- 以粗略深度估计初始化扩散过程,并结合深度梯度引导来引导去噪。
- 对经细化的深度进行上采样,并应用 SPN 精细化以获得高分辨率输出。
实验结果
研究问题
- RQ1稀疏深度信息能否与 RGB 图像有效结合,在内镜场景中产生密集且准确的深度?
- RQ2将扩散式深度完成模型以深度梯度进行条件化,是否能在无纹理或反光区域提升几何保真度?
- RQ3EndoDDC 在不同稀疏深度水平下是否鲁棒并能推广到不同的内镜数据集?
主要发现
| 模型 | C3VD RMSE (mm) | C3VD MAE (mm) | C3VD REL | C3VD delta | StereoMIS RMSE (mm) | StereoMIS MAE (mm) | StereoMIS REL | StereoMIS delta |
|---|---|---|---|---|---|---|---|---|
| EndoDAC | 9.7476 | 7.5541 | 0.1081 | 0.9162 | 11.8435 | 8.7066 | 0.2084 | 0.6765 |
| DepthAnything-v2 | 5.2202 | 3.6901 | 0.0671 | 0.9892 | 2.2465 | 1.63765 | 0.0277 | 0.8857 |
| Marigold-DC | 0.8294 | 0.3275 | 0.0106 | 0.9985 | 2.6755 | 1.0395 | 0.0122 | 0.9968 |
| CompletionFormer | 0.6875 | 0.2320 | 0.0071 | 0.9988 | 1.6536 | 0.6261 | 0.0069 | 0.9986 |
| OGNI-DC | 0.6770 | 0.2283 | 0.0067 | 0.9988 | 1.5857 | 0.6114 | 0.0063 | 0.9986 |
| Ours | 0.6412 | 0.2104 | 0.0060 | 0.9990 | 1.4691 | 0.5515 | 0.0061 | 0.9988 |
- EndoDDC 在两个公开的内镜数据集(C3VD 和 StereoMIS)上实现了最先进的深度精度。
- 该方法在 RMSE、MAE、REL 和 delta 指标上优于微调的 DepthAnything-v2 和 EndoDAC,并在两数据集上超越领先的深度完成方法(CompletionFormer、Marigold-DC、OGNI-DC)。
- 在鲁棒性测试中,EndoDDC 在不同稀疏度水平下保持出色性能,尤其在稀疏度增加超过极低计数时表现更出色。
- 消融研究显示,Depth Grad Fusion 模块和对扩散初始深度输入的引导显著提升深度质量,相比于无引导的扩散。
- 定量增益包括:在 C3VD 上,RMSE 0.6412 mm,MAE 0.2104 mm,REL 0.0060,delta 0.9990;在 StereoMIS 上,RMSE 1.4691 mm,MAE 0.5515 mm,REL 0.0061,delta 0.9988。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。