[논문 리뷰] EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion
EndoDDC는 RGB 이미지, 희소 깊이, 깊이 기울기 특징을 융합하여 엔도스코픽 로봇 내비게이션용 밀집 깊이 맵을 생성하는 확산 기반 깊이 완성 방법을 도입하여 두 공개 데이터셋에서 최첨단 성능을 달성합니다.
Accurate depth estimation plays a critical role in the navigation of endoscopic surgical robots, forming the foundation for 3D reconstruction and safe instrument guidance. Fine-tuning pretrained models heavily relies on endoscopic surgical datasets with precise depth annotations. While existing self-supervised depth estimation techniques eliminate the need for accurate depth annotations, their performance degrades in environments with weak textures and variable lighting, leading to sparse reconstruction with invalid depth estimation. Depth completion using sparse depth maps can mitigate these issues and improve accuracy. Despite the advances in depth completion techniques in general fields, their application in endoscopy remains limited. To overcome these limitations, we propose EndoDDC, an endoscopy depth completion method that integrates images, sparse depth information with depth gradient features, and optimizes depth maps through a diffusion model, addressing the issues of weak texture and light reflection in endoscopic environments. Extensive experiments on two publicly available endoscopy datasets show that our approach outperforms state-of-the-art models in both depth accuracy and robustness. This demonstrates the potential of our method to reduce visual errors in complex endoscopic environments. Our code will be released at https://github.com/yinheng-lin/EndoDDC.
연구 동기 및 목표
- 희소 깊이 정보를 사용하여 엔도스코픽 로봇 내비게이션에서 밀집 깊이 재구성을 향상시킨다.
- RGB 입력과 깊이 선행 정보를 결합하여 엔도스코피에서 질감이 없는 영역과 반사 조명을 극복한다.
- 깊이 기울기에 의해 안내되는 확산 모델을 활용하여 깊이 맵을 정제한다.
- 공개 엔도스코피 데이터셋에서 성능을 검증하고 희소성 수준 전반에 걸친 강건성을 보인다.
제안 방법
- 사전 학습된 백본(CompletionFormer)을 사용하여 다중 스케일 특징으로 RGB 이미지와 희소 깊이를 인코딩하고 초기 깊이 힌트를 생성한다.
- ConvGRU를 통해 깊이 및 깊이 기울기 특징을 반복적으로 융합하여 은닉 상태 표현과 깊이 기울기를 정제한다.
- 융합된 깊이 및 기울기 특징에 조건부 깊이 확산 모델을 적용하여 초기 깊이를 정제한다(기하 가이던스를 갖춘 DDIM 기반 노이즈 제거).
- 거친 깊이 추정으로 확산 과정을 초기화하고 깊이 기울기 가이던스를 도입하여 디노이징을 유도한다.
- 정제된 깊이를 업샘플링하고 고해상도 출력을 위해 SPN 정제를 적용한다.
실험 결과
연구 질문
- RQ1희소 깊이 정보가 RGB 영상과 효과적으로 결합되어 엔도스코픽 씬에서 밀집하고 정확한 깊이를 생성할 수 있는가?
- RQ2깊이 기울기에 조건부로 의한 확산 기반 깊이 보정이 질감이 없는 영역이나 반사 영역에서 기하학적 충실도를 향상시키는가?
- RQ3다양한 희소 깊이 수준에서 EndoDDC가 강건하고 서로 다른 엔도스코피 데이터셋에 일반화되는가?
주요 결과
| 모델 | C3VD RMSE (mm) | C3VD MAE (mm) | C3VD REL | C3VD delta | StereoMIS RMSE (mm) | StereoMIS MAE (mm) | StereoMIS REL | StereoMIS delta |
|---|---|---|---|---|---|---|---|---|
| EndoDAC | 9.7476 | 7.5541 | 0.1081 | 0.9162 | 11.8435 | 8.7066 | 0.2084 | 0.6765 |
| DepthAnything-v2 | 5.2202 | 3.6901 | 0.0671 | 0.9892 | 2.2465 | 1.63765 | 0.0277 | 0.8857 |
| Marigold-DC | 0.8294 | 0.3275 | 0.0106 | 0.9985 | 2.6755 | 1.0395 | 0.0122 | 0.9968 |
| CompletionFormer | 0.6875 | 0.2320 | 0.0071 | 0.9988 | 1.6536 | 0.6261 | 0.0069 | 0.9986 |
| OGNI-DC | 0.6770 | 0.2283 | 0.0067 | 0.9988 | 1.5857 | 0.6114 | 0.0063 | 0.9986 |
| Ours | 0.6412 | 0.2104 | 0.0060 | 0.9990 | 1.4691 | 0.5515 | 0.0061 | 0.9988 |
- EndoDDC가 두 개의 공개 엔도스코피 데이터셋(C3VD 및 StereoMIS)에서 최첨단 깊이 정확도를 달성한다.
- 본 방법은 미세 조정된 DepthAnything-v2 및 EndoDAC를 능가하며, 두 데이터셋에서 RMSE, MAE, REL, delta 측면에서 선도적 깊이 보정 방법들(CompletionFormer, Marigold-DC, OGNI-DC)을 능가한다.
- 강건성 테스트에서 EndoDDC는 매우 낮은 희소성 수치를 넘어 희소성 수준이 증가할 때도 우수한 성능을 유지한다.
- 블레이션 연구는 Depth Grad Fusion 모듈과 확산 초기 깊이 입력이 가이던스 없는 확산과 비교해 깊이 품질을 크게 향상시킨다고 보여준다.
- 정량적 증가치로는: C3VD에서 RMSE 0.6412 mm, MAE 0.2104 mm, REL 0.0060, delta 0.9990 달성; StereoMIS에서 RMSE 1.4691 mm, MAE 0.5515 mm, REL 0.0061, delta 0.9988.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.