[論文レビュー] EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion
EndoDDCはRGB画像、スパース深度、および深度勾配特徴を統合して密な深度マップを生成する拡散ベースの深度補完手法であり、2つの公開データセットで最先端の手法を上回る。
Accurate depth estimation plays a critical role in the navigation of endoscopic surgical robots, forming the foundation for 3D reconstruction and safe instrument guidance. Fine-tuning pretrained models heavily relies on endoscopic surgical datasets with precise depth annotations. While existing self-supervised depth estimation techniques eliminate the need for accurate depth annotations, their performance degrades in environments with weak textures and variable lighting, leading to sparse reconstruction with invalid depth estimation. Depth completion using sparse depth maps can mitigate these issues and improve accuracy. Despite the advances in depth completion techniques in general fields, their application in endoscopy remains limited. To overcome these limitations, we propose EndoDDC, an endoscopy depth completion method that integrates images, sparse depth information with depth gradient features, and optimizes depth maps through a diffusion model, addressing the issues of weak texture and light reflection in endoscopic environments. Extensive experiments on two publicly available endoscopy datasets show that our approach outperforms state-of-the-art models in both depth accuracy and robustness. This demonstrates the potential of our method to reduce visual errors in complex endoscopic environments. Our code will be released at https://github.com/yinheng-lin/EndoDDC.
研究の動機と目的
- 内視鏡ロボットナビゲーションのための密な深度再構成をスパース深度情報で改善する。
- テクスチャの少ない領域や反射光を内視鏡で克服するためにRGB入力と深度 priors を組み合わせる。
- 深度勾配に guided な条件付き深度拡散モデルを活用して深度マップを refine する。
- 公開内視鏡データセットで性能を検証し、 sparsity レベルに対する頑強性を示す。
提案手法
- 事前学習済み backbone (CompletionFormer) を用いて RGB 画像とスパース深度をマルチスケール特徴としてエンコードし、初期の深度ヒントを生成する。
- ConvGRU を介して深度と深度勾配特徴を反復的に融合し、隠れ状態表現と深度勾配を refine する。
- 融合した深度と勾配特徴を条件として条件付き深度拡散モデルを用い、初期深度を refine する(ジオメトリガイダンス付きの DDIM ベースのデノイジング)。
- ディフュージョン過程を粗い深度推定で初期化し、深度勾配ガイダンスを組み込んでデノイズを導く。
- refined depth をアップサンプルし、高解像度出力のために SPN refine を適用する。
実験結果
リサーチクエスチョン
- RQ1内視鏡シーンで RGB 映像とスパース深度情報を効果的に組み合わせて密な正確な深度を得られるか。
- RQ2深度勾配を条件として拡散ベースの深度補完モデルを用いると、テクスチャの少ない領域や反射領域で幾何学的忠実性が改善されるか。
- RQ3EndoDDC は様々なスパース深度レベルに対して頑健で、異なる内視鏡データセットへ一般化可能か。
主な発見
| モデル | C3VD RMSE (mm) | C3VD MAE (mm) | C3VD REL | C3VD delta | StereoMIS RMSE (mm) | StereoMIS MAE (mm) | StereoMIS REL | StereoMIS delta |
|---|---|---|---|---|---|---|---|---|
| EndoDAC | 9.7476 | 7.5541 | 0.1081 | 0.9162 | 11.8435 | 8.7066 | 0.2084 | 0.6765 |
| DepthAnything-v2 | 5.2202 | 3.6901 | 0.0671 | 0.9892 | 2.2465 | 1.63765 | 0.0277 | 0.8857 |
| Marigold-DC | 0.8294 | 0.3275 | 0.0106 | 0.9985 | 2.6755 | 1.0395 | 0.0122 | 0.9968 |
| CompletionFormer | 0.6875 | 0.2320 | 0.0071 | 0.9988 | 1.6536 | 0.6261 | 0.0069 | 0.9986 |
| OGNI-DC | 0.6770 | 0.2283 | 0.0067 | 0.9988 | 1.5857 | 0.6114 | 0.0063 | 0.9986 |
| Ours | 0.6412 | 0.2104 | 0.0060 | 0.9990 | 1.4691 | 0.5515 | 0.0061 | 0.9988 |
- EndoDDC は二つの公開内視鏡データセット(C3VD および StereoMIS)で最先端の深度精度を達成。
- Fine-tuned DepthAnything-v2 および EndoDAC を上回るだけでなく、主要な深度補完手法(CompletionFormer、Marigold-DC、OGNI-DC)を RMSE、MAE、REL、delta のすべての指標で両データセットで上回る。
- ロバストネス試験では、スパース深度のレベルが広範囲にわたって優れた性能を維持し、特に非常に低い数を超えるときに卓越。
- アブレーション研究により、Depth Grad Fusion モジュールと拡散への初期深度入力が、勾配なしの拡散より深度品質を顕著に改善。
- 定量的利得には以下が含まれる:C3VD で RMSE 0.6412 mm、MAE 0.2104 mm、REL 0.0060、delta 0.9990;StereoMIS で RMSE 1.4691 mm、MAE 0.5515 mm、REL 0.0061、delta 0.9988。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。