QUICK REVIEW

[论文解读] Stereo Correspondence and Reconstruction of Endoscopic Data Challenge

Max Allan, A. Jonathan McLeod|arXiv (Cornell University)|Jan 4, 2021

Advanced Vision and Imaging参考文献 21被引用 24

一句话总结

该论文介绍了在2019年MICCAI会议上举办的立体匹配与内窥镜数据重建挑战赛（SCARED），引入了一个高质量的猪尸组织结构光投影内窥镜图像数据集，用于密集深度估计。挑战赛期间共有十支团队提交了方法，其中表现最佳的方法在测试数据集2上的平均绝对误差达到1.10毫米；补充分析揭示了数据集中存在的标定误差、运动学-视频不同步以及真实深度与RGB图像错位等问题，这些均影响了精度。

ABSTRACT

The stereo correspondence and reconstruction of endoscopic data sub-challenge was organized during the Endovis challenge at MICCAI 2019 in Shenzhen, China. The task was to perform dense depth estimation using 7 training datasets and 2 test sets of structured light data captured using porcine cadavers. These were provided by a team at Intuitive Surgical. 10 teams participated in the challenge day. This paper contains 3 additional methods which were submitted after the challenge finished as well as a supplemental section from these teams on issues they found with the dataset.

研究动机与目标

为外科技电脑视觉中的内窥镜深度估计缺乏高质量、真实世界数据集的问题提供解决方案。
通过在内窥镜成像中使用结构光，实现立体匹配与密集重建方法的基准测试。
在临床类似条件下采集的真实手术内窥镜数据上，评估最先进深度估计技术的性能。
识别并记录数据质量问题，如标定误差、运动学-视频不同步以及真实深度与RGB图像错位。

提出的方法

使用达芬奇Xi手术机器人，搭载双目内窥镜与微型投影仪，将10位格雷码图案投射到猪尸组织上采集数据。
通过已知的投影仪与相机几何关系，利用关键帧的结构光图案进行三角测量，重建三维点云。
通过为每个像素位置编码唯一的格雷码图案，生成深度图，实现亚像素级立体匹配与深度计算。
利用机器人关节位置的前向运动学，对后续帧进行图像变形，以估计非关键帧的深度。
提出了一套补充处理流程，采用SIFT特征匹配与PnP（PnP，透视n点）方法估计相机位姿并重投影点云，降低对机器人运动学的依赖。
通过在两个测试数据集上计算平均绝对深度误差评估方法性能，并以结构光投影的真实深度作为验证基准。

实验结果

研究问题

RQ1在基于真实结构光的内窥镜数据集上，立体匹配与重建方法的性能如何？
RQ2数据集中存在的标定不准确与运动学-视频同步误差如何影响深度估计性能？
RQ3与依赖机器人前向运动学相比，基于视觉特征的位姿估计是否能提升深度重建精度？
RQ4真实深度与RGB图像的错位以及视差偏移在多大程度上扭曲了内窥镜数据中的深度估计？

主要发现

表现最佳的方法在测试数据集2上的平均绝对深度误差为1.10毫米，最终优胜者为Rediminds Inc.的Trevor Zeffiro。
第二名方法由弗劳恩霍夫HHI的Jean-Claude Rosenthal等人提交，在测试数据集2上的平均绝对误差为1.69毫米。
在数据集4和5中发现了显著的标定误差，导致校正后的立体图像对中对应特征仍存在错位，即使经过基础矩阵优化也无法完全消除。
发现视频与机器人运动学数据存在不同步，RGB视频比真实深度数据延迟数帧。
在数据集8和9中，真实深度图与对应RGB图像存在错位，导致扫描线与视差偏移，降低了模型性能。
采用SIFT与PnP位姿估计的补充方法减少了对机器人运动学的依赖，并提高了帧间深度图的一致性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。